テキストから画像へ（Text-to-Image）

概要

テキストから画像へ（ Text to Image ）は、アイデアを視覚化するための強力なツールです。クリエイターはこれを使って、抽象的なアイデアを具体化したり、様々なスタイルを試したり、複雑な物語を視覚的に伝えたりすることができます。新しいデザインのコンセプトを考えたり、マーケティング資料の試作品を作ったり、没入感のある世界を創造したりする場合でも、テキストから画像へ（Text to Image）は創造的な探求とビジュアルストーリーテリングのための無限の可能性を提供します。テキストから画像へ（Text to Image）ノードは、テキストの文脈に基づいて画像を生成します。デフォルトでは「GPT Image 1」モデルが使用されます。

操作方法

この機能は、いくつかの方法で操作できます。

テキストプロンプトを直接画像ノードに入力し、生成ボタンを押して画像を生成できます。
テキストノードでプロンプトを調整後、テキストノードを画像ノードに接続して、テキストノードのプロンプト指示を反映した画像を生成することができます。
画像ノード選択時にノード内に表示されるプロンプトテンプレートを使用すると、プロンプトをゼロから生成したり（プロンプト欄が空の場合）、現在のプロンプトをより良くしたり（プロンプトが入力されている場合）できます。

テキストから画像へ（Text to Image）モデル

モデル	クレジット／単位	モダリティ	最適な用途（コンテンツ作成）
DALL-E 2	3Cr／画像	テキスト→画像生成	高品質な創造的画像の生成に。シーンの文脈理解力が高く、イラスト制作や写真の部分修正など、正確さと表現力が求められる作業に有用。多様なスタイルを生成でき、細部の整合性が取れたビジュアルが必要なプロジェクトに適している。
DALL-E 3	5Cr／画像	テキスト→画像生成	複雑なリクエストや長文プロンプトで狙い通りの画像を得たい場合に最適。広告・マーケティング用のビジュアル作成、正確な表現が求められるイラストやデザインの試作に有用。
FLUX シリーズ	10Cr／秒	テキスト→画像	フォトリアルな高品質画像生成に長ける。実写的な描写力はMidjourney v6に近く、人間の手などの細部も安定。リアルな合成画像や製品写真の生成に適している。多様なスタイルを試したいクリエイティブ作業にも有用。
Grok-2	1Cr／3 k tok	テキスト→画像	ソーシャルメディア上でのクリエイティブなコンテンツ制作に。他のAIで難しい著名人やキャラクターを用いたミームやパロディ画像の作成で活躍。チャット形式での微調整にも対応。
Grok-3	3Cr／3 k tok	テキスト→画像	フォトリアルで忠実なビジュアル制作に。実在風景・人物の精密なレンダリングや、ロゴ・文字を含む画像の生成が得意。広告デザイン、プロダクトビジュアル、映像のプリビズ等で活用できる。
GPT-Image-1	19Cr／画像	テキスト→画像	プロ向けのコンテンツ制作全般。マーケティング用ビジュアル、企業ロゴ・商品画像の生成に最適。

Flux Dev（軽量・高速モデル）

Flux Devは、スピードとコスト効率が求められる試作や量産に最適。細部よりも配色・シルエット・構図のキレで魅せるスタイルが得意です。

プロンプト例： 「夕暮れの未来都市。空飛ぶ車とネオンサイン。鮮やかなオレンジとピンクの空。ミニマルでシャープな構図、明るい色、クリーンなライン。」

ヒント：

短い名詞句＋明確な形容（色／形／質感）で要点を絞ると安定。
背景情報を詰め込みすぎず、主役・配色・構図の三点に集中。
グラフィック寄り・抽象寄りのビジュアル（広告サムネ、キービジュアルの当たり出し）に向く。

Flux Pro

Flux Proは、映画的ライティングとフォトリアルな質感を高解像で表現。人物／製品／建築など、現実感が鍵のビジュアルに強いです。

プロンプト例： 「雨の夜のパリ、石畳の通りを歩くエレガントなモデル。濡れた舗道に反射するネオン。流れる赤いドレス。映画のような光と影、リアルな質感、高精細なレンダリング。」

ヒント：

光源の位置・色温度・反射対象を具体語で指定（例：リムライト、タングステン、濡れた石畳の反射）。
素材語彙（絹、サテン、磨かれた金属、粒状フィルム）で質感を明示。
広告キーアート／製品クローズアップ／人物ポートレートなど“説得力ある現実感”が必要な用途に最適。

DALL·E 3

DALL·E 3は、長文・複雑指示の忠実な解釈が強み。テキスト要素やレイアウト指定を含む構図の言語制御に長け、対話で段階的に精緻化できます。

プロンプト例： 「ビジネスマンが東京の高層ビル街を歩く。夜明け前の薄明、手にスマートフォン。左上に英字見出し10文字、下部に小さなタグライン。現代的、広告風、リアルなスーツの質感、背景は軽いボケ。」

ヒント：

位置（左上／中央／右下）、サイズ（大／小）、階層（見出し＞本文）などレイアウト語を積極的に使用。
役割語（主役／脇役／背景）で要素の優先度を指示すると破綻が減る。
ポスター・OGP・LPヒーローなど“構成が命”の静止画に向く。

DALL·E 2

DALL·E 2は、短く明快な指示に強く、構図とカラーパレットの美しさでまとめるのが得意。イラスト調〜簡易フォト風のスッキリした画が出しやすいです。

プロンプト例： 「ベランダで朝日を浴びながらコーヒーを飲む女性。暖かい色調、シンプルな構図、やわらかい光、イラスト風。」

ヒント：

主題・光・色の3点を短句で指定（過度な条件列挙は避ける）。
スタイル語（イラスト風／フラット／水彩）で仕上がりの方向を固定。
チラシ・SNS静止画など軽量なイメージ制作に好相性。

GPT‑Image‑1

GPT‑Image‑1は、構造・レイアウトの忠実再現に強いモデル。ビジネス用途（LP、スライド、UIモック）の“意図通りの配置”を言語で制御しやすいです。

プロンプト例： 「スタートアップのプレゼン資料向けヒーロー。白背景、中央にスマートフォンのモック、左右にアイコンを各3つ等間隔で整列。上部に太い見出し、下部に短い説明。柔らかな自然光、クリーンでプロフェッショナル。」

ヒント：

配置・数・整列・余白を明示（例：等間隔／左右対称／中央寄せ）。
要素の優先度とサイズを言語で規定（大・中・小）。
資料用ヒーロー／UI・製品の疑似写真／図解など“読みやすい構造”が重要な場面で威力を発揮。

Grok‑3 + Aurora

Grok‑3は独自の画像モデルAuroraを統合し、フォトリアル×指示遵守に強み。人物・都市景観・現代プロダクトなど“現実の説得力”が必要な演出に向きます（利用規約・権利配慮は必須）。

プロンプト例： 「高層ビル街の夜明け。ガラスの外壁に朝焼けが反射。スーツ姿の男性が前景で斜めに立つ。肌・布地の質感はリアル、シャープなリムライト、都会的で高精細なトーン。」

ヒント：

被写体属性（年齢層／装い／姿勢）＋環境（天候／時間帯）＋光学要素（リムライト／反射）を具体化。
素材語（ウール、磨かれた金属、湿った舗道）で現実感を補強。
SNS用の人物・製品のリアル演出／都市のシネマティック表現に適し、スピード感のある制作に向く。

モデルと課金額

テキスト

画像

動画

テキストから画像へ（Text-to-Image）

概要

操作方法

テキストから画像へ（Text to Image）モデル

Flux Dev（軽量・高速モデル）

Flux Pro

DALL·E 3

DALL·E 2

GPT‑Image‑1

Grok‑3 + Aurora

モデルと課金額

テキスト

画像

動画

​概要

​操作方法

​テキストから画像へ（Text to Image） モデル

​Flux Dev（軽量・高速モデル）

​Flux Pro

​DALL·E 3

​DALL·E 2

​GPT‑Image‑1

​Grok‑3 + Aurora

概要

操作方法

テキストから画像へ（Text to Image）モデル

Flux Dev（軽量・高速モデル）

Flux Pro

DALL·E 3

DALL·E 2

GPT‑Image‑1

Grok‑3 + Aurora