この記事では、AI画像生成カテゴリの第一弾として、GPT Image 2を使った画像生成の基本を整理します。
AI画像生成は、無料AI講座ライブラリの中でも最初に押さえておきたいカテゴリです。アイキャッチ、YouTubeサムネイル、Instagramカルーセル、LPのヒーロー画像、バナー、動画用ストーリーボードまで、他の制作フローの起点になりやすいからです。
今回は、細かいプロンプトの書き方に入る前に、比率指定、複数案の出し方、テンプレート運用、リファレンス画像の使い方、失敗しやすいポイントをまとめます。
AI画像生成は他の制作フローの起点になる
無料AI講座ライブラリには、AI画像生成、ホームページ・LP制作、AI動画制作、AI記事制作、YouTube動画制作フロー、制作ワークフロー自動化、エージェント活用・スキル制作、講座構築の裏側という8カテゴリがあります。
その中で最初に扱うのがAI画像生成です。
理由は単純で、画像を作れるようになると、ほかの制作にも一気につながるからです。
- YouTubeサムネイルを作れる
- ブログやSubstackのアイキャッチを作れる
- Instagramカルーセルを作れる
- LPやホームページのヒーロー画像を作れる
- 動画生成AIに渡すストーリーボードを作れる
- 広告バナーや応援バナーのデザイン案を作れる
つまり、AI画像生成は「画像だけの技術」ではなく、記事、動画、LP、SNS、講座制作の入口になります。
AI画像生成でのアスペクト比の決め方
画像生成では、作る画像の用途に合わせてアスペクト比を決めます。
たとえば、用途ごとに必要な比率は変わります。
- YouTubeサムネイル:16:9
- Instagram投稿:1:1 または 3:4
- ブログ・note・Substackのアイキャッチ:媒体に合わせて横長または独自比率
- LPヒーロー画像:横長のワイド比率
- 動画用ストーリーボード:動画の最終比率に合わせる
ChatGPT側のUIで16:9や4:3などを選べる場合は、そこで指定するのが一番わかりやすいです。UIにない比率を使いたい場合は、プロンプト本文に「21:9」「1.9:1」「3:4」のように文字で書いて指定します。
自動設定のままでも、プロンプト内に比率を書いておけば、その比率で作られやすくなります。ただし、確実性を上げたい場合は、UI側で選べる比率は先に指定しておく方が安定します。
高品質な画像生成ではThinkingを選ぶ
品質の高い画像を作りたい場合は、「Instant」ではなく「Thinking」側を使います。
Instant側にすると、GPT Image 2ではなく前世代寄りの画像生成になり、品質や指示理解が大きく落ちることがあります。
文字入りのサムネイル、カルーセル、LP素材のように、文字や構成の正確さが必要な画像では、Thinking側で作るのが基本です。速さよりも、指示をどれだけ守れるかを優先します。
GPT Image 2は複数案を出して選ぶのが強い
GPT Image 2で実務的に使いやすいのが、複数案を同時に作って比較する方法です。
2026年5月時点では、Plusプランで一度に10枚まで生成できることを確認しています。それを超える枚数を指定すると生成できませんでした。
一度に複数枚を生成し、必要な枚数だけパターンを出して比較します。考え方としては「1枚を完璧に狙う」より「複数案を出して選ぶ」方が速いです。
複数パターンを出したいときは、プロンプト本文に「4枚生成してください」「5パターン生成してください」のように、作りたい枚数をはっきり書きます。枚数を書かないと、基本的には1枚しか作られません。将来的にはUI側で枚数を指定できるようになるかもしれません。
複数案を出すときは、最初から色や配置を細かく指定しすぎない方がよいです。細部を縛りすぎると、AI側のデザイン提案の幅が狭くなります。
たとえば、最初は細かい配置まで決めず、大枠と世界観だけを伝えます。
- 同じテーマで5パターン生成してください
- 5枚それぞれ、違うデザインにしてください
- 用途はYouTubeサムネイルです
- 文字はこの3つだけ入れてください
- 16:9で作ってください
- 世界観は、明るく実用的なAI講座の雰囲気にしてください
ここで伝えるのは、用途、枚数、比率、入れる文字、全体の世界観です。そこから良い案を選び、必要なところだけ修正していく。この方が、最初から細かく「背景は何色、文字はここ、装飾はこう」と指定するよりも、結果が良くなりやすいです。
プロンプトテンプレートはプレースホルダー運用にする
YouTubeサムネイルや講座アイキャッチのように、何度も作る画像は、毎回ゼロからプロンプトを書くよりテンプレート化した方が安定します。
僕の場合、サムネイル用にはあらかじめテンプレートを作っておきます。たとえば、驚き系、比較系、明るい実用系、文字最大化系のように、用途ごとの型を持っておく。
そして毎回変えるのは、プレースホルダー部分だけにします。
- メインキャッチ
- サブコピー
- 下帯の詳細
- 動画テーマ
- 使いたい比率
このやり方にすると、品質を保ちながら量産しやすくなります。
テンプレートは1つだけでなくて構いません。「YouTube用」「Instagramカルーセル用」「LPヒーロー用」「noteアイキャッチ用」のように、用途別にいくつか持っておくと使い分けしやすくなります。
もちろん、プレースホルダーを毎回手で入れ替える必要はありません。実運用では、メインキャッチ、サブコピー、下帯、比率などの差し替えはエージェントに任せます。
リファレンス画像を使うと人物や雰囲気を寄せやすい
人物、キャラクター、ブランドトーンを合わせたい場合は、リファレンス画像を使います。
僕の場合は、顔画像、二面図、全身画像などを一枚にまとめてリファレンスとして使っています。キャラクターや人物を安定させたい場合、顔だけでなく、全身や衣装の情報がある方が再現しやすくなります。
リファレンス画像の役割は、顔立ち、衣装、雰囲気、ブランドトーンを寄せることです。キャラクターやシリーズ画像を作るときにはかなり役立ちます。
ただし、リファレンス画像を使えば必ず完璧に安定するわけではありません。人物やキャラクターを扱う場合は、プロンプトに次のような補足を入れます。
- 顔立ちと衣装の特徴を維持する
- 元画像の色味、絵柄、質感を維持する
リファレンス画像を使うときは、何を引き継がせたいのかをはっきり書くのがポイントです。雰囲気だけ寄せたいのか、キャラクターの同一性まで維持したいのかで、指示の書き方は変わります。
デザイン指定は細かくしすぎない
GPT Image 2の基本として、慣れないうちはデザインを細かく指定しすぎない方がいいです。
色、配置、装飾、背景、文字の形まで全部細かく指定すると、かえって古いデザインや硬いレイアウトになりやすいことがあります。
おすすめは、最初に大枠だけ伝えることです。
- 何に使う画像か
- 誰に見せる画像か
- 入れる文字は何か
- 比率は何か
- 複数案で違う方向性を出してほしいこと
そこから出てきた画像を見て、「この方向性はいい」「ここだけ直したい」と判断する方が速いです。
統一感が必要なカルーセルやシリーズ画像では、もちろん統一感を指定します。ただし、その場合も「すべて同じデザインにする」のではなく、「シリーズ感は維持しつつ、各スライドの役割がわかるようにする」といった言い方の方が扱いやすいです。
生成後は編集・再生成・リサイズで調整する
画像生成は、一回で完成させるものではありません。
ChatGPT Imagesでは、生成後の画像に対して編集したり、プロンプトを修正して再生成したりできます。送信済みのプロンプトの下にあるペンマークから再編集して、もう一度送り直せます。ただし、再生成すると前の画像は消えるので注意してください。
画像の一部だけを直したい場合は、範囲選択して修正する編集機能も使えます。マスク編集のように、直したい場所を選んで「この文字だけ変える」「背景の一部だけ整える」「不要なものを消す」といった修正ができます。
また、生成後にアスペクト比の変更も可能です。
たとえば、最初に3:4でInstagram用カルーセルを作り、その後に1:1へまとめてリサイズするような使い方もできます。プラットフォームごとに必要なサイズが違う場合、複数枚を一気にリサイズできるので便利です。
カルーセル画像では、ページインジケーターも便利です。たとえば「6分の1」「6分の2」のように今何枚目かを表示しておくと、Instagramや資料スライドとして見たときに流れが伝わりやすくなります。プロンプトでは「本文の邪魔にならない位置にページインジケーターを入れてください」のように伝えます。
リサイズ時は、色味やコントラストが強くなりすぎることがあります。気になる場合は、「元画像の色味を維持する」「コントラストを上げすぎない」と明示しておくと安定しやすくなります。
再生成やリサイズをする前に、良い画像はダウンロードしておくことをおすすめします。再生成すると前の候補は消えるので、あとからダウンロードできなくなります。
GPT Image 2の弱点も把握しておく
GPT Image 2はかなり使いやすいですが、弱点もあります。
- 手や指が崩れることがある
- リサイズ時に色味やコントラストが変わることがある
- 細かい文字や大量の情報は崩れることがある
- 画像によってはノイズや不自然な質感が出ることがある
- デザインを細かく縛りすぎると、かえってダサくなることがある
手を前面に大きく出す構図では、指の本数や形が崩れることがあります。サムネイルやバナーでは、無理に手を大きく出すより、顔、文字、背景モチーフで見せる方が安定します。
弱点を避けるには、最初から完璧な一枚を狙わないことです。複数案を出して、良い方向性を選び、必要な部分だけ修正する。この流れが一番現実的です。
ストーリーボードを作るとAI動画制作にもつながる
GPT Image 2は、単体の画像だけでなく、ストーリーボード作成にも使えます。
たとえば、シーン1、シーン2、シーン3のように、何秒から何秒までに何を見せるかを画像で整理できます。
ストーリーボードは、AI動画制作へ進むときの設計図になります。どんな画面構成で、どんな流れにするかを画像で整理し、それをもとにSeedance 2.0、Kling、Grok Imagineのような動画生成AIで動画を作れます。
この部分は、今後のAI動画制作カテゴリで詳しく扱います。
この記事の流れを動画で見る
このテーマは動画でも話しています。実際の画面を見ながら流れを確認したい方はこちらからどうぞ。
講座の更新を受け取る
講座の最新情報はSubstackで受け取れます。
AI活用・制作自動化の相談はこちら。
