2026年、テキストから画像生成は3つの最前線モデルに収束しました。それが、Flux Kontext Pro(Black Forest Labs)、Nano Banana(Google)、4o Image(OpenAI)です。それぞれが速度、忠実度、価格の異なるトレードオフを提供します。

以下は、同じプロンプトを3つのモデルで生成した結果です。

プロンプト

「赤いキツネが新雪の中に座っている。ゴールデンアワー、浅い被写界深度、フォトリアリスティック」

速度と価格(現在のゲートウェイ料金)

  • Nano Banana — 6秒、1画像あたり$0.056
  • Flux Kontext Pro — 9秒、1画像あたり$0.084
  • 4o Image — 12秒、1画像あたり$0.14

品質に関する観察

  • Flux Kontext Pro: 複雑なプロンプトへの最も優れた忠実度。画像内のテキスト(メニュー、看板など)を説得力を持って処理。時折、肌にプラスチックのような光沢が見られる。
  • Nano Banana: 自然、製品、ポートレートにおける最速かつ最もクリーンなリアリズム。埋め込まれたテキストや複雑な複数被写体のシーンには弱い。
  • 4o Image: イラストやコンセプトアートに最適。リアリズムはFluxにやや劣るが、スタイライズされた出力に最適。

用途に応じた選択

  • ECサイトやマーケティング写真: Nano Bananaが最適。最安かつ最速で、製品やライフスタイル写真の90%にリアリズムが十分。
  • テキストを含む複雑な編集シーン: Flux Kontext Pro。テキストを正確に生成できる唯一のモデル。
  • スタイライズされたイラスト、コンセプトアート、編集用途: 4o Image。OpenAIのアート指向のセンスは他に類を見ない。
  • バッチ生成(1日1000枚以上): Nano Banana。Fluxより1画像あたり$0.03節約でき、大量生成では大きなコスト削減に。

使用パターン: 製品ごとではなくプロンプトごとに選択

当APIで成功している画像重視の製品の多くは、1つのモデルに固執していません。ルーティングを行います。「プロンプトにテキストが含まれる場合」→Flux、「カテゴリーがイラストの場合」→4o Image、それ以外→Nano Banana。このシンプルなルールで、難しいプロンプトでも品質を犠牲にせずコストを30%削減できます。

1つのAPIで3つのモデルを呼び出す

// アプリコード内でルーティング:
const model = prompt.includes('text') || prompt.includes('sign')
  ? 'black-forest-labs/flux-kontext-pro'
  : style === 'illustration'
    ? 'openai/4o-image'
    : 'google/nano-banana';

await fetch('https://aimarcus.eu/aigenerate/api/v1/jobs/createTask', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer sk-aig-...',
    'Content-Type': 'application/json',
  },
  body: JSON.stringify({ model, input: { prompt, output_format: 'png', image_size: '1:1' } }),
});

1つのBearerトークンで、3つの最先端プロバイダーを利用し、アプリケーションコードでスマートルーティングを実現。それがアグリゲーターAPIの最大の利点です。