Article Brief

#Google Cloud Akira 公開: 更新: 11分で読める

Gemini Omni Flash公開、動画APIの費用と統制

Gemini Omni Flash公開、動画APIの費用と統制
目次

Google Cloudは2026年7月1日、動画生成・編集モデル Gemini Omni Flash をGemini Enterprise Agent Platformで公開プレビューとして提供すると発表した。テキストだけでなく、画像、動画、音声を参照に使い、音声付きの短尺動画を生成できる。自然言語で人物や商品を差し替える、照明や画角を変える、文字と動きを同期させるといった編集も想定されている。

日本の制作・プロダクトチームにとって重要なのは、デモの見栄えだけではない。API価格は動画出力1秒あたり0.10ドルで、現時点の出力は最大10秒、720p、16:9または9:16に限られる。さらに公開プレビューであり、本番の大量生成へ直ちに移すより、費用上限、権利確認、品質評価、生成物の表示を先に設計する段階だ。

GoogleのモデルAPI全体の入口はGemini Interactions APIの一般提供で整理した。今回の焦点はAPIの会話管理ではなく、動画生成・編集という高コストかつ権利リスクの高い出力をどう業務工程へ組み込むかにある。以下では、公式情報で確認できる事実と、日本企業向けの分析・提案を分けて扱う。

事実: 1つのモデルで動画生成と会話型編集を扱う

Gemini Omni FlashのモデルIDは gemini-omni-flash-preview である。公式ドキュメントは、動画、画像、テキストを扱うマルチモーダルモデルで、動画出力とテキスト応答を同じモデルで返せると説明している。音声を含む動画を生成し、テキスト、画像、動画、音声を参照材料として入力できる。

従来の動画生成では、最初のプロンプトから作り直すたびに人物、商品、背景、カメラの一貫性が崩れやすかった。GoogleはGemini Omniを「動画向けのNano Banana」に近いものとして位置付け、自然言語による段階的な編集を特徴にしている。たとえば、元の映像に対して商品だけを交換する、光を夕方へ変える、別のスタイルへ変換する、オブジェクトを足すといった指示を重ねる使い方だ。

ただし、公開時点のAPI能力には明確な境界がある。公式モデル文書による主な仕様は次の通りだ。

  • 動画入力は1プロンプトあたり最大3本
  • 動画の長さは音声の有無を問わず最大10秒
  • 画像入力は1プロンプトあたり最大10枚
  • 出力解像度は720p
  • アスペクト比は16:9と9:16
  • 最大入力は131,072トークン、最大出力は57,920トークン
  • C2PA Content Credentials、音声生成、動画編集、参照からの動画生成に対応
  • function calling、system instruction、Live API、batch inference、tuningは非対応

つまり、長尺CMを一度に完成させるモデルというより、短いショットを生成・修正する部品として捉えるほうが正確だ。30秒の広告を作る場合でも、10秒以下の複数ショットへ分け、編集ソフトや既存の制作工程でつなぐ必要がある。

事実: 10秒で1ドル、入力とテキスト出力は別課金

Agent Platformの公式価格表では、Gemini Omni Flashの動画出力は1秒あたり0.10ドルである。10秒の動画1本なら、動画出力部分だけで1ドルになる。入力はテキスト、画像、動画、音声を合算して100万トークンあたり1.50ドル、テキスト応答とreasoningは100万トークンあたり9ドルだ。

動画生成の費用は、採用した最終成果物の本数ではなく、試行したすべての出力で発生する。10秒動画を20案生成し、そのうち1案だけ採用すれば、動画出力だけで20ドルである。さらに、4案ずつ3回作って比較し、2回修正するような工程では、担当者が「編集しているだけ」と感じても生成回数は積み上がる。

概算は次の式で置ける。

月額動画出力費 = 生成秒数 × 生成本数 × 0.10ドル

たとえば、8秒の縦型動画を1案件につき30本試し、月に20案件を扱うなら、動画出力だけで480ドルになる。これは完成品20本の費用ではなく、600回の試行費用だ。日本円で予算を置く場合は、社内の月次換算レートと為替変動も含める必要がある。

また、公開プレビュー時点のモデル文書ではfixed quotaが対応する消費方式として示され、Provisioned Throughputとbatch inferenceは非対応とされている。一方、価格表には標準価格が掲載されている。契約・プロジェクトで実際に使えるquotaと課金方式は、PoC開始前にCloud Consoleと最新文書で確認すべきである。

大量処理を先に設計しない点は、安定モデルとプレビューを分けたGemini 3.5 Flash APIの本番移行判断にも共通する。モデル名がAPIに出たことと、SLAや互換性を前提に本番へ固定できることは同じではない。

事実: 生成物にはC2PAとSynthIDが付く

GoogleはGemini Omni Flashと同時発表のNano Banana 2 Liteについて、C2PA Content Credentialsと不可視のSynthID透かしを既定で有効にすると説明している。Google DeepMindのモデルページも、Geminiアプリ、Google Flow、YouTubeでOmniを使って作成・編集したコンテンツにSynthIDとC2PAを含めるとしている。

これは出所表示の基盤になるが、「透かしがあるから自由に公開できる」という意味ではない。制作チームは別途、参照画像・動画・音声の利用許諾、人物の肖像、商品ロゴ、音楽、ナレーション、広告表現、社内素材の持ち出し条件を確認する必要がある。生成物の由来を示す仕組みと、素材を使う法的・契約上の権利は別問題だ。

日本向け運用では、少なくとも次の情報を成果物と一緒に保存したい。

  1. 使ったモデルIDと実行日
  2. プロンプトと参照素材の管理番号
  3. 素材ごとの権利確認者と利用範囲
  4. 生成回数、秒数、概算費用
  5. 人間が確認した表現・ブランド・事実の項目
  6. C2PA情報を保持した元ファイルと公開用変換物

動画を書き出し直したり、配信プラットフォームが再エンコードしたりすると、メタデータの扱いが変わる可能性がある。公開後のファイルだけでなく、生成直後の原本を保存することが重要だ。

分析: 日本企業では「ローカライズの反復」に価値がある

Gemini Omni Flashの実務価値は、映画級の長尺映像を全自動で作ることより、短尺素材の反復を速くする点にある。日本企業で候補になりやすいのは、ECの商品差し替え、SNS広告の縦横展開、店舗ごとの背景変更、複数言語版の試作、営業デモ、アプリ内チュートリアル、絵コンテからの仮動画作成だ。

特に、文字を動画内へ描き、動きと同期させる能力は日本語広告で魅力的に見える。ただし、公式発表が「legible text」を掲げても、日本語の字体、禁則、縦組み、商品名、価格、注意書きが毎回正しいとは限らない。日本語テキストは最終動画へ直接焼き込むより、背景と動きだけを生成し、正確な文字は編集ソフトで重ねるほうが安全なケースが多い。

音声も同様だ。モデルは音声付き動画を生成できるが、商品説明、医療・金融・採用情報、数値を含むナレーションでは、人間による台本照合が欠かせない。Lyria 3 Proと企業の音楽AI運用で扱ったように、生成できることと、ブランドや権利の条件を満たして公開できることを分ける必要がある。

もう1つの価値は、制作担当者がAPIへ直接触れなくても、会話型編集をプロダクト機能として提供できる点だ。ユーザーが「背景を夏にする」「商品を青へ変える」「9:16に合う構図にする」と指示し、アプリ側が素材ID、生成秒数、回数上限、審査状態を管理する設計が考えられる。ただし、Gemini Omni Flash自体はfunction callingをサポートしないため、注文確認や公開承認のような業務アクションは別のアプリ層で制御しなければならない。

実務: PoCは1用途・3評価軸・明確な上限で始める

最初のPoCでは、「動画生成を試す」のような広い目的を置かないほうがよい。たとえば「既存の商品写真から、9:16、6秒、無音のSNS用背景動画を作る」のように、素材、長さ、比率、音声、公開先を固定する。範囲を狭めると、品質と費用を比較しやすい。

評価は最低でも3軸に分ける。

  • 品質: 商品形状、人物、文字、動き、時間的一貫性、指示追従
  • 運用: 生成時間、失敗率、再試行回数、担当者の修正時間
  • 統制: 権利確認、禁止素材、個人情報、C2PA保持、承認記録

費用には1人・1日・1案件の上限を置く。10秒を基準に「1案1ドル」と見ると、非技術部門にも説明しやすい。1案件で20案までなら動画出力20ドル、超過時は責任者承認とする。入力・テキスト出力費、ストレージ、配信、編集作業は別枠で記録する。

また、参照素材を直接プロンプトへ渡す前に、素材台帳で利用可否を判定する。顧客提供素材、未公開商品、人物写真、ライセンス購入素材、社内限定映像を同じバケットに置かない。生成APIを呼ぶサービスアカウントには必要な保存先だけを許可し、操作ログと費用ラベルを案件IDへひも付ける。

将来、動画生成を長時間のエージェント処理へ組み込む場合も、実行面を分けるべきだ。Gemini API Managed Agentsの実行環境を使う設計であっても、生成、品質判定、権利確認、公開を1つの自律処理へまとめない。生成までは自動化し、公開前に人間が承認する境界を残すのが現実的である。

導入判断: 公開プレビューは短尺の限定工程で評価する

Gemini Omni Flashは、参照素材をまたいだ動画生成と自然言語編集を1つのモデルで扱い、API価格も秒単位で明示した。短尺広告、商品デモ、絵コンテ、ローカライズ案の反復には試す価値がある。

一方、現時点では最大10秒、720p、限定された縦横比、非対応機能があり、公開プレビューのモデルである。公式文書には2026年6月30日リリース、2027年6月30日退役予定と記載されている。モデルID、出力差、quota、費用をコードへ固定しすぎず、差し替えられる境界を用意したい。

日本企業が今やるべきことは、制作工程を丸ごと置き換えることではない。1つの短尺用途を選び、再生成を含む実費、最終修正時間、日本語表現、権利確認、C2PAの保持を測る。その結果が既存工程より良い場合にだけ、用途と利用者を段階的に増やす。この順序なら、モデルの新しさに引かれて統制と総費用を見失うことを避けられる。

出典