Topic Dispatch
マルチモーダル
タグ「マルチモーダル」の記事一覧
-
Gemini API File Searchが画像RAG対応、実装要点を整理 GoogleがGemini API File SearchをマルチモーダルRAGへ拡張。画像検索、メタデータフィルタ、ページ引用を、日本の開発・業務システムでどう使うか実務整理する。
-
Gemini Embedding 2でRAGは変わるか。日本実装要点を整理 Gemini Embedding 2の一般提供と4月30日の活用ガイドを踏まえ、マルチモーダルRAG・再ランキング・コスト最適化の実装要点を、日本の開発チームと事業会社向けに整理する。
-
Google「検索 Live」とは? 日本提供開始でAI検索は音声・カメラ時代へ——Gemini 3.1 Flash Liveの意味 Googleが2026年3月27日、日本で検索 Live を開始。Gemini 3.1 Flash Liveを軸に、音声とカメラで会話する検索が一般化し、開発者はLive APIから同系統の音声エージェントを構築できるようになった。
-
Alibaba Qwen3.5-Omni発表——テキスト・音声・映像を1パスで処理する「全方位AI」は何を変えるか AlibabaのQwenチームがオムニモーダルモデルQwen3.5-Omniを公開。113言語の音声認識、10時間超の音声処理、映像からのコード生成まで。Gemini 3.1 Proを複数ベンチマークで上回る性能の中身を解説。