マルチモーダル
タグ「マルチモーダル」の記事一覧
Google「検索 Live」とは? 日本提供開始でAI検索は音声・カメラ時代へ——Gemini 3.1 Flash Liveの意味
Googleが2026年3月27日、日本で検索 Live を開始。Gemini 3.1 Flash Liveを軸に、音声とカメラで会話する検索が一般化し、開発者はLive APIから同系統の音声エージェントを構築できるようになった。
Alibaba Qwen3.5-Omni発表——テキスト・音声・映像を1パスで処理する「全方位AI」は何を変えるか
AlibabaのQwenチームがオムニモーダルモデルQwen3.5-Omniを公開。113言語の音声認識、10時間超の音声処理、映像からのコード生成まで。Gemini 3.1 Proを複数ベンチマークで上回る性能の中身を解説。