Warning
Google I/O 2025: Gemini大型アップデートとAI最前線
今年もGoogle I/Oが開催され、AIに関する多数の発表がありました。特にGeminiファミリーの進化は目覚ましく、AIアシスタントの未来を垣間見せる内容となっています。今回はGoogle I/O 2025の発表を中心に、最近のAI関連ニュースをまとめてお届けします。
昨年のGoogle I/Oから1年、GoogleのAI、特にGeminiの進化は目覚ましいものがありました。AINewsでもその躍進ぶりは度々取り上げられており、公式発表の数字もその勢いを裏付けています。
![https://resend-attachments.s3.amazonaws.com/O7aiLUgaq2ZuFxS]
今年のキーノートは約3時間にも及びましたが、The Vergeが30分にまとめた動画も公開されています。
Google I/O 2025 主要発表まとめ
今回のGoogle I/Oでは、AIがより日常に溶け込むような発表が多数ありました。
AI Overviews & Searchの進化 (AI Mode)
- AI Modeの一般提供開始: 米国ユーザー向けにAI Modeが提供開始
- AI Overviewsの成功を受け、より多くのユーザーが利用可能に
- Gemini 2.5のSearchへの統合: より高度なAI機能が検索体験に組み込まれる
- AI Modeの新機能プレビュー: パーソナライズされた提案、複雑な分析、ディープサーチ、エージェント機能、Search Liveなど
Gemini ファミリーの大型アップデート
GoogleのフラッグシップAIモデルであるGeminiは、さらなる進化を遂げました。
- Gemini 2.5 Pro & Flash:
- Deep Think: Gemini 2.5 Proに搭載される新しい推論モード。並列思考技術を活用し、より高度な問題解決能力を発揮
- Gemini 2.5 Flash: 速度と効率を重視したモデル。同じ性能をより少ないトークンで実現
- セキュリティと透明性の向上も図られています
- Gemini Diffusion Model: Google DeepMindが発表した新しい画像生成モデル
- 2.0 Flash Lightと比較して5倍高速な生成が可能とされています
- 現在は実験的デモとして提供中
- Project Astra & Gemini Live:
- Project Astra: 音声出力、記憶、コンピュータ制御が改善され、よりパーソナルでプロアクティブなAIアシスタントへ進化
- Gemini Live: GeminiAppのカメラ・画面共有機能。Androidで利用可能、iOSへも順次展開
- Agent Mode:
- Google Chrome, Search, GeminiAppなど、Google製品全体にエージェント機能を統合開始
- GeminiAppのAgent Modeでは、複雑な計画やタスクをGeminiに委任可能に
- Jules: Geminiベースのコーディング支援AI
- OpenAIのCodexやGitHub Copilotに対抗するモデルとして注目されています
Veo 3: 次世代動画生成モデル
- 作成したクリップにサウンドトラックを追加
- 会話するキャラクターや効果音の生成も可能
Imagen 4: 高度な画像生成モデル
- よりリッチな画像、繊細な色彩、複雑なディテール、優れたタイポグラフィを実現
- コミック、様式化されたスタンプ、パッケージデザインなど、スペル精度も向上
その他の注目発表
- Google Beam (旧 Project Starline): AIを活用した3Dビデオコミュニケーションプラットフォーム
- Android XR: Samsungとの提携による軽量なXRグラス。終日装着可能なデザインを目指す
- 新しいサブスクリプションプラン「Google AI Ultra」:
- 月額124.99)
- Gemini 2.5 Pro Deep Think, Veo 3, Project Marinerへのアクセス権
- YouTube Premium、30TBのストレージなどがバンドル
- 価格設定については、その価値について様々な議論があります
ローカルLLMとオープンソースの動向
クラウドだけでなく、ローカル環境で動作するモデルやオープンソースの動きも活発です。
- Gemma 3n:
- Googleが発表したモバイルファーストの効率的なマルチモーダルモデル群
- エッジデバイスや低リソース環境向けに設計
- Selective Parameter Activation(MoEに類似)技術により、少ない実効パラメータ数で動作
- テキスト、画像、動画、音声入力をサポートし、140以上の言語に対応
- MedGemma: Googleがリリースした医療タスク特化型のGemmaモデル群
- 4Bのマルチモーダルモデルと27Bのテキストモデル
- Llama.cppのSliding Window Attention (SWA):
- SWAサポートのマージにより、Gemma 3などのモデルでKVキャッシュのメモリ要件が大幅に削減(75-80%削減との報告も)
- より長いコンテキスト長をコンシューマハードウェアで実現可能に
注目すべきAIエージェントとシステム
自律的にタスクを実行するAIエージェントの研究開発も進んでいます。
- OpenEvolve:
- DeepMindのAlphaEvolveシステムのオープンソース実装
- LLMベースのエージェントがコードベース全体でアルゴリズムを発見・最適化
- 円充填問題などでAlphaEvolveに近い性能を達成
- Microsoft Discovery:
- AIエージェントがアイデアから新素材の合成までを数時間で実現するデモを公開
- データセンター向けの「フォーエバーケミカル」フリーな新しい浸漬冷却材を発見・合成した事例を紹介
- ただし、発見された物質が既存のCFC(クロロフルオロカーボン)と類似しているとの指摘もあり、新規性については議論の余地がありそうです
AIとクリエイティビティ・プラットフォームの動向
- Civitaiの支払い問題:
- AI生成アート共有プラットフォームCivitaiが、NSFWコンテンツのホスティングを理由にカード決済プロセッサから利用を禁止されたと発表
- 数ヶ月分の運営資金しか残っておらず、ユーザーに支援を呼びかけ
- この件を受け、コミュニティではモデルのP2P共有やアーカイブ化の動きが活発化
- CivitasBay.orgのようなAIモデルのTorrentサイトも登場していますが、メタデータ不足などの課題も指摘されています
- VACE Extension: FLF2V (First-Last-Frame-to-Video) を超える動画補間・拡張技術として注目
- ユーザー指定の複数フレームをチェックポイントとして、滑らかで時間的整合性の高い動画を生成
AI Discordコミュニティの話題から
活発なAI関連Discordコミュニティでは、日々様々な情報交換や議論が行われています。最近の主な話題は以下の通りです。
- GoogleのAI攻勢: Gemma 3シリーズやGemini 2.5 Flashなどのリリースラッシュと、その性能や利用可能性に関する議論
- AIツールと開発プラットフォームの進化: Unsloth(Google I/Oでも紹介)、LM Studio(SWA対応によるメモリ効率化など)、ModularのMAXプラットフォームなどが注目されている
- AIエージェントの台頭: GoogleのJules、ウェブサイト構築やリサーチを行うManus.im、コードを進化させるOpenEvolveなど、多様なエージェントが登場
- モデルの最適化と評価: スペキュラティブデコーディングやSliding Window Attentionによるローカルモデルの性能向上、各種ベンチマークの動向
- AIと社会: 「AI Slop」(低品質なAI生成コンテンツ)の定義や影響に関する議論、LLMが自律的に社会規範を形成しうるとする研究など
まとめ
Google I/O 2025では、Geminiを中心としたGoogleのAI戦略がより明確になり、AIが検索や日常のタスク処理、さらにはXRのような新しい体験へと深く統合されていく未来が示されました。特にGemini 2.5 ProのDeep Think機能や、Veo 3、Imagen 4といった生成AIの進化は目覚ましいものがあります。一方で、高価なサブスクリプションプランや、AIエージェントの新規性・実用性については、今後の動向を注視していく必要がありそうです。
オープンソース界隈でもGemma 3nやLlama.cppのSWA対応など、ローカル環境でのAI活用を促進する動きが活発です。Civitaiの件は、AI生成コンテンツとプラットフォーム運営の難しさを示す事例と言えるでしょう。
AI技術は急速に進化しており、今後も目が離せない状況が続きそうです。