Warning
AI技術の最新動向一挙まとめ Google DeepSearchからNvidia新モデルまで
AI Engineer World’s Fairが開催され、多くの発表がありましたが、それ以外にもAI分野では目まぐるしい技術革新が続いています。MistralがCodeプロジェクトを立ち上げたり、Cursorが1.0に到達したり、AnthropicがClaude Codeのプランを改善したり、ChatGPTがさらなる接続強化を発表したりと、話題に事欠きません。今回は、これらの最新情報をまとめてご紹介します。
Google DeepSearchスタックのオープンソース化
Googleは、新しいDeepSearchスタックをオープンソースとして公開しました。これはgemini-fullstack-langgraph-quickstartリポジトリからアクセス可能で、Gemini 2.5とLangGraphオーケストレーションフレームワークを使用してフルスタックのAIエージェントを構築するためのテンプレートとして提供されています。
- 主な特徴
- Gemini 2.5とLangGraphを活用
- Gemmaのような他のローカルLLMとの連携も視野に
- Dockerとモジュラープロジェクト構造による迅速なプロトタイピング
- GoogleのGeminiアプリで使用されている実際のバックエンドとは異なるものの、エージェントベースのアーキテクチャを試す良い出発点
- コミュニティの反応
- よく構造化されたデモであり、LangGraphのオーケストレーターとしての可能性に注目が集まっている
- より複雑なLangGraphベースのシステムとしてはLangManusなども存在する
Metaの論文:言語モデルはどれだけ記憶するのか
Metaからは、言語モデルの記憶容量を厳密に推定する手法を提案する論文(arXiv:2505.24832)が発表されました。
- 主な発見
- GPTスタイルのトランスフォーマーは、パラメータあたり約3.5〜4ビットの情報を一貫して保存する
- 例: bfloat16で3.51ビット/パラメータ、float32で3.83ビット/パラメータ
- 記憶容量は、精度の向上と線形にスケールしない
- モデル容量が飽和すると記憶から汎化(「grokking」)へ移行し、データセットの情報量がモデルの記憶限界を超えると二重降下(double descent)が始まる
- GPTスタイルのトランスフォーマーは、パラメータあたり約3.5〜4ビットの情報を一貫して保存する
- 議論のポイント
- これらの発見がMixture-of-Expert(MoE)モデルにどう適用されるか
- 量子化(特に3.5ビット/パラメータ未満)や低精度/QAT(Quantization-Aware Training)が記憶と汎化の境界にどう影響するか
- BitNetのような新しいアーキテクチャがこれらの基本的な容量限界を変える可能性があるか
Nvidia Nemotron-Research-Reasoning-Qwen-1.5B
Nvidiaは、複雑な推論タスク(数学、コーディング、STEM、論理)に特化した1.5BパラメータのオープンウェイトモデルNemotron-Research-Reasoning-Qwen-1.5Bを発表しました。
- 主な特徴
- Prolonged Reinforcement Learning (ProRL)という新しいアプローチで訓練
- DeepSeek-R1-1.5Bを大幅に上回り、一部タスクではDeepSeek-R1-7Bに匹敵またはそれを超える性能を達成
- pass@1の平均改善率: 数学14.7%、コーディング13.9%、論理54.8%、STEM 25.1%、指示追従18.1%
- GGUF形式で量子化オプション(q4, q8, f16)も提供
- 懸念点
- ライセンスがCC-BY-NC-4.0であり、商用利用が制限される
Vision Language Model (VLM) のバイアス
最新のVLMは、標準的な視覚タスク(例:典型的な動物の足の数を数える)ではほぼ完璧な精度を達成しますが、反事実的または変更されたシナリオでは精度が約17%にまで大幅に低下することがVLMBiasベンチマークで示されました。
- 主な分析結果
- モデルは実際の視覚入力よりも記憶された事前知識に大きく依存している
- エラーの75.7%は曖昧さではなくステレオタイプな知識を反映
- 明示的なバイアス緩和プロンプトはほとんど効果がない
- この現象は、LLMの対数確率で見られる問題と類似しているとの指摘もある
AIによる動画生成とコンテンツ制作の革新
Google Veo 3による低コストCM制作
ブラジルのウリアノポリス市役所が、GoogleのVeo 3を使用して、わずかR100,000超 / 約17,500米ドル)と比較して劇的な削減です。
- テキストから動画を生成する機能により、監督、脚本、撮影、編集、ポストプロダクションなど、従来の制作プロセスのほぼ全てを置き換えた
- 特に、AI生成モデルにとって課題であったネイティブ言語(ブラジルポルトガル語)の自然な発音や表現の品質が高く評価されている
Microsoft BingでのSora AI動画生成
Microsoftは、OpenAIのSora AI動画生成モデルをBingアプリに「Bing Video Creator」として統合し、無料で提供を開始しました。
- 現時点では専用のSoraアプリやChatGPTへの統合はない
- 詳細なアニメーションコンテンツを生成できる一方で、コンテンツモデレーションが厳しく、多くのリクエストがブロックされるとの報告がある
- GoogleのVeo3と比較すると、動画の品質で劣るという意見もある
OpenAIの新たな動き
ネイティブオーディオサポート付き新モデル
OpenAIは、「gpt-4o-audio-preview-2025-06-03」と「gpt-4o-realtime-preview-2025-06-03」という2つの新しいモデルをリリースする準備をしていると報じられています。これらのモデルは、外部の音声認識(STT)や音声合成(TTS)モジュールに依存せず、ネイティブなオーディオ処理機能を備えているとされています。これにより、低遅延の音声対話やよりシームレスなアシスタント機能が期待されます。
ChatGPTのMemory機能が無料ユーザーにも
ChatGPTのMemory機能が無料ユーザーにも提供開始されました(2025年6月3日より順次展開)。これにより、ChatGPTが最近の会話内容を記憶し、より関連性の高い応答を提供できるようになります。欧州の一部地域では手動での有効化が必要ですが、それ以外の地域ではデフォルトで有効になります。ユーザーはいつでもこの機能を無効にできます。
- 技術的な議論としては、プライバシー(有料ユーザーはデータがモデル訓練に使われないオプトアウトが可能)や、自動保存による不要な情報の記憶、より詳細な手動制御の要望などが挙がっている
CodexがPlusユーザーへ展開
OpenAIのコード生成に特化したモデルファミリーであるCodexが、ChatGPT Plusユーザー向けに段階的に有効化されています。https://chatgpt.com/codex からアクセスできるとの報告があります。利用制限やPlusユーザー向けの具体的な機能については、まだ詳細が明らかにされていません。
Anthropic Claude Proに「Research」機能が登場
Anthropicは、Claude Proプランに「Research」という新機能(ベータ版)を導入しました。これは統合されたリサーチ支援機能で、ユーザーがクエリを入力すると、直接的な回答ではなく、洞察や統合された情報を提供することを目的としているようです。
- ユーザーからは、このリサーチツールが単なる回答ではなく、実践的な洞察を通じて作業を改善する詳細なガイダンスを提供したとの声がある
- 自動的に3〜4のサブエージェントを展開し、多角的なアプローチでクエリに取り組むとの報告も
画像生成モデル Chroma v34 リリース
画像生成モデルChroma v34が、通常版と、より高解像度の画像を提供する「-detailed release」の2バージョンでリリースされました(Hugging Faceリンク)。
- 特に検閲されておらず、写実的なスタイルに偏っていないため、非写実的なアート生成やカスタマイズ性に優れていると評価されている
- LoRAアダプターを詳細版で使用することで、品質がさらに向上するとの報告もある
AIによる経済格差と雇用喪失への懸念
AI技術の急速な進展は、社会経済的な課題に関する議論も活発化させています。
- AIの高級品化: OpenAI、Anthropic、Googleなどの大手ベンダーが高性能LLMを有料プラン(月額100〜200ドル程度)の背後に置く傾向があり、オープンソースLLMも高性能化に伴いリソース要求が増大しています。これにより、高性能AIへのアクセス格差が広がる懸念が提起されています。
- Dario Amodei氏 (Anthropic CEO) の警鐘: AIによる広範な失業が労働者の経済的影響力を削ぎ、結果として民主主義を損ない、権力の集中を招く危険性を指摘しています。「『全てうまくいく』と言うだけでは防げない」と、積極的な対策の必要性を訴えています。
- 元OpenAI AGI Readiness責任者の予測: Miles Brundage氏は、「2027年までに、コンピュータで実行可能なほぼ全ての経済的価値のあるタスクは、コンピュータによってより効果的かつ安価に実行されるようになるだろう」と述べています。ただし、これはあくまで技術的な可能性であり、実際の導入には組織の準備やデータインフラ、LLMの信頼性(ハルシネーション問題)など、多くの課題があるとの反論もあります。
AIの具体的な活用事例
ChatGPTによる医療記録の要約
あるユーザーは、病院での診察時の音声記録や文字起こしをChatGPTで処理し、遠隔地にいる家族のために分かりやすい要約を作成した事例を報告しています。同様に、MyChartなどの医療記録を要約して、がんの診断結果を伝えるといったユースケースも共有されました。公式の医療記録に基づいていれば精度は高いものの、Googleなどでダブルチェックすることが推奨されています。
AIによる業務代替実験
ある物流会社の業務アシスタントの仕事を1週間AIツール(ChatGPT-4、Blackbox AI、Notion AI、Zapier+GPT)で代替する実験が行われました。結果として、定型的な反復作業(SOP作成、定型メール作成など)ではAIが最も効果を発揮しましたが、汎用的でない、文脈に沿った出力を得るためには人間による大幅な監督と文脈の注入が必要でした。この実験では約12時間の時間節約が実現しましたが、AIワークフローの調整と文脈付けにおける人間の役割の重要性が改めて浮き彫りになりました。
DiscordでのAI関連トピックサマリー
Discordコミュニティでも活発な議論が交わされています。以下はその一部です。
- モデル開発の最前線: GoogleのGemini 2.5 Proとその高性能版「Goldmane」がAiderベンチマークで好成績を収め、一般提供が近いとされています。OpenAIのo3 Proは依然として謎が多く、初期の評判は芳しくないようです。Googleの未発表モデル「Kingfall」(おそらくDeepThink)が一時的にAI Studioに登場し、憶測を呼んでいます。日本からはShisa-v2 405Bが登場し、日本語・英語でGPT-4やDeepseekに匹敵する性能を謳っています。Alibaba CloudのQwenモデルは1MトークンのコンテキストウィンドウでDeepseek R1を凌駕するとされ、注目を集めています。
- エージェントAIの進化: OpenAIがTypeScript版のAgents SDKやRealtimeAgent機能をリリースし、エージェント開発を強化しています。LlamaIndexは、エージェント的RAGを用いた金融レポートチャットボット構築のColabを公開しました。複雑なエージェントフロー(例:gpt-41-miniを用いたElasticsearch DSLクエリ生成)や、エージェントの行動を制御するCursorRIPERフレームワーク、HTN (Hierarchical Task Networks)によるLLMエージェントのファインチューニングなどが議論されています。エージェント間通信プロトコルとしては、MCP (Meta-agent Communication Protocol) とGoogleのA2A (Agent-to-Agent) framework が比較検討されています。
- ハードウェアと最適化: NVIDIAのBlackwellアーキテクチャはCutlassサンプルで高い性能を示していますが(NVFP4で3.09 PetaFLOPS/s)、MXFP8/BF16の性能(0.23 PetaFLOPS/s)には疑問の声も。AMD MI300Xでは
rocprof
でのL2キャッシュヒット率読み取りエラーなどが報告されています。CUDA (__syncthreads()
,cuda::pipeline
) やROCmでのカーネル開発、TinygradでのLSTMレイヤーの遅さ、TorchtuneでのIterable Datasetリファクタリングなどが話題です。 - 最先端研究: LoRAやフルファインチューニングと比較して知識獲得効率が約4倍、破滅的忘却が30%少ないとされる新しいパラメータ効率の良いファインチューニング手法が注目されています。LLMのワールドモデルの脆弱性を突く「セマンティックウィルス」に関する論文や、テキストベースの自己対話を通じてLLMを進化させる研究、IBMによるオープンソースの責任あるプロンプティングAPIなどが議論されました。
- エコシステムの動向: AnthropicがClaude 3.xモデルのキャパシティを大幅削減し、一部サービスに影響が出ています。OpenAIのTTS APIの価格設定に混乱が見られます。開発者向けツールとしては、Modal LabsのLLM Engineer’s Almanac(推論ベンチマーク集)、リポジトリと対話できるGitHub Chat、視覚・動画モデルの解釈ツールキットPrismaなどが登場。オープンソースエージェントのOpenManusがagenticSeekに名称変更したことや、OpenAIが全てのChatGPTログ(削除済みチャットやAPIデータも含む)を保存するよう裁判所から命じられたとする報道がプライバシーに関する議論を呼んでいます。
まとめ
今回もAI分野では、GoogleのDeepSearchスタックやNvidiaのNemotron推論モデルといった新しいツールの登場、Metaによる言語モデルの記憶メカニズム解明など、基礎研究から応用技術まで幅広い進展が見られました。動画生成AIのVeo 3やSoraはコンテンツ制作のあり方を大きく変えつつあり、ChatGPTのMemory機能やCodexの展開、ClaudeのResearch機能など、既存サービスの進化も続いています。
一方で、VLMのバイアス問題や、AIによる経済格差・雇用喪失といった社会的な課題への懸念も深まっています。医療記録の要約や業務アシストなど、具体的な活用事例も増えており、AIがより身近な存在になりつつあることを示しています。
Discordコミュニティでの活発な情報交換は、これらの技術革新がいかに速いペースで進んでいるかを物語っています。今後も目が離せない状況が続きそうです。