Warning
最新AIニュースまとめ Veo 2とKling 2が一般公開
AIの世界は相変わらず動きが早いですね。今回は特に動画生成モデルの分野で大きな進展がありました。Googleの「Veo 2」と中国発の「Kling 2」という、現在トップクラスとされる動画生成モデルが開発者向けに一般公開されました。
その他にも、OpenAIが新しい「GPT-4.1」ファミリーを発表したり、各種開発ツールやコミュニティで活発な動きが見られたり、AI研究の最前線からの興味深い報告があったりと、盛りだくさんです。さっそく詳しく見ていきましょう。
動画生成モデルの進化が止まらない Veo 2 と Kling 2
これまでAI Newsではテキストやコーディング関連の話題が中心でしたが、今回は動画生成モデルの大きなニュースを取り上げます。
Artificial Analysisの動画生成モデルリーダーボードでトップを争う2つのモデルが、ほぼ同時に開発者向けにAPIアクセスを開放しました。これは動画生成技術の現状を知る良い機会ですね。
Google Veo 2
Googleの「Veo 2」は、Gemini API と Gemini Advanced/Whisk を通じて利用可能になりました。(以前はFal.ai経由での提供でした)
注目すべきはその価格で、生成される動画1秒あたり35セントと、かなり手頃になっています。(ただし、実際の利用感とは異なる可能性もあるようです)
生成される動画の品質も向上しており、物理法則への暗黙的な理解が素晴らしいとの声も上がっています。
Kuaishou Kling 2
中国の快手(Kuaishou)が開発した「Kling 2」も同日に発表されました。
価格は10秒のクリップで約2ドルとVeo 2より高価ですが、生成される動画の品質は非常に高いと評判です。ただし、利用には最低でも月額700ドル(3ヶ月契約)のパッケージ購入が必要となるようです。
どちらのモデルも、テキストから高品質な動画を生成できる能力を示しており、今後のクリエイティブ分野での活用が期待されます。
OpenAIから「GPT-4.1」ファミリーが登場
OpenAIも負けじと新しいモデルファミリー「GPT-4.1」を発表しました。(OpenAIのアナウンス)
API限定リリースとモデルラインナップ
今回のリリースはAPI限定で、以下の3つのモデルが含まれます。
- GPT-4.1
- GPT-4.1 mini
- GPT-4.1 nano
OpenAI Devsのポストによると、これらのモデルはAPI専用であり、既存のGPT-4.5 Previewは3ヶ月後の7月14日に廃止される予定です。GPT-4.1が同等以上の性能を低遅延・低コストで提供できるためとのこと。
性能向上と特徴
OpenAIの発表や開発者の声によると、以下の点が改善されています。
- コーディング能力の向上
- GPT-4.1はSWE-Bench Verifiedで54-55%という高いスコアを達成(Reasoningモデルではないにも関わらず)
- 内部ベンチマークではGPT-4o比で60%改善(不要なファイル読み取り40%減、変更70%減、冗長性50%減)という報告も
- 指示追従性の改善
- 長文コンテキスト処理能力の向上
- 最大100万トークンに対応
- コスト削減
評価とベンチマーク
一方で、Scaling01氏のように、API版のGPT-4.1はOpenRouterのプレビュー版(Quasar Alpha, Optimus Alpha)よりも性能が低い、mini版は他の多くのモデルよりスコアが低い、といった指摘もあります。また、コーディング性能では依然としてDeepSeekV3に劣るものの、価格は8倍という比較も。
しかし、skirano氏は、GPT-4.1がベンチマークスコアだけでなく、**現実世界のタスク(特にフロントエンド開発やWebサイト構築)**に最適化されている可能性があると指摘しています。OpenAIのSam Altman氏も、ベンチマークは強力だが、現実世界での実用性に焦点を当てたと述べています。
また、Aidan Clark氏は「名付けは下手だけど、miniと付くモデルは🔥だよ」とコメントしており、miniモデルの性能にも期待が持てそうです。DiscordのLMArenaコミュニティでも、GPT-4.1 miniがGPQAベンチマークでフルバージョンに匹敵する結果を出したという観察が共有されています。
移行を支援するためのプロンプティングガイドも公開されています。
その他注目モデルとツール動向
動画生成やGPT-4.1以外にも、多くのモデルやツールが登場・アップデートされています。
- マルチモーダルモデル
- ByteDanceがスケーラブルで統合的なマルチモーダル生成のための言語モデル「Liquid」をHugging Faceで公開
- 音声・音響モデル
- Google DeepMindがイルカのコミュニケーション解析を支援するAIモデル「DolphinGemma」を発表
- 言語モデル
- Zhipu AIが「GLM-4」をリリース。DeepSeek DistillやQwen 2.5 Maxに匹敵する性能でMITライセンス
- 推論エンジン
- DeepSeekが推論エンジンをオープンソース化 (LMSys SGLang, vLLM Projectとの協力)
- 開発フレームワーク・ツール
- Aider: Grok-3やOptimusモデル、GPT-4.1をサポート追加
- LlamaIndex: GPT-4.1をサポート、SkySQLとの連携強化、階層型マルチエージェントシステムのデモ
- AnyAgent: LlamaIndex向けのエージェント管理ライブラリが登場 (GitHub)
- VidTrainPrep: 動画から学習データセットを準備するツール (GitHub)
- ハードウェア関連
- CUDA: CUDA 12ランタイムがRTX 3090で遅いという報告
- RTX 5090: 高価格とVRAM制限でホビイストには厳しいか
- ROCm: RunpodでROCm 6.2/6.3へのアップグレード成功
- Metal: 新しいcandle-metal-kernelsでApple Siliconのパフォーマンス向上
- IDE連携とAPIアクセス
- コーディングIDE「RooCode」が高評価。ただしGitHub Copilot連携には課題も
- GitHub CopilotのAPIキーを不正利用するとBANのリスク
- Microsoftがライセンス問題でVSCode拡張機能の利用を制限する動き
コミュニティとオープンソースの動向
開発者コミュニティやオープンソースプロジェクトも活発です。
/r/LocalLlama の声
Redditの/r/LocalLlamaコミュニティでは、以下のような議論が注目を集めています。
- llama.cppへの敬意: MetaのLlama 4発表ブログで、ローカルLLM実行の基盤となっているllama.cppとその開発者ggerganov氏への言及がないことに対し、不公平だという声が上がっています。ラッパーであるOllamaばかりが注目される状況に疑問が呈されています。
- OpenAIへの失望: OpenAIが期待されていたオープンソースモデルをリリースしなかったことに対する失望の声が見られます。
Discordコミュニティの活発な動き
各種Discordサーバーでも、ツール開発や情報共有が盛んに行われています。
- 便利なツールの公開
- 共同プロジェクトの呼びかけ
- Open Empathicプロジェクトがカテゴリ拡張のための協力者を募集 (YouTubeチュートリアル, GitHub)
- Fast MCPを利用したGoogle Docs MCP開発の協力者募集 (デモ動画)
- モデル間の連携
- 新しいShisa-v2モデルの一部で、UnslothのLlamafied Phi4を採用し、Liger互換性などを実現 (Hugging Face)
- バグや制限に関する情報共有
- GPT-4oの80メッセージ制限に達すると性能が低下する問題
- GPT-4.1が従来と異なるMarkdown構造を返す問題
- Gemini 2.5 ProがLaTeXフォーマットに失敗する、「思考中」でスタックする問題
- RunPodのJupyter Notebookセッションが予期せず終了する問題
- Perplexity AIのクレジットカード支払い問題
- Hugging Faceの一時的な500エラー
最先端の研究動向
AI研究の分野でも興味深い発表が続いています。
- Google DeepMind
- 強化学習(RL)を用いて、自己改善するRLアルゴリズムをAIが自ら構築し、人間が開発したアルゴリズムを凌駕 (David Silver氏の講演動画)
- AGI(汎用人工知能)後の時代に向けた準備を進めている可能性
- MIT
- 観測データのみから、AI(LNN)が事前知識なしにハミルトニアン物理学に相当する理論を自律的に発見 (論文PDF)
- EleutherAI @ ICLR
- その他の研究
- Deep CogitoがIDA(Iterated Distillation and Amplification)という手法を用いた「Cogito V1」モデルのプレビュー版を公開
- Cephプロジェクトがllama.cppにKey/Valueストレージを追加し、ランタイムでの記号的推論フレームワーク構築を目指す
- Appleが差分プライバシーを用いた分散強化学習によるAIモデル改善のアプローチを発表。プライバシーに関する議論も
まとめ
今回は、特に動画生成モデルの一般公開とGPT-4.1ファミリーの登場という大きなニュースがありました。これらのモデルが開発者の手に渡ることで、どのような新しいアプリケーションやサービスが生まれるのか、非常に楽しみです。
また、小規模モデルの性能向上、開発ツールの進化、活発なコミュニティ活動、そしてAI自身が新たな発見をするような最先端の研究まで、AI分野全体のダイナミックな動きが感じられるニュースが満載でした。
今後もこれらの技術動向やコミュニティの動きに注目していきたいと思います。