Warning
AIEWF2025開催間近 GeminiとOpenAI新展開も
今年もAIエンジニアリング界隈が熱い季節がやってきました。昨年大きな注目を集めた「AI Engineer World’s Fair (AIEWF)」が、2025年も開催されます。今回は規模を2倍に拡大し、さらに充実した内容となるようです。この記事では、AIEWF2025の概要と、あわせて最近話題になっているAIモデルやツールの動向についてまとめてみます。
AI Engineer World’s Fair 2025 (AIEWF 2025) の詳細
AI Engineer World’s Fair 2025 は、AIエンジニアリングに特化した大規模カンファレンスです。昨年の成功を受け、今年はさらにパワーアップしています。
- 開催概要
- 日程: 6月3日から5日
- 場所: サンフランシスコ
- 規模: 昨年の2倍、18トラックに拡大
- 注目のトラック
- RAG関連: より専門深化
- Retrieval + Search: LLMとウェブ検索の統合を背景に
- GraphRAG: Neo4Jが昨年の人気トークをさらに発展
- RecSys: Eugene Yan氏がホスト
- エージェント関連: 2025年はエージェントの年
- SWE-Agents
- Agent Reliability
- Reasoning + RL
- マルチモーダル関連: より専門特化
- Voice AI: リアルタイム音声APIなど
- Generative Media: 画像・動画生成
- 新設トラック
- Infrastructure
- Security
- Evals: Braintrustなどが参加
- リーダーシップ関連
- AI Architects
- AI in the Fortune 500: エンタープライズでのAI導入事例
- 新しい方向性
- MCP (Model Context Protocol): 最も応募が殺到したトラック
- Tiny Teams: 少人数で高収益を上げる企業
- Product Management for AI
- Design Engineering for AI
- Robotics and Autonomy: Waymo、Tesla、Googleなどからの新情報も
- Hallway Track: 最も重要な非公式トラック、ネットワーキングの場
- RAG関連: より専門深化
- AI News読者向け割引
- コード
AINEWS
を利用すると、早期割引価格でチケットを購入可能 (割引リンク)- 割引は金曜日EODまで
- コード
新モデル動向
AIEWFでも議論の中心となるであろう、最新のAIモデルの動向を見ていきましょう。
Google Gemini 2.5 Pro
GoogleのGemini 2.5 Proは、特にコーディング性能で目覚ましい進化を見せています。
- コーディング性能No.1
- LMArenaのCoding部門で1位
- WebDev Arena Leaderboardでも1位を獲得し、Claudeを初めて上回る
- 機能向上
- 自然の画像からコードを生成
- コード変換、編集、複雑なエージェント開発能力が向上
- Livebenchの結果では、データ分析で大幅な改善、数学でわずかな後退
- Clineでの活用では、フロントエンドWeb開発や関数呼び出しで特に有効性が報告されている
- Absolute Zero Reasoner (AZR)
- 言語モデルが自己生成タスクを通じて自身の学習を最適化する新しいパラダイム (論文)
- 外部の人間がキュレーションしたデータを必要とせず、コーディングや数学的推論のベンチマークでSOTAを達成
OpenAIの動き
OpenAI周辺では、大型買収のニュースや主力モデルに関するユーザーの声が注目されています。
- Windsurf買収報道
- AIコーディングエージェントのスタートアップWindsurfを約30億ドルで買収合意と報道
- Windsurfは多モデル対応のオープンソースコーディングエージェントで知られる
- 買収によりOpenAIモデルへの偏りが生じ、エコシステムの多様性やオープン性が損なわれる懸念も
- GPT-4oの性能評価
- DiscordのOpenAIチャンネルでは、GPT-4oの性能が低下したのではないかというユーザーの声が上がっている
- 「ランダムでトピック外の応答をする」「全体的に質が低下した」などの意見が見られる一方で、「素晴らしい動作だ」という声も
- DiscordのOpenAIチャンネルでは、GPT-4oの性能が低下したのではないかというユーザーの声が上がっている
その他注目モデル
- Qwen 3
- DiscordのLM Studioチャンネルなどで、コーディングタスクにおいてGemini 2.5 Proよりも優れているとの報告
- 指示を正確に守り、機能的なコードを生成する点で評価
- DiscordのLM Studioチャンネルなどで、コーディングタスクにおいてGemini 2.5 Proよりも優れているとの報告
- Mistral Medium 3
- Mistralが新モデルMistral Medium 3をリリース
- 評価は「役に立たない」から「クリエイティブライティングには良いかも」まで様々
- DeepSeek v3と比較してコストパフォーマンスで劣るという意見も
- ACE-Step
- Apacheライセンスのオープンソース音楽生成モデル (Github, HuggingFace)
- 高速推論(RTX 4070で3分間の音楽を34秒で生成)とファインチューニング可能性が特徴
- 音質はSunoやUdioに及ばないものの、ローカルでの高速生成能力は評価
- LTXV 13B
- Lightricksがリリースしたオープンソースの13Bパラメータ動画生成モデル (GitHub)
- マルチスケールレンダリングにより高効率・高リアリティを実現し、同等モデル比で約30倍高速と主張
- キーフレーム、カメラ制御など高度なコントロールに対応し、商用利用も可能
- Apple FastVLM: Apple ML Researchがコードとモデルを公開したMLX実装のVLM (詳細)
- Nvidia Parakeet ASR: NvidiaのSOTA音声認識モデルのMLX実装 (詳細)
- Meta Perception Models: Metaが発表した視覚言語モデルPLMと視覚エンコーダ (PLM詳細, Encoder詳細)
開発ツール・プラットフォームの進化
AI開発を支えるツールやプラットフォームも日々進化しています。
コーディング支援
- Cursor: 学生向けに無料化
- ただし、Discordでは学生割引の認証や請求に関する問題が報告されている
- Cline: Plan & Actモードや、プロジェクト標準をキャプチャする
/newrule
コマンドを導入
MaaS (Model as a Service) とエコシステム
- OpenRouter: Cerebrasを新たなプロバイダーとして追加
- Cerebrasは4兆トランジスタ、40GBオンチップメモリを搭載した巨大チップを誇る
- アクティビティページにデータエクスポート機能も近日追加予定
- ComfyUI API Nodes: SOTAの外部モデルAPIをネイティブ統合(有料オプション)
- Bfl FLUX, Kling, Luma, Stability AI, Google Veoなど多数対応
データ・評価
- LangSmith: 画像、PDF、音声ファイルをサポートし、マルチモーダルアプリの構築・評価を容易に
- Epoch AI Benchmarking Hub: Aider Polyglotなど4つの新ベンチマークを追加
- RAG (Retrieval Augmented Generation): エンタープライズLLMのNo.1ユースケースとして依然として重要
- Dolphin-Math Datagen: 数学問題生成ツール
- LLMベンチマークの信頼性: モデルがベンチマークデータで学習されている可能性(データ汚染)が指摘され、結果の解釈には注意が必要との議論が継続
ハードウェア・最適化
- Cerebras vs Groq: 大規模モデルのホスティングにおける両社の比較議論が活発
- 量子化: PyTorchがTorchAO経由で量子化されたPhi-4 Mini Instructモデルをリリース
- vLLM (INT4/FP8) や ExecuTorch (INT8/INT4) に最適化され、メモリ削減と速度向上を実現
- iPhone 15 Proで17.3トークン/秒を達成
- モデル圧縮: FLUX.1モデルをDFloat11で圧縮
- 約30%のサイズ削減を実現し、20GB VRAM搭載GPUでのロスレス実行を可能に
画像・動画・3D生成技術
クリエイティブ分野でもAIの進化は止まりません。
- LTXV 13B LoRA: ユーザーがLTXV 13B動画モデルのLoRAアダプタを学習・公開 (CivitAI)
- H100 GPUで約1時間、22の動画サンプルで学習
- SamsungCam UltraReal - Flux Lora: Samsung風の写真リアリズムを再現するLoRA
- Fluxベースモデル向けで、肌の質感や色彩を改善
- OSS/無料ツールでの動画生成: ComfyUI、Flux Turbo、Wan2.2、Sunoなどを組み合わせた動画生成パイプラインの報告
- Insert Anything: 参照オブジェクトを画像にシームレスに挿入するAI編集フレームワーク (HF Space, GitHub)
- 約26GBのVRAMが必要との報告も
- ZenCtrl: 被写体の一貫性を向上させた画像生成モデルのソースコードが公開 (GitHub, [HF Demo])
- SynCity: 単一のテキストプロンプトから3Dワールド全体をトレーニングなしで生成する研究プロジェクトとコードベース
AIエージェントと自動化
自律的にタスクを実行するAIエージェントも主要な開発テーマです。
- AIEWFでのエージェント関連トラック: SWE-Agents、Agent Reliability、Reasoning + RLなどが注目
- LlamaIndex: AgentWorkflowを使用したDeep Researchエージェント構築ワークショップを公開
- Aider: Perplexity APIキーをOpenAI互換エンドポイントとして使用したり、
/web
コマンドで手動でウェブページコンテンツを追加することで、Aiderにウェブ検索機能を持たせる試みが議論されている - AIエージェントハッカソン: LLM Agents MOOCがAuth0(最大5,000ドル)やLambda(最大1,000ドルクレジット)提供のハッカソンを発表 (Lambda AgentX Workshop登録)
業界動向と議論
AI分野全体の大きな動きや、専門家による議論も活発です。
- Stargate AIトレーニング施設: Sam Altman氏がOracleと提携し、世界最大のAIトレーニング施設となる最初のStargateの進捗を共有
- GoogleのRedditコンテンツ利用: GoogleがRedditコンテンツをAI学習に利用する権利を購入したことについて、その実質的な影響(多くのAIラボは既にスクレイピング済み)について議論がある
- AIによるGoogle検索ビジネスへの影響: Safariブラウザでの検索量減少に関連してGoogleの株価が下落したことなどを受け、AIアシスタントがGoogleの検索広告収益に与える影響が議論されている
- OpenAIのビジネスAIサブスクリプションシェア: Ramp.comの法人カードデータによると、OpenAIが米国のビジネス向けAIサブスクリプション支出の80%を占めている
- 専門家の視点
- Andrej Karpathy氏: 学部時代にコンピューティングの数学的側面(計算可能性、漸近的計算量など)に偏重し、物理的側面(エネルギー、データ局所性、並列処理、アーキテクチャ)への理解が不足していたことを後悔。後者が力を与えると指摘。
- Aidan Clark氏: LLM研究者は、事前学習と事後学習(ファインチューニングなど)のどちらか一方だけでなく、両方の分野での経験を積むべきだと主張。
まとめ
AI Engineer World’s Fair 2025は、AIエンジニアリングの最前線を知る絶好の機会となりそうです。そして、Google Gemini 2.5 Proのコーディング能力の飛躍や、OpenAIによるWindsurf買収の動きなど、大手プレイヤーによる開発競争はますます激化しています。一方で、Qwen 3やMistral Medium 3といった新興勢力の台頭、ACE-StepやLTXV 13Bのような特定用途に特化したオープンソースモデルの登場も見逃せません。
開発ツールやプラットフォームも、コーディング支援からMaaS、データ評価、ハードウェア最適化に至るまで、急速な進化を遂げています。特に、AIエージェント技術は実用化に向けた動きが加速しており、AIEWFでも主要なテーマの一つとなるでしょう。
技術の進歩は目覚ましく、コミュニティも活発に情報を交換し、新たなツールやテクニックを生み出し続けています。今後の動向にも引き続き注目していきましょう。