Warning
OpenAIが新しいモデルファミリー「GPT-4.1」を発表しましたね! GPT-4.1、GPT-4.1 mini、そしてGPT-4.1 nanoの3つのモデルがAPIで利用可能になったとのことです。
今回のアップデートでは、特にコーディング能力、指示への追従性、そして長文コンテキストの処理能力が向上したとされています。開発者にとってはかなり気になるアップデートではないでしょうか。
GPT-4.1 ファミリーってどんな感じ?
今回発表されたのは、以下の3つのモデルです。
- GPT-4.1: フラッグシップモデル。複雑なタスク、コーディング、長文コンテキスト(最大100万トークン!)に強い
- GPT-4.1 mini: GPT-4oに匹敵する能力を持ちつつ、より高速で安価
- GPT-4.1 nano: 最も高速かつ低コスト。0.40/1M出力という価格設定
- キャッシュ利用時は入力$0.03/1M
具体的な改善点
OpenAIによると、GPT-4.1はGPT-4oと比較していくつかの点で改善が見られるようです。
- コーディング能力: 特にフロントエンド開発スキルが向上し、ツールの利用もより信頼性が高くなった
- SWE-Bench Verifiedで54-55%のスコアを達成したという報告も (@kevinweil, @polynoamial)
- Windsurf AIの内部ベンチマークでは、GPT-4oに対して60%改善、不要なファイルの読み取りを40%削減、不要なファイルの変更を70%削減したとのこと (@omarsar0)
- 指示への追従性: 指定されたフォーマットの遵守、否定的な指示(〜しないで)の理解、指示された順序の維持などがより正確になった (@OpenAIDevs)
- 長文コンテキスト: 最大100万トークンのコンテキストウィンドウを処理可能
OpenAIは新しいプロンプティングガイドとCookbookも公開しています。
また、この発表に合わせてLatent Spaceで新しいインタビュー動画も公開されています。
GPT-4.5 Previewは廃止へ
今回のGPT-4.1リリースに伴い、APIで提供されていたGPT-4.5 Previewは廃止されることになりました。OpenAIによると、GPT-4.1が同等以上の性能を提供するためとのことです。2025年7月14日には完全に利用できなくなります (@OpenAIDevs)。
開発ツールやサービスの対応状況
新しいモデルが登場すると、関連するツールやサービスの対応が気になりますよね。今回も素早い動きが見られました。
- Cursor: GPT-4.1を即座に追加し、当面は無料で提供すると発表 (Xのポスト)。Cursor Communityでは、GPT-4.1が新しい標準になり、Gemini 2.5 ProのUIデザイン能力も高く評価されているようです。
- Windsurf AI: GPT-4.1をデフォルトモデルにし、1週間限定で無料無制限利用を提供。その後も割引価格で提供予定とのこと (@windsurf_ai)。
- OpenRouter: GPT-4.1、Mini、Nanoを迅速に追加。以前テスト提供していたOptimus AlphaとQuasar AlphaがGPT-4.1の初期バージョンだったことも明らかに (OpenRouter Announcements)。
- LlamaIndex: Day 0でGPT-4.1 APIをサポート開始 (
llama-index-llms-openai
経由) (@llama_index)。 - Aider: バージョン0.82.0でGPT-4.1をサポート。OpenAIの新しい
patch
編集フォーマットにも対応したようです (Aider History)。
各ツールでの使い勝手やパフォーマンスがどう変わるか、試してみるのが楽しみですね。
競合モデルも活発
OpenAIの動きに合わせて、他のAI企業やプロジェクトも活発に動いています。
- Google Gemini: Gemini 2.5 Proは高い評価を得ており、特にデバッグ、リファクタリング、大規模コードベースの理解に優れているとの声があります (@omarsar0)。UIデザイン能力も「insane」と評されています。一方で、ツール呼び出し機能がnerfされた(弱体化された)という報告や、長文プロンプトの割引終了など、変化も見られます。Gemini 2.0 Flashも低価格で登場しています。
- Meta Llama 4: ネイティブマルチモーダル対応、最大1000万トークンのコンテキストウィンドウを持つLlama 4ファミリー(Scout, Maverick, Behemoth)がオープンソースでリリースされました (@adcock_brett)。MaverickはGPT-4oのベンチマークを超えるとも言われています。
- DeepSeek: 推論エンジンの一部をオープンソースコミュニティに貢献することを発表 (GitHub)。また、効率的な14Bパラメータで高性能なコーディング能力を持つDeepCoderも注目されています。
- Nvidia: LlamaベースのNemotron-Ultra (253B)をリリース。DeepSeek R1やLlama 4 Behemoth/Maverickを上回る性能を持つオープンソースモデルとされています (@adcock_brett)。
- その他: Mistralの長文モデル、GLM-4の新モデル(特に9Bモデル)、プログラミング言語Lean向けのKimina-Proverなども登場しています。
モデル間の競争はますます激しくなっていますね。
その他の注目トピック
今回の発表周辺では、他にもいくつか興味深い動きがありました。
- OpenAIの科学的発見支援モデル: OpenAIが「o3」や「o4-mini」と呼ばれる新しい推論モデルを準備中で、これらが科学的なアイデアを自律的に生み出す能力を持つ可能性があるという噂があります (The Information)。
- ロボティクス: Hugging FaceがオープンソースロボットメーカーのPollen Roboticsを買収 (@ben_burtenshaw)。SamsungがGoogle Geminiを搭載した家庭用ロボット「Ballie」を発表 (@adcock_brett)。
- AI研究: 事前学習中に「Reflection(自己反省)」能力が現れるという研究や、強化学習が推論モデルの応答を長くする傾向についての研究などが発表されています。
AIの進化は本当に止まらないですね。
まとめ
GPT-4.1ファミリーの登場は、開発者にとって選択肢が増え、より高性能なモデルをより安価に利用できる可能性を示唆しています。特にコーディング能力の向上は多くの開発現場で歓迎されるでしょう。
APIでの提供が中心となるため、ChatGPTでの直接的な体験は限定的かもしれませんが、CursorやWindsurf AIなどのツールを通じて、その実力を試すことができます。
一方で、GeminiやLlama、DeepSeekなども進化を続けており、どのモデルが特定のタスクに最適なのか、引き続き注目していく必要がありそうです。今後のAIエコシステムの発展がますます楽しみですね!