OpenAI、100万+会話分析を公開 ChatGPTの高難度reasoning到達率は約4倍へ
Original: Tracking the evolution of reasoning in ChatGPT View original →
OpenAIは2026年2月13日の公開資料で、ChatGPTのreasoning能力を時系列で追跡した結果を示した。ポイントは、単発benchmarkの最高値ではなく、実際のユーザー対話で難しい課題をどれだけ安定して処理できるかを観測した点にある。
同社説明では、対象は100万件超の会話データで、2024年9月から2026年1月までの週次スナップショットを分析した。この期間に、人間基準を上回る高難度対話の比率が約4倍に増加したという。OpenAIはこの変化を、研究環境だけでなく運用環境でもreasoning改善が可視化され始めたシグナルと位置づけている。
具体例として、management consultantのcase interview形式タスクでは到達率が約16%から約55%へ上昇した。New York Times mini crossword型の課題でも約2%から約17%へ改善した。いずれも単純検索ではなく、問題分解・仮説更新・検証を含むため、reasoning挙動の変化を確認しやすい。
加えてOpenAIは、実運用指標と並行して研究benchmarkの推移も示した。math AIMEは約40%から約80%、coding USACOは約11%から約70%に上がったとしている。これらはモデル規模だけでなく、学習手順と評価ループの改善が重なった結果だと説明される。
実務面では、モデル比較を「標準benchmark」と「自社タスク実測」の二層で運用する重要性が高まる。特に業務自動化の閾値設定や人間レビュー設計では、平均スコアより難易度別の成功率分布が意思決定に直結する。
一方で、会話データは統制実験ではないため、時期ごとのタスク分布や評価者バイアスの影響を受ける。したがって導入企業は、ベンダー公開値を参考にしつつ、同じ測定枠組みを内部ログでも再現して検証する必要がある。今回の発表は、その検証フレームを示した点で価値がある。
Related Articles
OpenAIは2026年3月5日にChatGPT for Excelを公開した。対象は有料ChatGPTユーザーで、表計算内の分析・数式生成に加え、金融データ連携を通じて規制産業の実務導入を狙う。
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
OpenAIはGPT-5.4 ThinkingをChatGPTに、GPT-5.4をAPIとCodexに、GPT-5.4 ProをChatGPTとAPIに投入した。reasoning、coding、native computer useを最大1M-token contextと合わせて1つのprofessional-work modelにまとめた点が重要だ。
Comments (0)
No comments yet. Be the first to comment!