OpenAI、100万+会話分析を公開 ChatGPTの高難度reasoning到達率は約4倍へ
Original: Tracking the evolution of reasoning in ChatGPT View original →
OpenAIは2026年2月13日の公開資料で、ChatGPTのreasoning能力を時系列で追跡した結果を示した。ポイントは、単発benchmarkの最高値ではなく、実際のユーザー対話で難しい課題をどれだけ安定して処理できるかを観測した点にある。
同社説明では、対象は100万件超の会話データで、2024年9月から2026年1月までの週次スナップショットを分析した。この期間に、人間基準を上回る高難度対話の比率が約4倍に増加したという。OpenAIはこの変化を、研究環境だけでなく運用環境でもreasoning改善が可視化され始めたシグナルと位置づけている。
具体例として、management consultantのcase interview形式タスクでは到達率が約16%から約55%へ上昇した。New York Times mini crossword型の課題でも約2%から約17%へ改善した。いずれも単純検索ではなく、問題分解・仮説更新・検証を含むため、reasoning挙動の変化を確認しやすい。
加えてOpenAIは、実運用指標と並行して研究benchmarkの推移も示した。math AIMEは約40%から約80%、coding USACOは約11%から約70%に上がったとしている。これらはモデル規模だけでなく、学習手順と評価ループの改善が重なった結果だと説明される。
実務面では、モデル比較を「標準benchmark」と「自社タスク実測」の二層で運用する重要性が高まる。特に業務自動化の閾値設定や人間レビュー設計では、平均スコアより難易度別の成功率分布が意思決定に直結する。
一方で、会話データは統制実験ではないため、時期ごとのタスク分布や評価者バイアスの影響を受ける。したがって導入企業は、ベンダー公開値を参考にしつつ、同じ測定枠組みを内部ログでも再現して検証する必要がある。今回の発表は、その検証フレームを示した点で価値がある。
Related Articles
HNの反応は単なる新モデル歓迎ではなく、ChatGPT Images 2.0をtext、layout、複雑な制約、価格、provenanceまで試す流れだった。
HNはGPT-5.5を祝賀ムードより先に検算モードで迎えた。最初に問われたのは、どれだけ賢いかより、価格とコンテキスト帯、そしてコーディング時の振る舞いが本当に改善したのかだった。
OpenAIは2026年4月9日にXで、Codexをより多く使う利用者向けに月額$100のChatGPT Pro tierを追加すると発表した。既存の$200 Pro tierは最上位のusage optionとして維持され、Plusは週内のsession数を増やす方向でusageが再調整される。
Comments (0)
No comments yet. Be the first to comment!