#gpt-5-5

RSSフィード

LLM X/Twitter May 28, 2026 1 min read

DeepSWEの113課題、GPT-5.5を70%・Claude Opus 4.7を54%に分離した新基準

DeepSWEは91リポジトリ横断の113課題で、コーディングエージェント評価をより長期作業寄りにした。初回結果はGPT-5.5が70.0%、Claude Opus 4.7が54.2%。

#deepswe #coding-agents #benchmark

AI May 17, 2026 1 min read

OpenAIがGPT-5.5-CyberをEUに開放、AnthropicはMythosへのアクセスを制限継続

OpenAIは欧州のサイバーセキュリティチームにGPT-5.5-Cyberへのアクセスを提供するEUサイバーアクションプランを発表。一方、AnthropicはMythosモデルの悪用リスクを理由にEUへの提供を見送っている。

#openai #cybersecurity #eu

LLM Apr 27, 2026 1 min read

GitHub CopilotにGPT-5.5　7.5倍課金で試される導入判断

GitHubはGPT-5.5をCopilotの各面に広げ始め、最新モデルの話を開発現場の選択肢へ変えた。対象はPro+、Business、Enterpriseで、利用には7.5倍のプレミアム課金と管理者設定が付く。

#github #copilot #gpt-5-5

LLM Apr 26, 2026 1 min read

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。

#cursor #gpt-5-5 #benchmarks

LLM Hacker News Apr 26, 2026 1 min read

GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動

HNはGPT-5.5を祝賀ムードより先に検算モードで迎えた。最初に問われたのは、どれだけ賢いかより、価格とコンテキスト帯、そしてコーディング時の振る舞いが本当に改善したのかだった。

#openai #gpt-5-5 #api

AI X/Twitter Apr 25, 2026 1 min read

GPT-5.5、開発者向けAPI入りで1M contextと再試行削減を複雑な実務現場へ本格展開する

重要なのは、旗艦modelが製品デモから実装対象へ変わったことだ。OpenAIのdeveloper accountはretry削減を強調し、公式release pageは1M contextと新しいAPI pricingを示している。

#openai #api #gpt-5-5

AI X/Twitter Apr 25, 2026 1 min read

GitHub Copilot、複雑なagentic coding向けにGPT-5.5の本格展開が始まる

重要なのは、新しいmodelが開発者の常用toolへ入ってきたことだ。GitHubはGPT-5.5が複雑なmulti-step codingで最も強いとし、rolloutには7.5倍のpremium request multiplierが付くと示した。

#github #copilot #gpt-5-5

LLM X/Twitter Apr 25, 2026 1 min read

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。

#openai #gpt-5-5 #codex

LLM X/Twitter Apr 23, 2026 1 min read

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ

重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20％高くなったと述べた。

#gpt-5-5 #artificial-analysis #benchmarks