OpenAI、検証付き修正提案まで行うCodex Securityをresearch preview公開
Original: We're introducing Codex Security. An application security agent that helps you secure your codebase by finding vulnerabilities, validating them, and proposing fixes you can review and patch. Now, teams can focus on the vulnerabilities that matter and ship code faster. View original →
X投稿で明らかになった内容
OpenAI Developersは2026年3月6日、Codex Securityをresearch previewとして公開した。X投稿では、コードベースの脆弱性を見つけ、実際に検証し、チームがレビューできる修正案まで提示するapplication security agentとして説明している。単なるcoding agentの派生ではなく、発見からremediationまでの実務フローを直接狙った製品だと位置付けている点が重要だ。
リンク先のOpenAI Help Centerには、より具体的な運用像が示されている。Codex Securityは現時点でGitHubリポジトリに直接接続し、コードベース固有のthreat modelを構築し、repository historyをスキャンし、隔離環境で候補となる問題を検証したうえで、人間が確認できるpatch案を提示する。OpenAIはこの流れをidentification、validation、remediationの3段階に整理している。
従来のscannerとどこが違うのか
資料で最も目立つのは、Codex Securityがtraditional scannerではなくsecurity researcherのように振る舞うよう設計されているという説明だ。OpenAIによれば、このシステムは単に静的ルールでコードを読むのではなく、コードを理解し、テストを実行し、現実的なattack pathを探索し、表に出す前に再現も試みる。さらに、fuzzingやsignature-based scanningだけに依存せず、language-model reasoning、tool use、test-time compute、large contextを使うとしている。
これはAppSecチームにとって実務的な意味が大きい。多くの組織では、検知数そのものより、どのアラートが本当にexploitableなのかを見極め、安全な修正案まで持っていく工程がボトルネックになっている。Codex Securityはremediationの前にvalidationを置き、最終的な修正案も自動適用せずhuman reviewに残すことで、false positiveの負荷を減らそうとしている。
導入前に見るべき点
一方で制約も明確だ。OpenAIは、Codex Securityがコミットを新しい順にさかのぼってスキャンし、チームが確認・編集できるthreat modelを使い、コードを自動で変更しないと説明している。EnterpriseとEduではChatGPT workspace permissionsやrole-based access controlsでも利用範囲を管理できる。つまり、自律的にmergeするセキュリティbotではなく、レビュー可能なworkflow layerとして提供されている。
最終的な評価を分けるのはvalidationの精度だろう。この段階が大規模リポジトリでも意味のある欠陥を安定して絞り込み、ノイズを十分に下げられるなら、セキュリティチームとplatform teamにとっては、検知よりtriageとremediationを速める道具になり得る。逆に信頼性が低ければ、既存のダッシュボードを増やすだけに終わる可能性もある。
Related Articles
OpenAIDevsは2026年3月29日、Codex Securityを取り上げ、接続されたGitHub repositoryで有力な脆弱性を見つけ、検証し、remediationにつなげる流れを示した。OpenAIの文書によると、この仕組みはcommit単位でrepositoryを走査し、repo-specific threat modelと実コード文脈を使い、高信号のfindingをisolated environmentで検証した上でGitHub PR作成へ進められる。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
OpenAIが前に出したのは単なる性能更新ではない。Terminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%を示しつつ、GPT-5.4級のレイテンシーを保つとして、長い作業を任せるコーディングエージェントの基準を押し上げた。
Comments (0)
No comments yet. Be the first to comment!