Safari MCP server、ブラウザ確認をagentの作業ループへ

Safari Technology Preview 247にSafari MCP serverが入った。WebKitの説明では、これはWeb開発者向けのModel Context Protocol serverで、コーディングagentがSafariのブラウザウィンドウに接続し、実際に表示されたページを確認できるようにするものだ。

扱える情報はDOM、ネットワーク要求、スクリーンショット、コンソール出力、JavaScript評価、ページ内容、タブ、ダイアログ、パフォーマンス指標などに広がる。開発者が通常ブラウザとエディタを行き来して集める材料を、agentが直接取得できる形にする。Safari固有の表示崩れや挙動を確認する経路としても意味がある。

HNの議論では、Chrome DevTools MCP、Firefox系の取り組み、Playwright、既存のsafaridriverとの比較が目立った。重要なのは、ブラウザ操作が単なる自動化スクリプトではなく、agentが呼び出せるプロトコルの競争になり始めたことだ。MCPはツール一覧と返答形式をそろえ、LLMクライアントが検証を反復しやすくする。

短期的な価値は、完全自動のWeb開発よりも確認作業の密度にある。フォーム状態、レイアウト、コンソールエラー、アクセシビリティの抜けをagentがSafari上で見られるなら、人間が説明し直す回数は減る。主要ブラウザがagentに検証可能な情報を出し始めたこと自体が、開発環境の変化を示している。

LLM 3d ago 1 min read

Claude Sonnet 5、Opus級agent性能をFree/Pro標準へ

Sonnet級モデルが、より高価なOpus系に近いagent作業を日常プランへ持ち込む。Free/Proの標準モデルとなり、APIでは8月31日まで入力100万tokenあたり$2、出力100万tokenあたり$10で提供される。

#anthropic #claude #agents

LLM X/Twitter Jun 27, 2026 1 min read

OpenAI社内のCodex利用、長時間・部門横断型agent作業へ拡大

agentic toolはcoding demoから社内業務の運用層へ入りつつある。OpenAIはCodexが全社で、より複雑で長時間の部門横断作業に使われていると説明し、投稿はFxTwitterで約112万viewsを集めた。

#openai #codex #agents

LLM 1d ago 1 min read

SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習

agent改善は必ずしも新モデルやfine-tuningではない。Microsoft ResearchのSkillOptはGPT-5.5 direct chatの6 benchmark平均を58.8から82.3へ上げ、52評価セルすべてで最高または同率最高だった。

#microsoft-research #agents #skillopt

Related Articles

Claude Sonnet 5、Opus級agent性能をFree/Pro標準へ

OpenAI社内のCodex利用、長時間・部門横断型agent作業へ拡大

SkillOpt、重みを変えずagent scoreを23.5pt押し上げるskill学習