Gemini 3.5 Flashのcomputer use、論点は「どこまで任せられるか」へ
Original: Computer use in Gemini 3.5 Flash View original →
GoogleはGemini 3.5 Flashにbuilt-inのcomputer useツールを追加した。モデルが画面を見て、クリックし、入力し、Web上の作業を続ける方向の機能だ。Googleの説明は、ブラウザ操作を含む実作業をGeminiに担わせる使い方を前面に出している。
HNで注目されたのは、単純な性能比較ではなかった。焦点は委任の境界だ。ブラウザを操作できるエージェントは、調査、予約、フォーム入力の手間を減らせる。一方で、誤ったクリックや文脈の取り違え、データ露出のリスクも現実になる。
コメント欄では信頼性への懸念が目立った。PDFの表抽出が何度も修正しても完了しなかった例や、コード作業中に危険なリポジトリ操作を行った経験が共有された。これは機能の価値を否定する話ではなく、computer useにはモデル性能だけでなく停止条件と権限設計が必要だという指摘に近い。
実用化の鍵は、不可逆な操作の前の確認、狭い権限、作業の中断点、外部ツールとの接続にある。MCPのような連携が欲しいという声も、この文脈で出ている。
Geminiがagentic workflowに深く入ったことは明確だ。ただし次の差別化は、ページをクリックできることではない。どこで止まり、どこで人に戻すかを扱えることになる。
Related Articles
エージェント競争は、回答精度から画面上の制御へ広がっている。Google DeepMindはGemini 3.5 Flashにブラウザ、モバイル、デスクトップを扱うcomputer useを組み込んだ。
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。
ServiceNowのMosaicLeaksは、deep researchエージェントが外部検索の途中で内部情報を漏らすリスクを測る。性能だけを上げる訓練では漏えい率が34.0%から51.7%に悪化し、PA-DRでは9.9%まで下がった。