Gemini 3.5 Flash、画面操作を標準ツール化しagent開発をブラウザ・モバイル・デスクトップへ拡張
Original: Gemini 3.5 Flash gains native computer use for cross-interface agents View original →
Geminiが画面操作へ踏み込む
開発者は専用モデルを別に選ぶのではなく、Gemini 3.5 Flashの中で画面操作型agentを構築できるようになる。Google DeepMindは2026年6月25日16:21:10 UTCの投稿で “native computer use” 対応を示し、FxTwitterでは収集時点で約6.9万views、760件超のlikesが確認できた。重要なのは会話性能ではなく、browser、mobile、desktop interfaceを見て行動する能力がFlash系モデルの標準toolとして扱われることだ。
“Gemini 3.5 Flash now supports native computer use.”
Google DeepMindのアカウントはGeminiと研究更新の一次チャネルであり、この投稿は公式情報として扱える。リンク先のGoogle blogは、Gemini 3.5 Flashのcomputer useを、画面と目標を与えられたagentが操作手順を組み立てるためのbuilt-in toolとして説明している。これは単発demoではなく、開発者stackの中心に近い位置へ置かれる変更だ。QA automation、社内運用、customer support、data entry、古い業務UIの自動化で意味を持つ。
RPAとagentの間にある問題
従来のRPAは既知の手順を繰り返すのに強いが、layoutやlabelが変わると壊れやすい。LLM agentは目的を理解できる一方、実際のUI制御では誤クリック、状態把握の失敗、guardrail不足が残る。Gemini 3.5 Flashのnative computer useは、その間を埋める試みだ。視覚状態を読み、次の操作を選び、agent loopの中で行動を呼び出せれば、開発者はworkflowをより目標中心に書ける。
次に見るべきなのは、demo外での安定性だ。task completion、誤操作からの復帰、latency、支払い・account変更・file削除・個人情報画面の制限が数字で必要になる。安全制御と失敗率が実務水準に届けば、computer useは特殊な自動化製品ではなく通常のtool callになる。出典: Google DeepMind source tweet · Google blog
Related Articles
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。
ServiceNowのMosaicLeaksは、deep researchエージェントが外部検索の途中で内部情報を漏らすリスクを測る。性能だけを上げる訓練では漏えい率が34.0%から51.7%に悪化し、PA-DRでは9.9%まで下がった。
xAIはGrokモデルをDatabricks Agent Bricksで利用可能にし、企業データ基盤内でのモデル選択肢を広げた。OpenAI、Anthropic、Gemini、Qwen、Kimiと並ぶ形で、統制されたエージェント環境に入る。