Gemini 3.5 Flash、画面操作を標準ツール化しagent開発をブラウザ・モバイル・デスクトップへ拡張

Geminiが画面操作へ踏み込む

開発者は専用モデルを別に選ぶのではなく、Gemini 3.5 Flashの中で画面操作型agentを構築できるようになる。Google DeepMindは2026年6月25日16:21:10 UTCの投稿で “native computer use” 対応を示し、FxTwitterでは収集時点で約6.9万views、760件超のlikesが確認できた。重要なのは会話性能ではなく、browser、mobile、desktop interfaceを見て行動する能力がFlash系モデルの標準toolとして扱われることだ。

“Gemini 3.5 Flash now supports native computer use.”

Google DeepMindのアカウントはGeminiと研究更新の一次チャネルであり、この投稿は公式情報として扱える。リンク先のGoogle blogは、Gemini 3.5 Flashのcomputer useを、画面と目標を与えられたagentが操作手順を組み立てるためのbuilt-in toolとして説明している。これは単発demoではなく、開発者stackの中心に近い位置へ置かれる変更だ。QA automation、社内運用、customer support、data entry、古い業務UIの自動化で意味を持つ。

RPAとagentの間にある問題

従来のRPAは既知の手順を繰り返すのに強いが、layoutやlabelが変わると壊れやすい。LLM agentは目的を理解できる一方、実際のUI制御では誤クリック、状態把握の失敗、guardrail不足が残る。Gemini 3.5 Flashのnative computer useは、その間を埋める試みだ。視覚状態を読み、次の操作を選び、agent loopの中で行動を呼び出せれば、開発者はworkflowをより目標中心に書ける。

次に見るべきなのは、demo外での安定性だ。task completion、誤操作からの復帰、latency、支払い・account変更・file削除・個人情報画面の制限が数字で必要になる。安全制御と失敗率が実務水準に届けば、computer useは特殊な自動化製品ではなく通常のtool callになる。出典: Google DeepMind source tweet · Google blog

Gemini 3.5 Flash、画面操作を標準ツール化しagent開発をブラウザ・モバイル・デスクトップへ拡張

Geminiが画面操作へ踏み込む

RPAとagentの間にある問題

Related Articles

Gemini 3.5 FlashがGA、Search自体がagent入口へ変化

研究エージェントの検索語が秘密を漏らす、MosaicLeaksの警告

Grok、Databricks Agent Bricksに入り企業データ向けエージェントの選択肢へ

Related Articles

Gemini 3.5 FlashがGA、Search自体がagent入口へ変化
LLM May 29, 2026 1 min read

研究エージェントの検索語が秘密を漏らす、MosaicLeaksの警告
ServiceNowのMosaicLeaksは、deep researchエージェントが外部検索の途中で内部情報を漏らすリスクを測る。性能だけを上げる訓練では漏えい率が34.0%から51.7%に悪化し、PA-DRでは9.9%まで下がった。

Grok、Databricks Agent Bricksに入り企業データ向けエージェントの選択肢へ
LLM X/Twitter Jun 19, 2026 1 min read