Gemini 3.5 Flash, 브라우저·모바일·데스크톱 조작을 기본 도구로 통합한 에이전트 모델
Original: Gemini 3.5 Flash gains native computer use for cross-interface agents View original →
화면을 다루는 Gemini 3.5 Flash
개발자가 별도 전용 모델을 고르는 대신 Gemini 3.5 Flash 안에서 화면 조작형 에이전트를 만들 수 있게 됐다. Google DeepMind는 2026년 6월 25일 16:21:10 UTC에 올린 글에서 “native computer use” 지원을 알렸고, FxTwitter 기준 조회수는 약 6.9만 회, 좋아요는 760개를 넘었다. 핵심은 단순한 채팅 성능이 아니라 모델이 브라우저, 모바일, 데스크톱 인터페이스를 보고 행동하는 능력을 Gemini 3.5 Flash의 기본 도구로 다룬다는 점이다.
“Gemini 3.5 Flash now supports native computer use.”
Google DeepMind 계정은 Gemini 모델과 연구 업데이트를 1차로 전하는 공식 채널이다. 링크된 Google 블로그는 이 기능을 “computer use in Gemini 3.5 Flash”로 설명하며, 개발자가 화면과 목표를 주면 에이전트가 작업 단계를 찾아 실행하는 형태의 자동화를 겨냥한다. 이전에는 computer use가 더 분리된 기능처럼 소비됐다면, 이번에는 빠른 Flash 계열 모델의 도구 호출 흐름에 들어간다. 이는 사무 자동화, 테스트 자동화, 내부 운영 도구, 고객 지원 에이전트처럼 UI를 직접 다뤄야 하는 영역에서 의미가 크다.
RPA와 에이전트 사이의 간격
기존 RPA는 정해진 버튼과 좌표를 반복하는 데 강하지만, 화면이 조금 바뀌면 취약하다. 반대로 LLM 에이전트는 목표를 이해하지만 실제 UI 조작에서 안정성이 문제였다. Gemini 3.5 Flash의 native computer use는 이 간격을 줄이려는 시도다. 모델이 화면을 읽고, 다음 행동을 고르고, 여러 인터페이스를 넘나드는 구조라면 개발자는 업무 흐름을 더 자연어 중심으로 정의할 수 있다.
다음 관전점은 실제 실패율과 안전장치다. 계정 전환, 결제, 파일 삭제, 개인정보 화면처럼 위험한 행동을 어떻게 제한하는지, 그리고 81초 데모 영상 밖의 긴 작업에서 얼마나 자주 멈추는지가 제품성을 가를 것이다. 출처: Google DeepMind source tweet · Google blog
Related Articles
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
ServiceNow 연구진은 로컬 문서와 웹 검색을 오가는 deep research 에이전트가 사내 정보를 검색어 조각으로 흘릴 수 있음을 보였다. PA-DR 훈련은 전체 정보 유출률을 34.0%에서 9.9%로 낮췄지만, 성능만 올리는 훈련은 유출을 키웠다.
xAI가 Grok 모델을 Databricks Agent Bricks에 넣으며 기업 데이터 플랫폼 안에서 바로 선택할 수 있는 모델 폭이 넓어졌다. Databricks는 OpenAI, Anthropic, Gemini, Qwen, Kimi와 함께 Grok을 단일 거버넌스 환경에 배치한다.