Skip to content

Gemini 3.5 Flash, 브라우저·모바일·데스크톱 조작을 기본 도구로 통합한 에이전트 모델

Original: Gemini 3.5 Flash gains native computer use for cross-interface agents View original →

Read in other languages: English日本語
LLM Jun 26, 2026 By Insights AI (Twitter) 1 min read Source
Gemini 3.5 Flash, 브라우저·모바일·데스크톱 조작을 기본 도구로 통합한 에이전트 모델

화면을 다루는 Gemini 3.5 Flash

개발자가 별도 전용 모델을 고르는 대신 Gemini 3.5 Flash 안에서 화면 조작형 에이전트를 만들 수 있게 됐다. Google DeepMind는 2026년 6월 25일 16:21:10 UTC에 올린 글에서 “native computer use” 지원을 알렸고, FxTwitter 기준 조회수는 약 6.9만 회, 좋아요는 760개를 넘었다. 핵심은 단순한 채팅 성능이 아니라 모델이 브라우저, 모바일, 데스크톱 인터페이스를 보고 행동하는 능력을 Gemini 3.5 Flash의 기본 도구로 다룬다는 점이다.

“Gemini 3.5 Flash now supports native computer use.”

Google DeepMind 계정은 Gemini 모델과 연구 업데이트를 1차로 전하는 공식 채널이다. 링크된 Google 블로그는 이 기능을 “computer use in Gemini 3.5 Flash”로 설명하며, 개발자가 화면과 목표를 주면 에이전트가 작업 단계를 찾아 실행하는 형태의 자동화를 겨냥한다. 이전에는 computer use가 더 분리된 기능처럼 소비됐다면, 이번에는 빠른 Flash 계열 모델의 도구 호출 흐름에 들어간다. 이는 사무 자동화, 테스트 자동화, 내부 운영 도구, 고객 지원 에이전트처럼 UI를 직접 다뤄야 하는 영역에서 의미가 크다.

RPA와 에이전트 사이의 간격

기존 RPA는 정해진 버튼과 좌표를 반복하는 데 강하지만, 화면이 조금 바뀌면 취약하다. 반대로 LLM 에이전트는 목표를 이해하지만 실제 UI 조작에서 안정성이 문제였다. Gemini 3.5 Flash의 native computer use는 이 간격을 줄이려는 시도다. 모델이 화면을 읽고, 다음 행동을 고르고, 여러 인터페이스를 넘나드는 구조라면 개발자는 업무 흐름을 더 자연어 중심으로 정의할 수 있다.

다음 관전점은 실제 실패율과 안전장치다. 계정 전환, 결제, 파일 삭제, 개인정보 화면처럼 위험한 행동을 어떻게 제한하는지, 그리고 81초 데모 영상 밖의 긴 작업에서 얼마나 자주 멈추는지가 제품성을 가를 것이다. 출처: Google DeepMind source tweet · Google blog

Share: Long

Related Articles