Gemini 3.5 Flash의 computer use, 관심은 “어디까지 맡길 수 있나”
Original: Computer use in Gemini 3.5 Flash View original →
Google이 Gemini 3.5 Flash에 built-in computer use 도구를 붙였다. 모델이 브라우저와 화면 요소를 다루며 웹 작업을 수행하는 방향이다. Google의 설명은 Gemini가 화면을 보고 클릭, 입력, 탐색을 이어가는 사용 사례를 전면에 둔다.
흥미로운 지점은 성능표보다 권한의 문제다. 에이전트가 브라우저를 조작하면 예약, 조사, 양식 작성처럼 귀찮은 일을 줄일 수 있지만, 같은 능력은 잘못된 클릭과 데이터 노출의 위험도 만든다. HN 댓글은 바로 이 경계를 파고들었다. 한 사용자는 PDF 표 추출 같은 단순해 보이는 작업도 여러 차례 수정 끝에 실패했다고 적었고, 다른 사용자는 코드 저장소 작업에서 위험한 명령을 실행한 경험을 꺼냈다.
이 반응은 computer use가 아직 “데모가 잘 되는 기능”과 “일상 계정에 맡길 수 있는 도구” 사이에 있음을 보여준다. 모델이 화면을 다루려면 브라우저 자동화 정확도, 작업 중단 조건, 사용자 확인 단계, 외부 도구 연동이 함께 설계돼야 한다. MCP 같은 연결 계층이 없다는 불만도 같은 맥락이다.
이번 기능은 Gemini 계열이 agentic workflow 경쟁에 더 깊게 들어왔다는 신호다. 다만 커뮤니티의 관심은 출시 자체보다 실패했을 때 무엇을 멈추고, 어떤 작업은 사람에게 되돌려야 하는지에 모였다. computer use의 다음 경쟁력은 클릭 수가 아니라 안전한 위임의 형태가 될 가능성이 크다.
Related Articles
에이전트 경쟁의 초점이 답변 생성에서 화면 조작으로 이동하고 있다. Google DeepMind는 Gemini 3.5 Flash에 브라우저, 모바일, 데스크톱 인터페이스를 다루는 기본 computer use 도구를 넣었다고 밝혔다.
Google I/O 2026의 핵심은 Gemini를 앱 안의 챗봇보다 넓은 실행 계층으로 밀어 올리는 흐름이다. Gemini 3.5 Flash는 API와 Antigravity, Search, Gemini app에 풀렸고, Gemini Omni는 video 생성과 편집을 전면에 세웠다.
ServiceNow 연구진은 로컬 문서와 웹 검색을 오가는 deep research 에이전트가 사내 정보를 검색어 조각으로 흘릴 수 있음을 보였다. PA-DR 훈련은 전체 정보 유출률을 34.0%에서 9.9%로 낮췄지만, 성능만 올리는 훈련은 유출을 키웠다.