Perplexity, Perplexity Computer에 Voice Mode 추가
Original: Perplexity adds Voice Mode to Perplexity Computer for spoken agent steering View original →
Perplexity가 발표한 내용
Perplexity는 2026년 3월 4일 Voice Mode를 Perplexity Computer에 넣는다고 발표하며, 이제 말로 지시하고 실제 작업을 진행할 수 있다고 설명했다. 겉으로는 단순한 interface update처럼 보이지만 의미는 더 크다. Perplexity Computer가 원래 긴 multi-step task를 처리하도록 설계된 agent system인 만큼, 사용자가 중간 수정 사항을 다시 타이핑하지 않고 음성으로 바로 개입할 수 있게 되기 때문이다.
changelog가 덧붙인 내용
Perplexity의 3월 6일 changelog는 Voice Mode가 Comet에 쓰이던 동일한 voice stack을 기반으로, web의 Computer 안에 직접 들어왔다고 설명한다. 회사가 제시한 핵심 시나리오는 spoken project control이다. 처음부터 과제를 말로 설명하거나, 실행 도중 피드백을 주거나, 작업 방향을 중간에 바꾸는 일을 keyboard 없이 처리할 수 있다는 것이다. 예시도 실무형이다. landing page를 만들게 하거나, financial analysis를 돌리거나, 이미 진행 중인 chart를 수정하게 하는 식이다.
이 점은 Perplexity Computer가 단순 voice assistant가 아니라는 사실과 연결된다. Computer는 research, coding, analysis, deliverable 생성을 하나의 긴 작업 세션으로 묶는 product로 포지셔닝된다. 그래서 Voice Mode는 novelty interface라기보다, 이미 web tools와 연결 서비스 위에서 움직이고 있는 agent를 조정하는 추가 control surface에 가깝다.
왜 중요한가
더 큰 흐름에서 보면 음성 interaction이 단순 질의응답에서 live workflow management로 이동하고 있다는 뜻이다. 사용자가 실행 중인 agent를 말로 다시 조정할 수 있으면, 계획과 실행 사이의 handoff가 훨씬 덜 끊기고 더 대화형이 된다. 앞으로 agent product 경쟁에서는 underlying model 못지않게, 사람이 얼마나 빨리 개입하고 수정하고 반복할 수 있는지가 usability를 가를 가능성이 크다.
Related Articles
Perplexity는 2026년 3월 31일 leading-edge AI system의 security, trustworthiness, practical defense를 연구하는 Secure Intelligence Institute를 출범한다고 밝혔다. Institute 페이지는 이 작업이 수백만 사용자와 수천 enterprise를 지원한 운영 경험에 기반하며, Purdue의 Ninghui Li 교수가 이끌고 BrowseSafe와 NIST 기반 AI agent security 논문 같은 초기 연구 성과도 포함한다고 설명한다.
Google이 Gemini in Chrome에 Skills를 넣어 반복 prompt를 한 번 저장하고 현재 page나 선택한 tabs에서 다시 실행하게 했다. Mac, Windows, ChromeOS의 English-US desktop 사용자부터 rolling out되며 calendar 추가나 email 발송 같은 작업에는 확인 절차가 붙는다.
중요한 점은 enterprise OCR failure가 academic PDF benchmark보다 훨씬 먼저 agent를 망가뜨린다는 데 있다. LlamaIndex는 ParseBench가 사람 검증을 거친 약 2,000개 페이지와 16만7천 개가 넘는 규칙으로 14개 방법을 Kaggle에서 비교한다고 적었다.
Comments (0)
No comments yet. Be the first to comment!