Microsoft Memora, 에이전트 기억 검색에서 컨텍스트 토큰 최대 98% 절감
Original: Microsoft Research Memora cuts agent memory context by up to 98% View original →
장기 작업을 맡는 에이전트의 병목은 기억이다. 대화를 계속 다시 넣거나 검색 결과를 많이 붙이면 컨텍스트는 커지고 비용과 지연도 함께 늘어난다. Microsoft Research는 2026년 6월 29일 X 게시물에서 Memora를 이 문제를 겨냥한 확장형 기억 시스템으로 소개했다.
"AI agents can't remember past conversations. They must constantly reload or retrieve context, which grows less efficient as tasks get longer and more complex. Memora solves this with a scalable memory system separating what’s stored from how it's retrieved."
Microsoft Research 블로그와 논문 요약에 따르면 Memora의 핵심은 저장되는 풍부한 기억 내용과, 검색에 쓰이는 가벼운 추상화·cue anchor를 분리하는 것이다. 연구팀은 이를 “harmonic memory representation”이라고 부른다. 추상화는 메모리를 크게 줄이지만 세부 정보를 잃을 수 있고, 원문 전체 검색은 세부를 보존하지만 토큰을 많이 쓴다. Memora는 두 층을 연결해 필요한 세부 기억을 다시 끌어오는 구조를 택한다.
구체적인 수치도 크다. Microsoft Research 설명은 Memora가 LoCoMo와 LongMemEval에서 Mem0, RAG, full-context inference를 앞섰고, 컨텍스트 토큰은 최대 98% 적게 썼다고 제시한다. 에이전트가 고객 지원, 개발, 운영 자동화처럼 길게 이어지는 일을 맡으려면 이런 기억 계층은 모델 크기만큼 중요해진다.
다음에 볼 것은 공개 구현과 재현성이다. Memora가 어떤 벤치마크 설정에서 98% 절감을 냈는지, 기존 벡터 검색·RAG 시스템과 어떻게 결합되는지, 오래된 기억의 수정과 삭제를 어떻게 처리하는지가 실제 제품화의 관건이다.
Related Articles
GitHub Copilot code review가 CLI·SDK의 grep, rg, glob, view 도구를 사용하도록 바뀌며 리뷰 비용을 약 20% 낮췄다. Medium analysis depth에는 조직 기본값과 PR 코멘트 표시도 추가됐다.
법률 AI가 검색 답변에서 업무 실행형 에이전트로 이동하고 있다. Perplexity는 Computer for Counsel이 Midpage, LegalZoom, DocuSign, NetDocuments 등과 연결되며 Pro와 Max 구독자에게 제공된다고 밝혔다.
코딩 에이전트 보안의 논점은 “.env를 읽지 말라”보다 넓다. 열린 Codex issue와 HN 댓글은 ignore 규칙, sandbox, Unix 권한, 컨테이너 경계가 어디서 나뉘는지 파고들었다.