Microsoft Memora, 에이전트 기억 검색에서 컨텍스트 토큰 최대 98% 절감

장기 작업을 맡는 에이전트의 병목은 기억이다. 대화를 계속 다시 넣거나 검색 결과를 많이 붙이면 컨텍스트는 커지고 비용과 지연도 함께 늘어난다. Microsoft Research는 2026년 6월 29일 X 게시물에서 Memora를 이 문제를 겨냥한 확장형 기억 시스템으로 소개했다.

"AI agents can't remember past conversations. They must constantly reload or retrieve context, which grows less efficient as tasks get longer and more complex. Memora solves this with a scalable memory system separating what’s stored from how it's retrieved."

Microsoft Research 블로그와 논문 요약에 따르면 Memora의 핵심은 저장되는 풍부한 기억 내용과, 검색에 쓰이는 가벼운 추상화·cue anchor를 분리하는 것이다. 연구팀은 이를 “harmonic memory representation”이라고 부른다. 추상화는 메모리를 크게 줄이지만 세부 정보를 잃을 수 있고, 원문 전체 검색은 세부를 보존하지만 토큰을 많이 쓴다. Memora는 두 층을 연결해 필요한 세부 기억을 다시 끌어오는 구조를 택한다.

구체적인 수치도 크다. Microsoft Research 설명은 Memora가 LoCoMo와 LongMemEval에서 Mem0, RAG, full-context inference를 앞섰고, 컨텍스트 토큰은 최대 98% 적게 썼다고 제시한다. 에이전트가 고객 지원, 개발, 운영 자동화처럼 길게 이어지는 일을 맡으려면 이런 기억 계층은 모델 크기만큼 중요해진다.

다음에 볼 것은 공개 구현과 재현성이다. Memora가 어떤 벤치마크 설정에서 98% 절감을 냈는지, 기존 벡터 검색·RAG 시스템과 어떻게 결합되는지, 오래된 기억의 수정과 삭제를 어떻게 처리하는지가 실제 제품화의 관건이다.

Microsoft Memora, 에이전트 기억 검색에서 컨텍스트 토큰 최대 98% 절감

Related Articles

Copilot code review 비용 20% 절감, 파일 탐색 도구 교체 효과

Perplexity Computer for Counsel, 법률 데이터베이스와 사건 관리 도구를 연결

Codex 민감 파일 제외 논쟁, .codexignore보다 어려운 권한 경계