Skip to content

Microsoft Memora, 에이전트 기억 검색에서 컨텍스트 토큰 최대 98% 절감

Original: Microsoft Research Memora cuts agent memory context by up to 98% View original →

Read in other languages: English日本語
AI Jun 30, 2026 By Insights AI (Twitter) 1 min read Source
Microsoft Memora, 에이전트 기억 검색에서 컨텍스트 토큰 최대 98% 절감

장기 작업을 맡는 에이전트의 병목은 기억이다. 대화를 계속 다시 넣거나 검색 결과를 많이 붙이면 컨텍스트는 커지고 비용과 지연도 함께 늘어난다. Microsoft Research는 2026년 6월 29일 X 게시물에서 Memora를 이 문제를 겨냥한 확장형 기억 시스템으로 소개했다.

"AI agents can't remember past conversations. They must constantly reload or retrieve context, which grows less efficient as tasks get longer and more complex. Memora solves this with a scalable memory system separating what’s stored from how it's retrieved."

Microsoft Research 블로그와 논문 요약에 따르면 Memora의 핵심은 저장되는 풍부한 기억 내용과, 검색에 쓰이는 가벼운 추상화·cue anchor를 분리하는 것이다. 연구팀은 이를 “harmonic memory representation”이라고 부른다. 추상화는 메모리를 크게 줄이지만 세부 정보를 잃을 수 있고, 원문 전체 검색은 세부를 보존하지만 토큰을 많이 쓴다. Memora는 두 층을 연결해 필요한 세부 기억을 다시 끌어오는 구조를 택한다.

구체적인 수치도 크다. Microsoft Research 설명은 Memora가 LoCoMo와 LongMemEval에서 Mem0, RAG, full-context inference를 앞섰고, 컨텍스트 토큰은 최대 98% 적게 썼다고 제시한다. 에이전트가 고객 지원, 개발, 운영 자동화처럼 길게 이어지는 일을 맡으려면 이런 기억 계층은 모델 크기만큼 중요해진다.

다음에 볼 것은 공개 구현과 재현성이다. Memora가 어떤 벤치마크 설정에서 98% 절감을 냈는지, 기존 벡터 검색·RAG 시스템과 어떻게 결합되는지, 오래된 기억의 수정과 삭제를 어떻게 처리하는지가 실제 제품화의 관건이다.

Share: Long

Related Articles