Databricks, AI agent의 다음 bottleneck은 reasoning보다 memory라고 주장
Original: As AI reasoning gets good enough, we think memory will be the next bottleneck for agents. Can your agent improve with more experience? We call this Memory Scaling, and it's related but different from continual learning. A few examples and challenges: https://www.databricks.com/blog/memory-scaling-ai-agents View original →
Databricks가 주장하는 변화
2026년 4월 10일, Databricks AI Research는 Memory Scaling for AI Agents를 공개하며, inference-time reasoning이 좋아질수록 real-world agent의 다음 bottleneck은 reasoning 자체가 아니라 적절한 맥락을 적시에 꺼내 쓰는 능력일 수 있다고 주장했다. 글은 memory scaling을, 과거 대화, user feedback, interaction trajectory, organizational knowledge가 외부 memory로 축적될수록 agent 성능이 높아지는 성질로 정의한다.
이 framing이 중요한 이유는 최적화 대상이 바뀌기 때문이다. 모든 개선을 더 큰 base model이나 더 긴 chain of thought에서 찾기보다, retrieval과 persistent state를 잘 설계하는 것이 enterprise 환경에서 비슷하거나 더 큰 차이를 만들 수 있다는 주장이다.
실험이 보여 준 것
글은 정확도와 효율 모두에서 의미 있는 개선을 제시한다. Databricks Genie space 실험에서 labeled memory를 사용한 agent는 테스트 점수를 거의 0에 가까운 수준에서 약 70%까지 끌어올렸고, 최종적으로 expert-curated baseline을 약 5% 웃돌았다. 동시에 평균 reasoning step 수는 약 20에서 약 5로 줄어, 필요한 context가 저장된 뒤에는 훨씬 적은 탐색으로 문제를 해결할 수 있었다.
실무 관점에서 더 중요한 부분은 unlabeled log 실험이다. Databricks에 따르면 filtering한 과거 user conversation을 memory로 넣자 성능이 2.5%에서 50% 이상으로 상승했고, 단 62개의 log record만으로 expert-curated baseline을 넘어섰다. 또 schema, glossary, 내부 자산처럼 검색 가능한 enterprise context를 미리 구성한 organizational knowledge-store 실험에서는 두 benchmark에서 정확도가 약 10% 개선됐다.
왜 long context와 다른가
Databricks는 memory scaling, continual learning, long-context prompting을 분명히 구분한다. Continual learning은 시간이 지나며 model parameter를 업데이트한다. Long context는 한 요청 안에 더 많은 token을 넣는다. 반면 memory scaling은 model weight를 고정한 채 persistent store에서 필요한 정보만 선택적으로 retrieve한다. 글은 이 방식이 비용, governance, multi-user enterprise deployment 측면에서 더 현실적이라고 본다.
- 선택적 retrieval은 매번 불필요한 context를 대량으로 프롬프트에 싣지 않게 한다.
- 공유 memory는 한 사용자의 해결 경험을 재학습 없이 다른 사용자 workflow에도 연결할 수 있다.
- 구조화된 memory는 vector search, exact lookup, filtering, permission을 한 시스템 안에서 다룰 수 있다.
왜 고신호인가
더 깊은 신호는 architecture 수준에 있다. Databricks는 앞으로 competitive enterprise agent를 가르는 핵심이 어떤 frontier model을 부르느냐만이 아니라, 무엇을 기억하느냐가 될 수 있다고 말한다. 동시에 memory scaling이 freshness, privacy, lineage, access control 문제를 함께 키운다는 점도 인정한다. 이 현실감이 오히려 주장을 더 설득력 있게 만든다. memory를 마법처럼 포장하기보다, storage와 distillation, consolidation, auditability가 필요한 systems problem으로 설명하기 때문이다.
이 framing이 맞다면 다음 agent platform 경쟁의 상당 부분은 model selection에서 memory infrastructure로 이동할 수 있다. 고신호 context를 신선하고 범위가 분명하며 검색 가능하게 유지하는 팀이, 단순히 더 강한 모델만 사 온 팀보다 더 나은 agent를 만들 가능성이 높다.
Related Articles
Mintlify는 docs assistant가 여러 page에 걸친 답변과 exact syntax를 찾는 상황에서 chunked RAG의 한계를 느껴 Chroma 기반 virtual filesystem `ChromaFs`를 만들었다고 설명했다. 세션 생성 시간을 약 46초에서 100ms로 줄였고, HN에서는 filesystem-first retrieval이 agent에 더 잘 맞는다는 반응이 이어졌다.
Claude는 2026년 4월 10일 Claude for Word beta를 Team과 Enterprise plan에 공개했다. 이 add-in은 Word sidebar 안에서 초안 작성과 수정 작업을 수행하면서 formatting을 유지하고 결과를 tracked changes로 돌려준다.
r/singularity의 인기 글은 MemPalace를 무료 AI memory system으로 띄웠지만, 실제 핵심은 repo가 96.6% raw score와 optional rerank 100%를 스스로 다시 구분해 적은 correction note에 있다.
Comments (0)
No comments yet. Be the first to comment!