Databricks, AI agent의 다음 bottleneck은 reasoning보다 memory라고 주장

Databricks가 주장하는 변화

2026년 4월 10일, Databricks AI Research는 Memory Scaling for AI Agents를 공개하며, inference-time reasoning이 좋아질수록 real-world agent의 다음 bottleneck은 reasoning 자체가 아니라 적절한 맥락을 적시에 꺼내 쓰는 능력일 수 있다고 주장했다. 글은 memory scaling을, 과거 대화, user feedback, interaction trajectory, organizational knowledge가 외부 memory로 축적될수록 agent 성능이 높아지는 성질로 정의한다.

이 framing이 중요한 이유는 최적화 대상이 바뀌기 때문이다. 모든 개선을 더 큰 base model이나 더 긴 chain of thought에서 찾기보다, retrieval과 persistent state를 잘 설계하는 것이 enterprise 환경에서 비슷하거나 더 큰 차이를 만들 수 있다는 주장이다.

실험이 보여 준 것

글은 정확도와 효율 모두에서 의미 있는 개선을 제시한다. Databricks Genie space 실험에서 labeled memory를 사용한 agent는 테스트 점수를 거의 0에 가까운 수준에서 약 70%까지 끌어올렸고, 최종적으로 expert-curated baseline을 약 5% 웃돌았다. 동시에 평균 reasoning step 수는 약 20에서 약 5로 줄어, 필요한 context가 저장된 뒤에는 훨씬 적은 탐색으로 문제를 해결할 수 있었다.

실무 관점에서 더 중요한 부분은 unlabeled log 실험이다. Databricks에 따르면 filtering한 과거 user conversation을 memory로 넣자 성능이 2.5%에서 50% 이상으로 상승했고, 단 62개의 log record만으로 expert-curated baseline을 넘어섰다. 또 schema, glossary, 내부 자산처럼 검색 가능한 enterprise context를 미리 구성한 organizational knowledge-store 실험에서는 두 benchmark에서 정확도가 약 10% 개선됐다.

왜 long context와 다른가

Databricks는 memory scaling, continual learning, long-context prompting을 분명히 구분한다. Continual learning은 시간이 지나며 model parameter를 업데이트한다. Long context는 한 요청 안에 더 많은 token을 넣는다. 반면 memory scaling은 model weight를 고정한 채 persistent store에서 필요한 정보만 선택적으로 retrieve한다. 글은 이 방식이 비용, governance, multi-user enterprise deployment 측면에서 더 현실적이라고 본다.

선택적 retrieval은 매번 불필요한 context를 대량으로 프롬프트에 싣지 않게 한다.
공유 memory는 한 사용자의 해결 경험을 재학습 없이 다른 사용자 workflow에도 연결할 수 있다.
구조화된 memory는 vector search, exact lookup, filtering, permission을 한 시스템 안에서 다룰 수 있다.

왜 고신호인가

더 깊은 신호는 architecture 수준에 있다. Databricks는 앞으로 competitive enterprise agent를 가르는 핵심이 어떤 frontier model을 부르느냐만이 아니라, 무엇을 기억하느냐가 될 수 있다고 말한다. 동시에 memory scaling이 freshness, privacy, lineage, access control 문제를 함께 키운다는 점도 인정한다. 이 현실감이 오히려 주장을 더 설득력 있게 만든다. memory를 마법처럼 포장하기보다, storage와 distillation, consolidation, auditability가 필요한 systems problem으로 설명하기 때문이다.

이 framing이 맞다면 다음 agent platform 경쟁의 상당 부분은 model selection에서 memory infrastructure로 이동할 수 있다. 고신호 context를 신선하고 범위가 분명하며 검색 가능하게 유지하는 팀이, 단순히 더 강한 모델만 사 온 팀보다 더 나은 agent를 만들 가능성이 높다.

출처: Matei Zaharia X 게시물 · Databricks 블로그

Databricks, AI agent의 다음 bottleneck은 reasoning보다 memory라고 주장

Databricks가 주장하는 변화

실험이 보여 준 것

왜 long context와 다른가

왜 고신호인가

Related Articles

Δ-Mem: 고정 크기 상태 행렬로 LLM 장기 기억 문제 해결

KPMG·Anthropic, 27만 6천 명 규모 글로벌 동맹 체결 — 세무·PE 분야 Claude 전면 통합

OpenAI·Dell, Codex 온프레미스 엔터프라이즈 배포 공식 협력 — 매주 400만 개발자 이용

Comments (0)

Leave a Comment

Related Articles

Δ-Mem: 고정 크기 상태 행렬로 LLM 장기 기억 문제 해결
LLM Hacker News May 16, 2026 1 min read

KPMG·Anthropic, 27만 6천 명 규모 글로벌 동맹 체결 — 세무·PE 분야 Claude 전면 통합
LLM May 22, 2026 1 min read

OpenAI·Dell, Codex 온프레미스 엔터프라이즈 배포 공식 협력 — 매주 400만 개발자 이용
LLM May 20, 2026 1 min read