중요한 점은 agent가 매번 상태를 잃는 문제를 managed product 안으로 끌어왔다는 데 있다. Anthropic는 4월 23일 public beta를 시작하며 agent가 모든 session에서 배울 수 있다고 적었다.
#memory
RSS FeedHN이 이 RAM shortage story에 붙은 이유는 HBM 수요가 AI data center 밖의 phones, laptops, handhelds 가격까지 밀어 올린다는 불편한 연결고리였다.
왜 중요한가: 장시간 실행되는 agent는 모든 메시지를 다시 넣지 않고도 이전 상태를 기억해야 한다. Cloudflare는 private beta로 공개한 Agent Memory가 context window를 채우지 않으면서 필요한 정보를 다시 제공한다고 설명했다.
Hacker News에서 화제가 된 OpenClaw 비판 글은 약 1,000건의 deployment 관찰을 바탕으로, persistent agent의 핵심 문제는 flashy demo가 아니라 memory reliability라고 주장한다.
Databricks AI Research는 2026년 4월 10일 Memory Scaling for AI Agents를 공개하며, real-world agent 성능은 더 긴 reasoning보다 external memory 축적과 retrieval 품질에 더 크게 좌우될 수 있다고 주장했다. 글은 labeled 예제, user log, organizational knowledge로 정확도와 효율이 함께 개선되는 결과를 제시한다.
r/singularity의 인기 글은 MemPalace를 무료 AI memory system으로 띄웠지만, 실제 핵심은 repo가 96.6% raw score와 optional rerank 100%를 스스로 다시 구분해 적은 correction note에 있다.
r/artificial의 최근 글은 Claude Code leak를 단순 해프닝이 아니라 AI agent 설계 교본처럼 읽어야 한다는 관점을 제시했다. 핵심은 model weights가 아니라 memory, permissions, tool orchestration, multi-agent coordination 같은 실제 product layer가 드러났다는 점이다.
Hacker News는 KV cache를 추상적 architecture 용어가 아니라 GPU memory 비용 문제로 설명한 Future Shock 글을 다시 끌어올렸다. 이 설명은 GPT-2에서 Llama 3, DeepSeek V3, Gemma 3, Mamba 계열까지 memory 설계가 어떻게 달라졌는지 한 흐름으로 보여 준다.
r/MachineLearning의 LoCoMo audit 글은 1,540개 질문 중 99개에서 score-corrupting error를 발견했고, judge가 의도적으로 틀린 답도 62.81% 받아들였다고 주장한다. 이 논쟁은 memory benchmark의 leaderboard보다 ground truth와 judge 신뢰성이 더 중요하다는 점을 다시 부각시킨다.
r/artificial의 한 글은 long-running agent memory가 또 다른 vector DB보다 decay, reinforcement, selective forgetting을 더 필요로 할 수 있다고 주장하며, retrieval quality와 인간 기억 모델에 대한 토론을 끌어냈다.
앤트로픽 클로드가 다른 AI 서비스에서 쌓아온 메모리와 설정을 원클릭으로 이전하는 기능을 출시했습니다. 기존 AI와의 대화를 복사해 Claude에 붙여넣으면 즉시 이전이 완료됩니다.
AI 연구자 안드레이 카르파티가 LLM 시대의 핵심 기술 과제로 메모리와 연산 자원의 최적 조합을 제시했다. 온칩 SRAM과 외부 DRAM의 트레이드오프를 이해하고 추론·훈련 워크플로우에서 최고의 처리량·지연시간·비용 효율을 달성하는 것이 현재 가장 흥미로운 기술적 과제라고 강조했다.