생명과학 에이전트의 병목이 모델 성능만이 아니라 데이터 검색 계층에 있다는 증거가 나왔다. Anthropic은 NCBI Virus 작업에서 결정론적 검색 도구를 붙이자 정확도가 거의 100%까지 올랐다고 밝혔다.
#retrieval
RSS Feed
Perplexity가 agent 검색을 단일 API 호출이 아니라 Python code로 조립하는 구조로 바꿨다. 회사는 CVE vendor advisory 사례에서 token 사용량이 288.7K에서 42.9K로 85.1% 줄었다고 제시했다.
중요한 점은 retrieval stack이 text-only search에서 multimodal memory로 이동하고 있다는 데 있다. Google AI Studio는 Gemini Embedding 2가 GA가 됐고 text, image, video, audio, documents 5개 입력을 하나의 model path로 다룬다고 적었다.
중요한 점은 검색형 AI가 유창한 답변보다 factuality와 citation 품질로 평가된다는 데 있다. Perplexity는 SFT + RL pipeline으로 Qwen model이 더 낮은 비용에서 GPT model의 factuality를 맞추거나 앞선다고 주장했다.
Databricks AI Research는 2026년 4월 10일 Memory Scaling for AI Agents를 공개하며, real-world agent 성능은 더 긴 reasoning보다 external memory 축적과 retrieval 품질에 더 크게 좌우될 수 있다고 주장했다. 글은 labeled 예제, user log, organizational knowledge로 정확도와 효율이 함께 개선되는 결과를 제시한다.
Mintlify는 docs assistant가 여러 page에 걸친 답변과 exact syntax를 찾는 상황에서 chunked RAG의 한계를 느껴 Chroma 기반 virtual filesystem `ChromaFs`를 만들었다고 설명했다. 세션 생성 시간을 약 46초에서 100ms로 줄였고, HN에서는 filesystem-first retrieval이 agent에 더 잘 맞는다는 반응이 이어졌다.
Hacker News는 filtered HNSW search를 바로잡고 공격적인 vector compression을 추가한 DuckDB community extension을 주목했다. 이로써 실제 SQL filters 아래에서 retrieval workloads를 더 예측 가능하게 만든다.
Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2를 소개했고, Google의 2026-03-10 블로그 글은 이 model이 text, images, video, audio, documents를 하나의 embedding space로 매핑한다고 설명한다. Google은 이 model이 Gemini API와 Vertex AI에서 public preview로 제공되며 multimodal retrieval과 classification을 주요 활용처로 내세운다고 밝혔다.
새 r/LocalLLaMA 스레드는 multi-hop QA의 병목이 retrieval이 아니라 reasoning일 수 있다는 Graph-RAG 결과를 끌어올렸다. structured prompting과 graph-based context compression을 결합하면 Llama 8B가 plain 70B baseline에 맞설 수 있다는 주장이 핵심이다.
r/artificial의 한 글은 long-running agent memory가 또 다른 vector DB보다 decay, reinforcement, selective forgetting을 더 필요로 할 수 있다고 주장하며, retrieval quality와 인간 기억 모델에 대한 토론을 끌어냈다.
Hacker News에서 화제가 된 Amine Raji의 local ChromaDB 실험은, RAG 보안의 핵심이 prompt 자체보다 source corpus 오염과 ingestion 검증에 있을 수 있음을 보여준다.
Perplexity는 2026-02-26 X에서 `pplx-embed-v1`와 `pplx-embed-context-v1` 출시를 발표했다. 0.6B/4B 구성, INT8/Binary 출력, retrieval 중심 benchmark 수치가 핵심이다.