#retrieval

RSS 피드

LLM X/Twitter Jul 17, 2026 1 min read

NVIDIA Nemotron 3 Embed 8B, RTEB 1위로 RAG 검색 경쟁 압박

RAG와 에이전트의 품질 병목이 검색 모델로 이동하고 있다. NVIDIA는 Nemotron 3 Embed 8B가 RTEB 전체 1위에 올랐고 32k context와 1B 변형을 함께 제공한다고 밝혔다.

#nvidia #nemotron #retrieval

Sciences X/Twitter Jun 10, 2026 1 min read

생물학 에이전트 정확도, gget virus 결합 뒤 거의 100%로 상승

생명과학 에이전트의 병목이 모델 성능만이 아니라 데이터 검색 계층에 있다는 증거가 나왔다. Anthropic은 NCBI Virus 작업에서 결정론적 검색 도구를 붙이자 정확도가 거의 100%까지 올랐다고 밝혔다.

#anthropic #biology #agents

AI X/Twitter Jun 3, 2026 1 min read

Perplexity Search as Code, 검색을 함수 호출 대신 Python orchestration으로 전환

Perplexity가 agent 검색을 단일 API 호출이 아니라 Python code로 조립하는 구조로 바꿨다. 회사는 CVE vendor advisory 사례에서 token 사용량이 288.7K에서 42.9K로 85.1% 줄었다고 제시했다.

#perplexity #agents #search

AI X/Twitter Apr 23, 2026 1 min read

Gemini Embedding 2 GA, 5개 modality 검색을 하나의 vector로

중요한 점은 retrieval stack이 text-only search에서 multimodal memory로 이동하고 있다는 데 있다. Google AI Studio는 Gemini Embedding 2가 GA가 됐고 text, image, video, audio, documents 5개 입력을 하나의 model path로 다룬다고 적었다.

#google #gemini #embeddings

LLM X/Twitter Apr 23, 2026 1 min read

Perplexity, Qwen SFT+RL로 GPT factuality 비용 곡선 추월 주장

중요한 점은 검색형 AI가 유창한 답변보다 factuality와 citation 품질로 평가된다는 데 있다. Perplexity는 SFT + RL pipeline으로 Qwen model이 더 낮은 비용에서 GPT model의 factuality를 맞추거나 앞선다고 주장했다.

#perplexity #qwen #retrieval

LLM X/Twitter Apr 10, 2026 2 min read

Databricks, AI agent의 다음 bottleneck은 reasoning보다 memory라고 주장

Databricks AI Research는 2026년 4월 10일 Memory Scaling for AI Agents를 공개하며, real-world agent 성능은 더 긴 reasoning보다 external memory 축적과 retrieval 품질에 더 크게 좌우될 수 있다고 주장했다. 글은 labeled 예제, user log, organizational knowledge로 정확도와 효율이 함께 개선되는 결과를 제시한다.

#databricks #ai-agents #memory

LLM Hacker News Apr 4, 2026 1 min read

Mintlify, docs assistant의 RAG를 virtual filesystem으로 교체

Mintlify는 docs assistant가 여러 page에 걸친 답변과 exact syntax를 찾는 상황에서 chunked RAG의 한계를 느껴 Chroma 기반 virtual filesystem `ChromaFs`를 만들었다고 설명했다. 세션 생성 시간을 약 46초에서 100ms로 줄였고, HN에서는 filesystem-first retrieval이 agent에 더 잘 맞는다는 반응이 이어졌다.

#rag #agents #docs

AI Hacker News Mar 25, 2026 1 min read

Hacker News가 주목한 ACORN-1·RaBitQ 기반 DuckDB vector search 개선

Hacker News는 filtered HNSW search를 바로잡고 공격적인 vector compression을 추가한 DuckDB community extension을 주목했다. 이로써 실제 SQL filters 아래에서 retrieval workloads를 더 예측 가능하게 만든다.

#duckdb #vector-search #acorn

LLM X/Twitter Mar 22, 2026 1 min read

Google, Gemini Embedding 2 공개… 텍스트·이미지·오디오·비디오·문서를 하나의 벡터 공간으로

Google AI Studio는 2026-03-12 X 게시물에서 Gemini Embedding 2를 소개했고, Google의 2026-03-10 블로그 글은 이 model이 text, images, video, audio, documents를 하나의 embedding space로 매핑한다고 설명한다. Google은 이 model이 Gemini API와 Vertex AI에서 public preview로 제공되며 multimodal retrieval과 classification을 주요 활용처로 내세운다고 밝혔다.

#google #gemini #embeddings

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMA가 본 Graph-RAG, Llama 8B도 multi-hop QA에서 70B에 근접할 수 있다

새 r/LocalLLaMA 스레드는 multi-hop QA의 병목이 retrieval이 아니라 reasoning일 수 있다는 Graph-RAG 결과를 끌어올렸다. structured prompting과 graph-based context compression을 결합하면 Llama 8B가 plain 70B baseline에 맞설 수 있다는 주장이 핵심이다.

#graph-rag #llama #reasoning

AI Reddit Mar 13, 2026 1 min read

Reddit에서 모든 것을 저장하지 않고 의도적으로 잊는 AI memory system이 화제

r/artificial의 한 글은 long-running agent memory가 또 다른 vector DB보다 decay, reinforcement, selective forgetting을 더 필요로 할 수 있다고 주장하며, retrieval quality와 인간 기억 모델에 대한 토론을 끌어냈다.

#ai-agents #memory #retrieval

LLM Hacker News Mar 13, 2026 1 min read

RAG 문서 오염 공격, 왜 output filter보다 ingestion 통제가 중요한가

Hacker News에서 화제가 된 Amine Raji의 local ChromaDB 실험은, RAG 보안의 핵심이 prompt 자체보다 source corpus 오염과 ingestion 검증에 있을 수 있음을 보여준다.

#rag #security #retrieval