일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.
#llm
RSS FeedLocalLLaMA의 관심은 “Claude 대체”보다 tool call 오류율 12%라는 구체적 한계에 모였다.
711점까지 오른 관심은 “GPU 없이 가능하다”보다 memory bandwidth와 inference 최적화의 현실에 쏠렸다.
530점 넘게 오른 관심은 “LLM을 쓰는 법”보다 “LLM이 어떻게 만들어지는지”를 다시 배우려는 수요에 모였다.
QVAC SDK 0.12.0이 TurboQuant를 넣어 로컬 LLM의 KV cache를 최대 5배 줄인다. 8GB RTX 5060에서도 4B 모델의 262K context를 목표로 한다는 점이 온디바이스 AI의 실용성을 바꾼다.
NVIDIA가 GTC Taipei에서 550B 파라미터 MoE 모델 Nemotron 3 Ultra와 Agent Toolkit을 묶어 기업용 장시간 에이전트 스택을 전면에 세웠다. 공개 모델 대비 최대 5배 빠른 추론과 최대 30% 낮은 비용, 6월 4일 배포 일정이 핵심이다.
관심은 성능 자랑보다 README의 학습 설계에 모였다. vLLM의 핵심을 작은 코드와 수업 흐름으로 재구성한 점이 반응을 얻었다.
토큰 사용량과 투자자 구성이 함께 주목을 받았다. HN 댓글의 관심은 “모델 라우터가 독립 인프라로 남을 수 있나”에 모였다.
Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.
Quandri 엔지니어링 팀이 MCP(Model Context Protocol)의 세 가지 구조적 결함을 분석했다. 컨텍스트 낭비, 낮은 신뢰성, 기존 인프라와의 중복이 핵심 문제다.
댓글의 관심은 “AI가 코드를 얼마나 빨리 쓰나”보다 “검토 루프를 어떻게 설계해야 품질이 올라가나”에 모였다.
세계 최대 오픈 라이브러리 Anna's Archive가 llms.txt 파일을 통해 AI 시스템에 직접 말을 걸었습니다. CAPTCHAs는 리소스 보호 목적이며, 합법적인 벌크 다운로드 경로와 기부 협력 모델을 제안합니다.