Articles

All AI LLM Humanoid Robots Sciences Gaming Finance

Source:

From To

LLM Hacker News Jul 2, 2026 1 min read

LongCat-2.0, 1.6T MoE보다 국산 칩 훈련이 더 큰 신호

1.6T total, 48B active라는 숫자보다 인프라가 논점이다. HN 댓글은 모델 구조보다 국산 AI ASIC cluster 훈련을 더 큰 신호로 봤다.

#llm #moe #china-ai

LLM Hacker News Jul 2, 2026 1 min read

Senior SWE-Bench, agent 평가가 '시니어'라는 말에 걸린 이유

점수보다 논점이 더 흥미롭다. HN 댓글은 새 benchmark 자체보다 “시니어 엔지니어”를 어떻게 재현할 수 있느냐에 모였다.

#llm #agents #benchmark

LLM Jun 29, 2026 2 min read

Snyk 300회 반복 테스트, LLM 보안 리뷰의 흔들리는 재현성

Snyk VulnBench JS 1.0은 같은 JavaScript 취약점 리뷰를 300번 반복해 LLM 보안 점검의 재현성을 측정했다. 최고 LLM 설정도 Snyk-reference F1 75.4%에 그쳤고, reference 밖 추가 보고의 49.7%는 5번 중 1번만 나타났다.

#snyk #security #benchmark

LLM Jun 28, 2026 1 min read

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

OpenRouter는 6월 오픈 weight 모델 흐름을 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra 네 축으로 정리했다. 핵심 숫자는 SWE-bench Verified 79.0%, Intelligence Index 51, 1M context, 그리고 frontier API 대비 큰 가격 차이다.

#openrouter #open-weight #llm

LLM News Jun 26, 2026 1 min read

LLM reasoning, 답을 추론하기보다 기억을 꺼내는 장치일 수 있다는 증거

Google Research는 Gemini-2.5와 Qwen3-32B 실험에서 reasoning이 단순 사실 질문의 회상을 돕는 두 메커니즘을 분리했다. 추가 토큰은 계산 시간을 주고, 관련 사실은 정답 회상을 prime하지만 hallucination이 끼면 정확도가 떨어졌다.

#google-research #reasoning #hallucination

LLM Hacker News Jun 22, 2026 1 min read

Claude ID 확인 문서에 쏠린 관심, 모델 접근권의 새 조건인가

가장 큰 논점은 기능 안내가 아니라 고성능 LLM 접근이 신원 확인과 점점 묶인다는 점이다.

#anthropic #claude #identity

AI X/Twitter Jun 21, 2026 1 min read

GitHub, LLM 문맥 검증으로 secret scanning 오탐 75.76% 줄인 보안 실험

보안 알림의 양보다 신뢰도가 더 중요한 단계로 들어섰다. GitHub는 LLM 기반 문맥 검증을 적용해 secret scanning 오탐을 목표치 65%보다 높은 75.76% 줄였다고 공개했다.

#github #security #llm

LLM X/Twitter Jun 15, 2026 1 min read

Fusion API, Fable 5급 연구 성능을 절반 가격으로 겨냥

OpenRouter가 여러 모델의 답을 병렬 합성하는 Fusion API를 공개하며 DRACO 100개 연구 과제에서 Fable 5에 1% 이내로 접근했다고 밝혔다. 핵심은 최고가 단일 모델이 아니라 예산 모델 패널과 판정 모델을 조합해 비용을 약 절반으로 낮춘 점이다.

#openrouter #fusion-api #llm

LLM Jun 10, 2026 1 min read

Claude Fable 5, Mythos급 성능을 안전장치 뒤에 건 일반 공개

일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.

#anthropic #claude #safety

LLM Reddit Jun 2, 2026 1 min read

Qwen3.6-27B로 2주간 agent orchestration, 실행보다 계획에 강한 이유

LocalLLaMA의 관심은 “Claude 대체”보다 tool call 오류율 12%라는 구체적 한계에 모였다.

#qwen #local-ai #agents

LLM Hacker News Jun 2, 2026 1 min read

10년 된 Xeon으로 Gemma 4 구동, local AI의 병목을 다시 묻는 글

711점까지 오른 관심은 “GPU 없이 가능하다”보다 memory bandwidth와 inference 최적화의 현실에 쏠렸다.

#local-ai #gemma #cpu-inference

LLM Hacker News Jun 2, 2026 1 min read

Stanford CS336, language model을 밑바닥부터 다시 배우는 코스

530점 넘게 오른 관심은 “LLM을 쓰는 법”보다 “LLM이 어떻게 만들어지는지”를 다시 배우려는 수요에 모였다.

#stanford #language-models #education