LongCat-2.0, 1.6T MoE보다 국산 칩 훈련이 더 큰 신호

LongCat-2.0은 1.6T total parameter와 48B active parameter를 내세운 대형 MoE model이다. 공식 글의 설명만 보면 model scale이 먼저 보이지만, HN에서 더 오래 남은 논점은 훈련 인프라였다.

댓글은 LongCat-2.0의 architecture가 기존 중국계 MoE 흐름과 얼마나 닮았는지, 실제 실행 요구사항은 무엇인지 같은 기술 질문을 던졌다. 특히 한 댓글은 tens of thousands of AI ASIC superpods에서 훈련·배포했다는 문장을 짚으며, Nvidia GPU ecosystem 밖에서 대규모 훈련을 안정화한 점이 더 큰 뉴스라고 봤다.

이 관찰은 중요하다. LLM 경쟁은 parameter 수와 benchmark 점수만으로 설명되지 않는다. 제재, 공급망, compiler, kernel, cluster 운영까지 합쳐져야 model release가 가능하다. LongCat-2.0이 중국 food delivery 기업 Meituan 계열에서 나왔다는 점도, AI 인프라 경쟁이 전통적인 AI lab 밖으로 번지고 있음을 보여준다.

아직 독립 검증은 더 필요하다. open model이라 해도 실제 hardware별 throughput, llama.cpp 같은 로컬 실행 조건, 안전성 평가는 별개의 문제다. 그래도 이번 제출이 높은 점수를 받은 이유는 분명하다. model 자체와 함께, 누가 어떤 compute stack으로 훈련했는지가 이제 community의 주요 관심사가 됐다.

출처: LongCat-2.0, HN discussion.

LLM 3d ago 2 min read

Snyk 300회 반복 테스트, LLM 보안 리뷰의 흔들리는 재현성

Snyk VulnBench JS 1.0은 같은 JavaScript 취약점 리뷰를 300번 반복해 LLM 보안 점검의 재현성을 측정했다. 최고 LLM 설정도 Snyk-reference F1 75.4%에 그쳤고, reference 밖 추가 보고의 49.7%는 5번 중 1번만 나타났다.

#snyk #security #benchmark

LLM 4d ago 1 min read

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

OpenRouter는 6월 오픈 weight 모델 흐름을 DeepSeek V4 Flash, GLM 5.2, MiniMax M3, NVIDIA Nemotron 3 Ultra 네 축으로 정리했다. 핵심 숫자는 SWE-bench Verified 79.0%, Intelligence Index 51, 1M context, 그리고 frontier API 대비 큰 가격 차이다.

#openrouter #open-weight #llm

LLM News 6d ago 1 min read

LLM reasoning, 답을 추론하기보다 기억을 꺼내는 장치일 수 있다는 증거

Google Research는 Gemini-2.5와 Qwen3-32B 실험에서 reasoning이 단순 사실 질문의 회상을 돕는 두 메커니즘을 분리했다. 추가 토큰은 계산 시간을 주고, 관련 사실은 정답 회상을 prime하지만 hallucination이 끼면 정확도가 떨어졌다.

#google-research #reasoning #hallucination

Related Articles

Snyk 300회 반복 테스트, LLM 보안 리뷰의 흔들리는 재현성

오픈 weight 모델 격차 3~6개월, OpenRouter가 꼽은 4개 축

LLM reasoning, 답을 추론하기보다 기억을 꺼내는 장치일 수 있다는 증거