로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
로컬 멀티모달 모델 경쟁이 12B급으로 좁혀졌다. Google Gemma는 Gemma 4 12B를 Apache 2.0으로 공개하며 이미지·오디오 입력을 별도 인코더 없이 처리한다고 밝혔다.
NVIDIA가 Cosmos 3 Super와 Nano를 공개하며 물리 AI용 오픈 omnimodel 경쟁을 키웠다. 기술 블로그는 6개 합성데이터 세트, Hugging Face 체크포인트, GitHub 학습 레시피를 함께 제시했다.
DeepSeek가 V4-Pro API의 75% 할인 가격을 상시 요금으로 바꾸며 고성능 LLM API의 가격 압박을 키웠다. 이미지 기준 출력 단가는 100만 토큰당 $3.48에서 $0.87로 내려간다.
LocalLLaMA가 크게 반응한 건 DeepSeek가 점과 박스를 추론 단위로 끌어올렸기 때문이다. 저장소가 곧바로 비공개로 바뀌면서 관심은 더 커졌다.
LocalLLaMA가 Granite 4.1에 반응한 이유는 IBM이 요즘 유행과 반대로 갔기 때문이다. 3B·8B·30B dense 모델을 중심에 두고 instruction following과 tool calling, 운영 비용, 예측 가능한 동작을 전면에 세우자 “실서비스용 모델”로 읽는 반응이 나왔다.
중요한 점은 Moonshot이 “agent swarm”을 데모 문구가 아니라 실행 수치로 밀고 있다는 데 있다. Kimi 포스트는 한 번의 run에서 300개 sub-agent와 4,000단계를 조정하고 채팅이 아닌 100개 이상의 파일을 돌려준다고 적었다.
PrismML은 작은 open model이 architecture만이 아니라 weight format 변화로도 쓸 만해질 수 있는지 시험한다. Ternary Bonsai는 1.58 bits에서 8B, 4B, 1.7B 모델을 내고 8B variant는 1.75GB로 제시됐다.
핵심은 양자 컴퓨팅을 연구실 데모가 아니라 공개 모델·벤치마크·코드 스택으로 옮기려는 시도라는 점이다. 4월 14일 트윗은 Ising을 open suite로 짚었고, NVIDIA 기술 글은 Ising Calibration 1이 QCalEval에서 GPT-5.4보다 14.5%, Gemini 3.1 Pro보다 3.27% 높다고 적었다.
NVIDIA가 양자 칩 보정과 오류 정정을 개방형 AI 스택으로 묶었다. QCalEval에서는 GPT 5.4보다 14.5% 높았고, 디코딩 쪽은 2.25x 속도 개선 수치까지 내놔서, 양자 컴퓨팅의 가장 고된 소프트웨어 병목 하나가 실제 배포 단계로 조금 더 가까워졌다.
Google AI Edge Team은 April 2, 2026에 Gemma 4가 Apache 2.0 license 아래서 phone, desktop, edge hardware에 multi-step agentic workflow를 가져온다고 밝혔다. 이번 발표는 open model, Agent Skills, LiteRT-LM deployment tooling을 함께 묶는다.
1247점과 328개 댓글을 모은 Hacker News 스레드에서 AISLE는 scoped context가 주어지면 작은 open-weight model도 Mythos가 보여준 exploit analysis의 상당 부분을 재현할 수 있다고 주장했고, 댓글은 methodology를 두고 크게 갈렸다.
Hacker News에서 크게 화제가 된 AISLE의 글은 Anthropic Mythos 발표가 AI 보안 카테고리의 현실성을 보여줬지만, 방어적 우위가 특정 model 하나에만 있음을 뜻하지는 않는다고 주장한다. 적절한 코드 경로가 주어지면 작은 open model도 중요한 취약점 분석을 상당 부분 복원했다는 설명이다.