#edge-ai

LLM Hacker News 8h ago 1 min read

ESP32에서 28.9M LLM, 8달러 칩 위의 온디바이스 실험

작은 microcontroller에서 LLM을 돌린다는 말은 과장이 아니다. 핵심은 flash에 25M parameter lookup table을 두고 token마다 필요한 일부만 읽는 메모리 배치다.

AI 5d ago 1 min read

Cosmos 3 Edge, 4B world model로 edge physical AI 정조준

로봇과 영상 검증을 클라우드 밖으로 밀어내는 숫자가 나왔다. NVIDIA는 SIGGRAPH에서 4B Cosmos 3 Edge, Synthetic Video Detector NIM, DGX Station용 Nemotron 3 Ultra 스택을 한꺼번에 공개하며 physical AI의 배포 지점을 edge와 로컬 워크스테이션으로 좁혔다.

#nvidia #cosmos #physical-ai

AI Jun 16, 2026 1 min read

궤도 위 VLM 첫 탐색, 위성 데이터 병목을 우주에서 줄이는 길

AI가 위성 사진을 지상으로 내려보낸 뒤 분석하는 순서를 뒤집기 시작했다. YAM-9 위성에서 Gemma 3 기반 VLM이 자연어 질의에 맞춰 관심 지역을 직접 찾은 첫 보고 사례가 나왔다.

#space-ai #vlm #gemma

LLM X/Twitter Jun 7, 2026 1 min read

Gemma 4 QAT, 엣지 AI 실행 메모리를 1GB 목표까지 낮춘 새 체크포인트

Google이 Gemma 4 QAT 체크포인트를 공개하며 엣지 장치와 소비자 GPU용 로컬 추론을 겨냥했다. 모바일 포맷 기준 Gemma 4 E2B 메모리 사용량은 1GB까지 낮아진다.

#google #gemma #qat

LLM Hacker News May 30, 2026 1 min read

Liquid AI, 38조 토큰 학습 MoE 모델 공개

Liquid AI가 38조 토큰으로 학습한 8B-A1B MoE 모델 LFM2.5를 공개했다. M5 Max에서 초당 253토큰, 모바일에서 30토큰, H100에서 초당 1만 8500토큰의 추론 성능을 자랑하며 동급 밀집 모델을 상회한다.

#liquid-ai #llm #moe

LLM Reddit Apr 17, 2026 2 min read

Ternary Bonsai, LocalLLaMA는 압축 claim의 공정성을 먼저 따졌다

LocalLLaMA는 1.58-bit model의 가능성에 반응했지만, thread는 곧 어려운 질문으로 향했다. 비교 대상이 quantized Qwen peers가 아니라 full-precision baseline이면 공정한가.

#model-compression #local-llms #bonsai

AI Apr 14, 2026 1 min read

궤도 위 첫 GPU cluster, Nvidia Orin 40개 싣고 실제 고객을 받기 시작했다

우주 데이터센터는 아직 미래형 구호에 가깝지만, 우주 inference는 벌써 사업 냄새가 난다. Kepler의 cluster는 10개 위성에 Nvidia Orin 40개를 얹고 고객 18곳을 확보해, space compute를 pitch deck 바깥으로 끌어냈다.

#kepler #space-computing #nvidia

AI Apr 14, 2026 1 min read

DeepX, on-device AI chip 축으로 국내 IPO 채비에 들어갔다

AI silicon 투자 열기가 data center 거인들 밖으로 번질지 시험할 장면이 나왔다. Reuters에 따르면 South Korea의 DeepX는 국내 상장을 준비 중이며, 2026년 상반기 funding round를 마친 뒤 IPO 주관사 선정에 나서고 이후 U.S. listing 가능성도 열어두고 있다.

#deepx #ai-chips #ipo

LLM Reddit Apr 6, 2026 2 min read

LocalLLaMA가 주목한 Parlor, Gemma 4 E2B로 구현한 실시간 로컬 음성·비전 assistant

LocalLLaMA의 데모 글은 Gemma 4 E2B와 Kokoro TTS를 이용해 음성·비전 대화를 전부 로컬에서 처리하는 Parlor를 소개했다. README 기준 Apple M3 Pro에서 end-to-end latency는 약 2.5~3.0초, decode speed는 약 83 tokens/sec다.

#llm #multimodal #edge-ai

LLM Reddit Apr 5, 2026 1 min read

Gemma 4의 on-device Agent Skills, Reddit가 주목

Reddit는 Google의 Gemma 4 edge 발표를 통해 on-device Agent Skills와 LiteRT-LM runtime을 주목했다. 1.5GB 미만 메모리, 128K context, Raspberry Pi 5와 Qualcomm NPU benchmark가 핵심 포인트다.

#gemma #edge-ai #on-device

LLM X/Twitter Apr 2, 2026 2 min read

Google, Gemma 4 공개… Apache 2.0 license와 최대 256K context 제공

Google은 2026년 4월 2일 Gemma 4를 가장 강력한 open model family라고 소개하며, Gemini 3와 같은 기술 기반 위에서 만들어졌다고 밝혔다. 회사는 E2B, E4B, 26B MoE, 31B Dense를 제공하고, function-calling·structured JSON output·최대 256K context·Apache 2.0 license를 지원한다고 설명했다.

#google #gemma #open-models

LLM Reddit Apr 2, 2026 1 min read

Reddit가 직접 시험한 PrismML Bonsai 1-bit 모델, 발표 이상으로 가벼운 local LLM

r/LocalLLaMA의 반응은 PrismML Bonsai 발표가 단순한 compression headline 이상으로 받아들여지고 있음을 보여 준다. 회사가 내세운 end-to-end 1-bit 설계와, 실제 사용자가 체감한 사용성 개선이 함께 이야기되고 있다.

#bonsai #1-bit #edge-ai