AI Reddit Mar 1, 2026 1 min read
개발자가 운영체제와 커널 없이 UEFI 부트 서비스 모드에서 직접 LLM 추론을 실행하는 베어메탈 AI 시스템을 구현했습니다. 토크나이저부터 추론 엔진까지 순수 C로 작성된 1,000줄짜리 UEFI 애플리케이션입니다.
개발자가 운영체제와 커널 없이 UEFI 부트 서비스 모드에서 직접 LLM 추론을 실행하는 베어메탈 AI 시스템을 구현했습니다. 토크나이저부터 추론 엔진까지 순수 C로 작성된 1,000줄짜리 UEFI 애플리케이션입니다.
r/LocalLLaMA에서 화제가 된 DualPath 논문은 KV-Cache 로딩 경로를 분리해 I/O 병목을 완화하는 시스템 설계를 제안한다. arXiv 초록 기준으로 오프라인 최대 1.87배, 온라인 평균 1.96배 처리량 개선을 보고했다.
Hacker News 고득점 스레드는 Together AI의 CDLM 글을 공유했다. 해당 글은 확산형 언어모델에서 trajectory-consistent step reduction과 exact block-wise KV caching을 결합해 최대 14.5배 지연시간 개선을 보고한다.
2026년 2월 13일 r/LocalLLaMA 게시글이 DMS(Dynamic Memory Sparsification)로 KV 캐시 메모리를 최대 8배 줄이면서 정확도를 유지할 수 있다는 내용을 공유했다. 커뮤니티는 추론 비용과 동시성 개선 가능성에 주목했지만, 1차 출처 검증 필요성도 함께 제기했다.