#model-efficiency

LLM Hacker News Mar 26, 2026 1 min read

양자화 기본기, LLM 비용 구조를 다시 설명하다

ngrok는 2026-03-25 공개한 explainer에서 quantization이 LLM을 roughly 4x smaller, 2x faster하게 만들 수 있고 4-bit·8-bit trade-off를 어떻게 읽어야 하는지 설명했다. Hacker News는 이 글을 247 points와 46 comments까지 끌어올리며 memory bottleneck과 local inference 비용 구조를 다시 논의했다.

#quantization #llm #inference

LLM X/Twitter Mar 20, 2026 1 min read

OpenAI, 16MB 제약 아래 효율 pretraining 겨루는 Parameter Golf 공개

OpenAI는 X를 통해 16 MB artifact limit와 8×H100 기준 10분 training budget 안에서 가장 효율적인 pretrained model을 만드는 공개 연구 챌린지 Parameter Golf를 시작한다고 밝혔다. 고정된 FineWeb dataset, 공개 baseline repo, 선택형 Runpod compute credits가 함께 제공된다.

#openai #parameter-golf #model-efficiency