#model-efficiency

LLM Hacker News Mar 26, 2026 1 min read

量子化の基礎解説がLLMコストの本丸を見える化する

ngrokは2026-03-25公開のexplainerで、quantizationがLLMをroughly 4x smaller、2x fasterにでき、4-bitと8-bitのtrade-offをどう読むべきかを丁寧に整理した。Hacker Newsはこの投稿を247 pointsと46 commentsまで押し上げ、memory bottleneckとlocal inferenceのコスト構造をあらためて議論した。

#quantization #llm #inference

LLM X/Twitter Mar 20, 2026 1 min read

OpenAI、16MB制約で効率pretrainingを競うParameter Golfを公開

OpenAIはXで、16 MBのartifact limitと8×H100で10分のtraining budgetの下で最も効率的なpretrained modelを競う公開研究チャレンジ「Parameter Golf」を開始すると発表した。固定FineWeb dataset、公開baseline repo、任意のRunpod compute creditsが用意される。

#openai #parameter-golf #model-efficiency