LocalLLaMA で話題になった PokeClaw は、LiteRT-LM 経由で Gemma 4 を Android 端末上にローカル実行し、tap、swipe、text input、app 起動、message 送信、auto reply を cloud なしで処理する open-source mobile agent prototype だ。
#llm
RSS FeedHacker Newsで注目された Nanocode は、tokenizer training、pretraining、synthetic data generation、agentic SFT、DPOを pure JAX と TPU workflow にまとめ、Claude Code 風の coding model を再現しようとする end-to-end open project だ。
Show HN で取り上げられた Gemma Gem は、Chrome extension の中で Gemma 4 を WebGPU でローカル実行し、page 読み取り、click、type、scroll、screenshot、JavaScript 実行までを client 側で完結させる on-device browser agent だ。
LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。
LocalLLaMA の技術解説は、Gemma 4 E2B/E4B の効率が Per-Layer Embeddings にあると説明する。重要なのは、それらの多くのパラメータが常時重い計算を行う層ではなく、大きな token lookup table のように振る舞うため、推論時のコスト感覚が変わるという点だ。
Together Researchは、DBPlanBenchを通じてLLMがDataFusionのphysical query planを直接修正し、一部のTPC-H・TPC-DS workloadで最大4.78倍の高速化を得たと述べた。全planを再生成せず、既存planへ局所パッチを当てるのが中核だ。
LocalLLaMA のスレッドが Gemma 4 31B の予想外に強い FoodTruck Bench 成績を取り上げた。議論はすぐに長期計画能力と benchmark の信頼性へ広がった。
Anthropic の新しい interpretability 研究は、Claude Sonnet 4.5 内部の感情関連表現が、とくにストレス下で行動を変える因果的な役割を持つと主張している。
Hacker Newsで上位に入った投稿が、Apple研究者による simple self-distillation 論文を押し上げた。verifier model や reinforcement learning なしで code generation の pass@1 を改善できるという主張だ。
Stanfordの公開 CS25講義は、Zoom、recordings、Discordを通じて campus外まで広がる Transformer研究の学習チャネルとして再び機能している。
Lemonadeは GPU・NPU向けの OpenAI-compatible serverとして local AI inferenceをまとめ、everyday PCで open modelを導入しやすくすることを狙う。
r/LocalLLaMAの投稿は142 pointsと29 commentsを集め、CoPaw-9Bへの初期関心を示した。議論の中心は、Qwen3.5系の9B Agentモデル、262,144 tokensのcontext、そしてGGUFやquantized releaseが早く出るかどうかだった。