#llm

RSSフィード

LLM Hacker News 23h ago 1 min read

8ドルのESP32で28.9M LLM、鍵はflashに置く重み

小さなmicrocontrollerでLLMを動かす実験の焦点は、賢さではなくmemory layoutだ。25M parametersをflashに置き、tokenごとに必要な行だけ読む。

#esp32 #edge-ai #llm

LLM Hacker News 23h ago 1 min read

Open-weight AIのKubernetes的瞬間、問われるのはモデルより周辺スタック

議論の中心は、重みを公開するかどうかだけではない。runtime、serving、評価、運用、fine-tuningまで含めたエコシステム競争に移っている。

#open-weight #ai-policy #kubernetes

LLM 1d ago 1 min read

GitHub CopilotにClaude Opus 5、長時間coding agentの選択肢が拡大

Claude Opus 5がGitHub Copilotのモデル選択肢に入り、長時間のコード変更や回帰検証をGitHubの作業面から直接任せやすくなる。対象はPro+、Max、Business、Enterpriseで、VS Code、Copilot CLI、cloud agent、JetBrainsなどへ段階的に展開される。

#github-copilot #claude-opus-5 #coding-agents

LLM Hacker News Jul 18, 2026 1 min read

Kimi K3、2.8T open modelがfrontier競争を価格まで揺らす

HNで注目されたのは発表文そのものではなく、2.8T規模のopen modelがfrontier性能と推論コストを同時に問い直した点だった。

#kimi #kimi-k3 #open-models

LLM Curated Jul 17, 2026 1 min read

Kimi K3、2.8T open-weightでfrontierモデル競争に圧力

Kimi K3は2.8Tパラメータ、1M-token context、native visionを掲げ、open-weightモデルの規模競争を一段押し上げた。full weightsは2026年7月27日までに公開予定で、現時点ではKimi.com、Kimi Code、APIで利用できる。

#moonshot #kimi-k3 #open-weight

LLM Hacker News Jul 2, 2026 1 min read

LongCat-2.0、1.6T MoEより大きい国産チップ訓練の意味

1.6T total、48B activeというMoEの数字だけではない。HNでは国産AI ASIC clusterでの訓練が大きな信号として読まれた。

#llm #moe #china-ai

LLM Hacker News Jul 2, 2026 1 min read

Senior SWE-Bench、coding agentを「シニア」と呼べる条件

注目点はスコア表だけではない。HNでは「シニアエンジニア」をbenchmarkでどう扱えるのかに議論が集まった。

#llm #agents #benchmark

LLM Jun 29, 2026 1 min read

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化

Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。

#snyk #security #benchmark

LLM Jun 28, 2026 1 min read

Open-weight modelの差は3〜6カ月、OpenRouterが4モデルで整理

OpenRouterは6月のopen-weight modelをDeepSeek V4 Flash、GLM 5.2、MiniMax M3、NVIDIA Nemotron 3 Ultraの4軸で整理した。79.0%のSWE-bench Verified、Intelligence Index 51、1M context、低いserving costが判断材料になる。

#openrouter #open-weight #llm

LLM News Jun 26, 2026 1 min read

LLM reasoning、問題分解だけでなく記憶を呼び出す仕組みか

Google ResearchはGemini-2.5とQwen3-32Bで、reasoningが単純な事実質問の想起を助ける2つの仕組みを分離した。追加tokenは計算時間を与え、関連事実は正答をprimeするが、中間hallucinationは精度を下げる。

#google-research #reasoning #hallucination

LLM Hacker News Jun 22, 2026 1 min read

Claudeの本人確認、論点は「誰が高性能モデルを使えるか」へ

注目を集めたのは手続きそのものではなく、高性能LLMへのアクセスが本人確認と結びつき始めた点だ。

#anthropic #claude #identity

AI X/Twitter Jun 21, 2026 1 min read

GitHub、LLM文脈検証でsecret scanningの誤検知75.76%減を示すセキュリティ運用改善

セキュリティ通知は量より信頼性が問われている。GitHubは、LLMによる文脈検証でsecret scanningの誤検知を75.76%減らし、目標の65%を上回ったとしている。

#github #security #llm