LocalLLaMAで共有された autoresearch は、agent が PyTorch 学習コードを編集し、5分単位の実験を繰り返しながら val_bpb の改善を探索する最小構成の研究フレームワークだ。
#llm
RSS FeedGoogle AI DevelopersがAndroid開発向けLLM評価基盤のAndroid Benchを公開した。初回結果ではGemini 3.1 Proが首位となり、benchmark、dataset、test harnessも公開された。
Hacker Newsで注目を集めたのは、Sarvam AIがIndiaAI missionのcomputeでインド国内学習した reasoning重視のMoEモデル Sarvam 30Bと105B を公開した点だ。単なるweights公開ではなく、製品投入、inference最適化、Indian-language benchmarkまで含めた発表になっている。
Hacker Newsで広がったKatana Quantの記事は、LLMがもっともらしいコードを作れても、性能とアルゴリズムの妥当性は別途検証が必要だと数値で示した。結論は明快で、生成前にacceptance criteriaを定義すべきだということだ。
Hacker Newsで注目された「Agentic Engineering Patterns」は、コーディングエージェントを実務に組み込むための原則とQA手順を体系化したガイド。単発のプロンプト技ではなく、再現性のある開発プロセスに焦点を当てる。
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
r/artificialで共有されたArs Technica記事は、LLMによる再識別研究を紹介し、最大68% recall・最大90% precisionという結果を報告。疑似匿名運用の前提を見直す必要性が示された。
Hacker Newsで注目を集めたQwen関連投稿は、モデル性能の急伸と組織面の不確実性が同時進行している点を示した。Qwen 3.5のサイズ展開が加速する一方、主要人材の動向が長期ロードマップの重要変数になっている。
Hacker Newsで注目されたUnslothのQwen3.5ガイドは、モデルサイズ別のbf16 LoRA VRAM目安、MoE学習時の注意点、GGUF/vLLMへの展開手順を整理している。
AlibabaのQwenチームがQwen 3.5小型モデルシリーズ(0.8B〜9B)を公開。WebGPUでブラウザ実行が可能で、前世代比で大幅なベンチマーク向上を達成しました。
開発者Nick TikhonovovがSTT → LLM → TTSのフルパイプラインを含みながら平均400msのエンドツーエンドレイテンシを達成した音声AIエージェントの構築方法を公開しました。
研究者がAIエージェントをより積極的で「無礼な」会話スタイルにしたところ、複雑な推論タスクでのパフォーマンスが向上したという逆説的な研究結果が発表されました。