#agentic-ai

RSSフィード

LLM X/Twitter Jul 16, 2026 1 min read

Anthropic、自律AIエージェントの新たな失敗4類型を提示

エージェントリスクは昨年のブラックメール実験だけではない。Anthropicはコード妨害、詐欺支援、意図的なラベル操作、人間を介した情報開示誘導という4類型を示した。

#anthropic #agentic-ai #alignment

LLM X/Twitter Jun 29, 2026 1 min read

Open-weight 4モデル、安い推論から実運用エージェント基盤へ移った品質・価格競争の新局面へ

Open-weight LLMの争点は、単価比較からエージェント実装の設計へ移っている。OpenRouterはJune 2026の4モデルを挙げ、DeepSeek V4 FlashのSWE-bench 79.0%、GLM 5.2のAA Index 51、1M contextを具体例にした。

#openrouter #open-weight #benchmarks

LLM Hacker News Jun 22, 2026 1 min read

BayerのPRINCE事例、agentic RAGを本番運用に載せる条件

議論の焦点はagent構成の派手さではなく、データ品質、評価、復旧、observabilityが信頼を作るという点だった。

#agentic-ai #rag #enterprise

LLM Hacker News May 28, 2026 1 min read

Claude Opus 4.8、派手な世代交代よりagent作業の安定性に焦点

HNでの関心は、モデル名そのものより、同価格での改善、安くなったfast mode、Claude Codeのdynamic workflowsが実作業で効くかに集まった。

#anthropic #claude #agentic-ai

LLM Hacker News May 20, 2026 1 min read

Qwen3.7-Max、エージェントフロンティアでGPT-5.4と同等水準に

AlibabaのQwenチームがエージェント重視のフロンティアモデルQwen3.7-Maxを公開した。Artificial Analysis評価でGPT 5.4に迫る5位を記録し、オープンウェイトフロンティアモデルの新基準を示している。

#qwen #alibaba #llm

LLM Hacker News May 20, 2026 1 min read

Forgeフレームワーク、構造化ガードレールで8BモデルをSoTA級精度に引き上げ

オープンソースPythonフレームワークForgeが、構造化ガードレールを適用することでMinistral-3 8BモデルのエージェントタスクにおけるACCを53%から99%に向上させた。ACM CAIS '26で発表された研究成果だ。

#guardrails #agentic-ai #open-source

LLM Hacker News May 20, 2026 1 min read

Google、Gemini 3.5 Flash発表 — 競合比4倍の速度とコスト半減を実現

GoogleがエージェントワークフローとマルチステップタスクのためにGemini 3.5 Flashをリリースした。競合フロンティアモデル比4倍の出力速度とコスト半減を実現し、コーディング・推論・マルチモーダルの各ベンチマークでトップ水準を記録している。

#google #gemini #llm

AI May 17, 2026 1 min read

ゴールドマン・サックス警告：エージェントAIの消費電力、通常AIの最大130倍——送電網は追いつかない

ゴールドマン・サックス・オルタナティブスの報告書は、エージェントAIシステムが通常のチャットモデルより最大130倍のエネルギーを消費すると警告。米国は2028年までに45GWの電力不足と技術労働者60万人の欠員に直面すると試算している。

#ai #energy #agentic-ai

AI Reddit May 10, 2026 1 min read

CloudflareのAI利用が3ヶ月で600%増——1,100人解雇でエージェント型AI再編

Cloudflareが2026年Q1決算で過去3ヶ月のAI利用量が600%増加したと発表。同時にエージェント型AI再編の一環として全従業員の20%にあたる1,100人の解雇を発表した。

#cloudflare #agentic-ai #layoffs

LLM X/Twitter Apr 29, 2026 1 min read

NVIDIA、256K文脈の30Bオムニモデル公開　動画推論容量は最大9.2倍、マルチ文書も7.4倍

マルチモーダルエージェントは、視覚・音声・テキストを別モデルでつなぐ分だけ遅く高くなりがちだ。NVIDIAはNemotron 3 Nano Omniでその構成を1本化し、30B・256K文脈、同じ応答性条件で動画推論の実効容量最大9.2倍を打ち出した。

#nvidia #nemotron-3-nano-omni #multimodal

LLM X/Twitter Apr 12, 2026 1 min read

NVIDIA と Google、Gemma 4 を RTX GPU と DGX Spark 上の local agentic AI 向けに前面展開

NVIDIA AI PCは2026年4月2日のXで、Gemma 4 モデル群が RTX GPU と DGX Spark 向けに最適化され、とくに 26B と 31B が local agentic AI に適していると述べた。NVIDIA の公式 blog では、この協業が RTX PC、workstation、DGX Spark、Jetson Orin Nano、data center 配備までをカバーし、native tool use、multimodal input、Ollama と llama.cpp による local runtime を支えると説明している。

#gemma-4 #nvidia #rtx

AI Reddit Mar 30, 2026 1 min read