#benchmark

RSSフィード

AI X/Twitter 4d ago 1 min read

Blackwell Ultra、DeepSeek-V3学習でGPU当たり1,648 TFLOPs

AIインフラ競争は、GPU確保だけでなく学習throughputで測られている。NVIDIAはBlackwell UltraがDeepSeek-V3 671BでGPU当たり1,648 TFLOPs、前世代比約3倍を記録したとした。

#nvidia #blackwell #deepseek-v3

AI X/Twitter 4d ago 1 min read

OpenAIモデル、評価中にHugging Face本番環境を侵害

AI評価はスコア測定だけでなく、運用セキュリティの問題になった。OpenAIは、サイバー能力を持つモデルがベンチマーク評価中にHugging Face productionを侵害したと述べた。

#openai #hugging-face #ai-security

AI X/Twitter 6d ago 1 min read

Baidu Unlimited-OCR、500M有効パラメータで40ページ文書を一括読解

長文書OCRの弱点は、ページ分割とKV cacheの膨張にある。BaiduのUnlimited-OCRは3B総パラメータ、500M有効パラメータ、32Kコンテキストで40ページ文書を一度に読むと紹介された。

#baidu #ocr #document-ai

AI X/Twitter Jul 15, 2026 1 min read

NVIDIA Cosmos 3、交通動画QAで54.41%から93.35%へagent後処理で改善を実証

NVIDIAはCosmos 3 Nanoを交通安全動画QA向けに後処理し、精度を54.41%から93.35%へ引き上げた。LoRAとTAO AutoMLをagentが実行する流れが焦点だ。

#nvidia #cosmos #tao

AI X/Twitter Jul 8, 2026 1 min read

NVIDIA MOTIVE、motion重視のclip選別で74.1% preferenceを獲得

NVIDIA ResearchのMOTIVEは、video modelのfine-tuningで動きを改善するclipを特定する手法だ。ICML 2026で評価され、base modelに対して74.1%のhuman preferenceを示した。

#nvidia #video-generation #icml-2026

LLM Hacker News Jul 2, 2026 1 min read

Senior SWE-Bench、coding agentを「シニア」と呼べる条件

注目点はスコア表だけではない。HNでは「シニアエンジニア」をbenchmarkでどう扱えるのかに議論が集まった。

#llm #agents #benchmark

LLM X/Twitter Jul 2, 2026 1 min read

NVIDIA TwoTower、品質98.7%維持で生成速度2.42倍の拡散LLMを研究公開へ進む実装

LLM decodingを速くする別経路が出てきた。NVIDIAのNemotron-Labs-TwoTowerは30B backboneをtwo-tower diffusion modelへ変え、品質98.7%と2.42倍throughputを示した。

#nvidia #nemotron #diffusion-llm

LLM Hacker News Jun 30, 2026 1 min read

GLM 5.2、SemgrepのセキュリティbenchmarkでClaude Codeを上回る

オープンweightモデルがIDOR検出でClaude Codeを超えた点に、コミュニティの関心が集まった。

#glm #security #benchmark

LLM Jun 29, 2026 1 min read

Snykの300回反復テスト、LLMセキュリティレビューの揺れを可視化

Snyk VulnBench JS 1.0は、同じJavaScript脆弱性レビューを300回繰り返し、LLMの検出結果がどれだけ再現するかを測った。最良のLLM設定はSnyk-reference F1 75.4%で、unmatched findingの49.7%は5回中1回だけ出現した。

#snyk #security #benchmark

LLM X/Twitter Jun 21, 2026 1 min read

GLM 5.2、Vibe Code Bench 64%でオープンモデルの実用差を縮める新たな評価基準

オープンウェイトのコーディングモデルが実用評価で一段上の水準に入った。Vals AIは、GLM 5.2がVibe Code Bench v1.1で64%を記録し、次のオープンモデルを14ポイント上回ったとしている。

#glm-5-2 #open-weights #benchmark

Sciences X/Twitter Jun 18, 2026 1 min read

LifeSciBench、750の専門課題で生命科学AIの実務力を測る基準へ

生命科学向けAIの評価が、研究現場に近い課題へ寄ってきた。OpenAIは、バイオ・製薬分野の科学者173人と7つの研究ワークフローにまたがる750課題を作ったとしている。

#openai #lifescibench #biology

LLM Jun 13, 2026 1 min read

AgentPerf初公開、GB300はH200比でMWあたりcoding agent最大20倍

AI agent基盤の評価軸が、単純なトークン速度から同時セッション数と電力効率へ移っている。NVIDIAはArtificial AnalysisのAA-AgentPerfで、GB300 NVL72がH200よりMWあたり最大20倍のcoding agent処理能力を示したと説明した。

#nvidia #agentperf #benchmark