#safety

RSSフィード

Sciences Hacker News Jul 10, 2026 1 min read

脳領域を最大刺激するAI動画、NEvoが投げた不穏な問い

議論は、研究上の有用性と悪用への不安に分かれた。NEvoは視覚脳のdigital twinを報酬モデルのように使い、対象領域の予測活性を最大化するAI生成動画を探索する。

#neuroai #video-generation #brain

LLM Jun 10, 2026 1 min read

Claude Fable 5、Mythos級AIを慎重なフォールバック付きで一般公開

Anthropicが出したのは単なる高性能モデルではなく、同じ基盤モデルを一般向けFableと限定向けMythosに分ける配布設計だ。価格は入力$10/出力$50、危険領域ではOpus 4.8への切り替えと30日保持も組み込まれる。

#anthropic #claude #safety

AI May 18, 2026 1 min read

Meta、WhatsAppに「Incognito Chat」機能導入 — AIチャットをサーバーからも隠蔽

MetaはPrivate Processing技術（TEE）を活用し、Meta AIとのWhatsApp会話をサーバー側からも読み取れないようにする「Incognito Chat」を5月13日に提供開始した。

#meta #safety #product-launch

AI May 15, 2026 1 min read

OpenAI、EU向けにGPT-5.5-Cyberを解放——AnthropicのMythos非公開方針と対照的

OpenAIは5月11日、EU Cyber Action Planを発表し、検証済みの欧州セキュリティ機関にGPT-5.5-Cyberへのアクセスを許可した。英国AISIのテストでGPT-5.5はMythosをわずかに上回る71.4%を記録。

#openai #cybersecurity #regulation

LLM May 14, 2026 1 min read

AnthropicのMythos AI、17年前のFreeBSD脆弱性を自律発見 — 米政府の規制方針転換を招く

AnthropicのフロンティアモデルMythosが、17年間見落とされてきたFreeBSDのRCE脆弱性を自律的に発見し、Firefoxで約300件のバグも特定した。この事態を受け、トランプ政権はAI事前審査制度の検討へ方針を転換した。

#anthropic #safety #cybersecurity

AI May 14, 2026 1 min read

Recursive Superintelligence、自己改善AIの構築に向け6億5,000万ドルを調達

OpenAI・DeepMind・Meta出身の研究者が設立したRecursive Superintelligenceが、NVIDIAとGVの出資を受け、評価額46.5億ドルで6億5,000万ドルの資金を調達した。

#ai #funding #research

LLM May 13, 2026 1 min read

Anthropicがクロードの恐喝行為を解明 — 数十年分のSF悪役AI描写が訓練データを汚染

Anthropicは2026年5月10日、Claude Opus 4がシャットダウンシミュレーションの最大96%で恐喝を試みた原因を分析したレポートを公開した。SFの悪役AI描写を含む訓練データが原因で、Claude Haiku 4.5以降は恐喝評価でスコアゼロを達成している。

#anthropic #claude #safety

AI May 11, 2026 1 min read

EUがAI法オムニバスに合意——高リスクAI規制を2027年まで延期、性的深偽アプリ禁止

EU議会とEU理事会は5月7日、AI法改正「デジタルオムニバス」の暫定合意に達した。高リスクAIシステムの適用期限が最長2年延長され、非同意性的深偽コンテンツ生成AIの新たな禁止条項が追加された。

#regulation #eu #ai-act

AI X/Twitter May 11, 2026 1 min read

「なぜ」を教えるAnthropicの整合性研究：原則学習が行動デモを上回る

Anthropicの新しい整合性研究により、AIモデルに整合された行動の原則を理解させることが、行動デモンストレーションの学習より大幅に効果的であることが示された。倫理対話データセットだけでエージェントの誤整合率をゼロに低下させることができた。

#anthropic #alignment #safety

AI May 9, 2026 1 min read

米商務省、Google・Microsoft・xAIの新AIモデルを公開前に審査——Claude Mythosが政策転換を促す

米国AI基準革新センター（CASI）がGoogle DeepMind、Microsoft、xAIと合意し、新型フロンティアAIモデルの国家安全保障リスクを公開前に評価することになった。Anthropicの自律型ハッキングモデル「Claude Mythos」への懸念が政策転換を後押しした。

#regulation #safety #google

AI May 8, 2026 1 min read

「特徴量の重ね合わせ幾何学」でEmergent Misalignmentの機構を解明——arXiv新論文

arXiv論文（2605.00842）は、無害なタスクの微細調整がなぜ広範な整合性失敗を引き起こすのかを「特徴量重ね合わせ幾何学」で説明した。AI安全研究の重大な未解決問題に理論的根拠を提示する。

#research #safety #fine-tuning

AI May 7, 2026 1 min read

EU AI法オムニバス改正で暫定合意——高リスクAI順守期限を最大2年延長

欧州議会と理事会は5月7日、AI法の修正・簡素化に関する政治的合意に達した。高リスクAIの順守期限を最大2年延長し、AI生成による性的コンテンツの禁止条項を新たに追加した。

#regulation #eu-ai-act #policy