LocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。
#multimodal
RSS Feed重要なのは、retrieval stackがtext-only searchからmultimodal memoryへ移っている点だ。Google AI StudioはGemini Embedding 2がGAとなり、text、image、video、audio、documentsの5入力を1つのmodel pathで扱うと示した。
重要なのは、AnthropicがClaudeをtextやcodeだけでなくvisual work productsへ広げている点だ。投稿ではClaude DesignがOpus 4.7で動き、Pro、Max、Team、Enterprise plansにresearch previewとして展開されるとされた。
MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。
重要なのは、Alibabaが multimodal coding model を API 限定ではなく open weights として出した点だ。投稿は Qwen3.6-35B-A3B が35B total parameters、3B active parameters、Apache 2.0 license を持つと示し、ブログでは SWE-bench Verified 73.4 と Terminal-Bench 2.0 51.5 が示された。
54ポイントのReddit postは、merged PR #19441によってqwen3-omni-moeとqwen3-asr supportがllama.cppに入ったことを伝え、コメント欄ではlocal multimodalとASRの実運用期待が目立った。
AI at Metaは2026年4月8日のXで、Muse Sparkを tool use、visual chain of thought、multi-agent orchestration を備えた natively multimodal reasoning model として紹介した。Meta の公式発表では、このモデルはすでに Meta AI app と meta.ai を支えており、今後 WhatsApp、Instagram、Facebook、Messenger、AI glasses へ展開され、selected partners 向け private-preview API も提供されるとしている。
Metaは2026年4月8日、Meta Superintelligence Labs初のモデルMuse Sparkを発表した。このモデルはすでにMeta AI appとwebを支えており、WhatsApp、Instagram、Facebook、Messenger、AI glassesにも拡大される予定だ。
Googleは2026年3月26日、Search Live を AI Mode がすでに利用可能なすべての言語と国へ拡大すると発表した。200超の国と地域へ広がる今回の rollout は Gemini 3.1 Flash Live を基盤に、search をより conversational で voice-first、camera-aware な体験へ押し広げる。
Hacker Newsで、Meta Superintelligence Labsによる Muse Spark の発表が大きく注目された。tool use、visual chain of thought、並列エージェント型の Contemplating mode を備えたマルチモーダル推論モデルだ。
Show HNに投稿されたParlorは、ブラウザの音声とカメラ入力をGemma 4 E2BとKokoroで処理し、ローカルで音声応答まで完結させる。Apple M3 Proで約2.5〜3.0秒のend-to-end latencyを示している点が印象的だ。
LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。