#multimodal

LLM Reddit 2d ago 1 min read

Qwen 3.6 27BでLocalLLaMAが沸いた理由、ただの新作ではなくdense復権感

LocalLLaMAが盛り上がったのは、単なるベンチマーク更新ではなかった。公式スコアも強いが、本当の熱量はFP8やGGUF、VRAM適合の話がすぐ始まったことにあった。2026年4月25日時点でスレッドは1,688ポイント、603コメントだった。

#qwen #open-weights #coding-models

AI sources.twitter 4d ago 1 min read

Gemini Embedding 2 GA、5 modality検索を単一vector layerへ統合

重要なのは、retrieval stackがtext-only searchからmultimodal memoryへ移っている点だ。Google AI StudioはGemini Embedding 2がGAとなり、text、image、video、audio、documentsの5入力を1つのmodel pathで扱うと示した。

#google #gemini #embeddings

AI sources.twitter Apr 18, 2026 1 min read

Claude Design preview、会話でprototype・slide・one-pager作成へ拡張

重要なのは、AnthropicがClaudeをtextやcodeだけでなくvisual work productsへ広げている点だ。投稿ではClaude DesignがOpus 4.7で動き、Pro、Max、Team、Enterprise plansにresearch previewとして展開されるとされた。

#anthropic #claude #design

LLM Apr 18, 2026 1 min read

MM-WebAgent、画像・コード・layoutを同じ意図で束ねる

MM-WebAgentは、AI製webpageが部品単位では良くても全体で崩れる問題を狙う。階層型planning、self-reflection、benchmark、code/data公開により、code-onlyでは見えないmultimodal coherenceを測れるようにした。

#web-agents #multimodal #aigc

AI sources.twitter Apr 17, 2026 1 min read

Qwen3.6-35B-A3B、35B MoEをApache 2.0で開き3B activeとcoding性能を提示

重要なのは、Alibabaが multimodal coding model を API 限定ではなく open weights として出した点だ。投稿は Qwen3.6-35B-A3B が35B total parameters、3B active parameters、Apache 2.0 license を持つと示し、ブログでは SWE-bench Verified 73.4 と Terminal-Bench 2.0 51.5 が示された。

#qwen #open-weights #moe

LLM Reddit Apr 13, 2026 1 min read

r/LocalLLaMA、Qwen3 audio supportが入ったllama.cpp mergeを追う

54ポイントのReddit postは、merged PR #19441によってqwen3-omni-moeとqwen3-asr supportがllama.cppに入ったことを伝え、コメント欄ではlocal multimodalとASRの実運用期待が目立った。

#qwen3 #llama-cpp #audio

LLM sources.twitter Apr 12, 2026 1 min read

Meta、Meta Superintelligence Labs 初のモデル Muse Spark を公開

AI at Metaは2026年4月8日のXで、Muse Sparkを tool use、visual chain of thought、multi-agent orchestration を備えた natively multimodal reasoning model として紹介した。Meta の公式発表では、このモデルはすでに Meta AI app と meta.ai を支えており、今後 WhatsApp、Instagram、Facebook、Messenger、AI glasses へ展開され、selected partners 向け private-preview API も提供されるとしている。

#meta #muse-spark #multimodal

LLM Apr 12, 2026 1 min read

Meta、Meta Superintelligence Labs 初のモデル Muse Spark を発表

Metaは2026年4月8日、Meta Superintelligence Labs初のモデルMuse Sparkを発表した。このモデルはすでにMeta AI appとwebを支えており、WhatsApp、Instagram、Facebook、Messenger、AI glassesにも拡大される予定だ。

#meta #muse-spark #llm

AI Apr 11, 2026 1 min read

Google、Search Live を 200超の国と地域へ拡大　Gemini 3.1 Flash Live で音声・カメラ検索を強化

Googleは2026年3月26日、Search Live を AI Mode がすでに利用可能なすべての言語と国へ拡大すると発表した。200超の国と地域へ広がる今回の rollout は Gemini 3.1 Flash Live を基盤に、search をより conversational で voice-first、camera-aware な体験へ押し広げる。

#google #search-live #gemini

LLM Hacker News Apr 9, 2026 1 min read

Meta、マルチモーダル推論と並列エージェントを備えた Muse Spark を公開

Hacker Newsで、Meta Superintelligence Labsによる Muse Spark の発表が大きく注目された。tool use、visual chain of thought、並列エージェント型の Contemplating mode を備えたマルチモーダル推論モデルだ。

#meta #muse-spark #multimodal

AI Hacker News Apr 7, 2026 1 min read

Parlor、Apple Siliconで動くリアルタイム音声マルチモーダルAIをShow HNで公開

Show HNに投稿されたParlorは、ブラウザの音声とカメラ入力をGemma 4 E2BとKokoroで処理し、ローカルで音声応答まで完結させる。Apple M3 Proで約2.5〜3.0秒のend-to-end latencyを示している点が印象的だ。

#multimodal #on-device-ai #gemma

LLM Reddit Apr 6, 2026 1 min read

Reddit が注目した Parlor、Gemma 4 E2B で動くリアルタイムのローカル音声・視覚 assistant

LocalLLaMA のデモ投稿は、Gemma 4 E2B で speech と vision を理解し、Kokoro で text-to-speech を行う Parlor を紹介した。README では Apple M3 Pro 上で end-to-end latency 約 2.5-3.0 秒、decode speed 約 83 tokens/sec とされている。

#llm #multimodal #edge-ai