Home
零对冲(ZeroHedge)
每日HackerNews
Qwen3-Omni-Flash-2025-12-01:a next-generation native multimodal large model
原始链接:
https://qwen.ai/blog?id=qwen3-omni-flash-20251201
## Qwen3-Omni-Flash:一种新型多模态模型 Qwen.ai 发布了 Qwen3-Omni-Flash,一个30B参数的混合专家(MoE)模型,拥有3B激活参数,是其先前7B Omni模型的后续版本。它的设计目标是与非全能版本性能相似,并且是少数几个可公开获取权重的全能模型之一。 该模型集成了音频和视觉编码器与一个30B LLM,以及较小的音频LLM,旨在实现原生多模态能力,包括实时语音到语音转换。然而,在vLLM和SGLang等开源推理框架中的完整实现目前缺失,导致性能缓慢,尽管它在Hugging Face上可用。 讨论的中心在于这个“Flash”版本是否完全开源,或者只是对Qwen3-Omni模型的闭源更新,主要用于他们自己的聊天平台。用户正在探索它的能力,注意到它在文本之外的应用潜力,但也强调了准确性方面的问题(通过对事实性问题的错误回答来证明)以及语音的“人工”感。虽然前景可期,但实际本地使用仍然具有挑战性。
相关文章
原文
联系我们 contact @ memedata.com