Qwen3-Omni-Flash-2025-12-01：a next-generation native multimodal large model

原始链接: https://qwen.ai/blog?id=qwen3-omni-flash-20251201

## Qwen3-Omni-Flash：一种新型多模态模型 Qwen.ai 发布了 Qwen3-Omni-Flash，一个30B参数的混合专家（MoE）模型，拥有3B激活参数，是其先前7B Omni模型的后续版本。它的设计目标是与非全能版本性能相似，并且是少数几个可公开获取权重的全能模型之一。该模型集成了音频和视觉编码器与一个30B LLM，以及较小的音频LLM，旨在实现原生多模态能力，包括实时语音到语音转换。然而，在vLLM和SGLang等开源推理框架中的完整实现目前缺失，导致性能缓慢，尽管它在Hugging Face上可用。讨论的中心在于这个“Flash”版本是否完全开源，或者只是对Qwen3-Omni模型的闭源更新，主要用于他们自己的聊天平台。用户正在探索它的能力，注意到它在文本之外的应用潜力，但也强调了准确性方面的问题（通过对事实性问题的错误回答来证明）以及语音的“人工”感。虽然前景可期，但实际本地使用仍然具有挑战性。