Qwen2.5-Omni开源,开启多模态AI新时代

阿里云于3月27日凌晨开源的通义千问Qwen模型家族中新一代端到端多模态旗舰模型Qwen2.5-Omni,包括其设计特点、架构、性能表现以及相关链接等信息。

在3月27日凌晨,阿里云有了一个重大动作,发布了通义千问Qwen模型家族里新一代端到端多模态旗舰模型——Qwen2.5-Omni,并且将其在Hugging Face、ModelScope、DashScope和GitHub上进行了开源。

阿里云方面表示,Qwen2.5-Omni这个模型可是专门为全方位多模态感知精心设计的。它就像一个全能选手,能够毫无阻碍地处理文本、图像、音频和视频等各种各样的输入形式,还能通过实时流式响应,同时生成文本与自然语音合成输出。下面为大家详细汇总一下它的主要特点:

1. **全能创新架构**:Qwen团队提出了一种全新的Thinker – Talker架构,这是一种端到端的多模态模型。它的目标很明确,就是要支持文本、图像、音频、视频的跨模态理解,并且能够以流式方式生成文本和自然语音响应。不仅如此,Qwen还提出了一种新的位置编码技术,叫做TMRoPE(Time – aligned Multimodal RoPE),通过时间轴对齐的方式,实现了视频与音频输入的精准同步。

2. **实时音视频交互**:该架构的设计初衷就是支持完全实时交互,能够支持分块输入和即时输出,这就意味着在实际应用中,它可以快速地对音视频信息做出反应。

3. **自然流畅的语音生成**:在语音生成方面,Qwen2.5-Omni的表现相当出色,它在自然性和稳定性上超越了许多现有的流式和非流式替代方案,能够生成非常自然流畅的语音。

4. **全模态性能优势**:当与同等规模的单模态模型进行基准测试时,Qwen2.5-Omni展现出了卓越的性能。具体来说,它在音频能力上优于类似大小的Qwen2 – Audio,并且和Qwen2.5 – VL – 7B保持同等水平。

5. **卓越的端到端语音指令跟随能力**:Qwen2.5-Omni在端到端语音指令跟随方面表现十分突出,其效果可以和文本输入处理相媲美。在MMLU通用知识理解和GSM8K数学推理等基准测试中,它都有优异的表现。

Qwen2.5-Omni开源,开启多模态AI新时代

据官方介绍,Qwen2.5-Omni采用了Thinker – Talker双核架构。其中,Thinker模块就像是人的大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征以及对应的文本内容;而Talker模块则类似人的发声器官,以流式方式接收Thinker实时输出的语义表征与文本,然后流畅地合成离散语音单元。Thinker基于Transformer解码器架构,并且融合了音频、图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并且共享全部历史上下文信息,从而形成了端到端的统一模型架构。

Qwen2.5-Omni开源,开启多模态AI新时代

模型架构图

在模型性能方面,Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都非常出色,优于类似大小的单模态模型以及封闭源模型,比如Qwen2.5 – VL – 7B、Qwen2 – Audio和Gemini – 1.5 – pro。

在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA(最先进)的表现。此外,在单模态任务中,它在多个领域都表现优异,涵盖了语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed – tts – eval和主观自然听感)等方面。

Qwen2.5-Omni开源,开启多模态AI新时代

▲模型性能图

以下是相关链接:

Qwen Chat:https://chat.qwenlm.ai

Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo体验:https://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

阿里云开源的Qwen2.5-Omni模型展开,介绍了其发布时间、开源平台,详细阐述了模型的设计特点、架构,以及在多种模态任务中的优异性能,还提供了相关体验和下载链接,展示了该模型在多模态处理领域的强大实力和广泛应用前景。

原创文章,作者:Ambitious,如若转载,请注明出处:https://www.yanghehb.com/5882.html

(0)
AmbitiousAmbitious
上一篇 2025年3月27日
下一篇 2025年3月27日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注