本文围绕生数科技发布业内首个高可控视频大模型Vidu Q1展开,介绍了该模型在技术上的突破,探讨了AI视频模型的商业化发展、多模态探索、行业竞争格局等方面的情况,同时对视频大模型的未来发展趋势进行了分析。
在科技飞速发展的今天,大模型的进步可谓日新月异。
3月29日,在2025中关村论坛年会期间举办的“未来人工智能先锋论坛”上,清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军正式宣布,生数科技推出了业内首个高可控视频大模型——Vidu Q1,并且计划于4月在全球上线。
会后,朱军在接受媒体采访时表示,2025年将会是AI(人工智能)视频商业化快速发展的一年。他认为,视频大模型的商业化路径比语言大模型更为多元,行业竞争格局也不会像“大模型内卷”那样。
朱军觉得,未来视频大模型不会出现像语言模型市场那样“一超多强”的局面,而是会依靠持续创新能力,朝着更高质量、更长时长、更强叙事性的方向不断发展。
下面,我们来深入探讨一下AI视频模型的商业化发展情况。
朱军介绍,和生数科技1月推出的Vidu 2.0相比,Vidu Q1在技术层面有了重大突破。它能够接受空间布局信息作为输入,大大提升了视频生成的可控性,让视频生成进入“高可控”时代成为可能。
朱军指出,走向高可控为AI视频生成的发展找到了新的方向,明确指出了AI视频生成的痛点。通过技术手段引入多元素控制,AI视频生成不再是毫无头绪的“乱生成”,而是可以人为控制,这使得AI视频生成与当下追求精益求精的制作逐渐趋于一致。
另一方面,高可控意味着AI视频生成的创意呈现会更加极致和多元。朱军表示,过去Vidu在画面生成、生成速度、多主体一致等视频生成关键环节不断努力。如今,“高可控”时代的到来,让人们能够更方便地将自己头脑中的想法变成现实。具体来说,Vidu Q1在多主体细节可控、音效同步可控、画质增强等方面都取得了不错的成效。
在多模态模型层面的探索上,朱军表示,生数科技从成立之初就专注于多模态大模型研发。Vidu的基座本身就是一个多模态大模型,视频只是多模态技术的一种表现形式。此外,公司还在探索音频及机器人可控操作数据的应用等多种模态。“对我们来说,底层架构基本相同,无需修改就能适应多模态,只是会根据用户需求在不同阶段推出相应产品。”
朱军认为,未来多模态的发展方向是智能体与工作流的全面打通,这也是生数科技规划的重要方向。他表示,未来需要推动智能体与工作流的打通,实现不同模态之间的协同,以更好地服务各行业用户。
在商业化方面,朱军坦言,随着AI视频技术商业价值的不断提升,资本市场对生数科技的关注重点也在发生变化。他说,公司早期,投资人更看重团队实力,而现在,除了技术壁垒,商业化进展已成为核心考量因素。“视频的价值密度更高,商业化进程也更快。2025年将是AI视频模型商业化快速发展的一年。”
目前,生数科技的SaaS(软件即服务)产品已覆盖全球200多个国家和地区,上线100天内用户就突破了千万,增速位居全球第一。同时,在MaaS(模型即服务)端,AI视频技术正在深入应用于动漫影视、文旅、广告、游戏等多个行业,重塑内容生产模式。
近期,OpenAI宣布在GPT – 4o模型中集成了迄今为止最先进的图像生成器,并将其整合进ChatGPT中。那么,未来视频生成能力是否也会被集成进大模型呢?朱军认为,现在讨论这个问题还为时尚早。
目前,视频生成的重点仍然是提升视频生成的质量和效率。随着基座模型的不断优化,AI视频生成自然会逐步向交互式方向发展,但其中最核心的突破点在于理解能力和可控性。朱军表示,只有实现真正的高可控生成,才能满足未来交互式AI视频的需求。
当被问及高可控能力是否会影响创意表达时,朱军表示两者并不冲突。相反,提升可控性能够让创作过程更加高效、精准,减少用户反复试验的成本,提高创作体验。
“在AI视频创作中,用户的输入可能是图片或文字,我们的任务是精准理解并实现他们的需求。”朱军解释道,过去,AI视频生成往往随机性较高,用户需要反复尝试才能得到理想的结果。而高可控能力的引入,使模型能够更准确地理解并执行用户的创作意图,同时保持创意表达的自由度,例如动作幅度、想象力等方面依然可以充分发挥。
接下来,我们看看视频大模型的行业情况。
朱军在接受采访时表示,2025年行业整体落地进展非常快。在视频和音频领域,由于其应用场景较为通用,市场接受度更高,而语言模型的落地往往需要结合行业专业知识,因此链路相对较长。不过,目前行业内也有应用公司致力于推进大语言模型的落地应用。
谈及技术突破,朱军强调,现阶段最重要的仍然是通用基础模型的提升。“它决定了我们后端在控制和一致性方面的能力,所有后端的实现都依赖于基础模型的进展。”基于基础模型,生数科技也在不断探索,以实现更高的模型一致性和可控性。
朱军认为,与语言模型不同,视频大模型的商业化路径相对更快。他指出,视频的消费需求非常广阔,因此,当前行业内领先的公司在视频大模型领域各具特色,并形成了不同的商业化布局。这一领域并不像语言模型市场那样“内卷”,而是呈现出更多元化的竞争格局。
目前,大语言模型行业逐步进入收购与被收购阶段,朱军认为,这与行业发展状态相关。语言模型的竞争已经进入深水区,领先企业在技术和市场布局方面占据优势,而视频大模型则完全不一样,中国的视频大模型在全球范围内很多方面都有应用,这与语言模型的发展状态截然不同。
未来,视频大模型行业是否会和语言大模型一样,只会留下几家专注于基础模型研发的公司呢?朱军认为,大概率不会出现一家独大的情况。一方面,视频大模型行业不算拥挤;另一方面,从人工智能发展的长期来看,核心因素在于团队是否具备持续创新能力。今天,模型的发展大部分是阶段性发展,尽管目前已经可以服务专业用户并生成高质量内容,但整体上仍有很大提升空间,包括效率、成本以及内容密度等方面的突破。
相比于语言模型,视频生成模型的起步稍晚,但朱军认为,这种“后发”反而带来了更快、更坚定的前进步伐。他提到,视频模型领域已经形成了对效率优化的共识。例如,生数科技在推出Vidu2.0时,就明确提出要做“最高效、最便宜的高质量视频模型”。这种理念已经深入行业,因此,他判断视频领域很难出现类似DeepSeek在语言模型中“效率遥遥领先”的局面,而是更期待让视频模型朝着“更可控、更好用”的方向发展。
谈及开源,朱军表示,开源一直是人工智能行业的重要趋势,生数科技也会开放部分创新方法供业界使用。然而,他指出,大部分所谓的开源模型并未真正开放核心训练过程及数据。“DeepSeek之所以受到用户欢迎,核心在于其出色的效果和高效率。对C端用户而言,最关心的始终是质量和效率,而非模型是开源还是闭源。”
目前,视频生成模型大多集中在5秒以内的短视频,朱军认为,这主要是成本问题,而非能力限制。同时,用户的使用习惯也影响了视频时长的选择。“现阶段,大部分用户习惯于竖屏短视频,而如果要创作1分钟以上的内容,就需要更完整的故事架构,涉及到从文案策划到内容创作的完整流程,而不仅仅是简单的‘图生视频’。”
朱军认为,随着基础模型能力的提升,行业将逐步向更长时长、更具叙事性的场景拓展。“从短视频向更长时长、叙事性更强的方向发展,将成为未来的一个重要趋势。”
本文围绕生数科技发布的高可控视频大模型Vidu Q1展开,详细介绍了其技术突破、商业化发展、多模态探索以及行业竞争格局等方面。朱军认为2025年是AI视频商业化快速发展的一年,视频大模型的商业化路径多元,未来将朝着高质量、长时长、强叙事性方向发展,且行业很难出现一家独大的局面,还会向更长时长、更具叙事性的场景拓展。
原创文章,作者:Nerita,如若转载,请注明出处:https://www.yanghehb.com/7645.html