01.当新技术遇到老问题时。如果你正在为 2025 年下半年的 AI 行业寻找一个有趣的方向,视频生成几乎是必然的答案。 OpenAI推出Sora 2并发布应用程序版本后,AI视频的流行以近乎“病毒式”的速度迅速传遍全球。然而,仔细观察产业发展的背景就会发现,这并不是一次偶然的产品爆炸。这是由于过去两年图像质量、时序建模和视频生成技术的易用性不断进步。 Sora、Veo、统一万向的技术贡献不断累积,大大加快了大型企业和初创企业AI视频相关功能的全球迭代步伐。它们逐渐在行业内产生更严重的影响。模型的进步不再局限于图像本身的质量,而是逐渐涵盖了重要的更贴近工业生产的元素,如叙事特色、人物风格连贯、音视频同步、交叉镜头的逻辑延续等。一旦生成的效果跨过“看得见”的门槛,开始接近“可用”和“用户友好”,人工智能视频将真正获得公众的关注,成为我们这个时代最富有想象力的赛道之一。另一方面,视频行业本身也面临结构性问题。在过去的十年中,视频行业一直是世界上增长最快、资本最密集、最具创新性的行业之一。从影视娱乐、广告营销到内容电商、社交平台、创作者经济,视频逐渐成为信息、娱乐和商业的核心表达形式。然而,随着行业的成熟和竞争的加剧,内容制作正在达到极限。短剧、电商、广告进入“更快、更好、更大”阶段,内容更新周期被压缩到小时甚至分钟。传统生产环节所依赖的人力规模和生产周期显然开始偏离这种节奏。这种压力在不同的领域有不同的表现。传统的电影、电视和广告仍然严重依赖经验密集型人力资源。然而,提案和试错的成本仍然很高。其他MCN和电商平台的高频碎片素材远远超出了传统拍摄和剪辑流程的容量。短剧和AI漫画在离开最初的大尺度舞台后,对人物、场景、镜头的连贯性提出了更高的要求。国外内容面临速度和跨文化适应的双重挑战。随着内容需求的不断增长和AI视频生成能力的迅速成熟,内容产业的生态结构开始发生变化。另一方面,创作门槛大幅降低。视频不再只是一个小型、专注的团队可以持续制作的内容。个人创作者和小团队开始具备近乎工业化的生产能力。与此同时,新的中间层正在兴起。视频,从创意工具和工作流程平台到广告、电子商务和短片的垂直解决方案。越来越多的公司开始使用AI视频作为基本功能来重新设计其产品的形态。这引发了更多的连锁反应。例如,平台和创作者之间的关系正在发生变化。随着内容成为重复生成、快速验证和持续优化的流程资产,视频制作逐渐从一次性创建转向可播放内容。大规模运营的系统工程。因此,在过去的y目前,国内外涌现出无数初创公司,从AI视频生成产业链的始端到末端。一些公司正在重建视频制作的起源,从自己的视频生成功能开始。有些专注于创作者工作流程,并将人工智能集成到脚本、故事板和编辑中。其他则强调稳定性和可扩展交付,面向企业和行业场景。在海外扩张的方向上,多语言和本地化的世代也是重要的发展。随着技术进步和大规模内需的契合,内容产业逐渐开始做出明确的决策。 AI视频生成将成为下一代内容基础设施的关键部分。更稳定的技术和更快的工具还不够。创作者可能需要的是低端、可扩展的生产力解决方案。 02.科技正在打破创造力的限制。各家企业纷纷回应用自己的实际行动来应对这一趋势。该策略以 OpenAI 的 Sora 为代表,更注重展示通用功能。通过生成非常高质量、具有视觉冲击力的视频,迅速扩大公众认知度,促进人工智能视频进入流行文化和社交传播场景。谷歌的Veo延续了在多模态和生成模型方面的研究优势,突出了模型在复杂场景下的长期理解和表示能力,这进一步体现在对前沿技术能力的探索上。在日本,越来越多的企业从平台生态出发。一些公司正在将AI视频融入现有的创作和交付闭环中,将视频生成能力与内容分发、创作系统和推荐机制相结合。一些产品通过生成能力改进了整个视频制作过程提高内容交付效率的能力。有一条路径优先考虑“我们可以创造一些东西并且它看起来不错吗?”还有一条路则强调“怎么玩、怎么传播”,各有侧重。另一种新兴途径是将视频生成视为一种生产力功能。路径之间的差异本质上取决于每个公司对 B 端或 C 端是否易于使用或有趣的看法。在C端场景,AI视频将更多地承担娱乐和表达的功能。 “有趣”、“新鲜”、“定制”往往优先于稳定性,用户对偶尔的不一致和失控有很高的容忍度。在广告、电商、短片等B端场景中,创作者和公司真正关心的是镜头、人物、风格是否长期一致,内容是否可控、可复用、制作一致。高频、高并发的生产节奏。这是当今市场上经常被忽视的差异。马苏。很多视频模型已经能够满足C端尝鲜者和创意者的需求,但很难满足B端的确定性和规模要求。而如果无法接入B端制作流程,就很难将AI视频能力转化为真正的生产力提升。阿里巴巴选择了一条比较困难的道路,将AI视频生成变成工业级基础设施,但它可以为整个行业带来更多价值。 12月17日,阿里云飞天上线日,统一万象2.6(Wan2.6)正式发布。作为阿里巴巴在视频生成领域的核心典范,万向致力于满足内容行业的需求。趋势转向生产,从早期采用者转向大规模部署。统一实验室产品经理金璐瑶为我们多角度解读了这一壮举创作者在制作中最关心的是多镜头叙事、视频线索生成以及更稳定的长期制作,以及这些需求如何反向塑造模型能力的演变。 AI视频要真正引入制作流程,首要前提是能够实现多镜头叙事。在实际的视频制作中,单幅图像的质量从来都不是最困难的问题。真正的挑战在于镜头之间的连续性,在于人物是否稳定,场景是否一致,实体是否一致,时间和叙事是否成立。第一个视频生成模型因生成独立的高质量剪辑而脱颖而出。当进入多机位、多场景的创意场景时,会出现人物细节差异、动作逻辑断裂、信息不匹配等问题。这也是AI视频一直停留在概念演示和一次性素材阶段的一个关键原因。我这么久了Wan2.6将多镜头功能提升为模型级别的核心功能。统一万向将其比喻为“一步步生成,然后再拼凑”的路径。我们强调生成过程中时间线和镜头语言的整体建模。模型首先要明确主体是谁、空间如何变化、故事如何进展,让镜头变化成为可控变量。为此,万向contiIt继续改进训练和推理阶段的主题连贯性和时序建模,支持自然语言故事板指令,并允许创作者通过关键词直接填充多平面叙事时间线。这为视频生成提供了解决工业生产所需的连续性基础。负责生成《金绿瑶》的统一万象表示,另一个重要的现实需求是创作者往往希望保留物体的外观、动作甚至声音。真实的人物和物体,同时将它们放置在新的虚拟场景中。此前,此类需求很大程度上依赖于拍摄、建模和复杂的后期制作,成本和技术壁垒非常高。 Wan2.6将参考对象从照片升级为视频,开放了更加全面的图像、动作、声音建模能力。模型支持输入约5秒的参考视频,并以人物、动物、物体为主题进行后续生成。它不仅再现视频的外观,还同时学习运动模式、面部变化和音调特征,以在图像和声音制作中获得一致的结果。与单个图像参考相比,视频参考可以提供更完整的三维和时间信息,使模型对主题的理解更接近现实世界。此功能在现实场景中尤其重要。无论是我们的品牌通过预发布片段生成完整的商业广告或创作者将真人与虚拟环境结合起来,生成视频参考,大大降低了制作门槛,并突破了人工智能视频在商业环境中的界限。 Wanxia Generationng synonym 万向一代 synonym “在视频生成中,播放时间是一个必须始终仔细权衡的变量。”金如瑶补充道。补充道。太短的视频无法表达完整的表征,并且随着时长的增加,模型在一致性和时间稳定性方面的难度迅速增加。业界大多数视频模型仍然稳定控制在4秒左右的生成时间。技术挑战往往在一秒钟内呈指数级增长。 Wan2.6稳定可控生成时间约15秒,支持1080P输出和音视频同步。适用于广告、电商展示、短篇故事板等业务场景amas,您可以在 15 秒内讲述整个故事,而无需大幅调整或管理成本。内容长度恰到好处。随着Wan 2.6的发布,Vincent的图形功能也得到了更新。除了基本的生成之外,该模型还引入了对叙事结构的理解,支持图文混合输入,并根据简单的提示自动分解故事并生成故事板,大大提高了基于故事的内容创作效率。通过结合多图像参考和商业级一致性检查,Vincent Image 开始从“灵感草图”转变为可直接用于广告和内容创作的制作工具。除了满足创作者最基本的制作需求,统一万向还试图更进一步。我们不断探索通过模型能力的不断演进来突破创造的边界,让AI更能发挥作用在表达、美学和讲故事方面发挥着积极作用。统一万向出品“中国美学是万向一直坚持的理念”。金如瑶告诉我们。中国语境和对中国美学的持续投入是万向区别于许多外国模式的关键特征。通过与艺术院校等机构合作,在预训练和评估阶段引入大量中国美学素材,使模特在人物气质、风格表达和文化细节上的表现更加贴近本土创作需求。这个优化不是一下子就完成的,而是包括评级系统、客户支持,通过客户反馈和强化学习不断迭代。统一万向产生的实际需求对技术能力的要求不断提高,技术细节的不断进步将解锁新的生产效率。统一万向是在反馈循环中不断发展。统一实验室产品经理金璐瑶表示:“我们一直坚持一件事:效果压倒一切。” 03.不需要很长时间就能提高效率、缩短周期、消除冗余。一年前,甚至仅仅六个月前,大多数视频影视制作行业的专业人士都无法想象工作效率能翻倍。效率提升是重新构想内容制作方式的直接结果。传统的制作体系将创意、执行和后期制作划分为多个线性环节,每个步骤都必须由特定的岗位来执行。在高级分工模型中,流程只能按顺序进行,往往要求前一个环节必须完全实现后才能进入下一步。这不仅拉长了整体生产周期,而且造成了大量的重复劳动和人力资源投入的浪费。当人工智能视频生成需要时为了干预生产的初始阶段,许多最初需要跨职能协作的任务被压缩到同一个生产界面中。作家、导演、剪辑师、艺术家……传统职位之间的界限正在逐渐模糊。脚本可以直接转换为故事板,使您能够快速生成视觉资产,并消除耗时的后期制作过程中的编辑和艺术调整。职位之间的交接成本已显着降低,创作者现在可以对最终效果做出更全面的决策,而不是专注于固定流程。这带来的另一个变化是,随着内容生产从线性流程转向以模型为中心的实时并行生成,效率收益将不再平均分配给每个人。很多情况下,首先要改变的就是本身就承受高频输出压力且非常成本的场景并且对周期敏感。这些场景的共同点是,一方面需要持续、大规模地生产内容;另一方面,需要持续、大规模地生产内容。另一方面,你的创造力必须快速得到验证并反复重复。因此,AI视频的效率提升往往首先影响的是短剧、漫画、CE内容和海外制作工具。万向一代还以广告和电子商务为例。过去,要完全验证meknot的创意需要剧本、分镜、拍摄和后期制作等多个步骤。通过引入视频生成功能,创作者可以快速将想法转化为视觉内容,以供内部讨论、客户演示或 A/B 测试。人工智能参与创意生产的初级阶段,大大缩短了创意与内容之间的距离。随着稳定且可扩展的视频生成能力向外界开放,新的工具平台、创意社区和内容服务将开始增长,让创作者成为自动扩展的人工智能生产生态系统的一部分。这正是许多视频生成能力提供商尚未完全认识到的。 Juril是目前漫画和AI短篇作品领域最具代表性的实践者之一。 Jurilu是一个为动漫创作者提供短剧和漫画的AI工具平台。它被许多内容创作者用于漫画制作,并已在主流平台上实现。通过在场景中调用统一万象模型,巨日路将图像和视频生成能力融入到创作工具链中,大大降低了人工智能在内容创作中的使用门槛。在Jurilu创始人Jeff看来,统一万向2.6具有稳定的主体一致性、命令遵从性、摄像机运动和角色表现,使其“可以在任何气候和规模下使用”。此外,Jurilu 代理已经从一个创新实验发展成为一个成功的可立即制作的戏剧制作代理,效率提高了 5-8 倍。 Lewowuwu成立于2016年,是一家专注于海外的内容和社交产品公司。近年来,公司将业务拓展至AI视频及制作工具领域,针对海外市场推出了多款视频制作工具。其中,借助万向模型的多模态生成能力,旗下Ima Studio(www.imastudio.com)制作平台帮助海外创作者快速生成高质量、风格多样的AI视频内容,大幅提升社区内容密度和制作质量。这种能力也帮助乐沃在冷启动阶段吸引了KOL、国外艺术家等核心创作者,并通过硅谷线下工作坊以及与大学的合作,逐步构建了“技术-内容-社区”的良性循环。 Lewowuwu和Jurilu的实践表明,像统一万向这样稳定的AI视频基础设施是非常重要的极大地降低了小团队和个人创作者的创造力门槛。最初依赖多方合作的工作逐渐成为该模式功能的一部分,让创作者即使在人力资源有限的情况下也能工作。然而,它保持着稳定的叙事,并不断产生系统的内容。只有底层效果足够可靠,AI视频生成才会从“好玩”走向“好用”,为更大的创作自由度和产业创新留下空间。 04、人人都可以当导演的时代,从一个好玩的时代变成了一个有用的时代。真正的里程碑是能够进入稳定且可重复的生产过程。企业和创作者更关心的是产生的结果是否可控、稳定,能否降低重复抽卡和人工返工的成本。与速度或单一的打击效果相比,稳定是项目的先决条件。产生过程。从创作者的角度来看,需要更加完善的服务体系。通过依托阿里云的大规模模型服务和应用开发平台百联,万向可以集成到公司现有的业务和内容创作流程中,而不是作为一个独立的生成工具。这些特性在现实场景中稳定可用,与阿里云作为工业级基础设施多年来积累的工程能力密切相关。作为全球领先的全栈人工智能服务商,阿里云在算力、数据治理、模型服务、大规模并发编程等方面积累了成熟的体系,使得视频生成模型能够在真实生产环境中持续运行,而不是停留在实验室或小规模演示阶段。从更长的时间尺度来看,阿里巴巴对人工智能数据的投资计划十多年前。阿里巴巴在 2010 年代初开始围绕搜索、推荐、语音和计算机视觉部署人工智能功能。自2016年起,阿里巴巴陆续在阿里巴巴内部设立人工智能实验室,并持续在机器学习、计算机视觉、自然语言处理、多模态等方向进行投入。基于这些技术积累,阿里云逐步构建了从模型训练部署到服务化调用的完整链路。长期专注、产业服务和稳定基础设施的结合,让以统一万向为代表的模式和服务能够沿着既定的技术路径不断演进,在稳定性、可控性和规模化能力上不断贴近实际生产需求,不断提升创作者的生产力效率。此前,视觉语言、叙事节奏、艺术风格和制作专业知识是重点在一个由专业人士组成的小团队中进行了测试。但随着这些技能逐渐被编入模型,创作者必须掌握的就是从特定的技术转向判断、创造力和选择本身。这意味着任何创作者都可以通过AI视频生成技术和服务来创作自己的内容,而不再依赖于是否懂得使用Pro Tools。这个cambio的重要性类似于从专业级成像软件到通用创作工具的历史转折点。正如数码相机取代胶片、智能手机取代专业相机、模板编辑取代复杂的后期制作一样,AI视频生成正在将一套专业的制作能力压缩成普通人可以使用的基础设施。随着进入门槛的降低,创作本身的规模变得更大,其使用寿命也更长。也许视频生成的最终目标不是取代创作者,而是而是让他们投入更多的精力。这些才是真正有价值的部分:创造力、讲故事、判断本身。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。