推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  履带  带式称重给煤机  链式给煤机  无级变速机 

人工智能行业观察:AI视频生成行业,从早期试验到创新

   日期:2026-01-03 03:00:29     来源:网络整理    作者:本站编辑    评论:0    
人工智能行业观察:AI视频生成行业,从早期试验到创新

(报告出品方/作者:招商证券国际,王腾杰、李怡珊)

AI 视频生成行业概览

市场规模

可触达市场广阔:根据 Grand View Horizon, 2025 年全球 AI 视频生成市场规模预计达 8 亿美元。在我们的基本情形设中,我们预计 AI 视频生成可触达市场规模接近 400 亿美元,包含 B 端规模 360 亿美元(90%占比)和 C 端规模 40 亿美元(10%占比):

B 端:根据 Business Research Insights 数据,全球电影与视频制作市场规模在 2025 年达到 3,000 亿美元,并 有望以 3%的年复合增速增长,包含动漫、商业化视频广告、电影、音乐影片、电视节目、社媒视频等。而据市 场调研,制约视频制作市场增长的最主要限制是制作成本高昂,47%的影视制作工作室制作成本高于预算,39% 的工作室面临制作成本影响利润的问题。而对比传统的视频内容制作成本,AI 视频生成具有显著的成本优势。 据量子位智库,AI 视频每分钟生成成本约 300 美元,远低于顶级动画电影/好莱坞电影的 200 万美元。当前,AI 在影片素材生成方面的渗透率较高,而随着模型能力和技术升级,AI 视频生成将应用于更复杂更长的视频内容, 假设到 2030 年 AI 在制作环节的渗透率达到 10%,则 AI 视频生成行业 B 端市场规模有望达到 360 亿美元。

C 端:据 Datareportal,2025 年全球社交媒体用户数达到 54 亿,占据全球 66%的人口。我们对 2030 年市场规 模的预测假设包括:1)假设内容创作者渗透率从 2025 年的 1.5%提升到 2030 年的 4%(对比 B 站当前内容创 作者渗透率为 4%,YouTube 为 3%),则全球 AI 视频内容创作者规模有望从 2025 年的 8,000 万达到 2.8 亿; 2)假设付费率从 2025 年的 1%提升到 2030 年的 6%;3)ARPPU 则在 2025 至 2030 年间保持平稳,为 20 美 元/月(对标 ChatGPT)。基于这些假设,我们预计 C 端订阅市场规模有望到 2030 年达到 40 亿美元。

技术演进趋势

当前最前沿的模型(如 Sora2)正推动技术从“辅助人类创作”向“自主生成高质量内容”迈进: 1) 生成时长增加:早期的模型如 Runway 最初只能生成 4 秒左右的模糊视频。2024 年初,OpenAI 的 Sora 模型将 这一标杆提升至 60 秒。而进入到 2025 年,主流模型可实现无限时长的视频续写,助力长视频内容创作。 2) 物理一致性提升:让 AI 理解并模拟物理规律是生成逼真视频的核心挑战。初期模型常出现物体穿透、违反重力 等明显错误,因为它们主要学习的是视觉纹理,而非背后的物理规则。Sora 2 通过引入物理引擎模拟模块,实 现体操空翻、流体碰撞等复杂动态的精准生成,肢体运动准确率从 68% 提升至 91%。 3) 内容连贯性提升:Sora 2 支持单条指令生成 “远景 - 中景 - 特写” 三镜头序列,通过镜头语言规则库(如 “对 话场景用正反打”)实现切换自然度评分达 9.2/10。Runway Gen-4 采用 “特征向量锚定 + 动态更新” 机制, 在 10 分钟视频中保持角色面部特征余弦相似度>0.92,解决了传统模型 “5 分钟后角色变脸” 的痛点。B 站 AniSora V3 在动漫生成中,通过构建 “角色关系 - 场景关联” 知识图谱,使 “教室 - 操场 - 家庭” 跨场景转 换的剧情断裂率从 27% 降至 8%。 4) 多模态增强,音画同步生成:在输入和输出两个方面,多模态视频生成不断扩展,从最初的文生视频拓展到图 生视频;从最初的仅生成视频到音画同步生成,并能够实现多模态边际,例如输入音频修改视频生成结果等。 5) 成本效率提升:随着开源模型生态的提升带来的模型训练成本降低以及技术提升带来的推理算力成本下降,AI 视频生成成本呈现下降的趋势。例如阿里 Wan2.2 的 MoE 架构节省 50%计算消耗,快手可灵通过算法优化实现 推理成本毛利打平。

主要 AI 互联网龙头公司资本支出

美国公司资本支出密度更高:根据公司指引及市场一致预期,五大 AI 互联网龙头公司(Meta、微软、亚马逊、谷歌、 甲骨文)2024 年资本支出总额超过 2,500 亿美元,2025 年预计将超过 4,000 亿美元,并进一步在 2026 年提升到 5,000 亿美元。2025 年美国五大巨头平均资本支出为 810 亿美元,显著超过中国两大龙头(阿里巴巴+腾讯)的 130 亿美元。 从资本支出密度(资本支出占收比)来看,美国五大巨头 2025 年平均资本支出密度达到 24%,并预计在 2026 年提升 到 27%,而中国两大龙头该比例预计在 10-13%之间。 造成差异的原因分析: 1) 芯片供给限制推动“规模优先”转向“效率优先”:面对美国的芯片出口限制,中国大模型厂商倾向于提升现有资 源的利用率,优化软件提升模型表现能力,具有成本优势,而非堆砌算力,同时根据需求进行动态调整。 2) 中国市场成熟度及付费意愿较低:从商业化角度来看,中国多数行业数字化基础薄弱,企业服务场景成熟度低, 2024 年中国公有云市场规模仅为美国的 11%,其中 SaaS 市场仅为美国的 4%。美国市场人力成本高昂,企业 为 AI 付费意愿高于中国,而在 C 端,中国用户软件付费习惯仍处于培养期,付费率低于美国。商业化前景的结 构性差异也导致了中国 AI 公司在资本支出方面的投入更加谨慎。

竞争格局

据 ArtificialAnalysis(截至 2025 年 11 月 10 日),快手的 Kling 2.5 Turbo、谷歌的 Veo3 以及 Luma 的 Ray3 跻身文生视 频模型全球前三。快手的 Kling 2.5 Turbo、谷歌的 Veo3 和爱诗科技的 PixVerse V5 位列图生视频模型前三。在文生视 频和图生视频的全球前 25 排名中,中国模型占比分别达 56%(14/25)和 72%(18/25)。

商业化

当前主流 AI 视频生成平台的商业化模式包含为“C 端订阅+B 端 API“的双轨结构,并在订阅层级、定价区间与客户分布 上有诸多共同点。 C 端: 各平台普遍采用”免费试用+多档订阅+积分“的收费模式,按视频数量、分辨率、时长以及生成速度定价。其价格带主 要集中在 8 美元/月—30 美元/月的区间,同时提供专业版向上延伸至企业订阅。 积分或额度制已成为行业标准,用户消耗积分生成视频、同时可额外购买积分包以增加额度。不同模型间的功能差异聚 焦在并行任务数、输出分辨率与无水印商务授权。 C 端的共同目标是降低创作门槛、扩大用户基础,以规模反哺模型训练与生态增长。 B 端: 商业化重心转向 API 调用与 MaaS 服务。企业客户通过调用模型接口或接入 SDK,在广告、电商、影视、动漫、教育等 垂类场景批量生成视频。此类服务普遍采用 Token 转化为时长计费(720p 约 0.18 美元/5 秒,1080p 约 0.62 美元~0.74 美元/5 秒),收入具备高毛利、低波动、复购率高等特征。 从收入表现看,Runway 在 24 年的 ARR 约 8,400 万美元,25 年预计增长三倍至 2.65 亿美元。据报道 Midjourney 已发 展成为估值 105 亿美元的帝国,而员工仅 100 多人。Pika 紧随其后,24 年 ARR 约 800 万美元,以轻量订阅和社交传播 见长;在中国,MiniMax 于 2025 年 7 月宣布完成 3 亿美元融资,估值达 40 亿美元里程碑;Vidu 与字节系则处于快速放 量阶段,前者走低价高频订阅+API 并行路线,后者凭借云基础设施与分发渠道在 B 端渗透力最强。 整体来看,AI 视频生成的商业化正在经历“单一工具订阅”向“平台化 API 服务”的转变阶段。C 端扩张带来规模与数据积 累,B 端服务贡献利润与长期合同,两者相互支撑。

中国大模型具有显著的成本优势

从 Runware 统计的每秒视频生成价格来看,生成 1080P 分辨率的视频每秒价格为 0.04~0.38 美元,而生成 720P 分辨 率的视频每秒价格为 0.03~0.5 美元。对比美国主流大模型,中国大模型具有显著的成本优势。

大型科技平台广告收入竞争

广告仍然是内容创作最重要的变现途径。全球线上广告市场在 2024 年已接近 8,000 亿美元,预计未来几年增速约为 7- 8%。在这一领域中,短视频平台广告是一个快速扩张的板块,预计 2025 年规模约为 540 亿美元,占到全球线上广告市 场约 6%, 并预计未来几年将保持约 10%的复合年增长率,持续提升市场份额。 新兴平台如 Sora APP 正在利用 AI 生成内容。尽管部分 AI 生成内容倍批评为“AI SLOP”(即低质量,大规模生成的内 容),但我们认为更准确的描述应是质量参差不齐,其中也包含高质量内容。更重要的是,这些平台在获得用户参与度; 从内容供给端来看,AI 还能提升内容的个性化程度。据 TechJury Pricing 估计,AI 生成视频已占 TikTok 平台视频总量的 52%。 总体而言,Sora APP 的出现是一个里程碑,进一步印证了广告营收竞争的加剧。平台通过 AI 工具获取用户流量,这一 波 AI 驱动的内容创作浪潮正在重塑数字广告格局,加剧短视频平台之间对广告预算的争夺,而该市场在未来几年预计将 接近一万亿美元规模。 在争夺用户参与度方面,除了引入 AI 生成内容外,平台还可利用 AI 进行视频编辑以提升互动效果。根据 Zebracat 的研 究,AI 优化视频可帮助用户参与度提升超 50%。同时,据报道 YouTube 也已使用 AI 进行视频编辑,以改善质量并提升 用户参与度。

行业趋势展望及我们的观点

1. AI 视频生成市场广阔,需求强劲,是更容易商业化的 AIGC 赛道

在互联网内容形式当中,视频内容的消费占比最高且持续提升,全球互联网视频流量占比从 2017 年的 73%提升 到 2025 年的 82%。AI 视频生成可赋能的行业范围极为广阔,包括但不限于:影视娱乐、广告营销、游戏、电 商等。与 AI 文本生成(如 ChatGPT)和 AI 绘画相比,AI 视频生成的商业化路径更直接—企业可以按照视频生 成时长、分辨率、功能等分级收费。客户为明确的价值(节省的时间和金钱)付费,付费意愿强烈。AI 生成同 样赋予商家视频创作的能力,例如在淘宝、亚马逊和 Meta 等平台上,商家可以使用平台的 AI 工具,根据产 品图片和文本提示生成短视频,以实现预期效果,从而节省成本并提升效率。

2. AI 技术显著降低内容制作成本,将逐步提升在内容制作环节的渗透率

AI 视频工具将简单短视频的制作成本从每条 5,000–10,000 美元降低到几百美元,大幅削减了人工、时间和成 本。预计 AI 视频的采用率将从目前影视工作室的不到 10% 提升至 2030 年的 30%,但考虑到生成式 AI 的 快速发展和强烈的商业驱动,这一进程可能会更快。早期采用者报告节省了 80% 的制作时间,这一趋势正从 大型企业向中型企业扩展,甚至在好莱坞的前期视觉设计阶段,AI 已占据 20–40% 的概念工作份额。例如, Netflix 在阿根廷电影《永恒者》中使用 AI 来增强一场复杂的建筑坍塌场景,展示了 AI 视频技术明确 的商业可行性。

3. 相比于 AI 文本生成模型的开源和同质化竞争,高质量视频生成在算力、算法和数据上有更高的壁垒

生成式 AI 视频模型的训练需要显著更多的 GPU 运算时间和硬件成本(视频数据相比于文本数据)。因此,这 是一项资本密集度更高的工作,需要雄厚的资金实力,为 OpenAI 和 Google DeepMind 等领先者构筑了深厚 的护城河。来自时间一致性、物理因素(如光照、物体碰撞)以及多模态整合(声音与图像)的复杂性,需要 先进且严格保密的算法,以及大量获得授权的视频数据集,以避免版权问题。相比基于文本的大型语言模型, 这些更高的资本和技术门槛限制了竞争者的进入。

4. 差异化产品/生态能力是决定市场份额的关键因素

鉴于市场竞争和客户需求,我们发现视频生成式 AI 市场持续向更多垂直领域扩展。媒体头条可能更多聚焦于 领先的 AI 企业,如 Google 的 Veo 3 和 OpenAI 的 Sora 2,但第二梯队的企业(并未落后太多)正在为特 定应用场景提供功能或适配能力,例如 Pika Labs 的实时编辑功能,或 Stability AI 提供的嵌入安全机制的产 品可视化工具,专为电商和游戏等垂直领域定制。强大的生态系统将视频生成式 AI 与 Unity 和 Roblox 等平 台集成,以推动用户增长和留存。Runway 也拥有强大的插件生态系统,简化了专业视频编辑和原型制作流程, 使其在创意类 AI 视频工具领域拥有显著的市场份额领先地位。

美国旗舰公司 AI 视频生成产品

Google Veo 3:原生音频显著提高视频真实感

Google Veo 3 是 Google DeepMind 于 2025 年 5 月推出的新一代视频生成模型,相较于 2024 年 12 月发布的 Veo 2 与 2024 年 5 月发布的 Veo 实现了多维度的技术突破,主要表现在: 1) 视频清晰度与长度:Veo理论上支持最高720p清晰度,最长2分钟的影片;Veo2理论上可以生成最长两分钟, 高达 4K 分辨率的影片,但视频中会出现物体变形、人物表情有限、切换场景不连贯等问题。而 Veo3 理论上可 生成最高 4K 清晰度,最长 10 分钟的 AI 影片,且支持多种高宽比(16:9,9:16,1:1 等),并大大提高了视频 纹理、人物面部连贯性、肢体协调性与空间感应力。 2) 视频音效:Veo 与 Veo2 仅支持基于文本或图片生成无声视频,而无法产生任何音效,需要后期添加音频及剪 辑,这使得视频制作流程复杂,且无法保证音画同步。Veo 3 则可以在生成视频的同时同步生 成角色对白、背景音乐及环境音效等,且可以实现音画同步,可以通过高清画面和音效来创作出具有电影质感 的视频,而无需任何单独音频制造过程,大大提高了视频创作效率和观看体验。 3) 对提示词的响应:Veo 与 Veo2 对复杂场景描述的理解有限,风格执行不一致,可能需要多次尝试才能达到理想 效果,可用于简单动画的制作或产品演示视频。Veo3 提升了对提示词的理解能力,可处理较复杂场景,首次生 成影片成功率提升约 40%,可用于专业广告、短篇故事、教育演示和虚拟演示的制作。 此外,2025 年 10 月发布了最新 Veo 3.1,较 Veo3 做出功能性全面升级:允许用户在视频中加入新角色或道具且支持消 除不需要的元素,并可以无缝重建背景;提升第一帧与最后一帧的连贯性和叙事流畅性;调整光线方向、亮度和阴影度, 增强视频细节;同步音频、对白生成更为先进,可生成更逼真的声音效果。

Sora2:标志性地开启 AI 内容社区化时代

Sora2 作为 OpenAI 于 2025 年 10 月推出的新一代视频生成模型,相较于 2024 年发布的初代 Sora 实现了多维度 的技术突破,以及产品形态的创新设计: 1) 物理真实感的革命:Sora2 在物理规律模拟上达到了行业标杆水平。初代 Sora 在处理复杂运动时易出现肢体 扭曲或动作逻辑混乱的问题,而 Sora2 能精准还原奥运级体操动作、桨板后空翻等动态场景,其物理引擎可精 确模拟浮力、刚性碰撞等力学特性。例如,在生成 “向带有箭头的杯子中倒水” 的视频时,Sora2 在提示词中 没有明确提示箭头方向改变的情况下,生成的视频主动提现了折射导致的箭头翻转现象。 2) 音视频通同步,多模态交互:Sora2 首次实现视频与音频的原生同步生成,支持多语种对话、环境音效和空间 音频。用户输入文本提示时,模型可自动匹配角色口型、语音语调及背景音景,例如在 “吵架” 场景中,AI 不 仅生成人物愤怒的表情和姿态,还会补充自然的对话内容,并确保语音与口型完全同步。这种音画协同能力使 生成的视频叙事更具沉浸感。 3) 可控性与叙事能力突破:初代 Sora 生成的视频多为单镜头片段,且对复杂指令的执行能力有限。Sora2 则支 持跨镜头的长叙事链生成,用户可通过自然语言指定分镜切换、光线变化等细节。例如,输入 “一名侦探在雨 夜追踪嫌疑人” 的提示,Sora2 能连续生成远景、中景、特写等多镜头画面,并保持场景和人物的一致性。此 外,模型还支持风格化定制,可生成电影级、卡通或抽象艺术风格的视频。 社交驱动的内容生态:Sora2 凭借技术升级和领先的视频生成效果,同步上线内容社区 Sora APP,开启了 AI 内容社区化 时代,类似于 “AI 版抖音”,构建了独特的社交互动模式。用户通过邀请码注册后,可生成包含自己或好友数字形象的 视频(Cameo,“客串”功能),并通过 “Remix” 功能对他人作品进行二次创作。这种机制不仅降低了创作门槛,还通过 链式传播快速形成用户网络,截至 2025 年 10 月,Sora APP 已登顶美区 iOS 免费应用榜前三,并将于 11 月起可应 用于安卓系统。

Midjourney:实现快速迭代的创作环境

Midjourney 是视觉创意影像的生成模型,于 2022 年 7 月 12 日进入公测阶段,并于 2024 年 7 月 31 日正式发布,迄今 为止已有九个普通版本。 V1 模型(2022.2)为测试版,可通过文字提示生成基础图象,但画质和细节有限。 V2 至 V4 模型(2022 年 4 月至 11 月)在 AI 图像方面取得了集体性进展。V2 通过超分辨率与变体功能提升了清晰度, V3 引入了风格化与质量控制,在艺术自由与细节表现之间实现平衡。V4 借助全新架构实现了更快的生成速度,并能输 出逼真度更高、接近渲染效果的图像。这些迭代使应用从最初的粗略草图,逐步演进为能够生成高度细致,逼真视觉效 果的工具,并具备更灵活的风格控制与性能表现,标志着图像质量与生产灵活性的显著提升。 V5 至 V7 模型(2023 年 3 月至 2025 年 4 月)带来了重大改进,V5 将分辨率提升一倍并增强细节表现,修复了失真问 题,改进了指令理解能力,并新增“图生文”功能以辅助生成提示词;V6 实现了显著升级,在图像质量与语义理解方面 提升明显,支持超长提示词与高级编辑功能,包括在图像中嵌入文字以实现构图控制。V7 则引入了“草稿模式”,可在成本减半的情况下将生成速度提升至原来的 10 倍,同时支持实时语音指令调整,并新增“模型个性化”功 能,使输出结果更贴合用户偏好,大幅提升创作灵活性与效率。

Amazon Nova Reel:降低广告制作门槛,提高顾客购买欲望

Amazon Nova Reel 是 Amazon Ads 针对电商广告而推出的视频生成模型,可在短短几秒视频中展示产品,适合品牌推 广与电商广告。 初始测试版(Amazon Nova Reel 1.0)发布于 2024.9,可以在几分钟内通过文本提示或图文结合提示生成 6 秒单镜头 广告视频,大大降低了广告制作门槛,但视频内容仅有简单图像移动,且使用对象仅为美国部分广告主。 2025.6 发布升级版(Amazon Nova Reel 1.1),较初始版做出了较大改进: 1) 可生成长达 2 分钟的视频,由多个 6 秒镜头组成,确保整体风格一致且连贯,扩展了视频表达空间。 2) 除自动多镜头创建外,新增 “多镜头手动” 模式,用户可为视频每一个 6 秒单独镜头设置文本提示与起始参考图 像,方便用户分场景、分段落规划视频结构,且视频镜头可以单独输出或拼接成完整视频,方便后续剪辑。 3) 增强了动感与真实感,可生成更具吸引力的高动态广告视频,展现商品在真实使用场景中的动态效果。例如前 一版本中,手表是在桌上展示,此版本是通过某人望着手腕上的手表看时间来展示,本功能更能激发购物欲望。 4) 提升画面质量和生成速度,延迟更低,效果更好。 5) 支持更长的提示词,测试版仅支持最多 512 字符的文本提示,但升级版支持最长 4,000 字符的多镜头描述,大 大增加内容丰富性。 6) 品牌可以上传其想要加入视频中的徽标,很快广告主还将能够添加品牌指南和关键卖点,进一步定制内容。全 面的编辑工具还支持修改标题和调整徽标位置,使得广告主能够更好地掌握最终的视频。

Meta Movie Gen:结合四模型为一体的领先工具集合

Meta Movie Gen 是 Meta 于 2024.10 推出的 AI 模型,通过输入简单文字指令即可生成短片,目标是为电影制作人、内 容创作者等提供强大高效的创作工具,实现个性化故事叙述,并挑战 OpenAI 与 Sora 的领先地位。此模型结合了四个模 型:1)Movie Gen Video 模型:可以从文本提示生成高质量的视频;2)Movie Gen Audio 模型:可以创建与视频内 容同步的最长 45 秒的音轨,包括背景音乐、环境音、音效等;3)个性化电影生成视频模型:根据文本提示和单张图像 生成特定个人的视频,保留他们的肖像;4)Movie Gen Edit 模型:允许对真实和虚构的视频进行详细的、基于文本的 视频编辑。 Meta Movie Gen 具有强大功能,主要包括:1)可生成高达 16 秒 16fps 的高质量视频,可达到 1080p,并拥有逼真的 视觉效果,通过行业顶尖的音视频对齐技术与音频模型配对后,可同步生成音频来匹配视觉效果。此功能可用于电影制 作,可快速提供有创造性的视觉与音频元素。2)用户可提供一个人的图像和相应文本提示,从而生成一个包含人物参 考并包含文本提示的视频,并确保人物有独特外观以及其自然精准的身体动作。3)可以执行具体的编辑,包括局部添 加、删除与替换元素,还可以更改视频全局的风格或背景,并确保其他视频细节保持不变。 Meta 于 2025 年 9 月 25 日推出 Meta Vibes,比 Sora App 早几天。该功能明显提升了 Meta AI 应用的下载量(截至 10 月 18 日约 400 万次,环比增长 56%),并于 11 月 6 日宣布在欧洲推广。与 Sora 相比,Meta Vibes 在内容量、社交整 合和广泛可用性上具备优势,但也因内容质量参差不齐而受到批评,凸显 Meta 在生成式 AI 大模型突破方面仍需努力。

Runway:从早期短视频生成到长视频叙事的先行者

Runway 是最早将 AI 视频生成商业化的公司之一,其代表性模型为 Gen-4。Runway Model 经过了多次迭代,从 Gen-1 的风格迁移、物体替换、背景/材质改写,到 Gen-2 的支持 “文生视频/图生视频” 的多模态模式,再迭代 Gen-4 的多模 态输入+跨模态控制,解决了 AI 生成视频“角色变脸”与“动作不连贯”的两大痛点,使 AI 电影化生产具备可用性。 Runway 具有较快的商业化进程:Runway 提供 5 种订阅计划,分别为免费版,标准版,专业版,无限制版,和企业版, 订阅年费从 0 – 2,000 美元不等,这种阶梯式设计覆盖了个人创作者到大型企业的不同需求。B 端的企业版用户订阅价格 则为平均每月 167 美元,高于 C 端用户的 0~76 美元。根据 TechCrunch 的数据,Runway 在 24 年的 ARR 达到了 8,400 万美元,预计 25 年将增长三倍至 2.65-3 亿美元,增长速度远超多个竞争对手。Runway 在 25 年 4 月完成新一轮融资, 估值约 30 亿美元,此外,有报道称,近期 Runway 正在寻求 5 亿美元的融资,近期估值可达 50 亿美元。

Pika:从社交化创作与视频编辑融合切入的轻量级 AI 视频平台

Pika labs 是一家聚焦低门槛 AI 视频生成与编辑的初创公司,23 年由郭文景、孟辰霖与陈思禹在美国湾区创立,其团队 核心成员均来自斯坦福 AI lab。初创团队与 23 年 11 月推出 Pika 1.0 公测版,定位“人人可用的创作者级视频工具“而非 专业影视特效工具。 Pika 模型强调 “一站式生成+在线编辑” 的工作流(画幅扩展、帧率/时长延展、局部替换、风格化)。Pika 1.0(23 年 11 月)实现从文本或静态图像生成短视频,时长上限约 4–6 秒。支持画幅扩展、风格迁移与场景延展。Pika 1.5(24 年上半年)优化帧率与动作连贯性,引入 Prompt-to-Edit 功能,使用户可通过文字描述修改生成视频局部内容。Pika 2.0/2.1 则有了一些质的提升,强化了角色一致性、多场景衔接、口型对齐、背景稳定引擎、镜头过渡、更高分辨率等, 面向短叙事与广告短片。Pika 2.2(25 年中)推出 Pikaframes 功能,允许用户通过关键帧图像控制生成节奏,并支持最 高 10 秒视频生成。 采用“模块化特效 + 轻编辑”路线,Pika 的最新功能包括:Pikascenes—多镜头场景生成与镜头切换;Pikaswaps/ Pikadditions—主体替换与元素补充;Pikatwists—高阶风格与物理效果;Pikaffects—视觉滤镜加灯光调整。 Pika 的货币化模式为免费+订阅+积分消耗的混合体系。Freemium 用户每月可获得少量试用视频点数。订阅计划从标准 版每月 8 美元到高级版每月 76 美元不等。根据 GetLatka 数据,Pika 在 2024 年的营收约为 800 万美元,2024 年 6 月 的 B 轮融资中估值约为 4.7 亿美元。 Pika 的核心竞争力在于极低的创作门槛与可玩性,C 端用户群体集中为创意自由职业者、社交媒体的内容生产者和中小 品牌运营人员。目前已有超过 1,000 万注册用户与大约 50 万活跃用户,订阅挡位在 8~76 美元之间。B 端方面,其业务 中心依然集中在轻量级的营销机构、小型广告代理和自由创作者。

商业化下游:生成式 AI 工作流在定制化商业内容创作中的应用

节点式生成式 AI 工作流允许用户在可扩展画布上直观地连接多个 AI 模型和编辑工具,实现图像与视频的无缝分支、混 合与精细控制,从而生成高质量、可定制的商业内容。这种 UX/UI 相比单纯文本提示更受欢迎,因其提供更强的控制力。 目前该领域的参与者不多,领先应用包括 ComfyUI 和 Weavy。Weavy 最近被 Figma(FIG US)收购,并更名为 Figma Weave,Figma 表示此次收购是战略性整合,旨在增强其平台的 AI 媒体生成与专业编辑能力。此外,Adobe 于 10 月宣 布推出 Project Graph,这也是一款节点式创作应用。我们认为,这些竞争性里程碑清晰地凸显了节点式(或其他支持定 制化的 UX/UI 格式)生成式 AI 工作流发展的重要性。

中国旗舰公司 AI 视频生成产品

阿里巴巴:从底层技术到商业化应用的全栈式布局

阿里巴巴在 AI 视频生成领域已形成从底层技术到商业应用的全栈布局,拥有自研 AI 芯片,构建构建 Qwen(文本)、 Wan(视频)、Fun(音频)多模态模型家族,支持跨模态联合生成。 自研视频生成模型—通义万相(Wan):2025 年 9 月,阿里巴巴发布 Wan2.5-Preview,支持 10 秒 1080P 视频生成 (24 帧/秒),首次实现音画同步(自动生成匹配的人声、音效、背景音乐),突破多镜头叙事能力,减少人工剪辑需 求,支持复杂指令理解与长连贯故事生成。通义万相 C 端商业化方式采用订阅制模式,标准会员连续包年月费 36 元高 级会员 145 元,单视频生成收费约 0.6 元。

C 端应用: 内容创作平台—造点 AI:2025 年 9 月,阿里巴巴旗下夸克 AI 正式发布 AI 创作与创意表达平台的平台/APP“造 点 AI”,支持 AI 图片(接入夸克生图及 Midjourney)及 AI 视频生成(接入通义万相),提供创意特效功能和内 容创作者社区交流。

B 端应用: 专业影视制作平台—寻光:2024 年 12 月,阿里巴巴达摩院推出一站式 AI 视频创作平台—寻光。该平台可提供 AI 辅助剧本分析,自动生成分镜、视频运镜控制、图层拆解边际等,主要面向专业视频制作团队和开发者。 电商商家创作平台/APP—万相营造:核心功能包括商品图转视频、AI 换装演示、短视频脚本生成。已上线移动 端 APP,缩短电商商家商品视频制作周期。

腾讯:AI 视频赋能游戏与广告生态协同

自研视频生成模型—混元(Hunyuan-Video):2024 年 9 月开源,包含 130 亿参数,可以生成较强物理准确性以及一 致性镜头的视频。它拥有强大的语义对齐能力,能够生成高动态、流畅的运动画面,并一次性完成多个连续动作。模型 具备导演级运镜能力,实现艺术镜头的无缝衔接,完美融合真实效果与虚拟场景。 视频创作平台—腾讯智影:云端智能视频创作平台,核心功能包括数字人播报、文本配音、文章转视频、视频剪辑等。

垂类应用:

游戏:Hunyuan-GameCraft:2025 年 8 月开源,基于 Hunyuan-Video 的下一代游戏交互式视频生成框架, 通过高动态内容合成与连续动作控制技术,实现了影视级时序连贯的视频生成,为沉浸式游戏体验树立了新标 杆。该模型基于超百万条 AAA 级游戏实录数据训练,覆盖 100 余款主流游戏,确保多样性和泛化能力,并进 一步通过精细标注的合成数据集微调,显著提升了视觉保真度、真实感和动作可控性。

广告:HunyuanCustom,2025 年 5 月开源,能实现单主体视频生成、多主体视频生成、单主体视频配音、视 频局部编辑等能力,其生成的视频与用户输入的参考主体能保持高度一致。可以满足视频创作者、短视频博主、 电商从业者、广告创意人等不同用户和场景的需求。一站式 AI 广告创意平台“妙思”可生成商品广告图片及视频、 商品口播等,简化广告制作与投放流程。

百度:非扩散架构的视频生成路线

MuseSteamer:不同于传统的扩散(Diffusion)架构方案,MuseSteamer 采用百度自研的 ERNIE 多模态框架和 Transformer 架构。百度于 24 年一季度发布初代版本 MuseSteamer v1,支持 1080P,最长 10 秒的文生视频生成。24 年 8 月推出 v1.5,全新引入 Full-Duplex Streaming Inference(全双工流式推理)技术,使模型在生成过程中能够实时 反馈用户,实现“边生成、边修改”。MuseSteamer 2.0 打破业界记录实现“多人有声音视频一体化生成”,利用 Latent Multi-Modal Planner(多模态潜在空间规划技术)实现语音与唇形、表情、动作的毫秒级精准对齐,同时支持多角色身 份、情感与互动逻辑。在性能方面,模型支持最高 4k 分辨率视频输出,生成速度为 2-5 分钟/条,帧率范围 24-60FPS, 最长可生成 30 秒视频。国际知名视觉效果导演姚骐使用 MuseSteamer 模型制作的科幻短片《归途》中,“有 40 多个镜 头,每个镜头生成 3 次,共用 AI 生成超 120 个片段,成本低至百元”。 商业化:在 C 端,平台面向个人创作者和中小型工作室,通过“预付积分+功能分层“模式实现灵活付费。用户可根据使 用强度选择不同套餐,套餐分为 Starter/Basic/Professional,约 100 积分可生成 5-10 条 10 秒左右的 1080p 视频,单条 成本 1-2 美元,较 Runway Gen-2 和 Pika 2.0 低约 25-30%,体现出百度在 C 端市场的”低价普及+灵活分层“策略。B 端 则通过百度的”千帆大模型平台“给广告、电商、教育、传媒等垂直行业客户提供 API 调用、MaaS 部署于多模态内容生 成接口。企业客户按照调用量、视频时长或分辨率进行计费,并可通过 SDK 或 API 将 MuseSteamer 嵌入内部内容生产 流程。与 C 端相比,B 端更强调可扩展性、稳定性与算力资源调度,其商业逻辑以高客单价和长期合同驱动营收增长。

美团:实现视频续写完整任务闭环

2025 年 10 月 27 日,美团龙猫团队发布 LongCat-Video 视频生成模型。LongCat-Video 创新通过“条件帧数量”实现任 务区分—文生视频无需条件帧、图生视频输入 1 帧参考图、视频续写依托多帧前序内容,原生支持三大核心任务且无 需额外模型适配,形成“文生/图生/视频续写”完整任务闭环。 文生视频:可生成 720p、30fps 高清视频,能精准解析文本中物体、人物、场景、风格等细节指令,语义理解与视觉 呈现能力达开源旗舰级别。 图生视频:严格保留参考图像的主体属性、背景关系与整体风格,动态过程符合物理规律,支持详细指令、简洁描述、 空指令等多类型输入,内容一致性与动态自然度表现优异。 视频续写:视频续写是 LongCat Video 的核心差异化能力,可基于多帧条件帧续接视频内容,为长视频生成提供原生 技术支撑。

快手:可灵 AI 2.5 Turbo 登顶全球排行榜

快手构建了覆盖 C 端、B 端及核心业务场景的产品生态: 自研视频生成模型—可灵(Kling):2025年9月发布的可灵AI 2.5 Turbo显著提升运动效果、风格一致性和美学质量, 尤其在“大幅运动画面”(如转向、肢体交互)中物体变形率降至行业最低。在 Artificial Analysis 评测中,可灵 2.5 Turbo 文生视频/图生视频得分均位列全球第一,对字节即梦 1.0/谷歌 Veo3 的胜率分别达 160%/212%。商业化方面,可灵支 持 B 端 API 调用及订阅模式,单视频生成价格区间为 0.9(黑金会员,标准月费 1,314 元)至 1.8 元(黄金会员,标准 月费 58 元)。 强劲的营收增长轨迹与全球吸引力:Kling 在 2025 年一季度实现商业营收人民币 1.5 亿元,二季度升至人民币 2.5 亿元(环比 +67%)。全年营收指引已上调至 1.25 亿美元。快手在 2025 年 6 月宣布,Kling 在成立一周年时年化 经常性收入(ARR)已突破 1 亿美元,其中 70% 来自订阅,30% 来自 API 使用。从地域分布来看,目前 Kling 的 营收约 70% 来自海外市场,30% 来自国内市场。 垂类应用产品:创作工作台—灵动画布:灵动画布是快手可灵 AI 推出的创新创意工作台,其主要功能包括一站式创作、多人 协作、无限画布、智能辅助创作等,为创作者提供了高效、便捷的创作环境。电商营销短视频生成 Agent—Kwali:据媒体报道,2025 年 9 月,快手内测短视频生成 AI agent—Kwali,可实 现一句话生成完整且可直接投放的短视频,极大降低视频制作门槛。商家只需输入需求,Kwali 即可自动拆解 卖点、受众和情境标签,并生成脚本、匹配镜头、剪辑合成等。

美图:垂直领域深耕者

自研视频生成模型—美图奇想大模型(MiracleVision):2025 年迭代至 V5 版本后,进一步提升画面细腻度与动态 真实性,例如在 “AI 换装” 功能中,服装褶皱和光影匹配精度达行业领先水平。此外,美图还与阿里通义万相、 DeepSeek 等模型合作优化性能。 主要应用产品: AI 短片创作平台-MOKI:专注于动画短片、网文短剧、故事绘本及音乐视频(MV)创作,可以根据用户输入的 视频描述生成分镜脚本和画面,支持选择视觉风格、角色设计等。自动识别关键帧进行剪辑,提供自动配乐、 音效和字幕生成功能。 AI 影像 agent—RoboNeo:一站式影像处理与视觉内容创作工具,覆盖图片编辑、设计创作、视频制作。用户 通过自然语言对话生成图片、修改图片细节、制作视频,支持 emoji 风格生成、场景转换、视频特效等。AI 素材生成—Whee:高品质 AI 素材生成工具,侧重于图片创作和设计辅助。口播视频创作—开拍:专注于口播视频创作的 AI 工具,集成了从文案生成、拍摄到剪辑的一站式功能。

哔哩哔哩:聚焦动漫+中长视频+UGC 内容社区差异化竞争

B 站通过“数据+社区+垂直场景”三角模型构建 AI 视频生成壁垒:数据:B 站依托优质的 UGC/PUGC 内容,利用深度用 户互动评论训练模型;场景:聚焦中长视频、动漫、虚拟偶像等优势领域,避开短视频竞争;商业化:AI 工具赋能内容 创作者效率提升,并提升广告投放效率,以推动商业化收入增长。 AI 视频创作平台—花生 AI:2025 年 8 月,据媒体报道,B 站正在测试该款 AI 视频创作工具,支持 UP 主通过输入文案 或口播音频,在 3 分钟内自动生成完整视频成片,显著降低创作门槛,可支持生成中长视频(大于 30 秒)。 动漫生成模型—Anisora:2025 年 7 月,B 站开源 AniSora V3 版本,优化生成质量、动作流畅度及风格多样性, 支持 一键生成多种动漫风格的视频镜头,包括番剧片段、国创动画、漫画改编、VTuber 内容、动画 PV、鬼畜(MAD)等。

其他未上市中国公司

字节跳动:平台应用+模型基础设施的全栈布局

字节的 AI 视频生成体系采用“平台+Seedance/Waver 双模型引擎”架构,技术迭代清晰,分层明确。目前,Seedance 主要侧重于高质量叙事生成,而 Waver 负责高效生成,构建字节在 AIGC 视频领域“高质量+高效率”的技术格局。应用 平台包括: 1) 豆包:截至 2025 年 8 月,豆包 APP 月活用户数超过 1.57 亿(据 QuestMobile),高于 DeepSeek 的 1.43 亿, 成为中国用户数最高的C端AI对话助手产品。2025年以来,豆包逐步从简单的对话助手升级为多模态AI产品, 视频生成功能也逐步增强。2025 年 10 月,字节跳动正式发布了豆包视频生成模型(Doubao-Seedance-1.0- pro),进一步实现生成效率提升和成本降低。 2) 即梦:面向大众创作者的一站式 AI 图像/视频生成平台,由剪映团队开发。即梦初期采用 Seaweed/Pixeldance 模型,支持基础的文字生视频与图生视频。同年四季度,即梦推出 S2.0/P2.0 Pro,在人物连贯性、镜头运动与 提示词遵循上显著增强。25 年二季度推出 3.0/3.0Pro,正式接入 Seedance 1.0 mini 与 1.0 Pro,首次实现多镜 头生成与原生 1080P 输出,语义与动作一致性达到业内领先水平。与此同时,字节于 25 年 8 月公开 Waver 1.0, 统一处理文本、图像与视频生成任务,实现工业级推理效率。 3) 其他:包括剪映(视频创作剪辑工具)、即创(抖音商家 AI 创作工具)等。 即梦采用“订阅+免费额度+API 调用”的双层商业化模式。C 端的订阅价为 69 元人民币/月或 659 元人民币/年,每月可 生成 168 条视频或 2,050 张照片,免费版提供 26 条视频或 80 张照片的免费额度。App 上线半年后,MAU 就已突破 1,000 万。B 端方面,通过火山引擎开放 Seedance 与 Waver 模型 API,以生成市场与分辨率定价,服务广告、电商与 教育客户。基于订阅价格与广告客户潜在扩展推算。C 端收入是即梦当前增长的主要来源,特征是订阅价低、用户基数 大、拉新效率高但 ARPU 较低;B 端(火山引擎与 BytePlus API)贡献规模小,但具备高单价、高复购率与长期合约潜 力。随着 Seedance 模型进入企业服务与海外客户体系,预计 B 端收入占比将在未来 1-2 年持续上升。

爱诗科技:PixVerse 凭借出色特效出圈

PixVerse 是由爱诗科技推出的 AI 视频生成平台,核心功能包括“照片/文本生成视频”,同时支持风格迁移、口型同 步、音效/语音生成等多种功能。海外版于 2024 年 1 月上线,国内版“拍我 AI”于 2025 年 6 月发布。公司创始人王 长虎曾任字节跳动视觉技术负责人,核心团队成员大多来自字节跳动、微软亚洲研究院、快手和腾讯等领先机构。 产品迭代: 早期版本 V2:支持单段 8 秒视频,以及最长 40 秒的多段视频。 V3 阶段:引入口型同步与视频续接功能,提升了文本驱动视频生成的控制力与精细度。 V4(2025 年初发布):集成音频模块,实现音视频同步;优化动作流畅度与物理一致性;并将生成速度压缩 至“5 秒出片”。 最新 V4.5:升级界面与控制面板,进一步提升稳定性与效率。PixVerse 的超快“5 秒出片”技术已广泛应用于 TikTok、Instagram Reels 和 X 等社交媒体短视频场景,热门特效包括“毒液变身”等。 定价:PixVerse 采用点数驱动的订阅体系,从提供有限点数的免费版到每月 10–48 美元的付费计划,支持最高 1080P 视频,并提供带 API 接口的定制化企业版。2025 年 10 月 17 日,爱诗科技宣布完成 1 亿元人民币 B+轮融资, 累计用户已突破 1 亿,MAU 超过 1,600 万。API 分层包括 Essential(每月 100 美元,约可生成 333 个 5 秒视频)、 Scale(每月 1,500 美元,约 5,316 个视频)、Business(每月 6,000 美元,约 23,766 个视频)。平台用户规模从 2024 年 12 月的全球 1,200 万增长至 2025 年 9 月的累计超过 1 亿。

Minimax:海螺 AI 升级电影级高质量视频生成效果

海螺 AI 是由 Minimax 推出的多模态视频生成模型。早期版本海螺-Video-01 系列(T2V-01-Director 与 I2V-01-Director) 率先实现了分层控制,包括镜头构图、角色、场景与动作,支持基于文本描述的逐镜头视频生成,确立了“导演级”可 控能力。 2025 年 6 月,海螺-02 正式发布,引入 Neural Control Representation 框架,相较前代训练参数提升三倍、数据量提升 四倍。该版本实现了原生 1080p 分辨率,并支持最长 10 秒的视频片段。在光照渲染、物体交互与物理一致性方面显著 增强,可生成复杂场景如“喷火”与“高速运动”,标志着视频理解与生成能力的重大突破。 2025 年 7 月,Minimax 完成 3 亿美元融资,估值约 40 亿美元,跻身中国估值最高的生成式 AI 公司之列。 在消费端,海螺 AI 面向日常创作者与短视频博主,通过分层订阅与点数体系降低使用门槛。其主要用户群体来自抖音、 B 站和小红书的内容创作者,他们在叙事短片、广告和虚拟角色展示等应用中更注重生成速度。快速的消费端扩张为 Minimax 提供了大量视频素材与用户交互数据,推动模型的持续优化。 在企业端,基于 Minimax 的多模态基础,海螺 AI 向广告、电商、教育和游戏等行业提供 API 能力。众多短剧制作团队、 MCN 机构和品牌广告商利用其 B2B 服务批量生成产品演示、教育内容和分镜预览。一些客户将 MiniMax API 与火山引 擎和百度智能云等云平台整合,以降低算力成本并提升效率。海螺 AI 有望成为企业视觉生产管线的核心组成部分,带来 更高的利润率和强劲的经常性收入潜力。 海螺 AI 的商业化模式结合了消费端的分层订阅与应用内购买(用于流量变现),以及企业端的 API 授权与订阅收入。其 订阅体系分为五个层级:Standard(每月 7.99 美元,约 83 个视频);Pro(每月 27.99 美元,约 375 个视频); Master(每月 63.99 美元,约875个视频);Ultra(每月124.99 美元,可完整访问海螺-01模型);Max(每月199.99 美元,可完整访问海螺-01/02 模型)。所有订阅方案均支持 1080p、最长 10 秒视频、多线程生成。Minimax 报告称已 协助创作者生成 3.7 亿个视频,仅 Web 版本的年化经常性收入(ARR)就超过 1,000 万美元。

清华 Vidu:中国学术研究模型向多模态的演进

Vidu 是由清华大学、智谱 AI 与上海人工智能实验室于 2024 年联合推出的生成式视频大模型,被视为‘多模态世界建模’ 的起点,重点关注物理一致性、时间连续性与语义可控性。Vidu 是首个完全基于 Transformer 架构并采用非扩散(NonDiffusion)方法的文本生成视频模型,参数规模达 14 亿,并通过“逐帧去噪”显著提升了视频清晰度。 产品迭代: 版本 1.0:可生成连续 16 秒的 1080p 视频;而 Vidu1.5(2024 年四季度)强化了动作理解与镜头语义控制,支 持更复杂的角色互动与场景切换。该版本实现了单个视频在 30 秒内快速生成。自上线以来,Vidu 在 100 天内即 获得超过 1,000 万用户,迅速走红。 版本 2.0:于 2025 年一季度面向公众开放,支持 Web、App 与 API 接入,并采用按秒计费与具竞争力的定价策 略以降低使用门槛。官方披露的 720p 视频生产成本约为人民币 0.258~0.30/秒,并提供“离峰模式”进一步降 低费用,推动用户规模显著增长。 定价:“免费体验+分层订阅+API 接口”。在消费端,平台提供四档订阅方案:免费版:每月配额 800 点数,可生成约 200 个 1080p 视频;标准版:每月 8 美元,配额 2,000 点数,可生成约 500 个 1080p 视频;高级版:每月 28 美元,可 生成约 700 个视频;旗舰版:每月 79 美元,可生成约 1,000 个视频。不同订阅档位在视频生成数量、并行任务上限、 参考素材与编辑功能方面有所差异。在企业端,Vidu 依托其 API 平台,提供文本生成视频、图像生成视频及模板化视频 生成接口,面向广告、电商、教育与影视制作等行业。

(本文仅供参考,不代表我们的任何投资建议)

文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加wenlin-swl 微信联系删除。

为便于研究人员查找相关行业研究报告,特将2018年以来各期文章汇总。欢迎点击下面红色字体查阅!

文琳行业研究 2018年—2025年12月文章汇总

▼长按2秒识别二维码关注我们

今日导读:点击下面链接可查阅

公众号 :文琳行业研究

  1. 2025年研究前沿报告

  2. 2025年研究前沿热度指数报告

  3. 太空算力的崛起,算力模式演变和中美路径探索

  4. 2025年AI报告

  5. 2025卫星互联网行业

  6. 新经济技能:释放人类优势

  7. 产业循环转型:扩展循环供应链的艺术

  8. 文琳行业研究 2018年—2025年12月文章汇总

提供每日最新财经资讯,判断经济形势,做有价值的传播者。欢迎关注

▼长按2秒识别二维码关注我们

今日导读:点击链接可查阅

  1. 重大新规!证监会、沪深交易所联合发布

  2. 重磅利好,证监会出新规,每年让利投资者510亿元

  3. 2026年以旧换新,细则公布!地方将获更多自主空间

  4. 什么信号?时隔8个月,制造业景气度重回扩张区间!

提供宏观经济下的行业现状及区域地方经济发展机遇的信息;分享案例,为就业与创业的选择、定位解决疑惑,并提供帮助。
点击下方可看
        1. 元旦,致我的亲人和朋友!
        2. 惊天骗局!全国多地“买单出口”骗补:没出一件货,骗走国家上亿,谁在撑腰?
        3. 史上最快暴富!中国人,创造了AI神话!
        4. 耐克“自救”,给中国区继续放权!
         
        打赏
         
        更多>同类资讯
        0相关评论

        推荐图文
        推荐资讯
        点击排行
        网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
        Powered By DESTOON