
点击蓝字,关注我们

来源 | 36氪研究院
作者 | 36氪研究院
本文将基于AIGC产业生态现状和技术发展路径,深入分析AIGC商业化应用的方向与产业发展趋势。
产业生态概览
整体而言,目前AIGC产业生态可划分为三部分:上游基础设施层、中游模型层和下游的应用层。其中,基础设施层包括数据、算力和模型开发训练平台/计算平台等算法基础平台;模型层包括底层通用大模型、中间层模型和开源社区;应用层则在文本、音频、图像、视频四类模态的基础上,发展出了策略生成和跨模态生成,并在金融、数据分析、设计等多个行业实现了商业应用。
图示:AIGC产业生态图谱AIGC对训练数据的体量、所属行业领域、对应垂直业务和颗粒度都有极高的要求。对于预训练大模型而言,多模态的数据集至关重要。此外,为了使训练问答和产出达到预期效果,数据提供方需要保障数据的即时性和有效性。目前,全球规模最大的开源跨模态数据库是LAION-5B,全球首个亿级中文多模态数据集“悟空”则是由华为诺亚方舟实验室开源。
自各类大模型进入大众视野以来,其tokens的大小限制一直困扰着诸多开发者和使用者,以GPT为例,当使用者向其发送命令时,程序会自动将最近几次对话记录(基于对话的字数限制在4096 tokens内)通过prompt组合成最终的问题,并发送给ChatGPT。一旦使用者的对话记忆超过了4096 tokens,那么它就难以将之前的对话内容纳入到逻辑思考范围,这就导致目前GPT在面对比较复杂任务时容易出现AI幻觉。
在此背景下,开发者们不断寻求新的解决方案,向量数据库就是热门解决方案之一。向量数据库的核心概念是将数据转换成向量存储在数据库中;在使用者输入问题时,也将问题转换成向量,然后在数据库中搜索最相似的向量和上下文,最后将文本返回给用户。这样不仅可以大大减少GPT的计算量,从而提高响应速度,更重要的是降低成本、支持多模态数据,并绕过了GPT的tokens限制。随着Weaviate MongoDB等海外向量数据库成为资本关注的对象,国内腾讯、京东等大厂也纷纷在此领域着手布局。
相比于数据板块,国内算力和算法基础领域供给端仍以头部企业为主,初创型企业机会相对较少。但以人工智能计算架构为基础,为应用层提供所需算力服务、数据服务和算法服务的智算中心已成为新型公共算力基础设施之一。
如AIDC OS,是九章云极DataCanvas自主研发的智算专属AI操作系统。同时面向智算中心大规模算力和大中型企业内部智算集群,输出智算资源的纳管、统一调度,智算业务的业务运营支撑,以及AI模型的构建、训练和推理等核心能力。AIDC OS将算力运营方的运维能力从裸算力设备运维提升至AI大模型运维能力,加之对各类异构算力和AI应用的开放兼容,AIDC OS成功实现了算力资产附加价值的有效提升。
AIGC底层通用大模型可分为开源和闭源两类。闭源模型一般通过付费的API或者有限的试用接口来访问,国外闭源模型包括OpenAI的GPT模型、谷歌的PaLM-E模型等。国内闭源模型厂商起步较晚,但在多模态交互能力和与智能硬件结合方面的能力提升迅速。如近期李未可科技研发的WAKE-AI大模型,具有文本生成、语言理解、图像识别及视频生成等多模态交互能力,是李未可科技专为未来 AI+终端,定向优化研发的多模态AI大模型平台。目前WAKE-AI大模型暂时针对李未可科技旗下的智能终端——AI眼镜、XR眼镜上使用。未来李未可科技将开放该AI平台,即让更多开发者以低代码或无代码的方式,在各类终端上快速低成本的部署或定制多模态AI。
开源模型采用公开模型的源码与数据集,任何人都可以查看或修改源代码,如Stability AI开源Stable Diffusion,Meta开源Llamax,xAI开源Grok-1,中国智源开源Aquila。比较而言,闭源模型的优势在于前期投入成本低、运行稳定;开源模型则基于私有化部署拥有较高的数据隐私安全保障,并且迭代更新速度较快。目前国内多数大模型开发企业或机构致力于开发跨模态大模型,如腾讯的混元AI和百度的文心大模型,都可进行跨模态生成,但整体尚未普遍形成开源生态。
中间层模型市场玩家大致可分为垂类大模型和中间集成商两类。其中,垂类大模型对于垂直行业的业务理解和资源积累要求较高,中间集成商负责组合多个模型接口,形成新的整体模型。以AI游戏引擎公司RPGGO为例,对于个人用户而言,RPGGO基于自研的游戏引擎Zagii Engine,能够协助个人创作者简化开发流程,实现最大化的创意输出;对于游戏工作室而言,RPGGO能够提供API联动,提升游戏开发效率。
应用层:文字生成发展时间较长,跨模态生成潜力最高
AIGC产业应用层多是基于模型能力和对用户需求的洞察,直接面向B端或C端客户进行服务,可将其简单理解为移动互联网时代的各类工具,未来的潜力空间较大,大批初创企业可参与其中。
如果按照模态划分,应用层可分为文字生成、音频生成、图像生成、视频生成、跨模态生成和策略生成。由于NLP技术发展历史较久,因此文字生成属于发展时间最长、落地应用也最为成熟的赛道。而在这波AIGC发展热潮中,跨模态生成将会带来最多的新应用场景。其中,文字生成图像、文字生成视频和图像/视频生成文本均已有产品问世,尤其是文字生成图像,如Stability AI,已经在全球范围内有了C端用户量的证明。

(圆圈大小表示预估 2030 年,该赛道相对市场规模)数据来源:量子位智库,36氪研究院整理

数据来源:量子位智库,36氪研究院整理
前沿技术分析
图示:多模态大模型技术发展情况资料来源:西南证券,公开市场资料,36氪研究院整理
图示:扩散模型VS自回归模型资料来源:公开市场资料,36氪研究院整理
应用概况


发展展望


转载须知




