我公众号文章目录综述:
https://wangguisen.blog.csdn.net/article/details/127065903
往期重点回顾:
往期回顾:
关于Attention的超详细讲解(Attention、Self-Attention、Multi-Head Attention)
Bert前世篇:从Word Embedding到Word2Vec、ELMo和GPT
腾讯研究院发布的《AIGC 发展趋势报告 2023》中(以下简称《报告》),对 AIGC 的发展趋势进行了深度解读。本文对其中几个标题进行提炼总结,站在巨人的肩膀上眺望远方,幸甚至哉,勉励习之。
目录
AIGC 掀起人工智能的产业革命 AIGC 技术工程化:三种技术的累积催生了 AIGC 的大爆发 生成算法 预训练模型 多模态 AIGC 产业生态化:上、中、下游看走向模型即服务(MaaS)的未来 基础层 中间层 应用层 展望:拥抱人工智能的下一个时代,打造可信 AIGC 生态
AIGC 掀起人工智能的产业革命
2022 年是 AIGC(Al-Generated Content,人工智能生成内容)爆火出圈的一年。
Stability Al 发布的开源模型 Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-Image, T2I)。Stable Diffusion、 DALL-E 2、 MidJourney 等可以生成图片的 AIGC 模型引爆了 AI 作画领域,AI 作画风行一时,标志人工智能向艺术领域渗透。
2022年12月,OpenAl 的大型语言生成模型 ChatGPT 刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。
全球各大科技企业都在积极拥抱 AIGC,不断推出相关的技术、平台和应用。

字面意思来看,AIGC 是相对于过去的 PGC、UGC 而提出的。因此,狭义上 AIGC 的概念是利用AI自动生成内容的生产方式。但是 AIGC 已经代表了AI技术发展的新趋势。
过去传统的人工智能偏向于分析能力,比如应用最为广泛的个性化推荐算法,而现在的人工智能是生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界到生成创造世界的跃迁。因此,从这个角度来看,广义的 AIGC 可以看做是像人类一样具备生成创造能力的AI技术,即生成式AI。
它可以基于训练数据和生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的数据,因此 AIGC 已经加速成为了AI领域的新疆域。未来,兼具大模型和多模态模型的 AIGC 有望成为新的技术平台。
AIGC 技术工程化:三种技术的累积催生了 AIGC 的大爆发
在《报告》中将其归纳为三点:
一是 生成算法模型 在不断地突破创新; 二是 预训练模型 引发了 AIGC 技术能力的 质变 ; 三是 多模态技术 推动了 AIGC 的内容 多样性 ,让 AIGC 具有了更通用的能力。

生成算法
2014年生成对抗网络 GAN 的提出,使其成为最著名的生成模型,GAN 使用合作的零和博弈框架来学习,被广泛应用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种,如:DCGAN、StyleGAN、BigGAN、StackGAN、Pix2pix、Age-cGAN、CycleGAN、对抗自编码器(Adversarial Autoencoders,AAE)、对抗推断学习(Adversarially Learned Inference,ALI)等。
下表为《报告》中给出的生成式算法的演进时间轴:


预训练模型
虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。所以在《报告》中,用质变来形容预训练模型对于 AIGC 的影响,之所以称为质变,正因此后基于大量数据训练、拥有巨量参数成为 AIGC 实现多任务、多语言、多方式的核心驱动力。
随着2018年谷歌发布基于 Transformer 的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。
AI预训练模型,又称为大模型、基础模型,即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。
这些模型基于迁移学习思想和深度学习的最新进展,以及GPU的强大算力,显著提高了各种下游任务的性能。鉴于这种潜力,预训练模型成为AI技术发展的范式变革,许多跨领域的AI系统将直接建立在预训练模型上。
具体到 AIGC 领域,AI预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括:
NLP预训练模型,如谷歌的 LaMDA 和 PaLM、Open AI的GPT系列; CV预训练模型,如微软的 Florence; 多模态预训练模型,即融合文字、图片、音视频等多种内容形式。
下表为《报告》中给出的 AIGC 的主流预训练模型:

多模态
除了 生成算法 和 预训练,AIGC 要达到工程化也少不了多模态。在这点上,CLIP 的重要性就体现出来了。2021年,OpenAI团队将跨模态深度学习模型 CLIP(Contrastive Language-Image Pre-Training)进行开源,CLIP 能够将文字和图像进行关联,因此其具备两个优势:
一方面 同时进行自然语言理解和计算机视觉分析 ,实现 图像和文本匹配 ; 另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP天然的训练样本。
在多模态技术的支持下,目前预训练模型已经从早期单一的 NLP 或 CV 模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。
2021年3月 OpenAI 发布 Al 绘画产品 DALL-E,只需要输入一句文字,DALL·E 就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DALL·E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点,成为DALL- E、 DALL- E2.0、 Stable Diffusion 等突破性 AIGC 成果的基石。
总的来看,AIGC 在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC 技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC 模型成为了自动化内容生产的“工厂”和“流水线”。
AIGC 产业生态化:上、中、下游看走向模型即服务(MaaS)的未来
生成算法、预训练模型、多模态让 AIGC 实现工程化,但一项技术能否真正撬动市场,还需要看它能否产业化。在如何构建产业化上,《报告》给出的结论是:AIGC产业生态加速形成和发展,走向模型即服务(MaaS)的未来。
这些年来,SaaS(软件即服务)、PaaS(平台即服务)和 IaaS(基础设施即服务)我们听了很多,当模型也变成一种服务之后,AIGC的产业未来会呈现出怎样的形态?
《报告》中说:目前,AIGC 产业生态体系的雏形已现,呈现为上中下三层架构:

基础层
第一层,为上游基础层,也就是由预训练模型为基础搭建的 AIGC 技术基础设施层。由于预训练模型的高成本和技术投入,基础层是最考验技术发展程度和可投入成本的地方,具有较高的门槛。
以2020年推出的 GPT-3 为例,Alchemy API创始人推测训练 GPT-3 的成本可能接近于1200万美元,因此目前进入这一层的主要机构为头部科技企业、科研机构等。
中间层
第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。基础层的作用体现在提供通用模型训练平台,中间层的作用则是从通用调试和训练中快速抽取生成场景化、定制化、个性化的小模型和应用工具,这一层的目的在于实现不同行业、垂直领域、功能场景的工业流水线式部署。
随着兼具 大模型 和 多模态模型 的 AIGC 模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,Stable Diffusion 开源之后,基于开源模型的二次开发,训练特定风格的垂直领域开始流行,比如著名的二次元画风生成的Movel-AI,还有各种风格的角色生成器等。

应用层
基础层和中间层的应用主要面向B端,而应用层就直接面向C端了,即在应用层,侧重满足用户的需求,将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。
随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC 作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。与此同时,在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。
展望:拥抱人工智能的下一个时代,打造可信 AIGC 生态
除了技术工程化和产业生态化,衡量 AIGC 未来发展还需要把控两大方面:机遇和挑战,即当前和潜在的有利及不利因素。从机遇来看,可以说是非常得多。在《报告》中:
从消费端:AIGC 牵引数字内容领域的全新变革; 到产业端:合成数据牵引人工智能的未来; 再到社会端:合成数据牵引人工智能的未来。
可以说从人们的生产生活,到社会组织的方方面面都可以有 AIGC 的参与,具体表现在:
消费端: AIGC 正越来越多地参与到数字内容的创意性生成工作 ,以人机协同的方式释放价值,成为未来互联网的内容生产基础设施; AIGC 带来的内容生产方式变革开始 引起内容消费模式 的变化,未来应用生态和消费市场将走向多样化; 在互联网迈向“在场(3D)”的趋势下,AIGC 为3D互联网可以带来包括3D模型、场景、角色制作能效的提升,为创作者激发新的灵感; 产业端: 目前人工智能仍然处在发展的1.0阶段(AI 1.0),从AI 1.0走向AI 2.0,数据是最大的掣肘。 从真实数据向合成数据的转化 ,可以推动人工智能迈向 2.0。而 AIGC 技术的持续创新,让合成数据迎来新的发展契机。 社会端: 《报告》将 AIGC 对社会价值的推动概括为: AIGC的社会价值体现为革新数字内容与艺术创造领域,并将辐射到其他领域和行业,孕育新的技术形态与价值模式,甚至会成为通往AGI(通用AI)的可能性路径 。
当然,有机遇就会有挑战。未来,AIGC 也将面临包括知识产权、安全问题、伦理道德、环境保护等多个方面的挑战。
本文对《报告》中的几个标题进行了提炼总结,笔者在读完之后对目前 AIGC 发展趋势有了更加深刻的理解,并且调整了未来的学习规划,所以才会有幸甚至哉,勉励习之的感慨。


