推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  履带  带式称重给煤机  链式给煤机  无级变速机 

关于《2023腾讯研究院AIGC发展趋势报告》读后总结

   日期:2025-12-30 13:16:42     来源:网络整理    作者:本站编辑    评论:0    
关于《2023腾讯研究院AIGC发展趋势报告》读后总结

我公众号文章目录综述

https://wangguisen.blog.csdn.net/article/details/127065903

往期重点回顾:

生成模型与极大似然简述

变分自编码器 VAE 详解

保姆级讲解 生成对抗网络 GAN

保姆级讲解 Diffusion 扩散模型(DDPM)

往期回顾:

图像分类篇[10]:EfficientNet V1网络详解

图像分类篇[9]:ShuffleNet V2网络详解及复现

关于Attention的超详细讲解(Attention、Self-Attention、Multi-Head Attention)

保姆级讲解Transformer

Bert前世篇:从Word Embedding到Word2Vec、ELMo和GPT

保姆级讲解BERT

腾讯研究院发布的《AIGC 发展趋势报告 2023》中(以下简称《报告》),对 AIGC 的发展趋势进行了深度解读。本文对其中几个标题进行提炼总结,站在巨人的肩膀上眺望远方,幸甚至哉,勉励习之。

目录

  • AIGC 掀起人工智能的产业革命
  • AIGC 技术工程化:三种技术的累积催生了 AIGC 的大爆发
    • 生成算法
    • 预训练模型
    • 多模态
  • AIGC 产业生态化:上、中、下游看走向模型即服务(MaaS)的未来
    • 基础层
    • 中间层
    • 应用层
  • 展望:拥抱人工智能的下一个时代,打造可信 AIGC 生态

AIGC 掀起人工智能的产业革命

2022 年是 AIGC(Al-Generated Content,人工智能生成内容)爆火出圈的一年。

Stability Al 发布的开源模型 Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-Image, T2I)。Stable Diffusion、 DALL-E 2、 MidJourney 等可以生成图片的 AIGC 模型引爆了 AI 作画领域,AI 作画风行一时,标志人工智能向艺术领域渗透。

2022年12月,OpenAl 的大型语言生成模型 ChatGPT 刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。

全球各大科技企业都在积极拥抱 AIGC,不断推出相关的技术、平台和应用。

字面意思来看,AIGC 是相对于过去的 PGC、UGC 而提出的。因此,狭义上 AIGC 的概念是利用AI自动生成内容的生产方式。但是 AIGC 已经代表了AI技术发展的新趋势。

过去传统的人工智能偏向于分析能力,比如应用最为广泛的个性化推荐算法,而现在的人工智能是生成新的东西,而不是仅仅局限于分析已经存在的东西,实现了人工智能从感知理解世界生成创造世界跃迁。因此,从这个角度来看,广义的 AIGC 可以看做是像人类一样具备生成创造能力的AI技术,即生成式AI

它可以基于训练数据生成算法模型,自主生成创造新的文本、图像、音乐、视频、3D交互内容等各种形式的数据,因此 AIGC 已经加速成为了AI领域的新疆域。未来,兼具大模型多模态模型的 AIGC 有望成为新的技术平台。

AIGC 技术工程化:三种技术的累积催生了 AIGC 的大爆发

在《报告》中将其归纳为三点:

  • 一是
    生成算法模型
    在不断地突破创新;
  • 二是
    预训练模型
    引发了 AIGC 技术能力的
    质变
  • 三是
    多模态技术
    推动了 AIGC 的内容
    多样性
    ,让 AIGC 具有了更通用的能力。

生成算法

2014年生成对抗网络 GAN 的提出,使其成为最著名的生成模型,GAN 使用合作的零和博弈框架来学习,被广泛应用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种,如:DCGAN、StyleGAN、BigGAN、StackGAN、Pix2pix、Age-cGAN、CycleGAN、对抗自编码器(Adversarial Autoencoders,AAE)、对抗推断学习(Adversarially Learned Inference,ALI)等。

下表为《报告》中给出的生成式算法的演进时间轴:

预训练模型

虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。所以在《报告》中,用质变来形容预训练模型对于 AIGC 的影响,之所以称为质变,正因此后基于大量数据训练、拥有巨量参数成为 AIGC 实现多任务、多语言、多方式的核心驱动力。

随着2018年谷歌发布基于 Transformer 的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数预训练模型时代。

AI预训练模型,又称为大模型、基础模型,即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。

这些模型基于迁移学习思想深度学习的最新进展,以及GPU的强大算力,显著提高了各种下游任务的性能。鉴于这种潜力,预训练模型成为AI技术发展的范式变革,许多跨领域的AI系统将直接建立在预训练模型上。

具体到 AIGC 领域,AI预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括:

  1. NLP预训练模型,如谷歌的 LaMDA 和 PaLM、Open AI的GPT系列;
  2. CV预训练模型,如微软的 Florence;
  3. 多模态预训练模型,即融合文字、图片、音视频等多种内容形式。

下表为《报告》中给出的 AIGC 的主流预训练模型:

多模态

除了 生成算法 和 预训练,AIGC 要达到工程化也少不了多模态。在这点上,CLIP 的重要性就体现出来了。2021年,OpenAI团队将跨模态深度学习模型 CLIP(Contrastive Language-Image Pre-Training)进行开源,CLIP 能够将文字和图像进行关联,因此其具备两个优势:

  • 一方面
    同时进行自然语言理解和计算机视觉分析
    ,实现
    图像和文本匹配
  • 另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为CLIP天然的训练样本。

在多模态技术的支持下,目前预训练模型已经从早期单一的 NLP 或 CV 模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型

2021年3月 OpenAI 发布 Al 绘画产品 DALL-E,只需要输入一句文字,DALL·E 就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DALL·E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点,成为DALL- E、 DALL- E2.0、 Stable Diffusion 等突破性 AIGC 成果的基石。

总的来看,AIGC 在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC 技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC 模型成为了自动化内容生产的“工厂”和“流水线”。

AIGC 产业生态化:上、中、下游看走向模型即服务(MaaS)的未来

生成算法、预训练模型、多模态让 AIGC 实现工程化,但一项技术能否真正撬动市场,还需要看它能否产业化。在如何构建产业化上,《报告》给出的结论是:AIGC产业生态加速形成和发展,走向模型即服务(MaaS)的未来

这些年来,SaaS(软件即服务)、PaaS(平台即服务)和 IaaS(基础设施即服务)我们听了很多,当模型也变成一种服务之后,AIGC的产业未来会呈现出怎样的形态?

《报告》中说:目前,AIGC 产业生态体系的雏形已现,呈现为上中下三层架构:

基础层

第一层,为上游基础层,也就是由预训练模型为基础搭建的 AIGC 技术基础设施层。由于预训练模型的高成本和技术投入,基础层是最考验技术发展程度和可投入成本的地方,具有较高的门槛

以2020年推出的 GPT-3 为例,Alchemy API创始人推测训练 GPT-3 的成本可能接近于1200万美元,因此目前进入这一层的主要机构为头部科技企业、科研机构等。

中间层

第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。基础层的作用体现在提供通用模型训练平台,中间层的作用则是从通用调试和训练中快速抽取生成场景化、定制化、个性化的小模型和应用工具,这一层的目的在于实现不同行业、垂直领域、功能场景的工业流水线式部署。

随着兼具 大模型多模态模型 的 AIGC 模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,Stable Diffusion 开源之后,基于开源模型的二次开发,训练特定风格的垂直领域开始流行,比如著名的二次元画风生成的Movel-AI,还有各种风格的角色生成器等。

应用层

基础层和中间层的应用主要面向B端,而应用层就直接面向C端了,即在应用层,侧重满足用户的需求,将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。

随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC 作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。与此同时,在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。

展望:拥抱人工智能的下一个时代,打造可信 AIGC 生态

除了技术工程化产业生态化,衡量 AIGC 未来发展还需要把控两大方面:机遇挑战,即当前和潜在的有利及不利因素。从机遇来看,可以说是非常得多。在《报告》中:

  1. 从消费端:AIGC 牵引数字内容领域的全新变革
  2. 到产业端:合成数据牵引人工智能的未来
  3. 再到社会端:合成数据牵引人工智能的未来

可以说从人们的生产生活,到社会组织的方方面面都可以有 AIGC 的参与,具体表现在:

  • 消费端:
    • AIGC 正越来越多地参与到数字内容的创意性生成工作
      ,以人机协同的方式释放价值,成为未来互联网的内容生产基础设施;
    • AIGC 带来的内容生产方式变革开始
      引起内容消费模式
      的变化,未来应用生态和消费市场将走向多样化;
    • 在互联网迈向“在场(3D)”的趋势下,AIGC 为3D互联网可以带来包括3D模型、场景、角色制作能效的提升,为创作者激发新的灵感;
  • 产业端:
    • 目前人工智能仍然处在发展的1.0阶段(AI 1.0),从AI 1.0走向AI 2.0,数据是最大的掣肘。
      从真实数据向合成数据的转化
      ,可以推动人工智能迈向 2.0。而 AIGC 技术的持续创新,让合成数据迎来新的发展契机。
  • 社会端:
    • 《报告》将 AIGC 对社会价值的推动概括为:
      AIGC的社会价值体现为革新数字内容与艺术创造领域,并将辐射到其他领域和行业,孕育新的技术形态与价值模式,甚至会成为通往AGI(通用AI)的可能性路径

当然,有机遇就会有挑战。未来,AIGC 也将面临包括知识产权、安全问题、伦理道德、环境保护等多个方面的挑战。

本文对《报告》中的几个标题进行了提炼总结,笔者在读完之后对目前 AIGC 发展趋势有了更加深刻的理解,并且调整了未来的学习规划,所以才会有幸甚至哉,勉励习之的感慨。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON