推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

调研解读|AI多模态专家解读近期产业趋势

日期：2023-12-11 13:19:02 来源：网络整理作者：本站编辑评论：0

一、综述

介绍了多模态大模型的发展趋势和应用，包括谷歌和创业公司发布的强大多模态大模型，以及AI视频应用皮卡和runway的比较。皮卡1.0的功能强大，能够生成丰富多样的视频内容并进行精细的修改，在动漫风格和真人变身效果方面优于runway。讨论了多模态AI智能的两种分支及其训练和推理的差异，以及多个行业中多模态技术的应用和影响。同时，还涉及了不同公司在技术、训练算力能力和工程化方面的差异，以及多模态模型在精度要求上的评价函数和差距。总的来说，多模态大模型在不同行业和用户群体中的应用和影响是存在差异的。

二、详细介绍

1、多模态大模型发展趋势及应用

介绍了多模态大模型的发展趋势和应用，包括谷歌和创业公司发布的强大多模态大模型，以及AI视频应用皮卡和runway的比较。皮卡1.0的功能强大，能够生成丰富多样的视频内容并进行精细的修改，在动漫风格和真人变身效果方面优于runway。

2.出海应用中的AI视频技术及市场机会

介绍了皮卡背后的技术、黑卷出海应用以及其他视频相关的出海公司和团队。讨论了AI视频在多模态领域的应用和发展，以及珠海市场上的竞争态势。同时，也探讨了在海外市场做图C应用的机会和挑战。

3.AI智能视频产品在海外市场的应用

介绍了一个主要面向海外市场的AI智能视频产品，其主要功能包括AI换脸、AI换头和AI去取推动人物说话等。通过使用该产品，可以快速生成海外短剧，并提高在海外市场上的爆款概率。与此同时，该产品还可以通过优化视频脚本和剧本，降低尝试成本和周期，帮助公司更快速地投入到正确的题材上。

4.谷歌多模态大模型的发展和优势

讨论了谷歌在多模态人工智能领域的发展和优势。谷歌通过大规模的多模态数据训练，成功追赶上了领先的多模态语言模型GBD4，并在文本空间和图像空间的映射方面取得了突破。同时，谷歌在文本图像数据的收集和标注方面积累了丰富经验，为多模态模型的训练提供了高质量的数据保障。综合来看，谷歌的多模态大模型在多模态领域具有较强的能力，与文本模型也具有良好的互相促进作用。

5.多模态AI智能的训练和推理差异

讨论了多模态AI智能的两种分支及其训练和推理的差异。其中一种分支认为不同模态之间很难耦合，需要分开训练，而另一种分支认为可以将不同模态耦合在一起训练。实际应用中，第一种方法虽然快速搭建多模态模型，但无法充分理解不同模态之间的相互关系和距离。而第二种方法可以更本质地理解多模态数据，但训练和推理成本更高。此外，对于训练和推理的参数量和计算资源需求也存在差异。

6.人人物业批发与大模型竞争及定位差异

讨论了人人物业批发等公司采用第三方大模型以及视频生成领域的多模态能力竞争。同时，对话还探讨了创业公司与大公司在定位和解决问题上的差异，以及AGI公司与其他公司在底层技术推动和细分领域应用上的不同。

7.多模态大模型技术对行业的影响

讨论了多模态大模型技术对不同行业的影响。首先，对短视频行业和美图、康码等相关团队来说，这项技术会带来视频特效和剪辑工具的改进，可能会推动行业的发展。其次，在视频生成和游戏领域，AI技术将会改变短剧、小视频和游戏的创作和交互方式。而最终，AI技术还将应用于机器人和手机应用等领域，提供更加强大的AI agents和多模态任务处理能力。这三个阶段的应用将影响不同行业，并带来巨大的变革。

8.AI多模态能力对营销行业的影响

AI的多模态能力对营销行业有着不同程度的影响。对于常见的广告、电商、营销内容，AI生成视频可以降低成本，提高效果。然而，对于非定制化的大品牌宣传和细分人群定制化的营销内容，AI的影响较小。国内与海外的主流产品在底层技术和大模型应用方面存在差距，但国内由于用户量大，积累的用户案例多，在产品体验和细节优化方面较有竞争力。

9.多模态大模型对算力需求的增长

多模态大模型的算力需求较高，需要消耗大量的算力。为了生成长视频和保证视频的流畅性，需要记忆和推理大量的信息，导致算力消耗增大。然而，随着技术的进步和优化，算力需求可能会逐渐降低。短期内算力供给可能存在紧缺，但长期来看供给可能会跟上。

10.技术上的不同及训练能力的差异

探讨了技术上的不同、训练算力能力的积累以及多模态大模型等方面的差异。其中，谷歌通过构建多维空间进行模型训练，而其他公司则更注重工程能力的优化。此外，还介绍了视频版SD叉L模型和对视频内容的修改以及模型训练目标的调整。总的来说，技术上的不同导致了模型训练能力和工程化方面的差异。

11.多模态模型精度要求及厂商差距

多模态模型在精度要求上有一定的衡量指标和评价函数，但从产品层面和用户主观感受层面来看，厂商之间的差距并不明显。然而，对于一些专业用户群体，他们对细节的感受更为明显，会更注重客观指标和细分差距。因此，在不同厂商之间的差距在专业人群中可能较大，但在C端用户场景中并不明显。

三、Q&A

Q：请简要介绍一下google Dream...和Peter 1.0的上线情况。

A：分别在2018年和2020年上线，代表着未来能通向真正智能的一个大模型。

Q：请介绍一下多模态大模型的发展趋势。

A：将逐渐成为未来的主要发展趋势，并能够应用于多个领域。如谷歌发布的germany的大模型，能够识别文本、图片和视频，也发布了一些惊艳的产品如皮卡1.0。

Q：请介绍一下皮卡1.0的主要功能。

A：包括能够根据提示词生成视频、修改视频元素和环境等能力。

Q：衡量一个视频生成能力的主要方面有哪些？

A：主要包括两个方面：一是从零生成一段视频的内容足够丰富、多样性足够大、流畅性足够好，并能精准控制视频中的内容；二是对于现成视频中元素进行细腻度的修改，能够控制到一个非常重要的维度。

Q：皮卡1.0版本的官网需要排队，这个皮卡产品的宣传有什么影响？

A：导致它的声量已经比较大，甚至超越了其他应用，比如娟吐等。

Q：黑卷是什么？它的应用效果如何？

A：黑卷是一款出海应用，主要用基于diffusion模型的dream proper paler技术进行视频修改，其效果已经可以媲美synthesis a的一家英国公司。黑卷的团队规模约为20人左右，加起来有大几百人的团队规模。

Q：珠海市场上的出海视频生成应用有哪些？

A：已经有很多了，比如美图秀秀等大公司都在这方面有一定的积累。

Q：除了美图秀秀，其他大公司在珠海市场上的AI生成领域有哪些积累？

A：也有积累，包括商汤科技、字节等。

Q：AI视频领域的其他大公司有哪些团队？团队主要的能力集中在哪些方面？

A：有一些团队，包括字节、腾讯等在内部孵化珠海的AI视频公司和团队。集中在AI生成视频、文本、图像等领域，同时也在做一些数字人、视频编辑等应用。

Q：团队在AI生成技术栈上做了哪些改进？

A：从19年开始，团队就在AI生成技术栈上做了很多改进，包括提出的一些技术变体和改进。

Q：团队从哪一年开始看到了比较好的效果？

A：从2022年开始，基于division模型的技术做的效果逐渐显现，有很多新的玩法和应用机会。

Q：在国内市场做to c应用相对来说比较困难的原因是什么？团队在做to c应用方面面临哪些挑战？

A：在国内市场做to c应用，有很多超级super APP垄断了流量，做这个应用比较困难。但是在海外做图C应用，各个国家的市场是比较空白的领域，而且这些国家也没有比较强的互联网公司，对于用户的流量进行垄断。因此，在海外做to c应用的机会还是很大的。面临着比较大的挑战，因为做每一单的回款周期都比较长，而且这个流程也比较长。同时，团队缺乏品牌的背书和声量，需要专注于做更强的技术和产品体验。

Q：AI视频的生成和制作方式是怎样的？

A：主要使用 division模型架构来做，通过AI换脸、换头、推动人物去说话等方式来生成视频，包括海外市场的一些视频，海外市场里面去做。

Q：AI视频的测试和试款测款的周期如何？

A：很低，成本也很低，可以很快的速度去生产一大批出海短剧，以此来帮助进行测款，测出哪些视频它是更容易在海外市场去火爆的。

Q：请问对多胞胎数据的质疑是什么？

A：多胞胎数据这一块的问题，其实过往的AI生成视频和文本的能力都比较弱。但是现在基于文本模型的理解以后，对于文本的分子和每个词所取代的特征有了一个非常清晰的对应关系，导致AI生成视频有了一个非常大的助力。

Q：基于文本模型的理解和图像识别的精准性如何？

A：有了一个非常大的一个助力，对于基于文本模型的理解以后，对于文本的分子，以及说对于每个词，每个文本它所取代的一些特征，有了一个非常清晰的一个对应关系以后，对于这个AI生成视频其实有了一个非常大的一个助力。

Q：谷歌在多模态模型方面的进展是怎样的？

A：谷歌是在多模态模型方面的领域发展比较靠前的公司，他们把大量的多模态数据放在一起来训练多模态大模型，这使得他们的模型可以更好地识别文本和图像，包括视频空间。

Q：多模态模型需要解决的难点是什么？

A：难点是如何把文本空间与图像空间进行很好的映射，包括如何实现高质量的文本图像数据的收集和训练。

Q：谷歌的多模态大模型与其他模型相比有什么特点？

A：能够处理多种模态的数据，比如文本、语音和图像，并且通过训练多模态大模型可以提高对不同模态数据的理解和智能程度。

Q：多模态大模型的训练和推理过程中有哪些差异？多模态的训练和推理存在哪些挑战？多模态的训练和推理有哪些方法？

A：存在差异，训练和推理的成本可能都会比较高，因为模型本身是基于多种模态的，数据来源也很广泛，因此需要进行精确的模型匹配。有两个分支，一种认为语言模型和多模态模型之间很难去互相映射，很难去互相找到比较好的耦合或者映射。另一种认为语言模型、文本空间、图像空间可以互相映射，并通过训练强行的让模型学会他们不同模态之间的一个对应关系。有两种方法，一种是将多模态的数据分别训练不同的模型，再将它们组合在一起，通过文本接口将不同模态串联起来；另一种是将多模态数据映射到同一个高维空间上，让模型学习不同模态数据的相似性。

Q：GBD4D的训练和参数量与GBD4模型差异在哪里？

A：参数量基于GBD4模型进行了更多的反馈，训练的参数量是基于GBD4模型训练的，只不过在GP4的基础上进行了更多的反馈。

Q：GBD4模型和多模态大模型在训练、参数量、训练难度、资源投入等方面有何不同？

A：GBD4模型本质上是一个纯文本的模型，在这个基础上进行了更多的反馈。多模态大模型需要处理的模态信息量更大，需要一个更大参数量的模型去进行训练和收敛，训练的参数量要比纯文本的模型大。多模态大模型在训练、参数量、训练难度、资源投入等方面都比GBD4模型大一个数量级。

Q：创业公司在多模态大模型领域的定位是什么？

A：视频生成领域，例如RAN runway的多模态大模型局限在这个领域，而GPT4模型更多是用于文本语言理解。视频领域的连贯性和上下文的流畅度需要自研的技术，这是非常重要的能力。皮卡的多模态大模型主要针对视频创作场景下的一些垂直领域细分的需求，而未来的AGI将会有更加通识能力更强的对于整个世界观世界的构建的模型。

Q：AGI公司的定位是什么？AGI公司和皮卡的定位有什么不同？

A：是在一些非常细分的领域，如视频剪辑领域，在短剧行业，在内容生产行业等，提供更好用、更符合细分人群使用习惯的工具或解决细分人群最深的痛点的工具。在于皮卡是一个做更高质量影视作品，并用AI来做出更多酷炫特效的公司，而AGI公司是推动技术进步，推动整个世界观的构建和认知进步。

Q：runway和皮卡在市场上的销量对比如何？

A：是皮卡销量更高，但由于皮卡的投入在于研发底层技术，没有产生好的行效果，因此市场信任度和信任度不足。

Q：AGI公司和openAI等公司的主要区别是什么？

A：解决的是AGI的世界观问题，投入大量的底层研发力量，但没有做出好的效果。而openAI和google解决的是技术本质的问题，更侧重推动更前沿的技术。

Q：AGI技术从商业化来看，可能早期对哪些行业产生较强的正向变化？

A：商业化最先会影响到短视频行业，比如提供特效等功能，但技术本身不能解决所有问题，更多是由产品和运营共同去做出更好的产品。

Q：短剧和小游戏的内容场景会有什么改变？

A：一些内容场景，比如游戏中的NPC和更开放式的玩法会被改变。

Q：短剧和小游戏对影视级大片的影响会有多大？

A：可能只占影视级大片制作的10%左右，但真正的影视大片和广告大片的制作仍然是传统的制作流程。

Q：多模态能力对营销行业有什么影响？

A：可以极大降低营销的成本，特别是非个人定制化或非细分人群定制化的内容。但对于广告大片这种非个人定制化或非细分人群定制化的内容，影响可能只有10%到20%。

Q：国内和海外产品在技术和代际方面的差距是什么？国内产品和海外产品在产品体验和技术应用方面的差距是什么？

A：底层技术差距、用的模型差距和代际差距是国内和海外产品在技术方面的主要差距。产品体验在细节部分的优化能力较好，但在本质的基于AI模型的产品体验方面有差距。

Q：国内产品和海外产品在大模型的应用和安全方面的差距是什么？

A：在大模型的应用方面存在监管的局限性，在安全方面考虑更多，因此用的技术可能不那么新。

Q：多模态发展对算力需求的描述是什么？长期来看，算力需求能否跟上？

A：需要的算力越来越高，短时间内对算力的需求可能会比现在的算力增长要大很多，但随着时间推移，算力的需求会随着AI算力的优化而降低。长期来看，随着算力优化，算力需求还是能跟上的。但短期内，可能会存在一个比较大的算力紧缺。

Q：多模态大模型的生成需要记忆哪些信息？

A：不同时刻生成的视频信息来保证长视频的连续性和流畅性，需要记录的信息量被压缩，对于流畅性生成比较有用的信息会被保存在显存里。

Q：算力需求是否随着市民时长线性增长？

A：算力需求不是随着市民时长线性增长的，而是一个反指数的增长，算力需求会随着技术的进步而降低。

Q：多模态大模型的架构是否有适配AI算力的优化？

A：目前很多AI芯片公司在算力优化方面还没有针对多模态大模型进行专门的研究，因此存在算力紧缺的情况。

Q：AI芯片公司未来生产力是否过剩？AI芯片公司算力供给是否会过剩？

A：AI芯片公司的生产力未来可能会存在一定程度的过剩，但从长期来看，生产力可能会有大规模的补给，不一定会有短缺的情况出现。虽然目前可能存在短缺的现象，但从长期来看，很多公司会集中研究力量去研究这种AI芯片的适配，因此短期内算力供给可能会存在短缺的现象，但长期来看算力供给可能会跟上。

Q：技术上的不同是工程层面多一些，还是单纯的训练算力能力的积累或是其他的？

A：谷歌和open AI的技术上的不同主要集中在训练AI大模型的底层能力上，包括多模态大模型。而皮卡和runway的模型与传统的动模态大模型的差异主要在工程能力方面。不同模态的模型之间的差异在于底层架构和算力上的优化，而模型训练的数据准备也会有差异。

Q：视频版的SD叉L模型有什么区别于传统的SDF叉L模型？

A：区别于传统的SDF叉L模型，主要在于加入了更多关于视频连续的约束和损失函数的模型学习目标和奖惩机制，让模型更多地学会把不同视频帧的画面的生成约束到同样一个连续的时序上面，以达到更好的视频风格和局部内容的修改。

Q：多模态模型的精度要求是否不太高？

A：不算太高，但从产品层面上的主观感受上差异不大。各个大的厂商给最终用户的直观感受上的差异确实不是那么大。但在一些专业的B端用户场景下，不同厂商之间的差距就会比较明显。

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行