电信行业大模型产业洞察:当前趋势、市场驱动因素与壁垒

译者案：IEEE通信学会（ComSoc）发布的《电信领域大规模AI应用——创新、规模化落地与数字体验升级路线图》（LARGE-SCALE AI IN TELECOM——Charting the Roadmap for Innovation, Scalability, and Enhanced Digital Experiences）白皮书，为行业指明了一条融合生成式AI与电信大模型（LTMs）的革命性路径。

本文摘选翻译白皮书第十二章内容，翻译不准确之处，敬请谅解。

关注公号，回复“260415”可下载白皮书原文

12 产业洞察：当前趋势、市场驱动因素与壁垒

在本章中，我们将介绍大语言模型在电信行业的初步应用情况。大语言模型已在医疗、教育、工程等多个领域实现了多样化应用，包括代码生成等任务[476]。在电信领域，大语言模型最初主要应用于文本与代码生成场景。而目前，电信行业正积极探索大语言模型在不同场景中的应用价值，以实现网络优化与性能提升。

此外，电信企业也在研究大语言模型带来的潜在营收增长点，例如通过搭载友好用户界面的聊天机器人应用实现服务销售。用户也正在自身设备中使用大语言模型，这带来了更高的数据使用需求，需要在5G演进型网络与6G网络的设计中予以考虑。运营商也在积极解决大语言模型落地过程中面临的壁垒与短板。在后续章节中，我们将深入分析当前行业趋势、市场驱动因素与发展壁垒。

12.1 大语言模型在电信领域的应用：当前趋势

自OpenAI的GPT-1、谷歌的Bert等首批大语言模型面世以来，电信领域涌现出大量关于大语言模型应用的研究。首批应用场景聚焦于文本类数据的大语言模型落地，例如开发能够理解客户电信服务订购意图与需求的聊天机器人。在这类场景中，研究人员通过微调技术，让大语言模型理解自然语言描述的客户需求[382,477]。下文将介绍多个展现大语言模型在电信领域首批应用的趋势与场景。

12.1.1 多模态大语言模型

多模态模型（通常简称MLLM、XLM等），是指在训练过程中融合了两个及以上领域专属训练数据集的模型，最终可形成一个融合所有模态表征的统一隐空间。需要明确区分两类多模态模型：一类是通常用于文本到媒体生成任务的多模态模型，另一类是融合文本与其他模态领域、专为跨领域交互任务设计的模型。

模型的底层架构差异极大，具体取决于任务类型（例如媒体生成、跨领域交互、跨模态推理等）。Stability AI公司的Stable Diffusion与Stable Audio系列模型，正如其名称所示，是基于扩散架构的媒体（图像与音频）生成模型，这类任务中，模型通过将含噪数据逐步优化为连贯的图像与音频内容，实现媒体生成。

OpenAI的CLIP与微软的LLaVA模型专为图像-文本交互设计，采用双编码器架构。通过独立的编码器（文本端采用基于Transformer的架构，图像端采用视觉Transformer（ViT）或卷积神经网络（CNN）），将不同模态映射到共享隐空间，而不直接生成新内容，主要面向媒体分类、跨模态推理等跨领域任务。

在跨模态推理效果层面，还可根据模态融合采用的早融合或晚融合策略，对模型架构进行进一步分类。Meta的Flamingo模型采用早融合策略，在输入阶段就融合不同模态的数据，模型在全网络层中对数据进行联合处理。而CLIP采用晚融合策略，不同模态通过独立的分支进行单独处理（例如语言采用文本编码器，视觉数据采用图像编码器），仅在独立处理完成后，才对二者的隐表征进行最终融合。

早融合的计算成本更高，但能够实现更紧密的表征融合，可更好地编码更复杂的模态关联关系。晚融合则更适用于模态可独立处理的检索与映射类任务。

当然，这些支撑面向人类消费的媒体任务模型的架构，同样适用于任何模态数据。例如在电信领域，面向基带运行任务的多模态模型，可将信号特征、频谱、网络配置数据融合到共享隐空间中，用于后续的预测与动态配置操作。

12.1.2 面向网络保障的大语言模型

大语言模型在网络保障的演进发展中可发挥核心作用，包括异常检测、预测，以及纠正与预防措施的制定与执行[478]。凭借海量数据处理与模式识别能力，大语言模型可识别网络流量中的异常行为，预测潜在故障，并实时提出纠正措施。二者的融合不仅提升了网络可靠性，还优化了资源分配，保障了6G超互联世界中的无缝用户体验。

多项研究已证实了大语言模型在多类异常检测中的应用潜力：

逻辑异常：指数据的逻辑流程或结构中出现的错误，即数据点之间的序列或关联关系不符合既定规则[479]。例如，大语言模型可在网络日志中识别出事件序列不符合预期逻辑顺序的逻辑异常，例如用户在登录前先执行登出操作。这类异常通常意味着网络存在配置错误或需要修复的潜在安全漏洞。

语义异常：指数据的含义或上下文出现不一致，即内容与预期语义不符，但系统单个组件本身不存在任何问题[480]。研究表明，基于大语言模型的监控系统，能够以符合人类推理逻辑的方式，有效识别语义异常。在网络数据场景中，若一条路由在语法上看似有效，但违背了预期的路由策略或模式，大语言模型可检测出该路由中的语义异常[481]。

视觉异常：指通过对数据可视化结果的视觉检查可识别的异常情况。大语言模型已在这类异常检测中展现出优异性能[482]。在网络数据场景中，这类异常相对少见，但在网络监控仪表盘与可视化场景中具备重要应用价值。例如，大语言模型可在网络流量热力图中，检测出特定区域流量出现意外突增或骤降的视觉异常[483]。另一个典型场景是识别网络拓扑图中的异常模式，例如网络连接结构的突然变化，这可能预示着网络攻击或故障。视觉异常可帮助运维人员快速识别与诊断原始数据分析中难以即时发现的问题。

大语言模型在分析网络日志、系统事件与上下文数据方面具备显著优势。其自然语言处理能力，使其能够识别传统系统可能遗漏的异常。通过解读复杂的数据模式，大语言模型可检测出预示潜在入侵、未来异常与服务等级协议（SLA）违约的异常行为，从而全面提升6G网络的安全与可靠性水平。

大语言模型还能为AI模型的决策过程提供有价值的洞察，以易于理解的形式呈现安全告警，帮助分析人员做出明智决策。这种可解释性对于异常识别、自动化系统的纠正流程落地至关重要。

大语言模型在网络异常检测领域拥有广泛的应用场景，以下是部分典型应用案例[484]：

个性化助理：基于大语言模型的智能助理可提供上下文感知的交互能力，预判用户需求并主动响应。这种个性化能力在提升用户体验的同时，可同步监控用户行为中的异常。

系统日志异常检测：大语言模型可分析系统日志，检测预示安全入侵或运营故障的异常。其海量数据快速处理能力，使其非常适用于实时监控场景。

自愈系统：将GPT-4等生成式AI融入自愈系统，可实现代码的自动化生成与修复，减少人工干预需求，优化系统功能与运行效率。

事件序列预测：大语言模型擅长预测事件序列，能够捕捉复杂的行为模式与依赖关系。其对上下文细节的理解能力，提升了预测精度，在用户行为分析、交易序列分析中具备极高的应用价值。

实时异常检测：边缘侧部署的大语言模型，可通过实时识别与缓解异常，支撑预测性维护落地。通过智能化决策，这类模型可提升工业运营的可靠性与效率，保障6G环境下的系统无缝运行。

尽管大语言模型在异常检测中具备显著优势，但仍有多个局限性与挑战亟待解决。

12.1.3 大动作模型（LAMs）

大动作模型（LAMs）是模型推理与代码执行链融合的进一步演进产物。在这一范畴内，AI模型的演进体系包括：

纯文本生成模型
可触发预定义
API调用的函数调用模型
可与外部系统和工具进行更广泛交互的工具调用模型
可在多平台上编排多步骤、目标导向工作流的大动作模型。其与智能体系统并非完全等同，但具备相似的特征。
可直接输出二进制文件的大动作模型，能够生成可执行的内存程序状态并即时运行。该技术目前仍处于远期发展阶段。

纯文本生成大语言模型，与函数/工具调用模型，均基于通用的“大规模文本”语料完成预训练。但与文本生成大语言模型的指令跟随与对话微调不同，函数与工具调用模型的微调数据集，包含API使用、代码执行与结构化数据（例如OpenAPI JSON API 定义），以实现外部函数调用的任务能力。模型可识别自然语言输入中的特定函数调用特征，并将其映射到预定义的单步API交互中。

工具调用模型可视为函数调用模型的延伸，其微调数据集覆盖的交互场景更丰富、异构性更强，例如与办公套件、多种工具程序的交互（例如Ubuntu系统自带的标准工具集）。工具调用模型的扩展训练过程，通常需要在包含复杂工具使用与错误恢复场景的仿真环境中完成。

大动作模型拓展了函数/工具调用模型的理念，支持融合多系统、多工具的自主化、多步骤流程交互。函数/工具调用模型仅能响应用户请求调用单个函数或工具，而大动作模型可动态管理复杂工作流对应的交互模式。

动作模型可生成用于触发其他系统内操作的“指令”序列。例如，大动作模型可确定满足自然语言请求所需的操作，然后生成对应的API调用来执行预先确定的动作。这类调用基于文本形式（尽管在大多数场景中，其包含适配目标系统的数据结构，而非自由文本），未来有望实现直接向外部应用输出二进制文件，甚至直接生成应用的内存运行状态。

大动作模型通常与智能体系统一同被提及，因为大动作模型代表了多任务、目标导向型智能体推理解决方案中，实际的任务执行环节。Salesforce的xLAM模型系列，是智能体框架的模型/部署特征的早期典型代表。

12.1.4 AI原生

AI原生的概念可定义如下：“AI原生，是指系统具备内生的可信AI能力，在设计、部署、运营与维护全生命周期中，AI是系统功能的天然组成部分。AI原生的落地实施，依托数据驱动与知识驱动的生态体系，通过数据/知识的消费与生产，实现全新的AI功能，或在需要时，通过可学习、自适应的AI，替代静态、基于规则的机制。”[485]——《AI原生定义：先进智能电信网络的核心使能技术》[485]

AI原生的前提，是底层模型或系统可支撑对外暴露的功能落地，例如用于异常检测的变分自编码器（VAE）模型，以及用于生成与控制操作的（多隐空间）自回归模型。

AI原生通常从两个维度进行考量：架构与部署模式。AI原生架构，指通过广泛分布式的AI模块，以灵活的方式部署AI功能，每个模块均具备独立完整的能力；AI后端对外暴露API，可根据功能或地域进行不同程度的集中化部署，通过多种适配特定技术栈的架构组合，实现对应功能。

分布式大语言模型运营（LLMOps）是AI原生的核心组成部分。AI功能的泛在部署，必须配套对应的训练与全生命周期管理能力，无论AI子系统的功能与运营位置如何。这对底层数据基础设施的数据与硬件可用性提出了相应要求。

理想情况下，物理层面的AI原生部署，可通过数据的副本化或分布式共享，结合GPU集群的最优选址，实现帕累托最优的成本边界，完成训练过程的优化（当然，随着模型效率/体量与GPU技术的持续进步，这一情况也将不断变化）。由此产生的资本支出（CAPEX）与运营支出（OPEX）影响，使得总体拥有成本（TCO）的预测窗口相对有限（具体取决于通信服务提供商的基础设施更新策略）。

部署模式主要包括三类：对传统“硬编码”组件的替代与/或增强；引入全新的基于AI的组件；引入基于AI的“垫片”控制组件，作为一个或多个传统组件的交互接口。最后一种方式，是AI功能的合理化落地路径，可为已成熟的功能体系提供自动化与能力增强，同时仅涉及有限的AI应用范围，资本支出与运营支出影响更低，但仍需考虑前文所述的大语言模型运营相关要求。

12.1.5 面向意图驱动网络自动化的大语言模型

电信管理论坛（TMForum）提出的网络自动化目标，是通过减少人工干预与运营成本，提升服务提供商的运营效率。其旨在提升网络敏捷性，实现业务的快速部署与市场变化的快速响应。此外，网络自动化还通过最大限度减少人为错误，提升网络可靠性，通过自动化流程优化服务质量。该倡议还通过推动新业务与新技术（例如物联网）的落地，助力行业创新。最终目标是实现网络的自管理，让网络具备自配置、自愈、自优化能力，从而构建更灵活、响应更迅速、更高效的电信生态体系。

此外，纯人工的业务订购、部署与适配流程，已无法满足商业需求。尤其是业务交付与保障周期，需要通过进一步的自动化实现自适配。机器学习技术的落地，将帮助系统实现自适应能力的自动化，从而保障面向垂直行业的服务交付。

然而，5G/6G网络管理系统，只有充分掌握企业的需求，才能实现适配与优化，满足业务发展需要。这包括了解企业的预期，包括严格的性能要求，以及偏好与优先级，而这些内容会随着客户需求的变化动态演进。

因此，意图驱动方法的核心目标，是将需求预期以标准化的方式定义并传递给系统，使自动化流程能够对其进行推理分析，推导出合理的决策与动作。

最初，意图驱动网络（IBN）本质上是网络管理解决方案中，为提升人机工程学效率、节省时间而推出的商业化选项。早期落地的方案，主要聚焦于通过软件定义网络（SDN）控制器实现连接控制自动化的意图，以及Open Stack开源的基于组的策略（GBP）解决方案等基础设施配置意图。在互联网工程任务组（IETF）等标准组织中，意图驱动网络被等同于配置管理自动化，例如ANIMA工作组的相关研究[486]。

行业早期解决方案包括思科数字网络架构、诺基亚Altiplano、Apstra操作系统、华为网络模型等，均聚焦于连接配置与意图追踪。

图65 基于意图的管理框架TMForum

意图驱动管理是网络自动化的核心组成部分，其核心聚焦于定义预期结果（即意图），而非明确实现结果的具体步骤。该方法使网络能够基于高层级的业务目标，自动完成配置、管理与优化。通过将业务意图转化为网络策略，意图驱动管理提升了网络敏捷性，降低了管理复杂度，优化了网络整体性能，成为现代网络自动化战略的核心组成部分。

从宏观视角来看，行业选择通过多层级决策引擎，实现业务意图的端到端处理，架构分为三层，涵盖从订单意图到底层意图层级，再到服务/切片部署动作（交付落地）的全流程，如图65所示。为实现意图交付，体系中定义了两类意图解析器，下文将进一步说明：

业务意图解析器：从客户需求到产品转化：业务意图解析器可将简单服务咨询类的业务请求，转化为对应产品（或产品组合）。

服务意图解析器：从客户面服务（CFS）到资源面服务（RFS）转化：产品可在产品目录中定义，并通过配置满足客户需求。当客户确认订单后，系统将识别产品对应的客户面服务（产品本质是客户面服务的能力限定）。服务意图解析器（在项目后续文档中通常简称为“服务解析器”），将识别适配当前场景的技术解决方案。该技术解决方案（即电信管理论坛定义的资源面服务RFS），是客户面服务核心能力的交付载体。

大语言模型在意图翻译中的应用，核心是利用其自然语言处理能力，解读高层级的业务意图（例如“我需要为360度视频业务提供5G连接”、“我需要5G网络覆盖，用于追踪我公司在巴黎的共享单车”），并将其转化为可执行的网络配置。

大语言模型的意图翻译应用，通过将高层级业务意图转化为网络配置与执行动作，成为现代网络管理的核心支撑。大语言模型使客户能够通过简单的人类自然语言表达需求，系统可对其进行精准解析与解读。在理解意图后，大语言模型可生成所需的配置策略或脚本。

此外，这类模型可结合实时网络数据，确保生成的配置与当前网络状态相匹配；通过检测配置中潜在的问题或冲突，提升网络运行可靠性；还可基于用户反馈与调整持续学习，不断提升解析精度。大语言模型与意图翻译流程的融合，显著提升了网络自动化运营的敏捷性与效率。

12.1.6 面向友好用户界面的大语言模型

友好的用户界面，是提升用户体验与用户粘性的核心关键。其能够简化交互流程，让用户更便捷地完成操作、实现目标。移动网络运营商高度重视聊天机器人等友好用户界面的应用，以减少客户等待时间，实现服务订购流程的自动化。

聊天机器人在电信领域的应用，能够帮助运营商提升客户体验、降低服务成本、收集用户反馈，为后续的服务优化与产品升级提供洞察。对于客户而言，聊天机器人的重要性日益凸显，其可提供7×24小时即时服务，优化客户服务体验，提升用户满意度。

聊天机器人可处理各类咨询需求，从常见问题解答到交易办理，有效缩短用户等待时间，让人工坐席能够聚焦更复杂的问题。此外，聊天机器人可收集关于客户偏好与行为的高价值数据，帮助企业针对性优化服务与营销策略。这不仅提升了运营效率，还巩固了客户关系，最终推动用户忠诚度与营收的增长。

收集客户需求预期，是端到端垂直行业网络自动化的第一步。如何以合适的抽象层级精准呈现这些需求、屏蔽网络底层复杂度，同时通过友好的用户界面将需求传递给管理系统，是实现5G/6G网络自动化、低成本落地需要解决的核心挑战。

在大语言模型出现之前，聊天机器人主要依赖基于规则的系统与简单的机器学习技术。例如，首个聊天机器人是麻省理工学院的约瑟夫・魏岑鲍姆在20世纪60年代中期开发的ELIZA[488]。ELIZA通过模式匹配与替换技术，模拟心理治疗师的对话，实现与用户的交互。它能够识别关键词与短语，营造出理解用户对话的假象。

这类早期聊天机器人所依托的基于规则的系统，基于预定义的脚本与规则运行，特定的关键词或短语会触发预设的响应。尽管该方法在处理简单咨询时具备一定效果，但在面对复杂或模糊的语言时往往表现不佳，导致用户参与度与满意度受限。

部分聊天机器人融入了决策树、简单分类器等基础机器学习技术，以提升响应精度。但这类模型缺乏大语言模型所具备的深度上下文理解能力。总体而言，早期方法难以应对人类语言的复杂性与多变性，效果远不及现代大语言模型的强大能力。

如今，大语言模型的发展开启了聊天机器人的全新时代，运营商重新开始重视聊天机器人的应用，以提升客户满意度、降低服务成本。大语言模型彻底改变了聊天机器人的发展格局，大幅提升了其理解与生成类人响应的能力。

通过对上下文与语言细节的理解能力升级，大语言模型让聊天机器人能够开展更自然、连贯的对话。其依托海量训练数据集，能够在广泛的话题中为用户提供相关信息。此外，大语言模型可针对特定行业进行微调，在垂直应用场景中实现更优的效果。

其在多轮对话中保持上下文连贯的能力，支撑了复杂多轮对话的实现，带来了更具沉浸感的用户体验。总体而言，大语言模型将聊天机器人从基础的问答系统，升级为了复杂的对话智能体，大幅提升了其应用价值与效果。

目前，行业内已有多个知名且高效的聊天机器人产品，例如OpenAI的ChatGPT、谷歌的Gemini。而在电信领域，也已涌现出多款专用聊天机器人，例如下文12.1.7节将介绍的TelecomGPT与standardGPT。此外，例如文献[382]的作者提出，可利用搭载大语言模型的聊天机器人，实现客户5G服务订购的自动化，该应用场景在第8章中已进行详细说明。

12.1.7 StandardGPT与TelecomGPT

绝大多数大语言模型，均基于包含书籍、文章、网站、其他文本资源的多样化海量数据集完成训练，使其能够掌握广泛的主题知识。同时，这类模型均采用Transformer架构，能够捕捉文本中的复杂模式与关联关系，这得益于其注意力机制——模型可对句子中不同词语的相对重要性进行加权，无论词语在句子中的位置如何，都能理解其上下文与关联关系[3]。

目前，行业已推出多个版本的GPT模型，或针对特定场景进行适配优化，以提升垂直应用的效果。其中一个典型案例是Codex，这是GPT-3的一个变体，专为编程任务微调，能够理解并生成多种编程语言的代码，在软件开发与代码辅助场景中具备极高的应用价值。

在本节中，我们将介绍ChatGPT微调的两个典型案例：StandardGPT与TelecomGPT。

运营商提出的首批应用场景之一，就是对ChatGPT等大语言模型进行定制化优化，融入电信领域知识与标准规范。文献[489]的作者提出，对Llama2-7B、Mistral-7B、Llama3-8B模型进行微调，使其融入电信领域知识，同时掌握电信行业的数学计算能力。论文中给出的一个提示词示例，是要求模型编写Python函数，将字符串格式的IPv6地址转换为整数，或开发C语言函数，根据接收的802.11帧的解密结果，更新解密状态标志位。

OpenAI还推出了一款定制化的ChatGPT产品StandardGPT，可通过对应链接访问[490]。与其他定制版ChatGPT一样，StandardGPT由ChatGPT原模型开发方OpenAI打造。OpenAI开发通用AI模型，同时提供相关工具，让用户或企业能够针对特定场景对模型进行定制化优化。在StandardGPT的开发中，研发人员通过定制化指令，让模型适配标准、合规、技术咨询相关的任务。

StandardGPT可覆盖各行业、各领域的广泛标准体系，包括：

国际标准：例如国际标准化组织（ISO）、国际电工委员会（IEC）的相关标准，涵盖质量管理（ISO9001）、环境管理（ISO14001）、功能安全（IEC61508）等领域；

安全与监管标准：例如产品安全法规（IEC60335、ISO12100）、职业健康安全标准（ISO45001）；

行业专属标准：例如汽车行业质量管理标准IATF16949、航空航天行业标准 AS9100、食品安全标准ISO22000；

环境与可持续发展管理标准：例如ISO14001、LEED认证等。

此外，StandardGPT还覆盖了电信领域相关标准，涵盖网络技术、无线通信、电信基础设施等广泛领域，包括：

国际电信联盟（ITU）的ITU标准：制定了宽带、无线通信、互联网协议的全球通用规范；

电气和电子工程师协会（IEEE）标准：例如以太网、Wi-Fi相关的IEEE802系列标准；

第三代合作伙伴计划（3GPP）标准：4GLTE、5G等移动网络相关标准，是现代移动通信的核心基础；

欧洲电信标准化协会（ETSI）标准：面向移动与宽带网络的相关规范；

互联网工程任务组（IETF）标准：TCP/IP等互联网协议相关标准。

不仅如此，StandardGPT还可覆盖5G与下一代网络标准、网络安全标准（例如ISO/IEC27033），以及美国联邦通信委员会（FCC）等国家监管框架的合规要求。广泛的覆盖范围，使StandardGPT成为电信行业处理技术与监管相关问题的高效工具。

OpenAI还推出了一款更具电信行业针对性的模型：TelecomGPT[491]。TelecomGPT不仅融入了电信领域知识，还可完成VoIP技术支持、SIP日志分析、IP语音（VoIP）业务故障排查、SMPP日志分析、短信投递故障排查、短消息点对点（SMPP）协议相关问题处理等任务。

TelecomGPT还可通过电信交换市场（TelecomsXChange Market）获取语音与短信批发价格数据，执行归属位置寄存器（HLR）查询，实时提供电话号码的状态、漫游、携号转网等相关信息。

12.2 端侧生成式AI

在云端与端侧处理能力双重技术突破的推动下，大规模生成式AI模型正高速演进。融合云端与边缘计算的混合AI架构，正成为行业主流趋势，该方案可提升系统性能、降低传输时延、强化数据隐私保护。

生成式AI的应用场景正不断拓展至内容创作、数字助理、自主系统等多个领域。随着模型的不断升级，其理解与生成类人文本、图像及其他形式媒体的能力持续增强，个性化、上下文感知的AI解决方案也成为行业发展的重要趋势。

目前，用户手中已有数十亿台具备AI能力的手机、电脑及其他设备，这为端侧AI处理能力在生成式AI中的应用，奠定了坚实的基础，且未来几年将持续稳步增长。当前行业的核心问题是，哪些生成式AI模型能够在端侧设备上运行，同时保持合理的性能与精度。

利好的是，高性能生成式AI模型的体量正不断缩小，而端侧处理能力持续提升。图66展示了可在端侧设备上运行的广泛生成式AI能力，所适配的模型参数量从10亿到100亿不等。参数量超10亿的StableDiffusion等模型，已可在手机上运行，性能与精度水平与云端版本相当。此外，未来几年，预计将有更多参数量100亿及以上的生成式AI模型实现端侧落地。

图66 来源高通

12.2.1 跨设备品类的生成式AI应用场景

基于基础模型的生成式AI的兴起，正在智能手机、笔记本电脑与PC、汽车、扩展现实（XR）、物联网等跨设备品类中，催生内容生成、搜索、生产力提升等领域的全新应用浪潮。混合AI架构，将使生成式AI在这些品类中，为用户带来全新的、升级的使用体验。

图67 跨设备类别中具有影响力的生成式人工智能应用场景

智能手机领域：生成式AI可升级搜索能力与数字助理，让人机交互更直观、更高效。目前全球每天有超100亿次搜索请求，其中移动设备占比超60%，生成式AI的落地，将大幅提升所需的算力规模，尤其是智能手机端的搜索请求。用户已开始转向基于生成式AI的搜索模式，因为其能为大量查询提供更优质的答案。
聊天作为搜索界面的普及，也将进一步提升整体搜索请求量。随着聊天技术的不断升级，智能手机将进化为真正的数字助理。依托精准的端侧用户画像，与能够理解文本、语音、图像、视频等多模态输入的大语言模型，用户可通过自然对话获取精准、相关的答案。因此，未来自然语言处理、图像理解、视频理解、文本生成等相关模型的市场需求将大幅提升。

笔记本电脑与PC领域：生成式AI可升级生产力工具，实现更复杂的内容创作与管理。通过简单的提示词，生成式AI可快速生成高质量内容，彻底变革生产力模式。一个典型案例是笔记本电脑与PC端的微软Office 365。全球微软Office 365用户超4亿，生成式AI融入日常工作流，将带来巨大的行业影响。曾经需要数小时甚至数天完成的任务，如今仅需几分钟即可完成。
微软365Copilot依托大语言模型的强大能力，结合微软图谱与Microsoft365应用中的用户数据，将用户提示词转化为强大的生产力工具。办公人员可通过后台运行的大语言模型，在Outlook中阅读与撰写邮件、在Word中起草文档、在PowerPoint中制作演示文稿、在Excel中分析数据、在Teams会议中完成协作。
自然语言处理、文本生成、图像生成、视频生成、编程等生成式AI模型，在这些高频生产力任务中，需要强大的处理能力支撑。而在以设备为核心的混合AI架构中，大部分处理过程可在PC端本地完成。

汽车领域：生成式AI可为先进数字助理提供算力支撑，赋能自动驾驶功能，提升行车安全与用户体验。如今的AI驾驶舱，依托车内外的各类数据，可为用户提供高度个性化的体验。与智能手机、PC类似，车载数字助理通过免提、自然的用户界面，让驾驶员与乘客保持全场景无缝连接，同时也为行业生态创造了全新的商业化机会。
这类数字助理可访问用户的个人数据（应用、服务、支付信息等），以及车辆的摄像头、雷达、激光雷达、蜂窝车联网（C-V2X）等传感器数据。企业级API可支撑第三方服务提供商的服务接入，将其客户服务延伸至车载场景。例如，可通过主动式辅助大幅升级导航体验，提供影响用户常规路线的交通与天气更新、车辆充电与停车购票建议，甚至仅需简单指令即可完成用户常餐的订购。
车辆可识别每一位乘客，为其定制个性化的媒体体验与内容（音乐、播客等），彻底变革驾驶舱的媒体体验。随着车载增强现实（AR）技术的兴起，数字助理可根据驾驶员与乘客的偏好，定制化调整显示内容。
通过分析传感器输入、维护历史、驾驶行为等数据，数字助理可预测车辆的维护需求，让车辆维保变得更主动、更便捷。借助生成式AI，助理可提供维修相关信息，或推荐合适的服务提供商，提升车辆可靠性的同时，降低时间与经济成本。
高级驾驶辅助系统与自动驾驶（ADAS/AD）方案，在面对异常或陌生物体时，尤其是在光照不足、恶劣天气条件下，往往会出现性能问题，导致不可预测、甚至危险的后果。为解决这一问题，需要采集、标注极端场景数据，并用于模型重训练。生成式AI可创建仿真的极端场景，预测车辆、行人、骑行者、摩托车手等各类道路参与者的行为，帮助规划人员制定车辆的行驶策略。
由于严格的时延要求，云端无法参与这类AI工作负载的决策过程，行驶策略栈与感知栈均需在车辆的AI算力单元中本地运行。随着ADAS/AD方案开始搭载经过合适后处理的生成式AI模型，车辆将需要具备高能效的AI算力支撑。

扩展现实（XR）领域：生成式AI可通过沉浸式3D内容创作，为XR行业带来变革。生成式AI在XR领域拥有巨大的发展潜力，有望实现 3D 内容创作的平民化，让虚拟数字人具备鲜活的交互能力。下一代 AI 渲染工具，将让内容创作者能够通过文本、语音、图像、视频等各类提示词，生成3D物体、场景、甚至完整的虚拟世界。此外，文本到文本的大语言模型，可让虚拟数字人实现全语音、全情感的类人对话。这些技术突破，将彻底变革我们在XR设备上创作与体验沉浸式内容的方式。
尽管生成式AI为XR行业带来的前景令人振奋，但很难预测其大规模普及的时间。不过，随着技术创新的高速推进，未来几年预计将实现重大突破。
对于沉浸式虚拟世界，StableDiffusion等文本到图像模型，很快将能让内容创作者为3D物体生成写实的纹理材质。预计一年内，这类能力将在智能手机上实现，进而延伸至XR设备。XR场景的落地，需要采用“分布式处理”模式：头显设备负责感知与渲染栈，配对的智能手机或云端运行生成式AI模型。
未来两年内，首批文本到3D、图像到3D模型有望落地边缘侧，生成高质量的 3D物体点云。数年后，这类模型将实现进一步升级，可从零开始生成高质量的带纹理3D物体。约十年后，技术的进一步突破，将实现通过文本或图像生成完整3D房间与场景。最终，文本到3D、视频到3D模型，或将让我们能够踏入完全从零创建的3D虚拟世界，仅受限于用户的想象力。
虚拟数字人的发展将遵循类似的路径。130亿参数量的LLaMA等文本到文本模型，将可在边缘设备上运行，为虚拟数字人生成自然、流畅的对话内容。文本到图像模型，可为数字人生成全新的纹理材质与服装。未来几年，图像到3D与编解码模型，将可生成面向电信场景的头部与全身数字人。最终，用户可通过语音提示、图像、视频，创建写实、全动画、智能化、可规模化生产的虚拟数字人。

物联网（IoT）领域：通过更智能、响应更迅速的系统，提升运营效率与客户服务水平。AI已在零售、安防、能源公用事业、供应链、资产管理等多个物联网垂直行业得到广泛应用，通过近实时的数据分析优化决策，提升运营效率，推动创新，打造差异化竞争优势。而生成式AI，将为物联网领域带来进一步的能力升级。
例如在零售行业，生成式AI可同时提升客户与员工的体验。店内自助服务终端或智能购物车上的购物智能助理，可根据每周促销商品、预算限制、家庭偏好，生成带菜谱的菜单。门店经理可通过生成式AI，预判非周期销售机会，为即将到来的活动提前准备。例如，当有体育赛事将在当地举办时，门店经理可利用生成式AI识别热门品牌商品，相应调整库存。
生成式AI还可参考同区域其他门店的最佳实践与成功案例，设计全新的门店布局；帮助门店经理基于周边连锁门店的数据，重新规划货架陈列，为高盈利品牌扩大陈列空间，降低缺货商品的展示占比。
在能源公用事业领域，生成式AI可帮助运营团队创建极端场景下的用电负荷模型，预测异常环境下（例如夏季高温大风天气、农村区域局部火灾）的电力需求与潜在电网故障，帮助优化资源调配，避免停电事故。同时，生成式AI可通过解答停电、账单相关问题，优化客户服务体验。
融合端侧与云端处理的混合AI架构，是实现这些创新应用的核心基础，可带来更优的性能、隐私保护与个性化体验。

12.2.2 端侧生成式AI的优势

融合端侧与云端处理的混合AI架构，在成本、能效、性能、隐私、安全、个性化等多个维度，均具备显著优势。通过将部分处理任务转移至边缘设备，可降低云端基础设施的负载，减少成本，尤其是在生成式AI模型复杂度持续提升的背景下，这一优势更为突出。

边缘设备的能耗更低，即使在高需求场景下，也能保障稳定的性能与更低的时延。端侧AI通过数据本地处理，强化了隐私与安全保护，这对于消费级与企业级应用均至关重要。此外，混合AI架构可通过持续学习、适应用户行为与偏好，实现高度个性化的用户体验，成为个人与企业用户的强大工具[492,493]。

12.3 市场驱动因素与壁垒

大语言模型的兴起，催生了大量全新应用，既包括全新的应用场景，也包括对网络管理传统方法的替代。移动网络运营商正积极探索大语言模型应用带来的全新营收机会，例如端侧大语言模型的落地。

利用大语言模型实现营收增长的路径，包括通过微调后的大语言模型降低人力成本，以及通过面向客户服务订购与部署的友好型聊天机器人，优化客户交互体验。从本质上来说，自动化是大语言模型在网络中落地的核心价值。

大语言模型也已纳入6G网络的设计考量中。例如，文献[209]的作者提出了一种面向6G网络大语言模型智能体的拆分学习系统，重点强调了移动设备与边缘服务器之间的协同。在该系统中，多个具备不同功能定位的大语言模型，分布式部署在终端设备与边缘服务器中，协同完成用户-智能体交互任务。

大语言模型智能体被划分为感知、基础映射、对齐三大模块，模块间的通信可支撑6G相关功能的扩展用户需求处理，例如通感一体化、数字孪生、面向任务的通信等。此外，论文还提出了一种全新的大语言模型缓存算法，用于提升模型的上下文利用效率，从而降低移动终端与边缘侧大语言模型智能体协同带来的网络成本。

但大语言模型的应用仍面临诸多挑战与局限，第13章将对此进行详细说明。本章将先介绍部分核心局限：

泛化能力：大语言模型在异常检测场景落地的一大核心挑战，是其跨领域的泛化能力。在特定数据集上完成训练的模型，在全新场景中往往难以实现有效性能。领域自适应、多任务学习、元学习等策略，可增强模型的自适应能力。

幻觉与鲁棒性：大语言模型容易生成虚假或误导性信息（即“幻觉”），这会削弱其可靠性。落地严格的验证机制与对抗训练，可缓解这类风险，保障输出结果的准确性。

知识边界：大语言模型的知识边界，限制了其应对全新事件或趋势的能力。持续学习、迁移学习、外部知识库融合，可帮助拓展其知识边界，提升预测能力。

计算效率：大语言模型的算力需求，给实时应用带来了挑战。模型优化、硬件加速、云端解决方案等技术，可提升运行效率，让更多企业能够落地大语言模型。

可持续性：从大语言模型的可持续性来看，大量研究已对大语言模型训练与推理的能耗与二氧化碳排放进行了基准测试。大模型的训练能耗，与多个因素相关：

模型规模：模型体量越大，通常所需的计算资源越多；
训练时长：模型训练的周期长短，直接影响能耗水平；
数据中心能效：训练任务所在数据中心的能源利用效率，起到关键作用；
能源来源：碳排放水平，取决于所用能源是可再生能源还是化石燃料。需要注意的是，根据世界核协会的数据，燃煤发电的二氧化碳排放量约为820克/千瓦时，而核电仅为12克/千瓦时；
所用CPU/GPU类型：训练与推理所用的CPU或GPU选型，对能耗有显著影响。通常情况下，GPU的能耗高于CPU。因此在部分场景中，在CPU上训练基础BERT等小模型，可实现更低的能耗。

移动网络运营商无法控制预训练模型相关的能耗，这部分属于范围3排放，使其难以实现自身的可持续发展目标。但运营商可通过相关策略缓解这一问题，例如优化提示词、缩小大模型体量，或在简单任务场景中，参数量更少的小语言模型（SLMs）即可满足需求时，优先采用小语言模型。

总而言之，大语言模型与5G+/6G网络的融合，为异常检测、预测性维护、整体网络安全升级带来了变革性机遇。通过解决泛化能力、幻觉、计算效率等核心挑战，大语言模型可显著提升下一代通信系统的韧性与可靠性。随着行业的持续发展，持续的研究与创新，将是充分释放大语言模型潜力、筑牢未来连接安全的核心关键。

- END -

▎推荐阅读

数据要素相关政策宝典（合集第一版）

各省数据要素相关政策（2024年10月份）

各省数据要素相关政策（2024年11月份）

各省数据要素相关政策（2024年12月份）

美国《先进空中交通（AAM）国家战略2026-2036》概述

美国低空《先进空中交通综合计划》

突飞猛进，星链2025 年进展报告（上）

突飞猛进，星链2025 年进展报告（下）

各省“人工智能+交通运输”实施方案盘点

美国车联网（V2X）应用场景的效益与成本速览

美国农村智能交通系统（ITS）部署概览

美国《自动驾驶系统（ADS）及2级高级驾驶辅助系统（ADAS）事故报告要求》

美国《2026年自动驾驶安全法案》（SELF DRIVE Act of 2026）

▎好书推荐

本书由吴冬升、李大成担任主编，机械工业出版社出版。书中在分析智慧城市重点建设内容和智能网联汽车重点发展内容基础上，进一步探讨智慧城市与智能网联汽车融合发展带来的车联网智能道路基础设施、新型能源基础设施、地理位置网、现代信息通信网、车城网平台建设和发展情况。并且介绍智慧城市与智能网联汽车融合创新发展的相关案例。了解详情请点击：【新书推荐】《智慧城市与智能网联汽车，融合创新发展之路》

吴冬升博士

▼点击下图链接购买

本书由吴冬升、董志国两位博士主编，机械工业出版社2023年隆重出版。书中详细分析5G、智慧交通及自动驾驶的现状及发展趋势, 阐述城市公共交通、共享出行、智慧物流的最新进展。了解详情请点击：《新书上架！《5G与智慧交通，加速未来出行大变革》》

▼点击下图链接购买

继2020年《5G与车联网技术》、2021年《从云端到边缘：边缘计算的产业链和行业应用》出版之后，吴冬升博士带领「5G行业应用」作家团队推出又一力作——《车联未来：5G车联网创新商业模式》。本书由化学工业出版社出版，聚焦5G车联网商业模式，探索车联网未来可持续性发展之路。了解详情请点击：《车联未来：5G车联网创新商业模式》

▼点击下图链接购买

关于我们

「5G行业应用」是聚集TMT行业资深专家的研究咨询平台，致力于在5G时代为企业和个人提供客观、深入和极具商业价值的市场研究和咨询服务，帮助企业利用5G实现战略转型和业务重构。本公众号专注提供5G行业最新动态及深度分析，覆盖通信、媒体、金融、汽车、交通、工业等领域。