摘 要
随着通信行业的迅速发展,企业内部面临着大量的知识和信息管理挑战。企业知识图谱作为一种强大的知识组织和表示工具,为企业内部知识的管理与应用提供了新的可能性。旨在探索企业知识图谱在通信行业中的应用和内部知识管理对整个企业带来的提效与改变。通过对通信行业的知识探索,可以确认企业知识图谱在优化数据质量和内部知识获取与管理等方面带来新的改进。它的推广应用,可以推进不同垂直行业的科学化发展与信息化建设,具有很好的应用前景与行业价值。
前 言
知识图谱是谷歌公司在2012年提出的概念,被认为是一种描述实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行描述。谷歌提出这个概念的主要目的是改善其搜索引擎的智能化水平,优化搜索推荐效果,提升用户的推荐体验。广义上来说,知识图谱是用来描述现实世界中存在的各种物体以及物体之间的关系,这些种类繁多的物体以及物体之间的关系构成了一个大型的网状结构。作为人工智能领域的重要研究方向之一,它和自然语言处理是相辅相成的。知识图谱技术涉及到了自然语言处理中的各项技术,同时,知识图谱的研究也促进了自然语言处理技术的发展,尤其是基于知识图谱的指代消解和依存句法关系分析等技术也得以长远发展。
知识图谱是大数据人工智能时代发展的必然趋势,但是知识图谱的发展不仅仅是依赖于计算机和人工智能领域的发展,同时在很大程度上又依赖于其他的研究领域,比如语言学、信息抽取、语义网和专家系统等,知识图谱不是一门单一的学科,它是一门涵盖范围非常广泛的跨领域交叉学科。
企业知识图谱属于知识图谱的一种,不同于通用型或者领域型知识图谱,它是以企业内部的信息为构建基础。企业的知识和概念以节点的形式表示,并通过边来表示它们之间的关系和连接。企业知识图谱可以包含各种类型的知识,如实体、属性、关系、概念、事件等,以及它们之间的复杂关联。企业知识图谱与行业知识具有紧密关联性,企业知识图谱的优势在于它能够帮助企业更好地理解和利用其内部的知识资产,提高知识的可发现性、可重用性和可共享性。它可以支持知识的智能化检索和推荐,加速问题解决和决策制定过程,并促进企业内部的协作和创新。企业知识图谱在各行各业都具有广泛的应用潜力,包括通信、金融、医疗、制造等领域。
通信设计行业正处于数字化转型阶段,企业知识图谱的出现能够发挥有效的数字信息管理作用,很多企业拥有的庞大而分散的知识资产,企业知识图谱可以帮助企业管理和组织这些知识,使其可发现、可访问和可共享,给员工提供有效的决策支撑。

0 1
知识图谱构建技术介绍
知识图谱是一种基于语义网络的知识表示和管理技术,它将实体、属性和关系以图形化的方式进行表示,形成了一个结构化的知识库,其应用范围非常广泛,包括搜索引擎、智能问答、推荐系统、智能客服等领域。知识图谱的优势在于它能够将不同来源的数据进行整合,形成一个统一的知识库,从而提高数据的利用效率和准确性。
构建知识图谱需要先确定本体,继而构建对应的实体和关系以及属性。知识图谱的基本组成单位是“实体-关系-实体”三元组,以及实体的相关属性,实体间通过关系相互联结,构成网状。知识图谱中的本体是指对实体、属性和关系进行分类和定义的一种形式化描述方法,它可以帮助机器理解和处理知识。知识图谱中的实体指具有独立存在和特定属性的事物,如人、地点、组织、事件等。关系就是指实体之间的联系,如人与组织之间的工作关系、人与人之间的社交关系等。属性指的是描述实体的特征或属性,如人的姓名、年龄、性别等。三元组是指由实体、属性和关系组成的基本单元,如图1所示,天线、铁塔、平台都是构建的本体,天线1、平台1、铁塔1等为对应的实体。安装、属于、包含均为关系,GPS天线1-属于-中国联通则可成为三元组,中国联通的英文名属于实体的相关属性。

图1 知识图谱构建简图

0 2
企业知识图谱构建的基本步骤

图2 企业知识图谱构建步骤图
企业知识图谱构建的步骤如图2所示,分别是收集原始数据、构建本体信息、利用数据进行信息抽取、完善知识表示,最终将知识进行融合与加工,存储到相应的数据库中。
2.1 原始数据收集
知识图谱的构建需要大量的数据支持,因此构建的第1步是收集相关数据。数据来源可以包括结构化数据、半结构化数据和非结构化数据。结构化数据是指具有固定格式和规则的数据,如数据库中的表格数据;半结构化数据是指具有一定结构但不完全符合规则的数据,如XML文件或者有部分固定格式的文档等;非结构化数据是指没有固定格式和规则的数据,如文本、图片和视频等。数据可以通过可允许的爬虫、API接口、数据交换等多种方式进行获取。
2.2 本体构建
本体是一种用于描述概念和实体之间关系的形式化语言,它可以帮助更好地理解和组织知识。在知识图谱中,本体是一个重要的组成部分。在企业知识图谱的实际场景中,建议从行业专家入手,人工构建基础本体,对所需要构建的知识进行初步抽象,建立数据库可用的特定结构。如果行业内容复杂繁多,也可先进行部分高频预定义的信息抽取,辅助人工专家进行本体定义,作为本体候选集。
2.3 信息抽取
知识图谱中的信息抽取是指从非结构化或半结构化的数据源(如文本、网页、表格等)中抽取出实体、关系、属性等结构化信息,主要内容包括实体抽取,属性抽取与关系抽取等。
2.3.1 实体抽取
文献《从知识图谱到认知图谱及电信行业应用》中提到实体抽取的方法包括基于规则、基于统计和基于深度学习的方法。其中,基于规则的方法是最早被使用的实体抽取方法,其基本思想是通过手工编写规则来识别实体。这种方法的优点是易于理解和调整,但缺点是需要大量的人工工作和专业知识,并且难以处理复杂的语言现象。基于统计的方法则是通过学习大量的语料库来自动学习实体的特征和上下文信息,从而实现实体抽取。这种方法的优点是可以处理复杂的语言现象,但缺点是需要大量的训练数据和特征工程。基于深度学习的方法则是利用神经网络模型来自动学习实体的特征和上下文信息,从而实现实体抽取。这种方法的优点是可以处理复杂的语言现象,且不需要手工设计特征,但缺点是需要大量的训练数据和计算资源。目前,基于深度学习的方法在实体抽取中表现出色,已经成为主流的实体抽取方法之一。实际工作中多种方法经常混合使用来满足实际的工作场景,可以利用规则技术实现高频实体的优先抽取以及实体种类预定义的工作。
2.3.2 属性抽取
属性抽取旨在识别实体的关键属性,这些属性可以描述实体的特征、性质或其他相关信息。传统的属性抽取方法主要基于规则和模式匹配,但受限于规则的表达能力和模式的覆盖范围。随着深度学习的发展,基于神经网络的方法在属性抽取任务上取得了显著的进展。典型的方法包括基于卷积神经网络(CNN)和循环神经网络(RNN)的序列标注模型,以及使用预训练语言模型(如BERT)进行属性抽取。这些方法能够自动学习特征表示,并具备一定的上下文理解能力,提高了属性抽取的准确性和泛化能力。
2.3.3 关系抽取
关系抽取旨在发现实体之间的关联关系,例如“人物-配偶” “公司-创始人”等。近年来,基于深度学习的方法在关系抽取任务中取得了显著的突破。其中,卷积神经网络(CNN)、循环神经网络(RNN)和注意力机制等技术被广泛应用于关系抽取。通过将实体及其上下文信息作为输入,这些方法能够自动学习关系的表示,并捕捉实体之间的语义关联。此外,预训练的语言模型(如BERT、GPT等)也被用于关系抽取任务,通过无监督学习的方式提供了丰富的上下文表示,进一步提高了关系抽取的性能。
2.4 知识表示
知识表示是指将实体、属性和关系转化为计算机可处理的形式,如三元组(实体1,关系,实体2)或图形结构。知识表示可以采用不同的表示方法,如RDF、OWL、JSON-LD等。RDF是一种基于三元组的表示方法,可以用于描述实体、属性和关系之间的语义关系;OWL是一种基于逻辑的表示方法,可以用于描述实体之间的复杂关系;JSON-LD是一种基于JSON格式的表示方法,可以用于描述实体、属性和关系之间的语义关系。
2.5 知识融合与加工
由于获取信息的方式与渠道的不同,获取海量信息的同时也带来了冗余与重复的内容。对多源信息进行融合与加工成为了必要的手段。其中涉及到最主要的技术内容主要有实体消歧。基于上下文的实体消歧方法是一种通过利用实体周围的上下文信息来判断实体的唯一身份的技术。它认为上下文提供的语境信息有助于确定特定实体在文本中的含义。其中,常见的方法包括使用语境窗口和机器学习方法。语境窗口方法选择一定数量的词语作为上下文,使用词嵌入等技术计算词语相似度来进行消歧。机器学习方法则使用训练模型,通过上下文特征和实体标签的组合来预测消歧结果。

0 3
企业知识图谱的应用探索
3.1 企业知识图谱的需求场景
企业知识图谱的落地需求场景主要有4个方面:内部搜索、智能问答、个性化推荐与智能内容分析。
a)内部搜索:改善强依赖关键字搜索,提供更加智能和语义化的搜索服务,例如可以支持自然语言查询、实体搜索、语义搜索等,避免内部知识闲置,提高用户体验和满意度。
b)智能问答:通过内部知识图谱提供基于知识的问答服务,可支持对话式问答、多轮问答等,优化更新社区问答能力,促进知识的良性循环。
c)个性化推荐:利用知识图谱提供更加个性化和多样化的推荐服务,挖掘用户点击文档背后的关联性,支持图谱融入用户画像、兴趣分析等内容,提高用户的留存和转化率。
d)智能内容分析:建立知识图谱的过程中,信息抽取可以有针对性挖掘不同类型的数据,并且通过图谱可视化清晰发现数据间的关联与关系,提高数据的价值与利用率。
3.2 通信行业的企业知识图谱构建
按照企业知识图谱的构建步骤,以某单位内部收集的知识数据进行了通信行业的企业知识图谱构建。首先收集单位各部门各专业的若干形式的文本、图标、图片等各类数据,并对其进行清理与转化,获取到可用的文本形式进行构建。组织各专家人才进行初步本体的构建定义,着手进行信息抽取。信息抽取部分是构建图谱最核心的内容,本文会对这部分进行详细描述。
由于专业信息复杂繁多,初期本体构建完成后,很难推动数据标注工作,有监督的模型方法意味着标注周期长,推动缓慢等问题,本文提出了一种针对企业内部数据的无监督信息抽取方法,通过该方法可在缺少标注能力的情况下快速启动图谱项目。
这种无监督的信息抽取方法是通过扩充词性正则表达式获取包含更多可能性的复合短语关键词,增加依存句法规则约束进行候选词筛选,同时通过使用垂直领域语料进行finetune,针对通信行业的数据情况,团队针对SIFRank算法进行了优化,提出DS-SIFRank实体信息抽取算法。算法具体步骤如下。
a)分词及词性标注:采用现有的中文分词库,如thulac、LTP4对输入文档进行分词及词性标注,可在分词过程中自定义用户词库从而增强分词效果。
b)获取候选关键词列表:利用正则表达式确定名词短语(例如:形容词+名词),将名词短语作为候选关键短语,可通过调整正则表达式来改变候选关键词长度、词性等性质。
c)获取候选关键词的Embedding:利用预训练的Embedding模型(ELMo、BERT等),获取关键词的词向量。选用ELMo模型的embedding的主要原因是经过大规模的预训练,相较于 TF-IDF、TextRank等算法能够获取更多的语义信息。其次,ELMo是动态的,可以改善一词多义问题,通过Char-CNN编码,对生僻词更加友好,不同层的ELMo可以捕捉不同层次的信息,获取的语义信息量更大。
d)获取文档的Embedding:通过对文档中各个词的词向量进行加权,获得该文档的向量,各个词的权重由该词在语料中出现的频率决定,词频越高,该词权重越低。文档向量计算公式如下:

其中,Vs为文档向量,Vw为词向量,a为用于平滑的超参数,通常取10−4~10−3,fw为该词词频,通过加权获得文档向量。根据词频对词向量进行平滑反频率加权,能够更好地捕捉到句子/文档的中心话题。在计算不同词的权重时,采用预设的公开语料下的词频进行权重计算,同时也可以统计当前应用场景下的词频,用该场景下的词频进行权重计算从而实现finetune,从而提高关键词抽取在特定应用场景下的准确度。
SIFRank算法通过计算候选关键词的词向量同文档向量的余弦值,从而获得二者的相似度,提取相似度最高的top-N作为关键词。在SIFRank+算法中,为了提高关键词提取在长文本中的效果,还引入了关键词的位置因素,认为位置越靠前的关键词重要程度越高,将候选关键词向量同文档向量的相似度和候选关键词的位置参数相乘,获得候选关键词的重要程度,提取top-N作为关键词。
为解决传统SIFRank算法在垂直领域关键词提取任务中关键词漏检、候选关键词质量偏低等问题,在垂直领域应用背景下对SIFRank算法进行改进,获DS-SIFRank算法,具体改进内容如下。
a)增加动名词候选短语。在通信领域等垂直领域的中文技术文档中,需要识别并提取的技术关键短语不仅限于单个关键词,大部分都是复合词语。复合关键词往往含有动词,如协同计算、频率重耕、网络共享等,不同于英文,中文的动词并没有相应的名词形式,直接对其进行名词短语的筛选会导致大量含动词的关键短语提取失败,故在原有的名词短语正则规则基础上,添加动词短语的提取,减少对词性的限制,实现动名词候选关键词的获取。
b)基于依存句法分析的候选词筛选。由于中文文本成分复杂,使用单一的词性正则表达式提取动词、名词短语往往会提取到错误的短语,降低准确率。基于此情况,对候选关键词进行依存句法分析,对含有主谓、动宾、介宾等关系的候选词进行筛选,以删除不合理的候选短语,提高候选关键词质量。依存句法示意如图3所示。

图3 依存句法示意图
c)使用垂直领域语料进行finetune。在公开语料的基础上,加入垂直领域语料的词频统计,使用垂直领域下的词频对词语的权重进行finetune,以提高算法在垂直领域下的性能。
d)利用BERT算法获取Embedding并在垂直领域语料上进行finetune。
文章所使用的方法是基于BERT算法在大规模中文语料上预训练的模型,同时在垂直领域语料基础上进行finetune,以提升文档与候选词的 Embedding效果,使其包含更有效的语义信息。
在1 800个通信领域文档上对不同实体关键词信息提取算法进行测试,最终效果与算法如表1所示。
表1 通信行业数据信息抽取算法对比

可以看出,DS-SIFRANK算法在垂直领域下各项指标上优于现有的无监督实体信息抽取算法。
获取到实体信息后,组织人员根据数据与实体信息进行关系、属性的标注,利用BERT算法完成相关的信息抽取工作,并采用了上文中介绍的知识融合工作完成了实体消歧等内容,最终构建完成百万节点的通信行业知识图谱,并对高频节点进行了可视化展示。
3.3 企业知识图谱的实践案例介绍
按照以上介绍的企业知识图谱的构建方法,构造了拥有百万节点的某单位的通信行业图谱,并成功上线内部的知识管理平台,现介绍其上线后的图谱新增功能。
a)智慧搜索功能。引入知识图谱后,改善了过度依赖关键词的搜索模式,提供了基于知识图谱的语义搜索模式,例如搜索运营商,会提供“中国联通” “中国移动”相关搜索内容,提升了搜索的快捷与便宜性。
b)智慧问答推荐。利用知识图谱的KG-embedding,计算每个问句的向量化表示,来计算相似语句,按照置信度进行排序,提供相似问答推荐。
c)个性化推荐。利用知识图谱优化计算每个用户的点击文档的相关性文档方式,不断优化用户的兴趣网络。
d)知识图谱可视化工具。如图4所示,提供三元组的可视化呈现,帮助用户更好地理解数据之间的关联性。
e)智能文档标签抽取。通过构建知识图谱的信息抽取模块,对非结构的文本数据进行实体抽取,并将抽取到的实体作为文本标签用于展示和搜索,极大程度方便了用户找寻内部的行业知识。
f)文档智能评分。通过文档核心实体以及用户评分等因素进行加权计算,新增文档分数并优化排序系统。
企业知识图谱的构建上线对公司内部的知识文档进行有效的数字化管理,对公司所处的通信行业数据提供了优化后的数字沉淀,提升了内部员工的知识搜索效率,对公司领导的项目决策提供了可视化的支撑。

图4 知识图谱可视化效果与功能

0 4
结束语
当前的企业知识图谱主要是基于公司内部搜索平台对行业数据的一次大规模的数字化管理,提供了初步的智能搜索与推荐等功能,随着大模型产业的逐渐成熟,应考虑将大模型与知识图谱进行融合。传统的知识图谱构建方法通常依赖于人工标注和手工规则,但受限于规模和效率。而大模型通过学习大规模的文本数据,能够自动抽取实体、属性和关系,并生成更准确和丰富的知识图谱。这种融合将加速知识图谱的构建过程,并提高构建的效率和质量。其次,大模型为知识图谱的补全和推理提供了强大的能力。
知识图谱通常是不完整的,存在着实体缺失、属性不全等问题。大模型通过学习丰富的语言知识和语义关联,能够根据已有的知识图谱和上下文信息,进行补全和推理,填补知识图谱的空缺,从而提供更全面、准确的知识表示和推理能力。这种融合将使得知识图谱更具可用性和应用价值。
未来,可以预见大模型对知识图谱应用的进一步发展。一方面,可以探索更加高效和精细的大模型方法,以应对知识图谱规模的扩大和复杂性的增加。例如,结合迁移学习、多任务学习等技术,将大模型的学习能力和泛化能力应用于不同领域和语境的知识图谱构建和应用中。另一方面,可以关注多模态和跨语言的大模型应用,不止于文本,将图像、视频、语音等多种数据源融入到知识图谱的构建和应用中,实现更全面、多样化的多模态知识表示和推理,为知识图谱落地垂直领域提供更加智能、更加方便的服务。
作者简介

张倩,毕业于哈尔滨工业大学,工程师,硕士,主要从事自然语言处理领域相关工作;
李国庆,毕业于哈尔滨工业大学,助理工程师,硕士,主要从事自然语言处理领域相关工作。
推荐阅读

点击“阅读原文”,下载论文PDF

欢迎扫码关注
头条号|邮电设计技术
官方网站|http://ydsjjs.paperopen.com
编辑|李星初 审核:袁江