知识图谱构建技术分析

(整期优先)网络出版时间:2023-04-26
/ 2

知识图谱构建技术分析

张刚建

中国飞机强度研究所 陕西 西安 710065

摘要:知识图谱构建通常使用的方法包括了命名实体识别法、关系抽提技术等内容,这类方法各有优缺点,同时也存在着一定的适用范围。不同的方法在实际层面中表现出的特征以及蕴含的内容存在差异性,所以通过对不同方法的梳理,可以有效提升图谱构建技术的合理性与科学性,为研究者更好地开展研究提供决策依据以及理论指导。文章主要针对知识图谱构建技术开展了相应的分析,并且提出了相应的意见和建议,希望能给有关人员带来帮助和参考。

关键词:知识图谱;构建技术;信息提取

引言

在因特网的发展下,人们从最初的只有网页1.0的内容访问和检索功能进入 Web2.0,它可以参加因特网和生产内容,还有 Web3.0,它是知识连接的基础,在这个万物互联的年代,人们的生活变得更加方便,信息的获得也更加迅速。然而,互联网具有比较丰富的内容,相应的数据也是比较多样的,使得海量的信息无法有效的使用,使得知识互联成为一个巨大的挑战。在知识组织的原理中,体现了充分、有序和规范化的知识,这就要求我们从一个全新的角度来综合网络中的异质的知识。因此,知识图谱的产生为智能语义检索和知识互联奠定了基础。

1知识图谱概念界定

知识图谱是利用三元组的方法来表达和存储实例,并建立了数据之间的语义连接。三元组一般由头部实体和为实体组成,描述二者之间的关系。同时,通过知识图谱的本体论,对知识结构进行了限制和描述。本体论的主要来源是哲学,强调抽象的框架描述,并在知识图谱中对实例进行结构化的描述和限制。知识本体结构和三元组实例组成了一个完整的知识体系,即知识图谱,通常利用语义网络的资源描述框架来实现它的统一。目前,基于百科知识数据的大规模开放源码知识图谱,在此基础上,还建立了基于领域知识和语言学的知识图谱。知识图谱是一组不同的图形,能够显示知识的结构和发展过程,利用可视化技术描述了知识资源和载体,挖掘、分析、绘制了与这些知识的关联。从整体上讲,知识图谱能够很好的实现学科的综合运用,在此过程中主要包括图形学、数学、以及信息学等。通过可视化的方式,能够详细的有效的对相关知识进行描述,主要是包括学科的核心知识结构以及发展历程等。一种多学科交叉的研究方法。它通过信息处理、图形绘制等手段,把复杂的知识领域表现得淋漓尽致。全面地反映了知识空间的动态变化规律,对学科的研究具有重要的意义和现实意义。目前,该技术已在发达国家得到了广泛的应用,取得了良好的效果,但在国内的推广仍处在初级阶段。

2知识图谱构建技术

2.1命名实体识别技术

必须先确定指定的实体,然后才能进行文字处理,在这个时候,需要使用一个命名实体的方法,这个方法是在自然语言的基础上进行的。随着大数据技术和人工智能技术的不断发展,近年来,学者们在命名实体识别方面进行了大量的研究,有关技术也得到了不断的发展,并取得了显著的成果。随着越来越多的应用,命名实体的识别逐渐成为情感分析、机器翻译等领域的研究。例如,如何在海量的非结构化文本中自主、准确地提取出特定的名称,就成为了当前国内外研究的热点。命名实体的识别在国外已经有很长时间了,并且还在不断地发展。目前,国外学者对英文语料库进行了监督、半监督的机械学习,关于规则和方法的研究很少。最大熵模型、条件随机模型等是英文语料库的常用模型和方法。与英文语料库相比,中文的辨识比较困难,我国学者借鉴了国外的一些研究成果,并提出了一些行之有效的解决办法。本文从中文的现实出发,进行了有益的探讨。常用的方法是从语料库中抽取特征,并将其与数学模型相结合来进行识别。在俞鸿魁等人的基础上,提出了一种新的层叠马尔可夫模型。通过将多个实体类型的识别与特定的数学模型结合起来,可以更方便地找到未注册的实体。同时,它还可以在一定程度上加速合成实体的识别。周俊生以中文实体的前、后两个字为特点,以条件随机场法为依据,进一步的研究发现,在中文名称实体中,有条件随机场可以使用,命名实体识别技术以条件随机场为前提和依据,得到了学者们的广泛认可。

2.2关系抽提技术

上个世纪90年代,MUC-7首次提出了与实体关系提取有关的研究,这被视为是一个信息提取的子任务。随着 MUC的关闭, ACE大会将取代 MUC的内容,并将其用于基于预测的文本的自动抽取。ACE工作的核心是信息提取,在工作实践中,工作涉及的领域和语言都要不断扩展。这两次研讨会都为今后在自然语言处理任务中的信息抽取提供了有力的支持。随着人工智能、大数据等技术的不断发展,信息抽取技术越来越受到重视,而关系提取作为一项重要的工作,已经成为了许多学者所关心的问题。他们不断地将自己的精力投入到完善和健全的关系提取理论中,以促进抽水技术的有序发展。关系抽取的研究结果在实践中得到了广泛的应用。关联提取的对象是非结构化的语料库,现有的相关研究包括模型匹配、语义网络等。根据模式匹配的理论, Chinatsu Aone等建立了一个关联的提取体系,为了确保文本与抽取规则的一致性,采用手工编写关系抽取规则,并给出了实体关系实例。该系统在具体应用过程中主要使用的是比较灵活的结构模块,在此过程中对相应的系统模块进行了有效的修改和完善。RomanY构建了一个基于抽样推广的关系提取模型 Proteus系统,用户可以对特定类型的 demo进行分析,归纳出相关的特性,将相关特性进行抽象,得到了很好的试验结果。

3知识图谱构建实践

国外在建立知识地图方面取得了重大进展,其中最大的进步是由谷歌公司研发的 Knowledge Vault,基于维基百科的自由版和 DBpedia,在 Freebase中,维基百科是一种数据源,利用人工编制的方法,对2000多个实体进行了结构化的构造,它已经成为谷歌知识图谱的一个重要组成部分。DBpedia是一个跨语言的知识库,它是莱比锡大学和曼海姆大学联合开发的,维基百科也是最重要的资料来源,通过固定的方式提取结构化的信息,使用相关的方式来公布信息。与这些通用知识图谱相比,领域知识图谱在实际中的应用还远远不够。之所以会出现这种情况,是因为在构造领域知识图谱时,往往要有专门的资料来源,这些知识相对集中、体量小,很难适应海量数据的需要。同时,对知识的精确度也有很高的要求,所以在构造过程中,一般要求领域的专业人员都要参与到具体的构图过程中去,并且对人工的依赖程度很高。

结束语

尽管许多学者和科研单位已经对此进行了深入的研究,但也有一些问题,那就是他们对领域的理解还不够透彻。在实践中,有关构建技术的自动化水平不高,以及知识结构的质量偏低等,在今后的研究中,可以从以上几个方面着手,不断扩大研究的范围。

参考文献:

[1]郑兰琴,范云超,牛佳玉.基于在线协作学习交互文本的跨领域知识图谱构建技术[J].电化教育研究,2022,43(12):70-77.

[2]谢敏容.网络安全知识图谱构建技术研究与实现[D].电子科技大学,2020.

[3]项威.事件知识图谱构建技术与应用综述[J].计算机与现代化,2020(01):10-16.