推荐的汽车知识图的构建
2025-03-13 23:01:28发布 浏览15次 信息编号:194713
平台友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。
推荐的汽车知识图的构建
一个背景1简介
知识图的概念是在2012年首次提出的,旨在实现更智能的搜索引擎,并在2013年之后开始在学术界和工业水平上变得流行。目前,随着人工智能技术的快速发展,知识图已被广泛用于搜索,建议,广告,广告,风险控制,智能调度,智能计划,语音识别,语音识别,机器人和其他领域。
2当前的发展状况
作为人工智能的核心技术驱动力,知识图可以减轻深度学习依赖大规模培训数据和大规模计算能力的问题。它可以广泛适应不同的下游任务,并且具有良好的解释功能。因此,全球大型互联网公司正在积极部署其公司的知识图。
例如,开放图于2013年发布,该图被应用于社交网络上的智能搜索; Baidu于2014年推出的知识图主要用于搜索,助理和TOB业务方案;阿里巴巴在2015年推出的产品知识图在前端购物指南,平台治理以及聪明的问答业务中起着关键作用; Cloud知识图有效地有助于财务搜索,实体风险预测和其他方案; 于2018年推出的 Brain知识图,该图已在诸如智能搜索建议和智能商人操作等多家业务中实施。
3个目标和好处
目前,现场图主要集中在电子商务,医疗和金融等商业领域,而语义网络和知识图的构建汽车知识缺乏系统的指导方法。本文以汽车领域的了解为例,重点介绍了汽车系列,模型,经销商,制造商,品牌等的实体和关系,提供了一个从头开始构建现场图的想法,并提供了构建知识映射的步骤和方法的详细说明,并介绍了基于此映射的几个典型实施应用程序。
其中,数据源使用网站。 是一个由多个部门组成的汽车服务平台,例如购物指南,信息,评估和声誉。它在观看,购买和使用的方面积累了大量汽车数据。通过构建知识图,它可以通过汽车作为核心组织和探索内容,提供丰富的知识信息,结构并准确地描绘了兴趣,并支持推荐的用户开放,回忆,分类,显示和其他维度,从而为业务改善带来效果。
第二个地图构造1建筑的挑战
知识图是现实世界的语义表示。它的基本组成单元是[实体关系 - 实体]和[--值]的三胞胎()。实体通过关系互连,从而形成语义网络。图表的构建将面临巨大的挑战,但是在构造之后,它可以在多种情况下显示丰富的应用值,例如数据分析,建议计算,可解释性等。
建筑挑战:
2图架构设计
技术体系结构主要分为三个主要层:施工层,存储层和应用层。架构图如下:
3个特定的施工步骤和流程
根据架构图,特定的施工过程可以分为四个步骤:本体设计,知识获取,知识存储库以及应用程序服务设计和使用。
3.1本体构建
本体()是公认的概念集合。本体论的构建是指根据本体论的定义的本体结构和知识图的构建。
基于本体论的地图构建地图的主要原因如下:
根据知识覆盖范围,知识图可以分为一般知识图和域知识图。目前,有很多常识图的情况,例如图形,微软等,域图是特定的行业图,例如财务和电子商务。一般地图更加关注广度并强调更多实体的整合,但是准确性要求不高,因此很难使用本体论库来推理和使用公理,规则和约束;尽管域图的知识覆盖范围较小,但是知识的深度更深,通常是在某个专业领域构建的。
考虑到准确性的要求,倾向于手动构建现场本体构建,例如代表性的七步方法,IDEF5方法等[1]。这种类型的方法的核心思想是基于现有的结构化数据进行本体分析,总结和构造符合应用程序范围和范围的本体,然后优化和验证本体论以获得初始版本的定义。如果您想获得较大的领域本体,可以考虑手动施工过程很大,可以从非结构化的语料库中进行补充。本文以汽车领域为例,以提供半自动的本体论构建方法。详细的步骤如下:
上述方法可以有效利用诸如BERT之类的深度学习技术来更好地捕获语料库之间的内部关系,并使用聚类来构建各种本体论模块,并通过手动干预补充,这些模块可以快速,准确地完成初始的本体论构建。下图是半自动化体结构的示意图:
使用Protégé本体构建工具[2],您可以构建本体论概念类,关系,属性和实例。下图是本体构建的视觉示例图:
本文将汽车领域的顶级本体概念分为三类:实体,事件和标签系统:
实体类代表具有特定含义的概念实体,包括词汇实体和汽车实体,其中汽车实体包括诸如组织结构和汽车概念之类的子实体类型;标签系统代表每个维度的标签系统,包括内容分类,概念标签,兴趣标签等。在材料维度中描绘的标签;事件类代表一个或多个角色的客观事实,并且不同类型的事件之间存在进化关系。
Protégé可以导出不同类型的配置文件,其中owl.xml结构配置文件如下图所示。可以将此配置文件直接加载并直接在MySQL中使用,以实现自动创建。
3.2知识获取
知识图的数据源通常包括三种类型的数据结构,即结构化数据,半结构化数据和非结构化数据。对于不同类型的数据源,需要解决的知识提取和技术困难涉及的关键技术是不同的。
3.2.1结构化知识转换
结构化数据是图形最直接的知识来源,可以基本上通过初步转换使用。与其他类型的数据相比,这是最低的成本,因此将一般图形数据优先于结构化数据。结构化数据可能涉及多个数据库源,通常需要使用ETL方法转换模块。 ETL为(提取),(转换)和负载。提取是从各种原始业务系统中读取数据,这是所有工作的先决条件。转换是根据预设的规则转换提取的数据,以便可以统一最初的异质数据格式;加载是在计划中以增量或全部将转换的数据导入数据仓库。
通过上述ETL过程,可以将不同的源数据放入中间表中,以促进随后的知识进入数据库。下图是车辆系统的物理特性和关系的示例图:
汽车系列和品牌关系表:
3.2.2非结构化知识提取 - 三重提取
除结构化数据外,非结构化数据中还有大量知识(三重)信息。一般而言,企业的非结构化数据量远大于结构化数据。采矿非结构化的知识可以大大扩展和丰富知识图。
三重提取算法的挑战
问题1:在单个字段中,文档内容和格式是多种多样的,需要大量的标签数据,这是昂贵的。
问题2:田野之间迁移的影响还不够好,跨域量表的成本很高
这些模型基本上是针对特定行业和特定情况的。如果您更改场景,效果将大大减少。
解决方案的想法,预训练 +的范式,预训练:重量级基础允许模型“多知识”,以充分利用大规模和多工业的无标准文档,以培训统一的预训练基础,以增强模型的能力,以增强该模型的能力和理解各种文档。
微调:轻巧文档结构化算法。基于预训练,构建面向文档的轻巧结构化算法以减少
标签成本。
文档预培训方法
对于有关文档的现有预训练模型,如果文本的类型较短,则BERT可以完全编码整个文档。尽管我们的实际文档通常被比较,但需要提取的许多属性值超过1024个单词。通过BERT编码将导致属性值被截断。
长期培训方法的优点和缺点
该方法优化了O(N2)对O(N)的计算,从而大大改善了输入文本大小。尽管正常模型的文本大小已从512增加到4096,但仍无法完全解决截断文本的问题。
破碎问题。 Baidu提出Ernie-Doc [3]使用一种方法,从理论上讲,该方法可以对无限文本进行建模。由于建模需要输入所有文本信息,因此需要大量时间。
上面的两种基于文本的预训练方法没有考虑文档特征,例如空间(),()等,以及基于文本设计,总体设计是为纯文本而设计的,没有文档的逻辑结构设计。
为了应对上述缺点,引入了文档预训练模型[4]。模型设计:基于文档文本语义(文本)和布局信息,使用大型(百万级)未标记的文档数据进行预训练。
(),视觉特征()构建自我监督的学习任务,以使模型能够更好地理解文档语义和结构信息。
-Aware MLM:考虑蒙版语言模型中文本的位置和字体大小信息,以实现对文档布局感知的语义理解。文本图像:文档视觉特征的融合,重建图像中映射的文本,并帮助模型学习文本,布局和图像的不同模式之间的关系。标题:以一种自制的方式来增强模型对文档逻辑结构的理解,以构造标题重建任务。 :使用该方法来增强模型的文档处理功能。
3.2.3挖掘概念,兴趣字标签,并将其链接到车辆系统和实体
除了从结构化和非结构化文本中获得三元组外,还挖掘了材料中包含的分类,概念标签和兴趣关键字标签,并建立了材料与车辆实体之间的相关性,并将新知识带入自动知识图。以下是对从类别,概念标签和兴趣单词标签中所做的一些内容理解和想法的描述。
分类系统是内容刻画的基础,并将材料分为粗粒。建立的统一内容系统更基于手动定义,并通过AI模型进行了分开。在分类方法方面,我们采用主动学习来注释更难区分的数据,同时,我们使用数据增强,对抗性培训和关键字融合来改善分类的效果。
概念标签粒度在分类和兴趣单词标签之间,这比分类粒度更详细,并且比兴趣点的兴趣词描绘更完整。我们已经建立了三个维度:汽车视觉,人类视觉和内容视觉,丰富了标签维度并完善标签粒度。丰富而特定的材料标签使搜索和推荐基于标签的模型优化变得更加方便,并且可用于标签外展,以吸引用户和次要排水。概念标签的挖掘与在重要数据(例如查询)上的机器开采结合使用,并分析了概括。通过手动收集概念标签,并采用了多标签模型分类。
兴趣的Word标签是最精细的标签,映射到用户兴趣,并且可以根据不同的用户兴趣和喜好更好地个性化建议。关键字挖掘采用了多种兴趣单词挖掘方法的组合,包括提取关键基因并结合各种语法分析方法来生成兴趣单词候选者。
开采的单词相对较高,需要识别同义词并提高手动效率。因此,我们还使用聚类来自动化语义相似性识别。用于聚类的功能包括其他人工功能,例如Bert。然后,使用聚类方法,最后,在手动校正后,我们离线生成了一批高质量的关键字。
对于不同粒度的标签,它们仍处于材料水平。我们需要在标签和汽车之间建立相关性。首先,我们计算标题\文章的标签,然后确定标题\文章中的实体,并获得几个标签 - 实用性伪标签。最后,基于大量的语料库,具有高概率共同出现的标签将被标记为实体的标签。通过以上三个任务,我们获得了丰富而庞大的标签。这些与汽车系列和实体相关的标签将大大丰富我们的汽车图,并建立媒体和用户的汽车注意标签。
3.2.4提高人员效率:
借助大型培训样本,如何获得更好的模型质量,如何解决高标签成本和长期标签周期的问题已成为紧迫的问题。首先,我们可以使用半监督的学习,并使用大量未标记的数据进行预训练。然后,采用一种主动学习方法来最大程度地提高注释数据的值,并迭代地选择高信息大小的样本进行注释。最后,远程监督可用于全面发挥现有知识的价值并发现任务之间的相关性。例如,在拥有地图和标题后,可以通过远程监督根据地图构建NER培训数据。
3.3知识库
知识图中的知识由RDF结构表示,其基本单位是事实。每个事实都是三重(S,P,O)。在实际系统中,根据存储方法,知识图的存储可以根据RDF表结构和基于属性图结构的存储分为存储。画廊更多地是关于使用属性图结构的存储,公共存储系统包括neo4j ,, ,,,,,,,,,,,,, ,, ,, ,,, ,, ,, ,, ,,, ,, ,,, ,, ,, ,, ,, ,,,,,,,,,,,,,,, ,, ,,, ,,,,,,,,,,,,,,,, ,, ,, ,, ,, ,,, ,, ,, ,,, ,,, ,, ,, ,, ,, ,,,,,,,,,,,,,,,, ,, ,,, ,,,,,,,,,,,,,,,, ,, ,, ,, ,, ,,, ,, ,, ,,, ,,, ,, ,, ,, ,, ,,,,,,,,,,,,,,,, ,, ,,, ,,,,,,,,,,,,,,,, ,, ,, ,, ,, ,,, ,, ,, ,,, ,,, ,, ,, ,, ,, ,,,,,,,,,,,,,,,,
图数据库选择
通过将这些主流图数据库与Neo4J进行比较,这是我们选择作为项目图数据库的主要原因。
下图是主流图数据库的比较
介绍
[5]是图形数据库引擎。它着重于紧凑的图形序列化,丰富的图形数据建模和有效的查询执行。画廊的组成可以通过以下公式表示:
=标签 +边缘标签 +键
值得注意的是,密钥通常用于图形索引。
为了更好地图形查询性能,可以建立索引,并将索引分为图形索引, - 。图形索引包含组合索引(索引)和混合索引(混合索引)。
组合索引仅用于平等搜索。 (组合索引不需要外部索引后端的配置,并且由主存储后端支持(当然,您还可以配置HBase,))
例如:
mgmt。('e',.class)。(名称)。(age)。
gv()。有('age',30).has('name','xiao ming')#找到带有名称xiao ming的年龄的节点
混合索引需要ES作为后端索引来支持以外的多条件查询(也支持平等查询,但相等的查询对于组合索引的速度更快)。根据是否需要分词一词,将其分为全文,并且
数据存储模型
了解如何存储数据将有助于我们更好地利用画廊。以邻接列表格式存储图形,这意味着图形被存储为顶点集合及其邻接列表。顶点的邻接列表包含顶点的所有事件边缘(和属性)。
将每个邻接列表存储在基础存储后端中。 (64位)顶点ID(仅分配给每个顶点)是指向包含顶点邻接列表的行。每个边缘和属性都在行中存储为单独的单元格,从而允许有效的插入和删除。因此,在特定存储后端中每行允许的最大单位数也是可用于该后端支持的顶点的最大程度。
如果存储后端支持密钥顺序,则将通过顶点ID对邻接表进行排序,并且可以分配顶点ID以启用图形的有效分区。分配ID使通常一起访问的顶点具有绝对差异的ID。
3.4图查询服务
图形搜索是语言。我们提供统一的图形查询服务。外部用途不需要关心语言的特定实现,而是使用通用接口进行查询。我们分为三个接口:条件搜索接口,以节点为中心的向外查询以及节点路径查询接口。这里有一些实施示例:
推荐应用中的三个知识图
知识图中有大量的非欧洲数据。推荐的基于KG的应用程序有效地使用非欧洲数据来提高建议系统的准确性,从而使推荐系统可以实现传统系统无法实现的效果。基于KG的建议可以分为三类,即KG特征技术(KGE),基于路径的方法和图形神经网络。本章将在推荐系统中介绍KG的应用和论文,包括冷启动,原因和分类。
建议冷启动应用中的1个知识图
知识图可以通过用户项目交互中的kg中隐藏的高阶关系建模,这可以很好地解决由用户调用的有限行为引起的数据稀疏性,然后可以应用来解决冷启动问题。在这个问题上,该行业也有相关的研究。
Sang等。 [6]提出了一种称为“知识图形增强的残留递归神经协作过滤(KGNCF-RRN)的双通道神经相互作用方法,该方法利用了kg上下文和用户 - 项目相互作用的长期关系依赖性,以获取建议。 (1)对于KG上下文相互作用渠道,提出了一个残留的递归网络(RRN)来构建基于上下文的路径嵌入,并且残留学习被整合到传统的递归神经网络(RNN)中,以有效地编码Kg的长期关系依赖性。然后将自聚焦网络应用于路径嵌入,以捕获各种用户交互行为的多功能性。 (2)对于用户项目交互通道,用户和项目嵌入将输入新设计的二维互动图中。 (3)最后,在双通道神经相互作用矩阵上方,卷积神经网络用于学习用户与项目之间的复杂相关性。此方法可以捕获丰富的语义信息,还可以捕获用户和项目之间的复杂隐式关系以进行建议。
Du Y等。 [7]提出了一种基于元学习框架的新的冷启动问题解决方案,包括 - 敏感的元和 - 意识元,以捕获用户偏好和实体冷启动知识。 - 了解元学习任务旨在汇总每个用户的偏好知识的表示。取而代之的是,有-Awaw的元学习任务是在全球范围内概括不同的用户偏好知识表示。在两个高级协作关系和语义表示的指导下,可以有效地捕获,并且可以轻松地适应冷启动场景。此外,作者还设计了一个自适应任务,可以自适应地选择kg信息以进行学习,以防止模型被噪声信息打扰。该体系结构如下图所示。
2知识图以建议原因的应用
建议原因可以改善建议系统的解释性,让用户了解生成建议结果的计算过程,还可以解释为什么该项目很受欢迎。用户可以通过建议原因理解生成建议结果的原则,这可以增强用户对系统推荐结果的信心,并且在建议错误的情况下更宽容错误的结果。
最早的解释建议主要基于模板。模板的优点是它们确保可读性和高精度。但是,需要手动整理模板,并且不是很受欢迎,从而使人们有重复的感觉。后来,我们开发了一种自由形式的形式,不需要预设,并使用知识图,使用其中一种路径作为解释,并通过注释,有一些生成方法结合了kg路径。模型中选择的每个点或边缘都是一个可以显示给用户的推理过程。最近,Chen Z [8]等。提出了一个增量多任务学习框架ECR,该框架可以在建议预测,解释生成和用户反馈集成之间进行密切的协作。它由两个部分组成。第1部分,任务中传输的跨知识建模,学习和解释交叉知识,并解释了如何使用增量学习来更新的交叉知识。第二部分是增量多任务预测,解释了如何基于交叉知识生成解释,以及如何根据交叉知识和用户反馈来预测推荐的分数。
3知识图在推荐排序中的应用
kg可以将项目与不同属性联系起来以建立用户项目,并将UESR-ITEM图形和kg组合到大图中,可以捕获项目之间的高阶连接。传统的推荐方法是将问题建模为监督学习任务,该任务忽略了项目之间的内在联系(例如凯美瑞与雅阁之间的竞争对手关系),并且无法从用户行为中获得协同信号。以下是在推荐排序中施加kg的两篇论文。
王[9]等。设计了KGAT算法,首先使用GNN迭代对传播和更新,以便可以快速捕获高阶连接;其次,该机制是在及时使用的,每个机制的重要性并反映了在传播过程中学习的高阶连接;最后,通过n级传播更新获得了用户项目的n个隐式表示,而不同的层代表不同订单的连接信息。 KGAT可以捕获更丰富,未指定的高阶连接。
张[20]等。提出了一个模型,其关键想法是兴趣通信:将用户的历史兴趣用作kg中的种子,然后沿着kg连接向外扩展用户的兴趣,以形成用户在kg上的兴趣分布。最大的优点是,它可以自动从用户历史记录点击的项目到候选物品的项目自动开采可能的路径,而无需对或进行任何手动设计。
将用户U和项目V作为输入,并输出用户U点击项目V的预测概率。对于用户U,将其历史兴趣V_ {U}用作种子。在图中,您可以看到初始起点是两个,然后继续散布。给定1个单位集中的每个三倍V_ {u _ {}^{1}}的ItemV和用户U \ left(H_ {I},R_ {I},T_ {I},T_ {I} \右),相关概率是通过将V与Node h__}进行比较来分配的。
在获得相关概率之后,通过相应的相关概率来乘以V_ {U _ {U _ {}^{1}}的尾部,以相应的相关概率来求和,获得用户U对V的历史兴趣的一阶响应。 o_ {u}^{3} ... o_ {u}^{n},然后计算出关于项目V的U的特征,可以计算为融合所有顺序响应。
四个摘要
总而言之,我们主要介绍围绕建议的地图构造的详细过程,并分析困难和挑战。同时,审查了许多重要的工作,并提出了具体的解决方案,想法和建议。最后,引入了包括知识图在内的知识图的应用,尤其是在推荐的字段,可解释性和召回排序中,引入了知识图的作用和使用。
引用:
[1] Kim S,OH SG。对于[j ]. HI Tech,2019年。
[2]:
[3] Ding S,上海J,Wang S等。 Ernie-Doc:长期[J]。 2020。
[4],[1] A,Ram A,Tang R等。 :bert for [j]。 2019。
[5],
[6] Sang L,Xu M,Qian S等。用[J]图。 ,2021,454:417-429。
[7] Du Y,Zhu X,Chen L等。 :meta-在冷启动[J]的图表上。 Arxiv E-,2022。
[8] Chen Z,Wang X,Xie X等。 [c] // - 第九连接,{ijcai- – 20。 2020。
[9] Wang X,He X,Cao Y等。 KGAT:[J]的图。 ACM,2019年。
[10] Wang H,Zhang F,Wang J等。 :[J]图表上的用户。 ACM,2018年。
提醒:请联系我时一定说明是从茶后生活网上看到的!