Daguan数据知识图技术和应用的详细说明
2025-03-18 04:03:16发布 浏览9次 信息编号:196314
平台友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。
Daguan数据知识图技术和应用的详细说明
▌1。知识图的概述
让我们首先看一下知识图。下面有一个图。从此图中,我们可以看到该图中的圆圈是一个节点,并且有一些边缘在节点之间连接的箭头。该节点实际上等于知识图中的实体或概念,而边缘连接表示实体之间的关系。
知识图本质上是一个大型语义网络,旨在描述客观世界及其关系中的概念实体事件。将实体的概念作为节点和关系为边缘,它提供了一种从关系的角度看待世界的方法。
语义网络不再是新的,它们早在上个世纪就出现了,但是为什么要再次提到知识图呢?
知识图本质上是一个语义网络,但其主要功能是一个非常大规模的语义网络。以前的语义网络受我们的处理方法的限制,并且更多地基于要构建的专家经验规则,并且受到规模方面的数据限制。对于大规模网络,在2012年首次提出了知识图的概念,并在此基础上从扩展了大量的物理和关系数据。据说,实体的数据已达到数十亿个级别,实例关系数百亿美元,而且规模非常巨大。
让我们看一下知识图在其背后的表示。我们看到的是一个巨大的语义网络,它如何存储或在其后面表示?
首先,它由三元组成。知识图的核心实际上是三倍。三倍由实体,属性和关系组成(由,,,)。
特定的表达方法是实体1与实体2或实体属性或属性单词之间存在一定的关系。
例如,“ 数据是人工智能公司”,实际上可以将其表示为三重:
。
“人工智能公司是高科技公司”可以表示为:
。
“ 数据成立于2015年”,此属性也可以表示为三重,也就是说:
。
根据现有的三元组,它可以推断出新的关系,这对于构建知识图非常重要。我们知道,知识图必须具有丰富的实体关系,才能真正实现其实际价值。仅依靠手动工作是不现实的,因此必须有一种自动推理机制,可以在其中不断推导新的关系数据,并且可以不断地富集知识图。
让我们看一些具体的例子。
“人工智能公司是高科技公司”,关系。
是一家AI公司还有三倍,它可以从这两个三元组中得出,是一家高科技公司。因为实例之间存在继承关系。
,可以得出。
为什么要使用三元组来描述知识图?
三重结构是一个人和计算机都很容易理解的结构。人们可以解释它,并且计算机也可以通过三倍进行处理。因此,这是一个容易被人类解释并通过计算机处理和处理的结构。它也很简单。如果将其扩展到四尺或五管,整个结构将变得更加复杂。这是一种全面的复杂性,对人类的易用性以及计算机的合理性,可以全面考虑它,并决定将三重结构用作其存储。
那么,为什么AI需要知识图?
人工智能分为三个阶段,从机器智能到感知智能,再到认知智能。
机器智能更多地强调了这些机器的计算功能,大规模簇的处理能力以及GPU的处理能力。
在此基础上,将有感知智能。知觉智能是语音识别和图像识别。从图片中识别猫并识别脸是感知智力。感知智力不是人类所独有的,动物也将具有这种感知智力。
下一个层面的认知智能是人类独有的,是基于思考的。认知的建立需要思考的能力,而思考基于知识。您必须拥有知识的基础和一些常识,以建立一些思维并形成推理机制。
AI需要从感知智能转变为认知智能。从本质上讲,知识是一个基础,然后基于知识推理,知识图实际上具有如此属性。
知识图实际上具有丰富的信息,例如实体,属性,概念,事件和关系,并且可以基于某些推理。更重要的是,它可以根据某些推理为AI的解释性带来新的观点。
AI在某些领域(例如在医学领域)广泛使用了可解释性。如果AI没有给出合理的理由或解释方法,医生将不会轻率地使用AI给出的癌症诊断结果直接采取患者的下一步。金融领域也是如此。如果AI向投资者推荐投资计划,但没有提供任何解释或解释,将会有巨大的风险。同样,在司法领域也是如此。当使用AI来判断案件时,AI确定了案件的结果,但没有给出任何解释,因此不能作为结果使用,因为司法机构强调了法律的解释性,可解释性和合理性。
为什么知识图能够使这种可解释性做出这种解释性?
例如,我们问:“罗纳尔多为什么这么好?”
罗纳尔多为什么这么好?这是一个问题。为了解释和回答这个问题,人们通常如何回答此类问题?在上图中,您可以通过简单的知识图来回答这个问题,因为罗纳尔多赢得了金球奖奖。罗纳尔多与金球奖奖之间的关系是赢得该奖项的关系。金球奖奖与最有影响力的足球选拔奖之间的地位关系。它具有如此高的地位。罗纳尔多再次获得了这个奖项,因此可以得出结论,罗纳尔多非常棒。这是一种知识图,可以解释和回答这样的“原因”。
还有一些问题,例如“为什么鳄鱼这么恐怖?”
人类具有相同的常识。所有大掠食者都很糟糕,这是常识。鳄鱼是一只大的瘦动物,鳄鱼和大型食肉动物的概念之间存在关系。通过常识和概念之间的这种关系,推断鳄鱼是可怕的,这是可怕的。同样,“为什么鸟会飞?”因为它有翅膀,所以鸟实体有翅膀。使用实体和属性之间的关系,可以做到这样的推理。
圭港和卢汉在微博上非常受欢迎,并且经常被屏幕淹没。这是为什么?
因为关东和卢汉有男友和女友关系,所以名人之间的关系最有可能受到所有人的追捧,最有可能被屏幕淹没。这意味着您可以通过关系,实体属性或实体概念来解释和回答一些问题。这些是AI中知识图的一些特定示例。
深度学习的解释性非常差。深度学习中的语义表达和矢量表达都是浮点数,这对于人类来说很难理解。深度学习的结果也很难解释。
尽管我们现在正在研究中间的可视化技术,并展示和可视化结果,但真正实现有效的解释性影响的进步仍然相对较慢。实际上,知识图可以消除人类自然语言与深度学习黑匣子之间的语义差距。也就是说,通过深度学习和知识图的结合,预计将消除深度学习底部的特征空间与上层人士的自然语言空间之间的巨大语义差距。这也是AI需要结合知识图的原因之一。
▌2。知识图的典型行业应用简介
1。金融行业的应用。
知识图在金融行业中最典型的应用是风险控制和反欺诈。
(1)。知识图可以进行信息不一致的检查,以确定是否存在可能借款人欺诈的风险。例如,第一张图片中的借款人A和B来自不同的公司,但他们奇怪地留下了同一公司的电话号码。目前,审稿人应特别注意,因为可能会有欺诈的风险。
(2)。团体欺诈。三个借款人A,B和C在同一天从银行发起了贷款。他们是无关的人,但是他们留下了相同的地址。目前,这可能是团体欺诈。
(3)。静态异常检测意味着,在某个时间点,突然发现图中几个节点之间的连接非常接近。事实证明,彼此之间的连接更少。突然之间,几个点之间存在密集的联系,可能会发生欺诈性组织。
(4)。动态异常检测(第二行的中图)是其几个节点随时间的几个节点之间的结构的重大变化。事实证明,它相对稳定,左侧是黑色的上三角和下三角,然后是中间连接。但是,一段时间后,整个图的结构变成右侧的结构。目前,异常关系可能会发生变化,并且会出现欺诈组织。
(5)。客户关系管理。如何管理丢失的客户?图片中的示例显示了一个借贷的借款人。银行现在可能无法直接找到他,即使通过他的直接联系,他可以通过第二次联系间接地找到他吗?通过这种图形结构,您可以快速找到他的二级联系人,例如Zhang 或Wang er,然后与他们联系并尝试找到Li Si。
2。辅助信用审查和投资研究分析
左侧是辅助贷款审查。
知识图将集成多个数据源,以从多个维度维护相关人员的信息,以避免数据不完整和数据孤岛,并将其集成到大型网络结构中。在搜索知识图的帮助下,审阅者可以快速获取有关信用申请人Zhang San,地址,配偶,就业公司,他的朋友等的相关信息。这比从各种异构和分散的数据源中收集的效率要高得多,并且可以看到关键实体之间的关系。
第二个用于辅助投资研究。
知识图可以实时连接与该公司相关的上游和下游公司,包括供应商关系,竞争对手关系,客户关系,投资和融资关系等,然后快速,实时定位。 Citic 最近受到美国政府的合规性审查。目前,投资研究人员通过知识图搜索了中兴通讯的实体,然后他们可以迅速获得与中兴通讯相关的上游和下游公司实体,包括相关子公司,供应商,客户,竞争对手和合作伙伴,这帮助投资研究人员迅速做出决策。
3。精确的营销应用
知识图可以以更全面的方式录制客户非常详细的信息,包括他们的姓名,地址,他们经常与之互动的人,他们认识的其他人,哪些行为习惯和行为模式在互联网上是什么样的。这样,知识图可以挖掘出用户的更多属性标签和兴趣标签,以及社交属性标签,并形成全面的用户见解。基于知识图,可以根据用户的分组和分组来实现个性化产品或活动,或者可以进行有针对性的营销以实现精确的营销。
4。搜索引擎中最典型的知识图应用是在搜索引擎中。
是2012年第一个提出知识图的概念的人。提出此概念的主要目的是改善其搜索引擎体验。从这张照片中,您可以看到用户正在寻找泰姬陵,这是印度非常著名的旅游胜地,也是世界上八个奇观之一。
搜索引擎右侧的不同位置,与泰姬陵相关的结构化信息将以知识卡的形式呈现,包括地图,图片,图片,景点的描述,开放时间的门票等,甚至将列出与泰姬陵相似或相关的景点,例如中国的大壁,例如中国的几个奇迹。玛哈尔不仅是印度的旅游景点,而且还是一张音乐专辑,甚至是某个外国城市的邻里街道。通过这种方式,通过知识图,我们可以不断地探索和发现新的,非常新颖的事物,使用户能够不断地关联和发现搜索引擎中的知识,并刺激用户搜索的渴望。事实证明,我们的搜索引擎专注于快速找到其结果,然后将其关闭。 实际上通过知识图将搜索引擎变成了知识探索和发现引擎。这是一个很大的变化和概念和概念的升级。
5。知识图应用于推荐系统
What we are more with is , which is the so- " of " and " of faces" and " of faces" and " props for games based on the game. For users and hard- users, the are , and this is a . In to , there are also -based . For , if a user beach shoes, there is a scene where the user may必须根据这种情况去海滩去度假,他可以继续推荐泳衣,防晒霜或其他岛屿旅行和度假。
任务类型的建议。例如,如果用户购买牛肉面包卷或羊肉卷,则假设他实际上是在尝试制作锅饭。目前,该系统可以向他推荐锅底座或感应炊具。
冷启动问题。推荐系统的冷启动一直是一个困难的问题。通常的做法是根据新用户的设备类型,其当前时间和位置等或外部相关数据提出建议。您可以根据知识图的语义相关标签推荐它。例如,旅游业和摄影实际上是两个具有相似语义相似之处的标签,与同一导演或同一演员的电影在语义上也相似。
跨域推荐问题。微博的信息流将推荐淘宝的产品,但微博和淘宝是两个不同的领域。它是怎么做到的?一些新闻微博上的一些用户经常发布照片,例如黄山,柔兹哈古,陶珊等。目前,我们知道他可能是登山爱好者。目前,淘宝可以推荐他登山设备,远足杆,远足鞋等设备。利用这种背景知识,我们可以打开不同平台之间的语义差距。
基于知识的建议基于知识。例如,大学和北京大学都是顶级大学,而Fudan 也是如此。目前,您可以推荐Fudan 。例如,百度,阿里巴巴和腾讯都是蝙蝠级的互联网公司。您可以推荐基于百度和阿里巴巴的腾讯。
借助知识图,我们可以从基于行为的建议到整合行为和语义的智能建议。
▌3。如何构建知识图
构建知识图是一个循环迭代的过程,其中包括这样的生命周期或此类部分,包括定义,知识的提取,知识融合,存储,知识推理和知识的应用。
让我们首先了解本体论的概念。本体论用于描述事物的本质。 在计算机科学领域中对本体论的定义如下,即对实际存在于特定领域中实际存在的实体之间的类型,属性和相互关系的定义。
让我们看一下知识图和本体论之间的关系。在下图中,我们看到了两个层,下面的本体层,上面的事实层是基于特定领域的概念的定义,包括概念的属性,概念之间的关系以及概念之间的一般关系是父子关系,这也称为上下关系。事实层是一个具体的真实实体,包括实体的属性和实体之间的关系。每个实体将映射到本体层的相应概念。每个人彼此熟悉。让我给你一个例子。本体论层的概念就像以对象为导向的方式一样,事实层的实体就像以对象为导向的方式一样。该对象是从类得出的,并继承了类的某些属性和关系。这是本体论的概念。
为什么要谈论本体论的概念?一个更直观的例子是在模式或定义中定义知识图。这里的领域是技术。在这一技术领域,我们分为几个主题,例如互联网主题,通信主题和手机主题。每个主题都有几个概念,这些概念是下面的概念层。例如,互联网中有一些概念,例如深度学习,人工智能等,然后在交流中有智能手机等概念。在概念下方是特定的事实级别,即实体级别,例如特斯拉,苹果,华为P10等。这些都是特定的实体,然后实体之间存在关系与其继承的概念之间的关系。底层是事件层,这是整个本体层的一个示例。
让我向您介绍一个更好的开源本体论编辑工具,称为Protégé。该工具是斯坦福大学的开源。它具有非常强大的功能,也是目前最受欢迎的本体编辑工具。它具有Web版本和桌面版本。未安装桌面版本。您可以直接下载它来尝试一下。
它的好处是什么?它阻止了特定的本体描述语言,用户只需要在概念级别构建本体模型,并且它也更加灵活,并且可以支持各种插件以扩展特定功能。例如,可以根据插件扩展推理功能。但是,此工具对中文不是很友好。
以下非常重要和关键的步骤是提取知识。首先,提取实体,然后是实体之间的关系。让我们看一下NER实体的提取。我们知道可以将NER转换为序列注释问题。可以完成传统的机器学习方法,CRF等,并且CFR仍然有效。但是,CRF通常只能学习具有相邻单词的位置相对紧密的上下文特征,并且它无法获得整个句子甚至更长的上下文的特征。
包括学术界在内的行业中最主流的方法是什么?它是一个深层复发的神经网络,结合了CRF。这种方法更像是双向复发性神经网络。它可以分别从前面到后部到前后的上下文特征,然后记住并传输序列信号。这是一种相对常见的方法。
华为发布了新一代的基林处理。通过从前到后推论最后的文本,然后从后部到正面推论前文本。第一个单词“天”实际上是预测性的,并且从后到正面进行推理。顶层可以使用CRF来限制复发性神经网络的结果,并更好地控制此输出。然后,输入层通常是单词向量或单词向量,它可以将单个单词或单词转换为具有较低尺寸的密集语义向量。
让我们谈谈以下关系提取技术。有几种方法。首先是基于监督方法,将关系提取作为分类问题,并根据培训数据设计有效的功能以学习各种分类模型。这是传统的分类。这种方法的坏处是,它需要大量的手动注释培训语料库,这非常耗时且劳动力密集。因此,根据监督,提出了一种半监督方法。半监督方法主要使用该方法提取关系。具体而言,首先要提取关系,然后手动建立几个种子实例,然后迭代从数据中提取关系模板和更多关系的实例,并通过连续迭代提取更多和更多这些实例。
还有一种无监督的方法。使用具有相同语义关系的实体,一种无监督的方法本质上是一种聚类方法。它具有具有与假设相似的上下文的信息,因此它可以使用每个实体的上下文信息来表示实体的语义关系,并将实体的语义关系聚集。
在这三种方法中,监督方法可以提取有效的功能,然后在准确性和召回方面具有更多优势。通常,半监督和无监督的方法不是特别好,因此该行业现在使用更多的监督学习方法。
我们刚才提到了监督的学习方法。更困难的部分是如何获得大量的分类培训样本。显然,这不是手动标记它的好方法。
有什么好方法可以处理?远程监督的方法,一种典型的工具,也是斯坦福大学实验室中知识提取开源的系统。通过弱监督的学习方法,可以从非结构化文本中提取结构化关系数据。开发人员不需要了解其中的特定算法。他们只需要考虑概念级别的基本功能即可。然后,他们可以使用现有的域知识来推理,并可以处理用户反馈。他们可以执行实时反馈机制,这可以提高整个预测的质量。它的背后也是一种远程监督技术,只有少量的培训数据就足够了。
让我们看一下它是如何做到的。首先,您在下面看到的句子是“奥巴马和米歇尔结婚”。这是一个句子,但这是这些单词的标记。奥巴马和米歇尔都是。我们需要推测这是否是配偶关系。目前,我们需要知道:奥巴马和米歇尔与知识图中的特定实体相对应,看看这两个实体在知识图中是否有配偶?如果是这样,请将其作为阳性训练样本,如果不是,则是负样本。前提是,知识图中实体之间的关系是正确的,并且基于此,进行了示例注释。
目前,有两种提取实体关系的主要方法。一个基于管道提取。输入句子,首先提取实体,然后成对组合实体,然后对其进行分类,最后确定实体之间的关系。这种方法的缺点。首先,很容易引起错误传播。例如,如果在第一步中错误地确定实体,那么随后的关系肯定是错误的。其次,不需要冗余信息,因为该实体需要成对配对,然后在关系中进行分类。实际上,许多对之间没有这种关系,也就是说,它会带来如此多的冗余信息,并且错误率将被放大和增加。
现在使用更频繁使用的另一种方法是联合学习方法。通过实体识别和关系提取的联合模型输入句子,您可以直接获得有效的三重。通常,我们学习基于神经网络的联合注释学习方法,其中涉及两个关键任务:一个是模型参数共享的问题,另一个是注释策略,如何有效注释。模型共享是指实体培训期间执行实体识别和关系分类的能力。它们将通过反向传播匹配关系分类,然后同时意识到这两个参数与两个子任务之间的依赖性之间的依赖性。参数共享的方法本质上是两个子任务,这仅意味着通过参数共享两个任务之间存在相互作用,在培训期间,必须提前执行实体识别。识别实体后,预测信息是匹配的,以对关系进行分类,因此在没有关系时仍会生成冗余信息。
现在,我们提出了一种用于端到端序列标签的新策略,将涉及序列标签和分类的原始两个任务转变为一个完整的端到端序列标记问题。通过端到端的神经网络模型,我们可以直接获得关系三胞胎,即实体关系的三胞胎。
新的注释策略由下图中的三个部分组成。第一部分是单词在实体中的位置。例如,b表示开始,i表示实体的内部,e表示实体的末端,而s代表单个实体。第二部分是关系类型的信息,以及预定义关系类型的编码,例如其中的CP和CF。 CP是该国总统,CF是公司的创始人。这两个关系是:关于实体角色的信息,这意味着它是实体1或实体2?实体之外的所有其他字符和关系都由O表示,因此该实体已被标记。
接下来,让我们谈谈实体的融合。这里最重要的是实体的一致性。
首先,实体对齐(也称为实体归一化)是使具有不同标识符的实体归一化,但是在现实世界中,它可能表达相同的含义并使其正常化。例如,中国人民共和国,中国和中国,这三个指的是同一实体。尽管它们以不同的方式表达,但它们将其标准化为具有全球唯一标识的实例对象,然后添加到知识图中。
如今,通常采用一种聚类方法。关键是要定义一个阈值以获得适当的相似性。通常,我们从三个维度进行顺序检查它。首先,我们将从角色相似性的维度开始。假设是,具有相同描述的实体更有可能代表相同的实体。第二维是从属性相似性的角度来看,即具有相同属性和属性单词之和的实体可能代表相同的对象。第三维是基于以下假设:具有相同邻居的实体更有可能从结构相似性的角度指向相同的对象。
当融合时,我们应该考虑每个数据源的数据的可靠性以及每个不同数据源中出现的频率,以全面确定要选择的类别或属性单词。另一种方法是使用ld()。 LD是很多手动标记的数据,这是非常准确的。有一种称为猫头鹰的关系,这意味着第一个和最后两个是相同的实体。 Using this as data to more pairs is a . , it is said that no which is used, it 100% , so it also and .
is how to a . From the level, we have graph , NoSQL , and . There are many for . Under what we what kind of ? , if the of the graph is very and has many , it is to use this graph , such as a like Neo4J. thing is that its is not very . The may be 1 or 2 . More of it is data with a lot of . At this time, you can the or like ES. If you want to the , and of the graph, you can NoSQL , such as TiTan. to , they are used in . to our , we will Neo4J and ES to use it in , and also this MySQL, etc. to the types to the of data, than graph .
By the way, let's learn about graph . Titan, Graph, and Neo4J are all open . Titan is owned by its own, Graph is MIT, and Neo4J is open of GPL, both and open free . Then their , like Titan is Linux, Graph is. The level of data, such as Titan, is back-end . It is based on such as /Hbase/BDB, can a data and a data size; Neo4J can also a tens of of , but when its non- is large, it may have some when it is tens of of .
Let's take a look at . There are for . First, it is based on . The of the we above, such as the RDF on the left, has a , and then based on .
This is an of based on OWL. this is based on OWL . The most OWL tool is Jena. Jena 2 rules-based . Its the ( ) into Jena. When the model, the is with the model to .
There is also a of based on (PRA), which is a more . The idea is , which is to build a using paths two as to the them.
For , in the on the left, we need to his is a . What is the known in this ? He wrote a novel, which wrote a novel, Jane Eyre, and then the story of the Twin is also a novel. wrote the novel, the story of the Twin . is a , and his 's is also a . , based on the the , the that can be with a is to be a . This is to build a based on the of the the to make . The for of PRA walk, and depth , the walk, that /not , and the of the paths. The of the PRA are its and , but its are also . There are three main : first, it is to data with , , it is to low , and , it is the low and time- path .
There are also based on , such as the Trans model, which based on this model. The idea of this model is also . It each word as a , and then an the .比如上面这个图里面的北京中国,然后类比巴黎法国,就是北京加上首都的关系就等于中国,然后巴黎加上的关系等于。所以它是无限的接近于伪实体的embed]ding。这个模型的特点是比较简单的,但是它只能处理实体之间一对一的关系,它不能处理多对一与多对多的关系。
后来提出了的模型了,实际上是解决了上面提到的一对多或者多对一、多对多的问题,它分别将实体和关系投射到不同的空间里面。一个实体的空间和一个关系的空间,然后在实体空间和关系空间来构建实体和关系的嵌入,就对于每个元组首先将实体空间中实体通过Mr向关系空间进行投影得到hr和Tr,然后Hr加上r是不是约等于或者近似的等于Tr,通过它们在关系空间里面的距离,来判断在实体空间里面,H和T之间是不是具有这样的关系?
除了、,还有更多的Trans系列的,像、、等等这些模型。清华大学的自然语言处理实验室发布了一款这个叫的平台,它是开源的知识表示学习的平台,是基于的工具包来开发的。它整合了Trans系列的很多算法,提供统一的接口。它也是面向了预训练的数据来表示模型的。
最后介绍一种基于深度学习的推理模型,这个模型利用了卷积神经网络对实体进行关系的分类的,把句子的依存树作为输入,就是将词在树中的不同的位置的嵌入式的表示拼接到这个词向量当中来学习,同时对面相树结构设计了独特的卷积核。这种方法在实体分类的任务上,相较于未使用位置关系的信息,效果会有一定的提升。
▌四、达观经验与案例
1.知识图谱在达观的知识问答当中的应用
我们的智能问答是融合了是知识图谱问答和基于检索的问答两种方法进行融合。
首先,左边会把用户的语音经过语音转成文字以后,进行一个预处理,预处理主要是做了分词、纠错、词性标注、实体属性的识别,对这个句子进行依存句法树的结构分析。
预处理完了以后,引擎会首先尝试根据问句的句法结构进行问句模板的匹配,如果说能够匹配到合适的问句模板,这个时候再根据在预处理阶段得到的问句的实体属性和关系,对匹配到的问题模板进行实例化,然后再根据实例化以后的问句模板来生成知识图谱的图数据库的查询语言,然后在图数据库里面就可以把这个答案查出来了。
另外一种情况是没有匹配到合适的问句模板,这个时候会进入到基于检索的问答模块,最后是把基于知识图谱和基于检索的两种的结果进行融合。
2. 在HR人岗精准匹配里面的应用
HR创建的JD能够自动的匹配到简历库里面最合适的候选人的简历,也即把JD的内容和简历库里面简历的内容做语义的匹配。
这里有一个问题,JD对技能的描述和不同的人的简历中对技能的描述存在很多表达方式造成的语义方面的差异。我们分别对JD和简历构建技能图谱,通过技能图谱的子图匹配,就可以比较好地来解决语义匹配的问题。
我们在知识图谱建设当中的一些经验:
最后给大家介绍中文开放知识图谱,达观数据也是中文开放知识图谱发起单位之一,这里面有很多开放的数据和开源的工具,其中的文章也是非常好的学习材料。
下面是自由提问环节。
Q:用知识图谱来做反欺诈,和深度学习的方法相比,或者是其它机器学习的相比,知识图谱是否有优势?
A:反欺诈是整个风控流程中的一个非常重要的环节。其主要难点在于如何基于大数据把多个不同来源的数据(内部、外部,格式化、非格式化)有机整合在一起,并对这些数据之间的各种复杂且动态变化的关系进行建模,从而构建起一个反欺诈引擎。知识图谱作为关系的直接表示方式,可以提供一种非常直观的可视化的手段以及内部的推理机制来有效地分析各种复杂关系下可能存在的潜在风险。
我们知道深度学习的表示是基于一种低维稠密的数值向量,模型本身是一个“黑盒”,我们无从知道内部的各种特征的非线性组合是如何形成的。相比于知识图谱,深度学习的不可解释性是最大的缺点。此外深度学习要真正达成效果,需要依赖已经标注过的大样本数据进行训练,但在很多领域(包括反欺诈)这样的数据获取门槛极高。
当然,深度学习和知识图谱也是不完全互斥的,知识图谱的构建中的实体、属性、关系抽取等关键过程也会用到深度学习的循环神经网络等自然语言处理技术。
Q:知识图谱的查询跟关系数据库的查询感觉都一样,这两个有什么样的关系?
A:在关系型数据库里面,如果要联合多个表执行复杂查询,特别在数据量比较大的情况下是非常慢的。如果涉及到多种很复杂的关联关系,图数据库是比较好的选择。图数据库基于图的遍历,内置对图搜索的优化算法,可以非常快速进行子图的搜索。相较于传统的关系数据库,其性能会有多个数量级的提升。
Q:纯文本怎么进行抽取?
A:关于抽取,我在前面讲到了有很多的方法,包括实体抽取里面有NER的方法,NER有传统的CRF的方法,有基于循环神经网络+CRF的方法,也有端到端的联合标注的抽取方法,这种方法同时输出实体和实体之间关系的三元组。
Q:知识图谱怎么和其它算法相结合,应用在搜索推荐上面?
A:在搜索里面,更多的是基于知识图谱去回答问题,它可以对query所表达的实体和属性进行识别,比如查询“华为P10手机的内存是多少?”这就是实体属性值的查找。华为P10是实体,内存是P10这个实体的属性,对应到知识图谱里面,可以快速定位到这个实体叫P10,就可以直接把P10的内存(属性值)返回出来,就可以直接给出64G或32G这样的答案。
Q:实体有哪些属性是怎么定义的?
A: 从如何定义的角度看,主要有两种方法,一种是自上而下的方法,比如我们进行模式()定义的时候,首先会对其中的各种概念进行定义,概念有哪些属性,概念之间的关系是什么样的。后面抽取的各个实体都会映射到模式层的一个概念上去,实体会自动继承所属概念的属性。还有一种是自下而上的方法,实体的属性是从原始数据中不断抽取提出来的,并对不同数据源的属性与属性值进行融合(归一化)。实际使用中,这两种方法往往是同时使用互相补充的。
Q:知识图谱中的时间和空间关系怎么表达?
A:知识图谱表达的是动态的数据,比如美国总统是特朗普对吧?现在是的,但三年前不是,五年后也不一定是。随着时间的推移,它的三元组的关系是会有变化的,那这个时候怎么样去表达?通常是在三元组的基础上再扩展一个维度形成四元组这样的做法,但是它会大大增加系统处理的复杂度。也有一些其他的方法,比如可以是跟关系数据库相结合的方式进行扩展。
Q:如何衡量一个知识图谱建立以后的效果?如何有效的进行学习改进?
A:我们建立一个知识图谱,建立一个机器学习的算法模型,对它的效果进行衡量度量是非常关键的。在知识图谱这里,一定是基于某个场景具体的应用,然后再看这个场景或者这个具体的应用使用了知识图谱以后跟原来的做法来做一个比较,或者有一个管理后台,人可以定期对知识图谱系统的推理和计算的结果做一些检测和验证,然后对这些验证的结果再反馈到这个系统里面去,让系统重新来进行学习、改进,建立人跟系统之间不断的反馈、验证和自动学习的过程。
Q:可不可以用知识图谱进行分类?
A:这个问题很有意思。上面提到,一方面我们可以基于分类的方式来做知识图谱中实体关系的学习。另一方面,我们是否可以利用知识图谱辅助进行文本的分类?这样方面我们有一些经验。对于文本分类中的特征工程,我们的做法是通过知识图谱进行语义的关联扩充以获取更多的语义特征,尤其是对于短文本,对分类效果能有比较好的提升。
提醒:请联系我时一定说明是从茶后生活网上看到的!