知识图的讨论记录08丨小教授Yanghua教授将带您了解知识图的质量控制

2025-04-13 01:02:18发布    浏览4次    信息编号:207887

平台友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。

知识图的讨论记录08丨小教授Yanghua教授将带您了解知识图的质量控制

知识图是一个大规模的语义网络,已成为大数据时代知识工程方面的代表性进步。

知识图技术是实现机器认知智能并促进各种行业的智能发展的关键基本技术。 Fudan大学的Xiao 教授策划的“知识图:概念和技术”在中国进行了许多巡回演出,并获得了参与者的一致赞美。

本课程的主要目的和目的是系统地说出与知识图有关的知识,以便学生可以系统地了解知识图的理论和技术。该成绩单来自本课程中教师与同学之间的讨论。

让我们通过第八个课程的“知识图质量控制”中的15个基本讨论来进一步学习并理解知识图技术的内部故事。您可以在本文末尾查看更多章节重点介绍评论。

本课程的教科书“知识图:概念和技术”。

/以下是课程“知识图质量控制”课程的第八章讨论的笔录//

1丨质量评估的维度是多少?知识图的特征是什么?

同学的代表答案:

准确性:检查知识图中各种知识的准确性;

能力:检查知识图中的知识表达是否一致;

完整性:检查知识图涵盖某个领域知识的程度;

及时性:检查知识图中的知识是否是最新知识。

2丨常见的质量评估方法是什么?如何单独评估?

同学的代表答案:

答案1:

准确性:检查仅是地图中各种知识的准确性;

一致性:知识图中的知识表达是否一致;

完整性:知识图涵盖某个领域的知识的程度;

及时性:知识图中的知识是否是最新知识。

答案2:

手动抽样检测方法:现场专家进行采样质量测试和评估;

一致性检测方法:通过专家预先开发的一致性检测规则来检测知识图中的知识冲突;

基于外部知识的比较评估方法:与目标知识图作为基准数据的高质量外部知识源,以执行目标知识图的质量检测。

3丨在知识图的整个周期中,质量控制可以发生哪些链接?

同学的代表答案:

答案1:在整个知识图构造的整个周期中:前,中和背部。

答案2:数据源,知识获取,知识整合,质量维护。

答案3:施工前:数据源;正在建设中:知识获取,知识融合;施工后:质量维护。

答案4:

质量控制贯穿整个知识图构造的周期,并涉及三个阶段的质量控制:知识图构造之前,之中和之后。

施工之前:它主要涉及数据源的质量控制,即对获取知识的数据源的质量评估和控制。

正在建设中:在知识获取手段和知识整合阶段中,主要是质量控制。

施工后:在知识图的初始构造之后,有必要进一步提高其质量并定期维持其,例如完成缺失的知识,纠正错误的知识等。

4丨什么是语义漂移?举例说明语义漂移是如何发生的。

同学的代表答案:

答案1:

语义漂移意味着在基于模式的迭代提取过程中,由于上一轮的提取误差而引入了其他语义类别的实体或跨语义类别的各个语义学实例,从而导致随后一轮中提取的实例的语义类别远离目标语义类别。例如,“”可以指“鸡”和“鸡肉”,这可能会引入beff和其他错误。以牺牲级别的发现和提取实体为例,考虑到种子集{狗,猫,马},当发现更多实例时,可能会提取这种错误结果,从而使其变得越多。

答案2:

提取自我提高迭代公式的提取最终将倾向于提取一些与目标语义类别相关的模糊含义的上下文模式,从而导致开放自动信息提取系统的提取质量降低。例如,“北京”是中国的“城市”,“华盛顿”是美国的“城市”,而“广州”是广东的“城市”。

答案3:

在基于模式的迭代形式的迭代提取过程中,某些与种子无关的实例是生成的,然后这些无关的实例再次进入迭代,并且在随后的一轮中经常生成其他无关的实例。例如,种子:“ Eason Chan唱着红玫瑰”,“绅士的歌手是Xue ”。模式:“ xxx的歌手是xxx”,“ xxx的歌手是xxx”这些模式,但是在新的关系示例中,将会有“ liu ruiqi sang” sang“ rice ”。显然,Liu Ruiqi只是封面,而不是这首歌的原始歌手。

5丨构建前质量控制的核心问题是什么?如何解决?

同学的代表答案:

答案1:

评估知识来源的质量。 数据源的质量控制主要使用信息授权作为指标,并使用其他算法等算法来评估网页(细粒度大小)。众包质量控制的粗糙粒度方法是评估众包工人的信誉,然后赋予众包工人的可信度,使他们提供的知识的可信度;一种更精细的方法是通过让多个众包工人完成相同的知识任务来确定知识的信誉,然后比较结果以确定知识的信誉。

答案2:

核心问题是衡量信息源并评估数据源的可信度;对于浅网络数据,可以通过网站URL的后缀评估网站的可信度,网页作为基本单元;深网数据可以通过数据记录之间的匹配和关联形成网络,然后使用其他算法来评估每个数据记录的可信度;可以使用黄金标准数据评估众包数据,并且可以使用冗余信息来标记正确的答案。

6丨构建知识图质量控制的具体任务是什么?

同学的代表答案:

发现和完成缺失知识的完成:最初构建的知识图通常由于所使用的知识源的不完全覆盖而缺乏大量相关知识,因此需要完成。

发现和纠正错误知识:无论质量控制在构建知识图的过程中有多严格,都将始终引入某些错误知识,并且为了避免错误知识的副作用,都需要纠正。

过期知识的更新:知识图中的知识具有及时性,并根据及时性要求更新知识。

7丨算法的核心思想是什么?

学生的代表答案:‍‍‍‍‍‍

答案1:

知识完成(实体类型完成,实体关系完成,属性值完成),知识错误校正和知识更新(错误实体类型检测,错误实体关系检测,错误属性值检测,过期的知识检测和更新)

答案2:

该算法将实体的可能谓词计为中间变量,从而推断一个实体具有某种类型的可能性。计算与每个关系相对应的头和尾部实体的概念类型的先前概率分布。对于给定的实体,请检查三重关系的关系,并根据与关系相对应的头和尾部实体的概念分布来计算实体可能概念的概率分数。

答案3:

该方法通过检查与知识图中实体相关的信息来构建一些启发式规则或概率模型。它认为,通过将实体的可能谓词用作中间变量,实体具有某种类型的可能性。

8丨完成缺失知识的方法是什么?

同学的代表答案:

答案1:

1)类型完成:基于现有词典,在线百科全书,启发式概率模型,协作过滤思想,基于功能工程的深层模型和知识表示学习思想;

2)实体关系完成:一种基于信息提取技术的方法,一种基于传统知识学习的方法以及一种基于表示学习的方法;

3)实体属性和属性值的完成:缺少属性的问题被转变为必须归因的发现问题。缺少属性值的完成方法大致分为:基于众群体的完成方法,基于搜索引擎的完成方法和基于文本的完成方法。

答案2:

基于内部知识建立关系

概率图模型: King及其衍生方法,路径分类算法和基于表示形式的模型。

基于外部数据的关系完成

直接方法是使用外部丰富文本来增强实体的表示,以提高推断缺失关系的准确性和模型。

9丨基于内部知识和基于外部知识的关系完成的关系完成的基本思想是什么?什么是经典方法?

同学的代表答案:

基于内部知识的关系完成:

1。概率图模型:将一定概率附加到知识图上的每个候选知识上,该知识用于衡量候选知识的理性,并通过概率推理发现缺失的关系。

2。路径排序算法:使用将两个实体连接的路径作为特征来预测两个实体之间的关系。

3。基于表示形式学习的模型:首先,在低维矢​​量空间中表示知识图中的实体和关系,然后在每个知识条目上定义一个基于三重的评分函数,并使用先前给定的知识表示形式作为参数,以判断三重或事实是正确的可能性。

基于外部数据的关系完成:

1。将外部信息投入隐式矢量空间:使用外部丰富文本来增强实体的表示,以提高推断缺失关系的准确性。

2。明确利用外部信息。

10丨知识图的属性值完成与关系数据库的属性值完成之间有什么区别。明确众包的设计原则是什么?

同学的代表答案:

答案1:

关系数据库用于存储关系结构化数据。关系数据库需要统一和严格的数据库来设计数据库模式,但是数据库中数据本身的正确性对数据库并不重要。知识图存储人类认可的知识。它并不严格要求统一的模型和严格性,但需要极高的知识本身。

答案2:

完成对象不同:

知识图的属性值完成可以被视为许多小型关系表的缺失属性值完成。关系数据库的属性值完成通常是单个关系表中缺少的属性值,并且该结构相对统一和简单。

缺席了吗?

知识图的缺失属性值是隐式的,而关系数据库的缺少属性值是显式的。

完成要求不同:

知识图通常不需要严格要求模式是否统一和严格,但是需要高质量的知识本身。关系数据库需要数据库的统一模型设计,但是数据库中数据本身的正确性对数据库并不重要。

11丨典型规则的注册以确定属性是否丢失?

同学的代表答案:

属性的重要性是指在同一概念下的其他实体,指代属性值的相似实体,模式匹配和部分完整性。

12丨检测错误实体类型的典型方法是什么?

同学的代表答案:

答案1:概念相互排斥,根据知识图中的知识推断可能是错误的实体类型。

答案2:通过挖掘协会规则,我们可以找到相互排斥的概念对判断的概念对。

13丨知识图更新的方法是什么类型?

同学的代表答案:

基于更新频率预测的更新机制,基于时间标签的更新机制以及基于热门事件发现的更新机制。

14丨基于热事件发现的更新机制的基本思想是什么?如何专门实施?

同学的代表答案:

答案1:

知识图中经常更新的知识通常来自一些流行实体,而流行实体的信息更新通常发生在热门事件或热词中。该机制实时监视互联网上的热门单词,标识流行实体,并将其百科全书信息信息同步到知识库中。四个步骤:种子实体发现,种子实体更新,实体扩展和扩展实体更新。

答案2:

通过互联网可以找到一些热门单词。可能来自热门新闻的实体被视为种子实体,并与知识库同步。与它们相关的实体是通过Baidu百科全书页面找到的,然后对其进行了评估。需要更新的相关实体是什么。然后,他们将对预测变量进行排序,以每天在此列表中的实体上进行一定数量的更新。

15丨基于时间标签的更新机制的常见约束是什么?

同学的代表答案:

时间分离约束,时间序列约束,时间跨度约束。

老师小扬华:

每个人的答案都很好,并且有很多细节。我希望每个人都能深入研究。这次讲座和以前的许多讲座都是当前的研究热点。我建议您仔细学习。让我问您是否有任何学生发现一些值得从这两个讲座中学习的问题,或者值得您作为硕士和博士学位论文的研究。让我问您另一个问题:建设后的两项关系完成任务与在建筑阶段的关系获得之间有什么区别?

一些学生回答:是否有一种方法可以自动发现知识图的缺失或错误知识,然后自动重新绘制并补充它,包括依次优化提取,以使提取不会犯类似的错误。

Xiao老师评论说:您在谈论的是缺少识别问题或不正确的身份。本书中讨论了错误识别,例如使用搜索引擎测试每个事实。但是似乎没有注意到丢失的识别。每个人有什么办法吗?

同学回答:与同一类别的实体相比,如果其他实体没有属性的实体,则可能丢失了?

Xiao评论说:是的,最简单的方法是使用它,即实体类别模板,该模板在模板中具有属性列表,但即使如此,它也可能还不完整。一方面,某些属性是合理的,但不必要。例如,爱因斯坦一定有一个十二生肖,但我想所有知识库中都没有这样的信息,因为由于他的十二生肖,普通人关心爱因斯坦。爱因斯坦一定有父母,但是除非他的父母出名,否则您将不会关心这些信息。因此,这种缺失的识别并不是一个简单的事情。一种方法是构造诸如爱因斯坦星座之类的搜索,以查看搜索引擎是否具有搜索记录和相应的网页。如果没有或很少,则此属性可能是不必要的。这个问题仍然有很多机会,您可以深入思考。

(超过)

书籍建议

知识图:概念和技术

由等人编辑。

本书努力涵盖与知识图有关的基本概念和关键技术,并总结了十几个知识图工程项目的实施经验。

本书围绕知识图紧密旋转,突出了知识图和相关学科之间的差异,并清楚地定义了知识图和每个分支学科之间的根本差异。本书重点介绍了知识图的整个知识系统,并提供了最基本的概念,基本理论到设计,技术,模型和方法的全面介绍。

(扫描QR码以了解有关本书的更多信息)

研讨会成绩单的评论

如果您喜欢这篇文章

欢迎阅读丨留言丨连续三个朋友分享

同城信息网

提醒:请联系我时一定说明是从茶后生活网上看到的!