大型模型年龄:数据质量管理
2025-04-13 00:02:30发布 浏览6次 信息编号:207876
平台友情提醒:凡是以各种理由向你收取费用,均有骗子嫌疑,请提高警惕,不要轻易支付。
大型模型年龄:数据质量管理
大型模型的三个要素之一是数据。没有数据作为基石,就不会出现大型模型。
大型模型的预培训是在无标签数据集上训练模型。目的是让模型学习自然语言的基本表达,上下文信息和语义知识,并为后续任务提供一般而丰富的语言表示基础(一次学习整个网络数据)。那么数据质量管理尤其重要。
1。数据质量管理
数据质量管理主要用于解决“数据质量的当前状态,谁将改进,如何改进以及如何评估”的问题。数据质量也是数据治理过程的核心,并且与后续任务的准确性有关。
可以说,高质量数据是所有数据应用程序的基础。大型型号也是如此。高质量的数据将导致高精度的大型模型。
1.1数据质量问题的来源
在进行数据质量管理时,第一件事是数据质量问题的来源。技术,管理,流程等有很多原因。质量问题的原因通常很复杂。
我已经阅读了很多信息,而且几乎相同:
当业务流程或系统变化时,如果数据过程或数据模型未正确更新,则可能会导致数据质量问题。
在数据开发过程中,如果存在编程错误或逻辑错误,则数据可能不准确或不一致。
如果处理数据所需的硬件资源(例如存储,内存,CPU等)不足,则可能会影响数据处理的效率和质量。
如果支持数据存储和处理的基础架构(例如数据库,网络等)是不稳定的,则可能会发生数据丢失或处理错误。
2。如何提高数据质量
在数据质量管理方面,必须有数据质量评估的标准。使用此标准,我们可以知道如何评估数据质量,量化数据质量,并知道改进的方向以及如何评估改进效果。目前,该行业认可的数据质量标准如下。
(1)准确性:描述数据是否与其相应目标实体的特征一致。例如:用户的地址准确吗?某个字段规定它应该是英语字符,以及是否有乱码的代码。
(2)完整性:描述数据中是否缺少记录或缺少字段。例如:一个字段不能为空或空。
(3)一致性:描述同一实体的相同属性值是否在不同系统中是一致的。例如:男人和女人是否在不同的图书馆表中使用相同的表达方式。例如,在系统A中,男性表达为1,女性表达为0。在系统B中,男性表达为m,女性表达为f。
(4)有效性:描述数据是否符合用户定义的条件还是在一定值范围内。例如:年龄范围在0到200之间。枚举有效性的另一个例子是银行的货币代码。
(5)唯一性:描述数据中是否有重复的记录。例如:ID号无法重复,无法重复学生编号。
(6)及时性:描述数据是及时生成和提供的。例如:生产数据必须在2:00 AM存储在ODS(存储,操作数据层)中。
(7)稳定性:描述数据的波动是否稳定以及它们是否在其有效范围内。例如:产品质量采样统计数据的通过率不会超过20%。
(8)连续性:描述数据的数量是否连续。例如:当相关部门处理环境违规时,案件的数量必须是连续的。
(9)合理性:描述两个字段之间的逻辑关系是否合理。例如:企业的取消时间必须比注册时间晚,并且自然人的死亡时间必须比出生时间晚。
以上数据质量标准只是一些常见的规则,也可以根据客户数据和业务需求的实际情况进行扩展,例如跨标签数据质量验证等。
3.1数据质量构建
有了数据质量的评估标准,我们可以将其用作校正数据以提高数据质量的参考。那么如何实现基于任务的数据质量标准?这是数据质量构建的方法 - >质量审核
在数据处理任务中,根据业务规则为输出表设计了一些验证逻辑,以确保数据的完整性,一致性和准确性。这是提高数据质量的最有效方法。
通常建议您在完成数据输出任务并扫描并计算数据结果后开始审核验证任务,以确定它们是否符合规则的期望。如果不满足,将根据预先设定的强度和弱点规则触发不同的处理程序。
如果这是一个强大的规则,则任务处理链接将立即终止。随后的任务将不会执行,并且将立即发出电话警报。我们甚至要求必须打开关键任务,直到声称故障为止。如果这是一个薄弱的规则,则任务将继续执行。
但是,有风险。这些风险将通过电子邮件或短信通知数据开发数据,该人将进一步判断风险的严重性。
3.2大型型号赋予数据质量构建
以上是针对提高数据质量的一些措施。
有必要根据每个任务的数据质量评估标准来安排审核任务,并且在安排完成后,需要在表字段中进行检查。
整个过程非常麻烦,如果您不知道数据,那么如果您想要高质量的数据,则必须经过质量标准过程。
因此,考虑是否可以使用大型模型检查数据质量。
大型模型根据一般质量规则数据进行微调,并且该流程与知识库结合设计。最后,微调的大型模型用于审核数据。
(1)大型型号调整
数据质量标准是大数据领域中的特定数据。
因此,可以将数据质量标准标准制成问答对,并且可以对一般的大型模型进行微调以允许他们掌握数据质量的标准规则。
一般而言,最一般的质量标准可以进行微调。
(2)知识库
如果数据来自不同的情况,则数据的判断是不同的。您可以将自己的业务领域和数据质量的特定标准嵌入到知识库中,从而为大型模型提供准确的答案。
如何学习大型AI?
由于新职位的生产效率优于替换职位的生产效率,因此整个社会的生产效率实际上得到了提高。
但是对于个人而言,只能说:
“掌握AI的人以后将具有竞争优势。”
该句子在计算机,互联网和移动互联网的开头是相同的。
我在一线互联网公司工作了十多年,并指导了同龄人的许多年轻一代。帮助许多人学习和成长。
我意识到,有很多值得与所有人共享的经验和知识,我们还可以通过我们的能力和经验来回答我们在人工智能学习中的许多困惑,因此,当我忙于工作时,我仍然坚持以各种方式进行分类和分享。但是,由于知识传播的渠道有限,互联网行业中的许多朋友无法获得正确的信息来学习和改进。因此,他们将共享重要的AI模型材料,包括AI模型介绍学习思维地图,高质量的AI模型学习手册,视频教程,实践学习和其他录制视频。
第1阶段(10天):初始应用
这个阶段使每个人都对大型AI有一个最先进的理解。在相关讨论中,超过95%的人可以表达高级,非跟踪和脚踏实地的见解。其他人只能与AI聊天,您可以通过代码培训AI并将大型模型连接起来。
第2阶段(30天):高级申请
在此阶段,我们正式进入了大型AI的先进实践学习,学习构建私人知识基础并扩大了人工智能的能力。迅速开发一个完整的基于代理的对话机器人。掌握最强大的大型模型开发框架,并掌握适合程序员的最新技术进步。
第3阶段(30天):模型培训
恭喜,如果您学到了这一点,您基本上可以找到与大型AI相关的工作,并自己培训GPT!通过微调,训练自己的垂直大型型号,您可以独立培训开源的多模式大型模型并掌握更多技术解决方案。
到目前为止,大约花了两个月。您已经成为“ AI男孩”。那你还想探索吗?
第4阶段(20天):商业闭环
在性能,吞吐量,成本等方面对全球大型模型有一定的了解。您可以在云和本地等各种环境中部署大型模型,找到适合您的项目/企业家方向,并成为由AI武装的产品经理。
学习是一个过程,只要您学习,就会面临挑战。上帝奖励辛勤的工作。您努力工作的辛勤工作,就会变得越好。
如果您可以在15天内完成所有任务,那么您就是一个天才。但是,如果您可以完成60-70%的内容,那么您已经开始具有正确的特征来成为大型AI。
大型AI学习材料的完整版本已上传到CSDN。如果需要,可以在下面扫描官方CSDN认证QR码以免费接收[保证100%免费]
提醒:请联系我时一定说明是从茶后生活网上看到的!