取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
数据工程之数据质量和治理
来源:数据驱动智能  作者: 王建峰 2024-04-07 15:14:30
数据质量是保证数据准确、完整、新鲜、可靠并适用于组织需要处理的业务需求。投资于数据质量将节省大量时间和精力,并防止出现任何错误情况。

数据质量是保证数据准确、完整、新鲜、可靠并适用于组织需要处理的业务需求。投资于数据质量将节省大量时间和精力,并防止出现任何错误情况。

不同类型的数据质量检查可以是

a.空值检查(例如,如果发现某个可选项目为空并且需要它进行分析)

b.数量检查(例如,如果发现行数远高于预期)

c.数据类型检查(例如,文件可能没有期望的正确列顺序)

d.范围检查(例如,交易价值超出预期)

e.类别检查(例如,可能有一个不存在的州缩写)

f.新鲜度检查(例如,几分钟前发生的交易未注册)

g.唯一性检查(例如,确保没有重复的行)

h.引用完整性检查(例如,确保外键与其他表中的主键匹配)

如何实现数据质量

通知系统

需要有一个设计为在违反任何数据质量检查时发送通知的系统,例如 Slack 通知。

数据质量仪表板

构建仪表板来显示数据质量检查结果,例如容量测试和范围检查。

数据质量运算符

预构建的运算符自动隐含到数据处理管道中,以确保一切就位。

什么是数据治理

数据治理是指定义数据控制、访问和标准化策略的过程,以随着时间的推移提供安全性和有效性。指定数据管理员负责数据质量和这些策略的执行,并且数据沿袭用于在整个数据生命周期中跟踪源到目的地。

数据治理框架有 3 个主要组成部分:

1.政策

需要实施某些政策(例如数据安全法)以确保制定的规则,或者也可以制定组织级别的政策来实现一般合规性。

2.规则

数据保护 -敏感数据必须像 SSN 一样受到保护

治理 -应根据时间和内容授权访问

3.分类

业务类别——例如:不同业务领域的利用率衡量方式不同

数据类别 —例如:元数据、主数据、分析数据、业务数据、参考数据

如何实施数据治理

为了实施数据治理框架,需要构建以人为中心的方法,因为人们应该能够对他们管理的数据负责。治理框架应根据应用策略的进展进行迭代细化。

数据治理可以通过 3 种不同的模式来实现:集中式、分散式、混合式

为了实施数据治理策略,需要采取几个步骤:

1. 识别现有数据并确定优先级:

对数据进行分类并为现有数据创建元数据和数据目录

2. 准备和转换元数据

创建数据字典模板,并清理和转换组织各部门的数据形式。

3. 选择并构建治理模式

选择上述任何合适的模型,并开始实施数据的存储、维护和处置方式。

4. 建立政策分发流程

提供适当的培训,并让所有团队在制度、流程以及使用指南和限制方面达成共识。

5. 识别潜在风险

根据即将推出的安全策略保持数据最新,以安全地存储数据并限制对数据的访问。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:乔帅臣
关键词:   数据质量  数据工程  数据存储 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。