数据质量是保证数据准确、完整、新鲜、可靠并适用于组织需要处理的业务需求。投资于数据质量将节省大量时间和精力,并防止出现任何错误情况。
不同类型的数据质量检查可以是
a.空值检查(例如,如果发现某个可选项目为空并且需要它进行分析)
b.数量检查(例如,如果发现行数远高于预期)
c.数据类型检查(例如,文件可能没有期望的正确列顺序)
d.范围检查(例如,交易价值超出预期)
e.类别检查(例如,可能有一个不存在的州缩写)
f.新鲜度检查(例如,几分钟前发生的交易未注册)
g.唯一性检查(例如,确保没有重复的行)
h.引用完整性检查(例如,确保外键与其他表中的主键匹配)
如何实现数据质量
通知系统
需要有一个设计为在违反任何数据质量检查时发送通知的系统,例如 Slack 通知。
数据质量仪表板
构建仪表板来显示数据质量检查结果,例如容量测试和范围检查。
数据质量运算符
预构建的运算符自动隐含到数据处理管道中,以确保一切就位。
什么是数据治理
数据治理是指定义数据控制、访问和标准化策略的过程,以随着时间的推移提供安全性和有效性。指定数据管理员负责数据质量和这些策略的执行,并且数据沿袭用于在整个数据生命周期中跟踪源到目的地。
数据治理框架有 3 个主要组成部分:
1.政策
需要实施某些政策(例如数据安全法)以确保制定的规则,或者也可以制定组织级别的政策来实现一般合规性。
2.规则
数据保护 -敏感数据必须像 SSN 一样受到保护
治理 -应根据时间和内容授权访问
3.分类
业务类别——例如:不同业务领域的利用率衡量方式不同
数据类别 —例如:元数据、主数据、分析数据、业务数据、参考数据
如何实施数据治理
为了实施数据治理框架,需要构建以人为中心的方法,因为人们应该能够对他们管理的数据负责。治理框架应根据应用策略的进展进行迭代细化。
数据治理可以通过 3 种不同的模式来实现:集中式、分散式、混合式
为了实施数据治理策略,需要采取几个步骤:
1. 识别现有数据并确定优先级:
对数据进行分类并为现有数据创建元数据和数据目录
2. 准备和转换元数据
创建数据字典模板,并清理和转换组织各部门的数据形式。
3. 选择并构建治理模式
选择上述任何合适的模型,并开始实施数据的存储、维护和处置方式。
4. 建立政策分发流程
提供适当的培训,并让所有团队在制度、流程以及使用指南和限制方面达成共识。
5. 识别潜在风险
根据即将推出的安全策略保持数据最新,以安全地存储数据并限制对数据的访问。