什么是数据治理?
数据治理可以理解为对杂乱、无规范数据的治理,目的就是为了让数据有序,就像是秦始皇统一度量衡一样,“车同轨,书同文“就是较早的一项数据治理工作。
治理好了有什么用?
能够方便系统间的集成,能够对企业数据统一管理,能够支持报表、数据分析、数据挖掘等数据应用。现在的数据治理工作包含了数据标准管理、数据模型管理、元数据管理、数据质量管理、数据生命周期管理等内容。
数据标准是数据治理的一项基础工作内容,数据模型依赖于数据标准用于指导数据开发工作,而数据质量也依赖于数据标准,需要根据数据标准进行各项数据质量的筛查。元数据是数据治理工作的核心和基础,它就像是将军手中的地图,能够快速掌握各个数据表的所在,以及使用情况、流向情况。
1、数据标准
什么是数据标准?
数据标准工作是数据治理中重要的基础性工作,可以定义为:是对数据的表达、格式及定义的一致约定,包括数据的业务属性、技术属性和管理属性的统一定义。
DCMM中将数据标准分为了:业务术语标准、参考数据和主数据、数据元标准、指标数据标准。
为什么要做数据标准?
为了使组织外部使用和交换的数据是一致的、准确的。
2、数据模型
什么是数据模型?
数据模型是指对现实世界数据特征的抽象,用于描述一组数据的概念和定义。
为什么要做数据模型?
为了解决架构设计和数据开发不一致,而对数据开发中的表名、字段名等规范进行约束。数据模型在数据标准和数据开发之间起到一个承上启下的作用,即数据模型需要依赖数据标准指导数据开发中的表名、字段名等标准规范的落地。
3、元数据
什么是元数据?
元数据是数据治理工作的核心和基础。元数据可以理解为表的户口簿,包括了:表名、表别名、表的所有者、主键、索引、表中的字段、表间关系等。
为什么要做元数据?
目的是建立一个数据的全景图,有了数据全景图,就可以知道有哪些种类的数据;有哪些信息系统、数据库、表、字段;数据全量是多少,增量是多少;数据分布情况;数据间流向关系等等。
4、数据质量管理
如何判断数据质量?
准确性:描述数据是否与对应客观实体的特征一致。
完整性:表中是否存在缺失记录,记录中是否存在缺失字段。
一致性:描述同一实体同一属性的值在不同的系统中是否一致。
有效性:描述数据是否满足用户定义的条件或在一定的取值范围内。
唯一性:描述数据是否存在重复记录
及时性:数据的产生和供应是否及时。
稳定性:描述数据的波动是否稳定,是否在有效范围内。
连续性:描述数据的编号是否连续
合理性:描述两个字段之间的逻辑关系是否合理。
为什么要进行数据质量的工作?
为了让报表、分析、应用更加准确。
怎样做数据治理?
制定数据标准是开展数据治理工作的前提和基础。做数据质量检查时,参考的规则就来自于数据标准,做数据清洗时参考的清洗规则也来自于数据标准。数据标准要根据企业要求及业务变化进行实时更新。
数据治理工作的开展,需要成熟软件平台的支撑,如数据质量管理系统、元数据管理系统、数据标准管理系统、数据安全管控平台、数据资产中心。
数据治理是一项长期的工作,面对复杂的系统现状,需要整体规划,分步实施,突出重点,逐步推广。可以从业务最关心的数据、最重要的数据入手,逐步推广。
上一条:Prism Mac特有功能
下一条:数据建模规范