Ebpay

    睿治

    智能数据治理平台

    睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

    在线免费试用 DEMO体验 视频介绍

    数据治理-从理论到实践(一)

    时间:2019-08-07来源:CSDN浏览数:1297

    数据治理范围
    一、背景概述
    1.数据治理
    由于切入点和侧重点,业内给予了不同的见解。
    广泛认可标准:DMBOK、COBIT 5、DGI、和IBM数据治理委员会的定义。
    明确数据治理的目标
    理解数据治理的职能
    把握数据治理的核心
    数据治理遵循过程和规范
    数据治理的本质:

    数据治理不是一门技术,而是逻辑性很强的理论型学科。
    1.1大数据治理
    Sunil Soares
    (1).大数据治理的工作就是制定策略
    (2).大数据必须被商业化
    从四个方面理解含义
    (1).领域
    (2).角色
    (3).各角色如何参与
    (4).大数据治理最终目标:决策
    1.2 大数据治理框架

    大数据治理范围

    大数据质量:大数据质量分析、问题追踪和合规性监控。
    大数据生命周期:数据的采集、存储、整合、呈现和展示、分析和应用、归档与销毁的流程。
    大数据架构:大数据基础资源层、大数据管理与分析层、大数据应用与服务层。
     
    1.3 大数据架构
    1.31 系统架构
    分层原则(表现、数据、业务)
    模块化原则
    设计模式和框架的应用
    1.32 数据架构
    数据模型 (数据架构核心框架模型)
    数据的价值链分析 (业务流程及组件相一致的价值分析)
    数据交付与实现架构 (数据库架构、数仓、文档和内容架构,以及元数据架构)
    1.33 大数据架构
    数据处理中的元数据、主数据、数据仓库、数据接口技术。
    数据采集、存储、分析和应用功能过程的虚拟化技术,分布式文件,非关系型数据库,数据资源管理技术
    面向数据挖掘、预测、决策的大数据分析和可视化技术等。
    1.34大数据架构参考模型

    基础设施:商用服务器、可结合云计算虚拟化(比如私有云openstack)
    非关系数据库nosql:类表结构数据库、 文档数据库、图数据库和键-值存储。
    资源管理:一是虚拟化。二是基于Yarn或Mesos的资源管理层。
    2.大数据管理与分析层
    包含:元数据、主数据、数据仓库、大数据分析等。
    2.1 元数据
    关于数据的组织、数据域及其关系的信息。(数据的数据,类元注解这类的解释)
    重点:元数据的管理。
    数据标准:行业标准和国际标准
    行业标准:OMG标准、W3C标准,空间地理标准,非结构化数据的元数据标准,面向领域的元数据标准。
    国际元数据标准:ISO/IEC11179
    2.2 数据仓库
    2.21 定义:
    面向主题的、集成的、随时间变化的、相对稳定的(不可更新是历史数据的快照)、支持决策制定过程的数据集合。
    2.22 主要功能:
    主要有数据采集、数据存储与管理、以及结构化数据、非结构化数据以及实时数据管理等功能。
    问:传统数据库有数据管理么?
    答:有的,传统数仓管理中,DMBS是主流、大数据体系中,基于分布式文件的存储(hdfs或其他的如淘宝、腾讯等自研的)是主流
    元数据机制主要支持以下几类功能。
    (1)描述数据在哪个数仓中。
    (2)定义入仓和出仓的数据。
    (3)记录业务事件发生而抽取的时间安排。
    (4)记录并检测系统数据一致性的要求和执行情况。
    2.23 主数据
    Mater Data指的是各个系统间要共享的数据。比如将人员组织关系数据标准化,统一管理。
    构建在ETL之上、因此很多主数据管理平台包含(数据抽取、数据加载、数据转换、数据质量管理、数据复制和数据同步等功能)。
    2.24 大数据分析
    智能决策支持系统DSS
    2.3 大数据应用与服务层
    传统接口:JDBC、ODBC、WEB接口
    3.大数据架构的实现
    基于hadoop的基础架构

     

    ETL数据:低质量数据、无关数据。
    Elect抽取数据-->从数据库中抽取
    分析数据结构、字段含义(对文档、定需求)-->数据质量分析报告。
    (1)抽取模式(数据平台顺利获得一定的工具实现抽取,系统变更后导致失败,源系统不对数据质量负责,源系统的性能降低问题)(2)供数模式(源系统抽取)
    !!!!!数据平台的项目不能失败
    实时数据的抽取:
    定时小批量的面向数据采集
    实时业务的数据发送:轮询或者触发方式。
    (部分内容来源网络,如有侵权请联系删除)
    立即申请数据分析/数据治理产品免费试用 我要试用
    customer

    在线咨询

    在线咨询

    点击进入在线咨询