华人澳洲中文论坛

热图推荐

    数据治理:元数据及元数据办理战略、办法和技术

    [复制链接]

    2022-11-15 21:22:40 15 0



    数字化时期,企业需求知道它们具有甚么数据,数据在哪里、由谁担任,数据中的值象征着甚么,数据的生命周期是甚么,哪些数据平安性和隐衷性需求维护,以及谁使用了数据,用于甚么业务目的,数据的品质怎样,等等。这些问题都需求经过元数据办理解决,不足无效的元数据办理,企业的数据资产可能会变为拖累企业利润的“包袱”。
    数据曾经成为加强企业竞争力的中心因素,无效地办理和使用数据成为企业的刚需。愈来愈多的企业使用元数据办理工具来办理云计算、物联网、数据湖中所发生的数据,以便更易地舆解、更快地查找和更无效地办理企业数据,完成数据的价值。
    01 元数据办理概述
    没有元数据,数据其实就没有任何意义。元数据看起来只是一堆毫有意义的文字和数字,但实质上它为企业的各类数据提供了上下文环境,使企业可以更好地理解、办理和使用数据。
    1.1 甚么是元数据?
    元数据是对于数据的组织、数据域及其瓜葛的信息,简言之,元数据就是形容数据的数据。
    概念老是生涩的,关于没有IT配景的人来讲对比笼统,不易了解,上面举几个例子。
    示例1:歌词中的元数据
    有一首得多80后耳熟能详的歌曲叫《小芳》,歌词中有这么一句:“村里有个姑娘叫小芳,长得美观又仁慈。”咱们对这句歌词做一下剖析。姓名,小芳;性别,姑娘(女);长相,美观;性情,仁慈;住址,村里。“小芳”是被形容的对象,而“姓名”“性别”“长相”“性情”“住址”就是形容“小芳”的元数据。
    示例2:户口本中的元数据
    户口本中除了有姓名、身份证号、出世日期、住址、民族等信息外,还有家庭瓜葛,如夫妻瓜葛、父子瓜葛、兄弟瓜葛等。这些信息就是形容一集体的元数据,经过户口本中的元数据,咱们不只可以理解一集体的根本信息,还可以理解其家庭瓜葛。
    示例3:藏书楼中的元数据
    藏书楼都会用一个叫作“图书目录”的文件夹来办理藏书,图书目录包孕图书称号、编号、作者、主题、简介、摆放地位等信息,用来帮忙图书办理员办理和疾速查找图书。元数据就犹如藏书楼的图书目录同样,可以帮忙数据办理员办理数据。
    示例4:元数据比如字典
    字典包孕一个字的注音、含意、组词、举例等根本信息及其字体构造、相干援用、出处等。此外,咱们能够经过拼音或偏旁部首查到这个字。一切这些信息都是对这个字的具体形容,它们就是形容这个字的元数据。
    示例5:元数据就像地图
    地图是按一定比例应用线条、符号、色彩、文字注记等描画显示地球外表的天然地舆、行政区域、社会经济情况的图。经过地图,您可以找到本人所处的地舆地位,理解您从哪里来,到哪里去,途中要途经哪些中央。元数据也具备这样的特征,它可以帮忙企业理解本人有哪些数据,这些数据寄放在哪里,数据的来源、去向及加工门路等。
    元数据与数据的不同的地方在于:元数据形容的不是特定的实例或记载,IT部门和业务部门都需求高品质的元数据来了解现无数据;元数据是比个别意义上的数据范畴更为普遍的数据,不只表现数据的类型、称号、值等信息,还提供数据的上下文形容,好比数据的所属业务域、取值规模、数据间的瓜葛、业务规定、数据来源等。
    能够用5W1H模型来了解元数据,如表1所示。


    表1 用5W1H模型了解元数据
    1.2 元数据的3品种型
    根据不同运用畛域或功用,元数据个别大抵可分为三类:业务元数据、技术元数据和操作元数据。
    1.2.1 业务元数据
    业务元数据形容数据的业务含意、业务规定等。明白业务元数据能够让人们更易了解和使用业务元数据。元数据打消了数据二义性,让人们对数据有统一的认知,防止“自说自话”,进而为数据剖析和运用提供撑持。
    常见的业务元数据有:
    业务定义、业务术语解释等;业务目标称号、计算口径、衍生目标等;业务引擎的规定、数据品质检测规定、数据挖掘算法等;数据的平安或敏感级别等。1.2.2 技术元数据
    技术元数据是构造化处置后的数据,便利计算机或数据库对数据进行辨认、存储、传输和替换。技术元数据能够办事于开发人员,闪开发人员更为明白数据的存储、构造,从而为运用开发和零碎集成奠定根底。技术元数据也可办事于业务人员,经过元数据厘清数据瓜葛,让业务人员更疾速地找到想要的数据,进而对数据的来源和去向进行剖析,反对数据血统追溯和影响剖析。
    常见的技术元数据有:
    物理数据库表称号、列称号、字段长度、字段类型、束缚信息、数据依赖瓜葛等;数据存储类型、地位、数据存储文件格局或数据紧缩类型等;字段级血统瓜葛、SQL脚本信息、ETL信息、接口顺序等;调度依赖瓜葛、进度和数据更新频率等。1.2.3 操作元数据
    操作元数据形容数据的操作属性,包罗办理部门、办理责任人等。明白办理属性无利于将数据办理责任落实到部门和集体,是数据平安办理的根底。
    常见的操作元数据有:
    数据一切者、使用者等;数据的拜候形式、拜候时间、拜候限度等;数据拜候权限、组和角色等;数据处置功课的后果、零碎履行日志等;数据备份、归档人、归档时间等。元数据的分类及实例见表2。


    表2 元数据的分类(以“客户”信息为例)
    1.3 元数据的6个作用
    在信息世界,元数据的次要作用是对数据对象进行形容、定位、检索、办理、评价和交互。
    形容:对数据对象的内容、属性的形容,这是元数据的根本功用,是各组织、各部门之间达成共鸣的根底。定位:无关数据资源地位方面的信息形容,如数据存储地位、URL等记载,能够帮忙用户疾速找到数据资源,无利于信息的发现和检索。检索:在形容数据的过程当中,将信息对象中的首要信息抽出标引并加以组织,建设它们之间的瓜葛,为用户提供多档次、多途径的检索体系,帮忙用户找到想要的信息。办理:对数据对象的版本、办理和使用权限的形容,方面信息对象办理和使用。评价:因为有元数据形容,用户在不阅读详细数据对象的状况下也能对数据对象有个直观的意识,便利用户的使用。交互:元数据对数据构造、数据瓜葛的形容便利了数据对象在不同部门、不同零碎之间进行流通和流转,并确保流转过程当中数据规范的统一性。元数据以数字化形式形容企业的数据、流程和运用顺序,为企业数字资产的内容提供了上下文,使得数据更易了解、查找、办理和使用。精确的元数据是必不成少的,也是迅速、无效地对数据去粗取精的症结。没有元数据,数据就毫有意义,只不外是一堆数字或文字罢了。因此,关于元数据的无效办理是企业数据治理的根底。
    1.4 甚么是元数据办理
    按照维基百科的定义,元数据办理是指与确保正确创立、存储和管制元数据,以便在全部企业中统一地定义数据相关的流动。
    元数据办理是对波及的业务元数据、技术元数据、操作元数据进行清点、集成和办理。采取迷信无效的机制对元数据进行办理,并面向开发人员、业务用户提供元数据办事,能够知足用户的业务需要,为企业业务零碎和数据剖析的开发、保护等进程提供反对。
    能够从技术、业务和运用三个角度了解元数据办理。
    技术角度:元数据办理着企业的数据源零碎、数据平台、数据仓库、数据模型、数据库、表、字段以及字段间的数据瓜葛等技术元数据。
    业务角度:元数据办理着企业的业务术语表、业务规定、品质规定、平安战略以及表的加工战略、表的生命周期信息等业务元数据。
    运用角度:元数据办理为数据提供了残缺的加工处置全链路跟踪,便利数据的溯源和审计,这关于数据的合规使用愈来愈首要。经过数据血统剖析,追溯产生数据品质问题和其余过错的基本缘故,并对更改后的元数据进行影响剖析。
    企业元数据办理的次要流动包罗:
    创立并记载主题畛域的实体和属性的数据定义;辨认数据对象之间的业务规定和瓜葛;证实数据内容的精确性、残缺性和及时性;建设和记载内容的上下文(数据血统、数据影响的全链路跟踪剖析);为多样化的数据用户提供一系列上下文了解,包罗用于合规性、外部管制和更好决策的可托数据;为技术人员提供元数据信息,反对数据库或运用的开发。1.5 元数据办理的3个指标
    企业元数据办理的实质是无效利用企业数据资产,让数据发扬出尽量大的价值。元数据办理能够帮忙业务剖析师、零碎架构师、数据仓库工程师和软件开发工程师等相干干系人分明地知道企业具有甚么数据,它们存储在哪里,如何抽取、清算、保护这些数据并指点用户使用。
    下列元数据办理指标是企业的广泛诉求。
    1.5.1 建设目标解释体系
    知足用户对业务和数据了解的需要,建设规范的企业外部常识传承的信息承载平台,建设业务剖析常识库,完成常识同享。可以回答下列问题:
    企业有哪些数据?甚么是企业无效客户?无效客户和客户有何区分?甚么是产品的生命周期?这个数据还叫甚么名字?数据仓库中的存储进程是谁写的?它用来干甚么?当初还在用吗?典型运用无数据资源目录和业务术语表。
    1.5.2 进步数据溯源才能
    让用户可以明晰地理解数据仓库中数据流的前因后果、业务处置规定、转换状况等,进步数据的溯源才能,反对数据仓库的生长需要,升高因员工换岗酿成的影响。元数据有助于回答下列问题:
    这张表是从哪一个业务零碎中抽取过去的?ETL进程是不是对数据进行过加工处置?进行了哪些处置?目标数据是从哪些表汇共计算出来的?典型运用有血统剖析、影响剖析、全链路剖析。
    1.5.3 数据品质稽核体系
    经过非冗余、非反复的元数据信息进步数据残缺性、精确性。元数据办理解决的问题是如何将业务零碎中的数据分门别类地进行办理,建设报警、监控机制,泛起毛病时能及时发现问题,为数据仓库的数据品质监控提供根底素材。可以回答下列问题:
    明天的在线用户数为何是0?为何A报表中的本月支出值与B报表中的不同?典型运用有目标规范和数据品质规定。
    1.6 元数据办理的4个应战
    只管企业愈来愈意想到元数据办理的首要性,然而在实际的数据治理中,元数据办理技术和办法仍面临着得多应战。
    1.6.1 局部的元数据办理
    虽然得多企业曾经意想到元数据办理可以创立对数据的一致形容并确保数据的统一性,然而,目前国际企业的元数据办理少数是建设在新建零碎或数据仓库名目的局部治理上,而不是企业级的元数据办理,特别是关于企业推销的套装软件的治理显得非常单薄。次要缘故是,要将地方元数据仓库的元数据与套装软件发生的元数据进行婚配和映照,需求做少量任务。有的企业的元数据办理平台成为陈设,或者只要部份IT人员在用,很少乃至彻底没有尝试在全部企业中使用和推行集中化的元数据。这在一定水平下限制了企业数据资产的同享或重用。因此,元数据办理需求全局、集中化的办理战略。
    1.6.2 手动的元数据办理
    在企业元数据办理名目的实行中,需求破费很长的时间来实现元数据的梳理和定义、元数据适配器的开发、元数据的收集、元数据的保护等工作。这些工作绝大少数是需求人工手动处置的,手动的元数据办理和保护非常繁缛且容易犯错,这使得名目的本钱进步,交付的周期变长。
    因此,元数据办理需求更为无效的办法和自动化水平更高的工具。
    1.6.3 日益繁杂的数据环境
    大数据时期,跟着愈来愈多的非构造化、半构造化数据浸透到企业的数字环境中,采取传统的元数据办理形式来收集、处置和检索元数据变得愈来愈拥有应战性。尤为是在处置繁杂的数据瓜葛时,虽然人们很容易按照认知关联来判别两个或多个事物是不是相干,但目前的元数据办理工具却经常无奈做到。
    因此,元数据办理需求更智能化的技术。
    1.6.4 数据的频繁变动
    企业的数据是在数据供给链中不停挪动的。这里所说的数据供给链,是指从数据创立到数据的加工处置、存储使用的全部生命周期链条。跟着数据的不停创立、抽取和转换,无关数据来源、血统、转换进程、品质级别以及与其余数据的瓜葛的元数据也会随时变动。企业需求将自动化算法和规定运用于数据资产办理中,自动辨认和生成元数据,增加手动保护的状况,从而确保元数据形容精确牢靠。
    1.7 元数据办理的4个阶段
    从元数据的开展历史来看,元数据办理次要阅历了4个阶段:散布式桥接阶段、地方存储库阶段、元数据仓库阶段、智能化办理阶段(见图1)。


    图1 元数据办理的4个阶段
    1.7.1 散布式桥接阶段
    散布式的元数据办理使用元数据桥完成不同工具间的元数据集成,这是一种点到点的元数据体系构造。散布式的桥接形式天然会致使散布式的元数据散发机制,这违抗了数据仓库“集中存储,一致视图”的处置准则,也是它的次要弱点。用这类形式集成元数据会大幅减少开发和保护费用,并且通常将一种格局的元数据转换为另外一种格局时,都会有一定的信息损失。
    散布式的元数据构造需求对相互同享元数据的数据库进行同步,尤为是反复元数据的更新须被检测并通告,以放弃统一性。
    1.7.2 地方存储库阶段
    建设拥有特定指标和需要的元数据地方存储库,由它来一致收集、存储、管制和散发元数据。例如,CRM、SCM等运用零碎从地方存储库中检索、使用元数据。
    在这类模式下,元数据仍然在局部发生和被获得,但汇集中到地方存储库进行存储,业务元数据会手工录入地方存储库中,技术元数据扩散在文档中的部份也经过手工录入地方存储库中,而散落在各个两头件和业务零碎中的技术元数据则经过数据集成的形式被读取到地方存储库中。业务元数据和技术元数据之间整个或部份经过手工形式进行了关联。
    每个运用零碎都必需完成它本人的数据库拜候层(另外一种方式的桥接),各大BI工具厂商通常都包管它们的工具自身就可以够反对元数据办理,例如Informatica的Metadata Manager、IBM的MetaStage。但是在详细完成中,它们的工具只是提供桥梁,从像Oracle这样的RDBMS、Hyperion Essbase之类的MDDB、BusinessObjects之类的报表工具,乃至像ERWin这样的数据建模工具中提守信息,而后将提掏出的信息存储到一个集中式的地方存储库中。
    使用元数据地方存储库能够在一定水平上解抉择义全局可用且被普遍了解的元数据的需要,使元数据在全部企业层面可被感知和搜寻,极大中央便企业获得和查找元数据。但这并无彻底铲除问题:元数据依然在各业务零碎上保护,而后更新到地方存储库,各业务竖井之间依然使用不同的命名法,常常会形成相反的名字代表不赞成义的对象,而同一个对象则使用了多个不同的名字,有些没有归入业务零碎办理的元数据则容易缺失。地方存储库依然需求使用元数据桥,无奈铲除受制于特定厂商的问题。
    1.7.3 元数据仓库阶段
    元数据仓库遵守基于CWM(公共仓库元模型)的元数据办理战略。CWM是用来输出、输入同享公共仓库元数据的一个彻底的语法和语义标准,提供了一个形容数据源、数据指标、转换、剖析和处置的元数据办理根底框架,为不同工具和产品的元数据同享和替换提供了一个切实可行的规范。
    经过构建基于CWM的元数据仓库,数据源、ETL工具、各类报表和BI工具、各类数据库零碎的元数据有了统一的规范,各软件工具只需求建设一个与元数据仓库衔接的CWM适配器就可以完成互相之间的元数据替换或同享。
    与地方存储库模式比拟,基于CWM的元数据仓库模式更新数据更为及时,并反对增量元数据的版本办理,而地方存储库的元数据更新周期通常在一天以上,而且需求将一切不同时代的元数据都存储上去能力反对元数据版本办理。但实质上,元数据仓库模式并无多大变动,业务元数据依然需求手动补录,业务元数据和技术元数据之间大多仍是需求经过手工形式进行映照,因此办理本钱无奈升高得多。
    以后,大部份企业的元数据办理处于地方存储库和元数据仓库这两个阶段。
    1.7.4 智能化办理阶段
    在这个阶段,元数据办理的特征是自动化、智能化,经过与人工智能、机器学习等技术融会,完成元数据提取、整合、保护等多个进程的自动化和智能化。
    (1)元数据提取
    关于半构造化、非构造化的数据,例如文本文件、音视频文件,采取文本辨认、图象辨认、语音辨认、天然言语处置等技术,自动发现和提取其元数据,造成有价值的数据资源池。
    (2)元数据整合
    在元数据的整合方面,经过语义模型,标签体系自动收集相干的技术元数据和业务元数据,自动建设技术元数据与业务元数据的瓜葛,并将其存储进元数据存储库中。
    (3)元数据保护
    在人工智能技术的帮忙下,元数据的办理和保护更为智能,例如:经过自定义规定探查元数据的统一性,并自动提示更新和保护,确保元数据品质;经过语义剖析为元数据自动打标签,完成元数据的自动化编目等。
    在这个阶段,逻辑档次元数据的变卦会被传布到物理档次,一样,物理档次变卦时,逻辑档次将被更新。元数据中的任何变动都会触发业务任务流,以便其余业务零碎进行相应的修正。
    02 元数据办理办法
    从实行层面来看,元数据办理包罗业务指标了解、元数据需要布局、元数据设计、元数据办理体系的设计等。
    2.1 业务指标了解
    元数据办理是利用可视化的用户体验,基于灵敏、硬朗的元数据办理架构,完成企业数据资产的规范化、集中化办理。企业实行元数据办理需求首先从了解业务需要动手,只要理清了业务需要和指标,能力做出公道的元数据布局。
    通常企业实行元数据办理的次要业务诉求如下。
    (1)建设企业数据资产目录
    数据即资产的理念曾经失掉企业的普遍认可。面对不停增长、不停变动、日趋繁杂的数据环境,企业需求数据资产的简略发现和跟踪才能。经过办理元数据,企业可以疾速发现数据资产的散布和瓜葛,造成企业数据资产目录。
    (2)打消冗余,增强数据复用
    经过元数据办理,建设基于CWM的元数据仓库,完成企业元数据的一致办理,并将元数据仓库作为“繁多数据源”,为企业的运用开发提供可复用的数据模型和元数据规范,以完成元数据的反复利用,增加冗余或未使用数据,从而进步任务效力,升高软件开发本钱,缩短名目交付时间。
    (3)升高因人员活动而致使常识流失的危险
    企业首要的数据资产经常因症结员工的调离或到职而“隐没”,这里所谓的“隐没”通常并非由于员工将数据歹意删除或拿走,而是企业数据资产的寄放形式、存储地位等症结数据都只留在症结员工的大脑中,一旦该员工分开公司,数据资产也就消失在“茫茫数海”中了!而一致的元数据办理可以升高企业这类数据“隐没”的危险。
    (4)提供数据血统探查才能,进步数据剖析的品质
    数据来自甚么中央以及如何发生、处置和交付数据,这为用户提供了首要的配景常识。探查源零碎中的数据能够袒露和解决数据的不许确、纷歧致问题,从而晋升数据的品质。
    另外,元数据的一致办理,提供变卦办理、版本管制等才能为不停变卦的业务需要所带来的影响提供了撑持,并放慢了新运用开发名目和数据集成名目的开发速度。开发人员能够依赖一致、规范的元数据来轻松、精确地肯定他们的名目所需的数据,从而勤俭名目开发本钱,晋升名目交付效力。
    2.2 元数据需要布局
    在充沛了解企业元数据办理诉乞降指标之后,需求进行元数据布局,设计元数据办理战略,以增进元数据指标的完成。
    元数据贯通企业数据资产活动的全进程,次要包罗数据源的元数据、数据收集的元数据、数据仓库的元数据、数据集市的元数据、运用办事层的元数据和BI层的元数据等。
    进行元数据的需要布局时,需求理解分明企业的数据环境,明白数据资产的散布,明白数据的流向和门路,从而进一步肯定元数据在数据库环境中的存储状况,如数据构造、数据字典、数据瓜葛、报表工具、其余第三方零碎或工具等,以及是不是需求元数据梳理模板,手动整顿元数据作为增补等。
    元数据需要布局应重点关注的需要如下。
    元数据模型需要:命名标准、构造、元素及关联瓜葛等。元数据接口需要:元数据材料库及其内容,适配器、一切者、零碎拜候、元数据血统瓜葛等。元数据零碎需要:元数据收集、元数据办理、元数据运用等。数据平安需要:数据的分类分级、敏感数据散布、敏感数据办理要求等。数据品质需要:数据品质规定、数据规范定义等。数据办理需要:数据办理的组织、流程、轨制、考查等。元数据需要布局的步骤如下:
    1)企业策略调研:调研企业的业务开展策略和次要业务畛域的业务开展布局,梳理IT建立的历史、现状和初步布局。
    2)数据办理调研:调研企业数据办理的配景、问题、指标,以及企业数据办理目前的相干轨制、流程和组织。
    3)元数据现状清单:功用性信息需要、逻辑模型、物理模型、业务术语字典、已无数据环境、零碎文档等。
    4)数据问题剖析:基于现状评价及成熟度评价,找出差别,定位问题并进行问题基本缘故剖析,结合行业业务、数据开展要求,制订问题解决优先级方案,并制订改进计划。
    5)制订行为线路:元数据实行线路的制订应聚焦企业以后最紧急、最首要的建立内容,确保名目规模可控、功效可见。
    2.3 元数据布局设计
    2.3.1 元数据设计准则
    每个企业的业务各不相反,元数据的设计必需环抱其特定的业务需要展开,需求确保企业采集正确的元数据清单以解决特定的业务问题。元数据设计应遵守下列准则。
    (1)简略性与精确性准则
    对信息对象的形容应简略易懂,应尽可能基于共鸣采取业务言语进行设计,尽可能防止使用艰涩难懂的技术言语。固然,也要斟酌简略化可能致使形容不许确,需在两者之间进行衡量。
    (2)互操作性准则
    元数据的互操作性体当初对异构零碎间的互操作才能的反对,即在各种元数据规范下建设元数据,不只要知足以后运用对数据的操作,还招考虑在企业总体IT环境中的互操作性。
    (3)可扩展性准则
    企业的数据环境时辰在产生变动,因此元数据的设计应具备一定的可扩展性,应允许用户在不破坏既有规范的条件下,裁减一些元素或属性。
    (4)用户需要准则
    元数据设计的目的是向用户充沛暴-露信息资源,因此用户需要应作为元数据设计的终究权衡规范,特别是在数据构造与格局的设计、数据元素的减少与取舍、语义规定的制订等方面,要尽量从用户需要登程,经过用户交互和用户反馈来完美元数据的设计。
    2.3.2 元数据设计步骤
    元数据设计个别分为分类、定义、获得、公布四个步骤,并以设计后果作为基线,归入元数据平台办理中。
    (1)元数据分类
    按照元数据用处及使用者的不同制订元数据分类框架,布局业务元数据、技术元数据、操作元数据所包孕的数据类型和聚拢。明白元数据办理的品种,如数据字典、逻辑模型、物理模型、报表定义、维度加工规定、数据映照信息、接口信息等,按照规定进行元数据分类。
    罕用的元数据分类形式有下列两种:
    根据业务主题进行组织,即经过从业务域到业务主题、实体数据、数据模型的逐层合成形式,布局元数据的分类。这是一种站在业务视角办理元数据的形式,可以造成业务人员容易了解的数据目录。根据数据源进行组织,即经过源数据零碎、数据表、数据构造方式展示企业数据目录,这类形式更便于IT人员使用元数据。在实际的使用中,通常需求将两个分类形式相结合,以造成企业级的元数据地图。
    (2)元数据定义
    元数据定义就是对数据的业务属性、技术属性、操作属性进行标准化的定义,次要是形容数据属性的信息,如属性称号、用处、存储地位、历史数据、文件记载等。
    (3)元数据获得
    元数据的根本因素包罗业务术语、业务规定、报表阐明、目标定义,技术细节包罗各个业务零碎的数据构造、代码字段取值、数据迁徙与转换规定等。以上元数据除了经过自动化工具获得,有时分还需求经过模板手工整顿作为增补。
    关于一些数据源(例如一些老旧的信息零碎),因为不足最后的元数据设计,所以很难获得到精确的业务元数据。这些业务元数据更为需求业务人员的配合,由业务人员进行增补,终究造成并交付业务元数据效果。
    (4)元数据公布
    评价和剖析扩散在各个运用零碎、各个部门中的业务元数据、技术元数据之间的关联性,建设技术元数据与业务元数据的映照,造成企业级元数据地图,公布元数据基线。
    在后续的运维过程当中,按照各业务部门的用数需要,剖析判别元数据仓库中是不是已存在相应的元数据。假如元数据仓库中已有该元数据,则间接同享使用;假如元数据仓库中没有,则需求肯定收集计划,进行数据收集,并对收集的元数据进行整顿完美,与出产库建设映照瓜葛,最初实现新增元数据的公布。
    元数据布局设计是元数据办理实行中最首要,也是任务量最大的一个进程,这是国际大少数企业元数据办理的现状。究其缘故,次要仍是数据办理体系不敷成熟,也能够说是数据不敷成熟。得多企业从一开始就没有残缺的数据布局,好比业务术语、目标的定义,当初简直要总体倒推,获取元数据天然就对比难题。
    2.4 元数据办理体系设计
    在数据治理总体框架下,建设元数据办理体系,从组织、轨制、流程、技术与工具等方面保障元数据的无效实行和经营办理,标准元数据的日常收集和处置流动,帮忙企业无效办理元数据。
    组织保障:明白业务牵头部门、业务与信息化的合作瓜葛,明白各部门数据认责规模。在数据治理团队的指点下,针对企业的数据办理组织现状,建设公司高层反对、中层办理协调、基层履行三个层面的数据治理组织,明白各层的任务职责,为元数据办理任务提供组织保障。
    轨制保障:元数据办理是企业的IT根底设施,波及的零碎较广,需求调动的资源较多,在实行的过程当中,企业高层办理者需求给予强无力的反对,并制订相应的规章轨制进行保障,这是名目实行继续推动的能源。
    流程保障:为包管数据治理措施的落地履行,需求从数据认责、规范办理、品质办理等多个方面进行流程设计,制订企业规模内数据的变卦办理流程,包管信息零碎中的数据与办理标准、数据规范的统一性。
    技术与工具:搭建一致的元数据办理平台,完成企业级元数据集中管控,反对元数据收集、元数据办理、元数据同享、元数据血缘剖析、元数据影响剖析、企业数据地图等功用。
    经营保护:定义捕捉、保护业务元数据、技术元数据、操作元数据,按期散发和交付元数据。
    监控办理:提供元数据的新增和变卦流程,管制元数据新增、变卦等操作,反对元数据的日常监控,办理元数据版本,做好元数据的血统剖析、影响剖析。
    统计剖析:元数据零碎经营状况统计讲演,反对元数据查问、元数据使用状况剖析(如冷热度剖析)等。
    鼓吹推行:经过企业外部网络、会议等各种渠道,推行元数据办理平台,进步元数据办理平台的使用量,晋升元数据在企业中的价值意识度。
    03 元数据办理技术
    从技术层面来看,元数据办理技术次要包罗元数据收集、元数据办理、元数据运用和元数据接口等。
    3.1 元数据收集
    在数据治理名目中,常见的元数据无数据源的元数据、数据加工处置进程的元数据、数据仓库或数据主题库的元数据、数据运用层的元数据、数据接口办事的元数据等。
    元数据收集办事提供各类适配器来知足以上各类元数据的收集需要,并将元数据整合处置后一致存储于地方元数据仓库,完成元数据的一致办理。在这个过程当中,数据收集适配器非常首要,元数据收集不只要可以适配各种数据库、各类ETL、各类数据仓库和报表产品,还需求适配各类构造化或半构造化数据源。
    3.1.1 瓜葛型数据库
    经过元数据适配器收集来自Oracle、DB2、SQL Server、MySQL、Teradata、Sybase等瓜葛型数据库的库表构造、视图、存储进程等元数据。瓜葛型数据库个别都提供了元数据的桥接器,例如Oracle的RDBMS,可完成元数据信息的疾速读取。
    3.1.2 NoSQL数据库
    元数据收集工具应反对来自MongoDB、CouchDB、Redis、Neo4j、HBase等NoSQL数据库中的元数据,NoSQL数据库适配器多半利用了本身办理和查问Schema的才能。
    3.1.3 数据仓库
    关于主流的数据仓库,能够基于其外在的查问脚本,定制开发相应的适配器,对其元数据进行收集。例如MPP数据库Greenplum,其中心元数据都存储在pg_database、pg_namespace、pg_class、pg_attribute、pg_proc这几张表中,经过SQL脚本就能对其元数据进行收集。Hive表构造信息存储在内部数据库中,同时Hive提供相似show table、describe table之类的语法对其元数据信息进行查问。
    固然,也能够利用专业的元数据收集工具来收集数据仓库零碎的元数据。
    3.1.4 云中的元数据
    跟着私有云的日益成熟,尤为是在中小企业之间,经过提供平安的云衔接将云端企业元数据办理用作中心IT根底架构的扩展曾经成为理想。云端企业元数据办理经过各种上下文改良信息拜候,并将实时元数据办理、机器学习模型、元数据API推动流数据管道,以便更好地办理企业数据资产。
    3.1.5 其余元数据适配器
    建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具适配器。ETL工具:PowerCenter、DataStage、Kettle等ETL工具适配器。BI工具:Cognos、Power BI等前端工具中的二维报表元数据收集适配器。Excel适配器:收集Excel格局文件的元数据。固然,目前市场上的主流元数据产品中尚无哪个能做到“万能适配”,在实际运用过程当中都需求进行或多或少的定制化开发。
    3.2 元数据接口
    建设元数据查问、拜候的一致接口标准,以将企业中心元数据残缺、精确地提取到元数据仓库中进行集中办理和一致同享。
    元数据接口标准次要包罗接口编码形式、接口响应格局、接口协定、接口平安、衔接形式、接口地址等方面的内容。
    接口编码形式:接口编码形式必需在接口的头信息中注明,罕用的接口编码形式有UTF-8、GBK、GB23十二、ISO-8859-1。接口响应格局:元数据接口罕用的报文格局,XML或JSON。接口协定:REST/SOAP协定。接口平安:Token身份认证。衔接形式:POST。接口地址:http://url/service?[query]。3.2 元数据办理
    从技术的角度看,元数据办理个别包罗元模型办理、元数据审核、元数据保护、元数据版本办理、元数据变卦办理等功用。
    3.2.1 元模型办理
    元模型办理即基于元数据平台构建合乎CWM标准的元数据仓库,完成元模型一致、集中化办理,提供元模型的查问、减少、修正、删除、元数据瓜葛办理、权限设置等功用,反对概念模型、逻辑模型、物理模型的收集和办理,让用户直观地理解已有元模型的分类、统计、使用状况、变卦追溯,以及每个元模型的生命周期办理。同时,反对运用开发的模型办理。
    反对元模型的全生命周期办理。元模型生命周期中有三个形态,分别是设计态、测试态和出产态。
    设计态的元数据模型,通常由ERWin、PowerDesigner等设计工具发生。测试态的元数据模型,一般为瓜葛型数据,如Oracle、DB2、MySQL、Teradata等;或非瓜葛型数据库,如MongoDB、HBase、Hive等。出产态的元数据模型,实质上与测试态元数据差别不大。经过元数据平台对运用开发三种形态的一致办理和比较剖析,可以无效升高元数据变卦带来的危险,为上游ODS、DW的数据运用提供撑持。
    3.2.2 元数据审核
    元数据审核次要是审核已收集到元数据仓库中但还未正式公布到数据资源目录中的元数据。审核过程当中反对对数据进行无效性验证并修复一些问题,例如不足语义形容、短少字段、类型过错、编码缺失或不成辨认的字符编码等。
    3.2.3 元数据保护
    元数据保护就是对信息对象的根本信息、属性、被依赖瓜葛、依赖瓜葛、组合瓜葛等元数据的新增、修正、删除、查问、公布等操作,反对按照元数据字典创立数据目录,打印目录构造,按照目录发现、查找元数据,查看元数据的内容。元数据保护是最根本的元数据办理功用之一,技术人员和业务人员都会使用这个功用查看元数据的根本信息。
    3.2.4 元数据版本办理
    在元数据处于一个相对于残缺、不乱的时代,或者处于一个里程碑完结时代,能够对元数据定版以公布一个基线版本,以便往后对存异的或过错的元数据进行追溯、反省和恢复。
    3.2.5 元数据变卦办理
    用户能够自行定阅元数据,当定阅的元数据产生变卦时,零碎将自动通知用户,用户可按照指引进一步在零碎中查问到变卦的详细内容及相干的影响剖析。元数据办理平台提供元数据监控功用,一旦监控到元数据产生变卦,就在第一时间通知用户。
    4 元数据运用
    4.1 数据资产地图
    按数据域对企业数据资源进行片面清点和分类,并按照元数据字典自动生成企业数据资产的全景地图。该地图能够告知你有哪些数据,在哪里能够找到这些数据,能用这些数据干甚么。数据资产地图反对以拓扑图的方式可视化展现各类元数据和数据处置进程,经过不同档次的图形展示粒度管制,知足业务上不同运用场景的图形查问和辅佐剖析需求(见图2)。


    图2 数据资产地图示例
    4.2 元数据血统剖析
    元数据血统剖析会告知你数据来自哪里,通过了哪些加工。其价值在于当发现数据问题时能够经过数据的血统瓜葛追根溯源,疾速定位到问题数据的来源和加工进程,增加数据问题排查剖析的时间和难度(见图3)。


    图3 元数据血统剖析示例
    4.3 元数据影响剖析
    元数据影响剖析会告知你数据去了哪里,通过了哪些加工。其价值在于当发现数据问题时能够经过数据的关联瓜葛向下追踪,疾速找到有哪些运用或数据库使用了这个数据,从而最大限制地减小数据问题带来的影响。这个功用罕用于数据源的元数据变卦对上游ETL、ODS、DW等运用的影响剖析。
    血统剖析是向上追溯,影响剖析是向下追踪,这是这两个功用的区分。
    4.4 元数据冷热度剖析
    元数据冷热度剖析会告知你哪些数据是企业罕用数据,哪些数据属于僵死数据。其价值在于让数据活泼水平可视化,让企业中的业务人员、办理人员都可以明晰地看到数据的活泼水平,以便他们更好地把握数据,处理或激活僵死数据,从而为数据的自助式剖析提供撑持。
    4.5 元数据关联度剖析
    元数据关联度剖析会告知你数据与其余数据的瓜葛,以及它们的瓜葛是怎么样建设的。关联度剖析是从某一实体关联的其余实体及其参预的处置进程两个角度来查看详细数据的使用状况,造成一张实体和所参预处置进程的网络,如表与ETL顺序、表与剖析运用、表与其余表的关联状况等,从而进一步理解该实体的首要水平。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题28

    帖子36

    积分166

    图文推荐