华人澳洲中文论坛

热图推荐

    大数据库设计的准则有哪些

    [复制链接]

    2022-8-12 19:05:38 29 0

    在大数据运用开发的流程中咱们将原始大数据通过荡涤、抽取、转换之后,需求将转换后的大数据存入大数据办理零碎中。为了可以高效地查问和剖析转换之后的大数据,运用开发人员需求设计大数据的物理存储构造。大数据库设计与传统的数据库设计步骤相反,大数据库也采取自顶向下、逐渐求精的设计准则:
    一、顶层设计
    大数据办理零碎反对多种大数据物理存储构造,需求按照运用需要,为转换之后的大数据选择相应的物理存储构造。选择物理存储构造时需求斟酌的要素如下:
    (一)数据存储格局∶大数据办理零碎通常反对多种文件格局和紧缩格局
    (二)数据模式设计∶少数大数据办理零碎,如Hadoop生态零碎拥有无模式的特性,在数据存储进散布式零碎时,依然要斟酌数据构造,目录构造以及数据处置和剖析导出的后果。
    (三)元数据办理∶在数据办理零碎中,元数据和数据同样首要。
    二、数据存储格局
    在散布式零碎上搭建架构时,最根本的考量是数据如何存储。而在散布式零碎中没有规范的数据存储格局,但就像使用规范文
    件零碎同样,散布式零碎允许数据以任何格局存储,例如文本、二进制或图象等其余的格局。散布式零碎还内置了对数据存储和处置的优化设置,能够选择多种数据存储方式,优化设置不只可用于原始数据的获得,还能够运用在处置数据时发生的两头值,以及数据处置后的后果数据,次要留意:文件格局、数据紧缩。
    三、数据模式设计
    与统的瓜葛数据库零碎采取的写时模式(schema-on-write)即当数据写入大数据办理零碎时反省数据模式不同,大数据办理零碎广泛采取读时模式(schema-on-read),即数据写入时不进行验证而在数据读取时反省数据模式,数据能够经过许多办法简略地导入大数据办理零碎中。因为大数据办理零碎常常存储非构造数据和半构造数据,所以广泛以数据文件为中心组织数据。
    四、元数据办理
    大数据办理零碎中常见的元数据类型:
    (一)和逻辑数据集相干的元数据∶这种元数据记载数据集存储的地位信息、和数据集关联的模式信息、数据集的分区和排序信息,还无数据集的格局。它通常存储在独自的数据库中。
    (二)和散布式文件零碎无关的元数据∶这种元数据记载文件和多种数据节点的权限和具有权,它由散布式零碎主节点存储和办理。
    (三)和散布式存储零碎相干的元数据∶这种元数据记载列表的表名、数据属性等。它通常由散布式存储零碎存储和办理。
    (四)和数据获得、转换无关的元数据∶这种元数据记载数据使用者发生的数据集、数据集的来源、发生数据集的时间、数据集的范围等信息。
    (五)和数据集统计无关的元数据∶这种元数据记载数据集的行数量、列的不同属性值数量、数据散布的直方图、数据最大最小值。这种元数据能够充沛放慢数据剖析机能,优化履行顺序。
    五、元数据存储
    在后面散布式文件零碎设计中咱们曾经探讨过将元数据嵌入到文件门路上,便利办理和数据统一性。对元数据进行存储、保护和办理,能够选择使用相似 Kite的形式存储元数据,Kite 反对提供多份元数据,能够将元数据存储到其余零碎中,轻松地将元数据从一个源转换到另外一个源。
    数据建模在任何零碎中都是一项富裕应战性的工作,而在散布式零碎中,因为存在着少量可选形式,其应战性更大。数据处置可选的形式越多,散布式零碎灵敏性越强。选择适合的数据模型将会给数据处置带来很大改良。例如增加存储空间,改良处置时间,使得权限办理更加方便,提供更简略的元数据办理。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题30

    帖子40

    积分176

    图文推荐