华人澳洲中文论坛

热图推荐

    数据剖析中的数据荡涤怎么做?

    [复制链接]

    2023-3-16 13:00:35 45 0

    数据荡涤是指发现并纠负数据文件中可辨认的过错的最初一道顺序,包罗反省数据统一性,处置有效值和缺失值等。本文作者具体地讲授了数据荡涤的步骤,欢送感兴致的火伴们浏览。

    数据剖析全部框架外面对比症结除了模型自身之外,更多依赖的是丰硕高品质的数据源。在数据采集时需求捕捉无关源的症结元数据,如来源、大小、时效性和相干内容的额定常识。迭代地辨认以后数据资产根底和这些数据源的差距,使用剖析、可视化、 挖掘或其余数据迷信办法探究这些数据源,以定义模型算法输出或模型假定。
    因为原始数据中或多或少存在一些缺失、毁坏的脏数据。假如不处置会致使模型生效。就比如,一个程度很高的厨师,给到的原资料假如不卫生不洁净,那也很难做出一道让人满意的菜品。因此在整合数据建设模型以前, 应先评价数据的品质。对数据进行荡涤。
    固然,数据荡涤除了能保障高品质的数据输入以外。也可以同步对数据探究。数据荡涤和数据探究的作用是相反相成的,经过数据探究,检阅数据的特点形容、散布推断以及构造上的优化,能更好的为数据荡涤选择适合的荡涤办法。而数据荡涤后的数据则能够更无效的进行数据探究。本文重点讲授数据荡涤的一些办法和留意事项。接上去,引见数据荡涤的两个首要部份:异样值判断和缺失值处置。
    01 异样值判断
    数据荡涤的第一步是辨认会影响剖析后果的“异样”数据,而后判别是不是剔除。异样值通常有下列几个表示:
    (1)不足残缺性
    残缺性即记载数量称号是不是残缺,外部数据因为属于企业外部本人出产的数据,相对于而言对比好掌控反省。而假如是推销的内部数据,例如:城市土地人口微观数据或者某城的二手房买卖数据,则残缺性需求内部数据供给商提出相应保障。
    (2)不足精确性
    采集的数据必需要可以正确反应业务需要,不然剖析论断会对业务形成误导。这方面的反省,需求首先了解业务配景,第二需求判别采集的此类数据以及数据项是不是能够转换为剖析名目所需数据。假如部份数据不合乎业务逻辑,或者数据精确性很差,则对数据剖析形成很大的影响。
    (3)不足独一性
    数据的独一性应该从两个角度反省,常见的过错是多个数据一个编码,例如产品住宅,产品商铺都是同一编码,或者同时一个什物对应多个编码。假如导入零碎,零碎需求可以辨认,不然将会影响剖析主体的独一性。
    目前罕用的辨认异样数据的办法有物理判断法和统计判断法:
    物理判断法:按照人们对主观事物、业务等已有的意识,判断因为外界搅扰、报酬误差等缘故形成实测数据偏离正常后果,判别异样值。例如常见的年月日根本信息,显示值为:1900年1月1日。这类判断形式需求人工干涉,反省的任务量较大,假如没有找到数据之间的关联瓜葛容易犯错漏处置。
    统计判断法:经过零碎设定一个相信几率,并肯定一个相信上上限,凡超过此限的误差,就以为它不属于随机误差规模,自动断定为异样值。这类办法高效明白,且不会脱漏过错脏数据。罕用的办法有:拉依达原则、肖维勒原则、格拉布斯原则、狄克逊原则、t检修等。(详细形容查看下图)


    这类零碎判断并进行删除异样值的形式虽然高效,但也存在危险。由于每个办法不尽相反,得出的异样值也有可能存在偏差。为了增加这类误删的几率,能够将多种统计判断办法结合使用,而且要找出异样值泛起的缘故。是手工录入过错仍是数据接纳过程当中犯错。同时,假如发现有多个异样值,倡议逐一删除,即删除一个后再进行检修。
    02 缺失值处置
    在数据缺失重大的状况下,剖析后果会失真。因此需求将缺失值进行填补,传统形式反省出来的空值有人工进行增补,然而需求增补人员找到相干材料检修无误后再进行填补。固然假如关于后果要求并非特别大,且咱们能经过数据找到法则的状况下,能够采取公道的办法自动填补空缺值。例如:能够按照身份证号码,自动判别人员的性别。常见的办法有均匀值填充、K比来间隔法、回归法、极大似线估量法等。(详细形容查看下图)


    值得留意的是,数据采集的过程当中,假如关于某个字段要求必输,则能够经过零碎导入时自动判别是不是为null,假如为null则导入不可功,从源头管制数据品质。
    固然,咱们在做数据剖析的过程当中,也要看数据量的大小。个别状况下数据量越大,异样值和缺失值对总体剖析后果的影响会逐步变小。所以,在“大数据”模式下,假如异样值和缺失值较小的状况下,能够疏忽加重部份任务量,而着重对数据构造公道性进行剖析。
    03 格局内容荡涤
    假如数据是由零碎日志而来,那末通常在格局和内容方面,会与元数据的形容统一。而假如数据是由人工采集或用户填写而来,则有很大可能性在格局和内容上存在一些问题,简略来讲,格局内容问题有下列几类:
    1、字段显示格局纷歧致
    这类问题通常与输出端无关,在整合多来源数据时也有可能遇到,将其处置成统一的某种格局便可。
    2、内容中有不应存在的字符
    某些内容可能只包罗一部份字符,好比身份证号是数字+字母,中国人姓名是汉字(赵C这类状况仍是多数)。最典型的就是头、尾、两头的空格,也可能泛起姓名中存在数字符号、身份证号中泛起汉字等问题。这类状况下,需求以半自动校验半人工形式来找出可能存在的问题,并去除不需求的字符。
    3、内容与该字段应有内容不符
    姓名写了性别,身份证号写了手机号等等,均属这类问题。但该问题特殊性在于:其实不能简略的以删除来处置,由于成因有多是人工填写过错,也有多是前端没有校验,还有多是导入数据时部份或整个存在列没有对齐的问题,因此要具体辨认问题类型。
    格局内容问题是对比细节的问题,但得多剖析失误都是栽在这个坑上,好比跨表关联或VLOOKUP失败(多个空格致使工具以为“张三”和“张 三”不是一集体)、统计值不全(数字里掺个字母固然乞降时后果有问题)等等,需求大家重点关注。
    专栏作家
    成于念,微信大众号:Laosiji,人人都是产品经理专栏作家。关注互联网+行业、数字化转型落地。专一畛域包罗IT数据办理、数据资产、数据运用和最好企业数据案例理论分享。
    本文原创公布于人人都是产品经理,未经作者许可,阻止转载。
    题图来自 Unsplash,基于CC0协定。
    该文观念仅代表作者自己,人人都是产品经理平台仅提供信息存储空间办事。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题31

    帖子44

    积分198

    图文推荐