华人澳洲中文论坛

热图推荐

    写给产品和经营人看的数据系列(1):维度和目标——事实的视角

    [复制链接]

    2022-9-17 06:27:15 20 0

    在向数据剖析师提需要时,你是不是只会用“字段”这个词,来指代一切的维度和目标呢?其实,数据的维度和目标是十分首要的,当你理清正确的维度和目标时,你的问题便曾经解决了一大半。如何正确了解维度和目标呢?一同来看一下吧。

    请不要用“字段”,覆盖本人对维度和目标的一知半解。
    刚刚任务那会,我在鹅厂从事广告变现相干任务。在向数据剖析师提需要的时分,我只会用“字段”这个词,来指代一切的维度和目标。得多时分,数据剖析师同窗会向我耐烦解释,为何这个“字段”不克不及被计算,阿谁字段没有方法掏出来。
    直到我起初零碎学习了数据剖析、数据仓库相干的常识,理解了维度、目标、OLAP、上卷和下钻这些根本概念之后,才发现我现在的需要文档问题有多大,而这也是我写下这篇文章的缘故——避坑。
    01 为何要搞分明维度和目标?
    最间接的,了解了维度和目标之后,再跟BI和RD提需要,能防止被当作一个数据呆子,体现本人的专业性(最少看起来)。
    其次,了解维度和目标的条件,是理解业务逻辑和数据出产逻辑
    以往咱们是从用户流程、组织层级等视角了解咱们的业务,然而无妨从数据逻辑视角试试:数据是在哪一个主体上,在甚么场景下,以甚么样的形式被出产和记载的?数据是怎么被加工和呈现的?为何需求这么呈现?这个目标假如跌了,对业务有指向意义吗?
    当你问这些问题的时分,你会发现你不只要知道产品的设计逻辑、各个模块的功用点,还要知道它们的耦合和组织形式。这些都会驱动你去问共事、查wiki、本人上手体验。置信我,这样全套流程走上去,你对业务和产品一定会有更深化的了解。
    再次,理分明维度和目标,能帮咱们肯定剖析的思绪。
    业务目标降落了,咱们要做定位和剖析;要写PRD了,咱们要做功用点的收益预估——置信你一定为数据抓耳挠腮过。
    那末咱们到底应该从宏大的数据库中,拔取哪些“字段”来辅佐剖析呢?高效的形式之一——在对业务了解根底上提出假定,而后把假定翻译成维度和目标,不然咱们只会堕入在宏大的数据细节中而无从下手。
    所以,当你理分明正确的维度和目标的时分,你的问题曾经解决了一大半。
    02 从事情的视角,意识维度和目标
    网上引见维度、目标及其差别的文章得多,能够作为根底概念辅佐初识维度和目标。
    我但愿从“事情”的视角,带你从新意识这两个名词。
    做过App/网页前端埋点的同窗,置信对“事情”(event)这个词一定不会生疏,它指的是某个特定行动的产生,如某个按钮的暴光、点击,这些均可以称作事情。
    这里,咱们将事情的含意泛化一下,不局限在某个详细行动上,也不要拘泥外行为埋点范畴中,而是将其扩展到一切的构造化数据表上。
    每一个张数据表,都是环抱一个特定事情进行创立的。而事情的产生,必定有其主体,即登程事情产生的人/物/事。
    维度,是对事情产生主体属性的增补形容,或者伴有主体而存在的,除了事情产生的时间,它个别是动态存在的,不依赖于事情的产生。
    目标,则是对事情开展水平的量化形容;一个目标,通常形容主体的其中一种形态。它依赖于事情的产生,是一个静态变动的数值。
    假如感觉笼统,咱们来看个例子。
    作为产品经理,咱们需求关注的一个首要目标是“次留”,即明天关上App的用户,有多少比例会在第2天,持续关上咱们的App:回访在这里就构成为了一个事情,而事情产生的主体是用户。
    假如要细拆留存,能够分拆的维度有:性别、春秋、机型、新/老用户、地区、来源渠道、是不是在App内领取过,等等。这些维度,自身是附丽于用户这个主体而存在的,它其实不依赖于回访的产生。所以,它是一个动态的属性形容,其实不会由于事情是不是产生,而产生变动。
    然而目标不是。次留跟着会跟着你视察的时间、视察的群体而产生变动。
    03 维度的4个作用
    1)筛选:咱们个别经过维度来筛选所视察的数据规模。
    假如是定性的分类维度,那末经过枚举能够筛选,典型的定性维度如年份、省分等;假如是定量的维度,那末能够像目标同样,根据数值大小取一个规模便可,如身高。
    2)聚合:艰深地来讲,即咱们但愿在多大粒度上剖析数据。
    好比你要统计广告损耗,那末是在创意粒度上看,仍是将创意粒度损耗数据加总,并上卷到方案粒度剖析损耗呢?假如你以前写过SQL,那末确定知道在对目标进行sum(乞降)、avg(求均匀)之后,要在脚本最初参加group by XX,也就是你但愿聚合到的维度。
    然而需求留意的是,你在进行聚合的时分,一定要确认计算的目标,是能够在该维度上可分和可计算的,不然你算出来的数据确定是过错的,这个会在前面会胪陈。
    3)比较:数据只要在比较的时分才无意义。
    咱们发现数据下跌、上涨、颠簸,是由于咱们知道正常的数据应该是多少,超过这个规模的数据都是异样的,才会需求进一步对比和剖析。咱们在比较数据的时分,通常会选择某一个维度,而后在该维度下进行比较。不在同一个维度上,比较2个一样目标,在业务中没有任何意义。
    假定咱们要比较每一个个机型的留存,必需是在同一个维度(机型)的下钻和对比,这通常称为横向比较。
    另外一种比较,则是以时间为维度的纵向比较。咱们看DAU、留存这些目标,到底是涨了仍是跌了,通常都是视察一段时间的目标变动;环比、同比这些,则是基于不同时间窗口维度,对目标的二次加工和计算。
    4)归因:这里的归因,指的是对数据颠簸的解释,而不是数字广告畛域的归因模型(attribution model)。
    当咱们经过同维度的比较,发现数据异样颠簸时,通常咱们需求对颠簸的缘故进行定位和解释。而终究的排查后果,必定会定位到某个维度上,或者维度的某个值(枚举)上。
    咱们发现昨日的定单数,日环比(相对于于前天)跌了30%,假如排除掉经营流动完结带来的正常上涨,而是一个异样的降落,咱们必需找到可能的缘故。
    咱们通常会逐一维度剖析。好比看品类:是衣服跌的多,仍是鞋子跌的多,仍是总体都在跌;看时间,定单数量是不是在某个时间段跌的多(是不是某个时间段办事器崩了);看买卖形式(是不是某个领取形式出了问题)、看App版本(是不是某个版本有bug)……
    对于数据颠簸的归因,后续会再独自用一章的篇幅,来重点讲。
    04 目标在维度上是不是可分和可聚合
    咱们拿到一份数据,先不要急着上手剖析,而是要弄分明维度与目标的瓜葛。这里的“瓜葛”咱们依然分两层来了解。
    第一层:目标所反应的事实,能够在所选维度上产生、被统计;换句话说,目标所反应的被统计的事实,在业务场景中是实在存在的。
    好比咱们在数字广告场景中,权衡一条创意好坏的目标是CTR(点击率,Click Through Rate)= 同时代点击次数/该广告暴光次数。咱们能够对比不同创意、不同方案之间的CTR,然而不会对比不同广告落地页之间的CTR。
    由于广告落地页是用户点击完广告之后关上的页面,外显广告点击行动其实不在落地页这个主体上产生。只管比较之下,不同落地页的CTR之间确定略有差别,然而落地页并非形成CTR差别的缘故,这类横向比较并没有实际意义。
    另外一个案例中,目标的确在这个维度上产生,但通常状况下其实不能被计算。
    咱们常常看的一个目标是UV(独立访客数),假如在device_id(装备ID)维度上看UV,个别没太大实际意义,由于通常状况下,一个装备ID上只要1个UV,即UV和装备ID等价(除非某些业务如反做弊场景下,需求剖析1个装备登录了几个账号)。
    第二层:计算时,目标在一切参预计算维度上可联系、可加总。
    假如咱们把维度,想象成一把梳子,把目标想象成一缕头发。当梳子通过头发的时分,头发能被梳齿,分红N块更细的发束(联系),且头发的数量并无产生改动;当拿掉这把梳子的时分,这些发束又聚合在一同(加总),恢复成原来的模样。
    仍是以UV举例。咱们通常需求看DAU日活和WAU周活2个目标。DAU统计对比简略,看天天有多少用户数关上了App。WAU是对过来一周的访客数的去重计数,若1个用户在周一和周三都关上了App,在WAU的计算中,这个用户只会被计算一次,然而在日活的口径中,周一和周三会被分别统计一次。
    假如咱们拿到的是以周为维度、周活为目标的一张表,假定咱们想要剖析过来一周天天的UV,那末显然不克不及间接用周活进行计算,即WAU在日期维度上不成联系。反之,周一到周日天天的DAU,加总起来也不是周活,也就是说DAU在周维度上不成加总。
    特别要留意的是,一些复合目标在总体上无意义,也能在一些维度层级上被联系和被计算,然而不克不及被有限联系。
    咱们通常会看创意、(上卷一层到)方案、(再上卷一层到)账户维度的CTR,然而咱们通常不会去计算单个用户粒度的CTR。由于假定每个用户只会看见1次广告,对这条广告点击行动只要“是”或者“否”两种状况,CTR要末是0,要末是1,这类极端值,其实不能反应一条广告品质的好坏。
    05 维度和目标可调换
    咱们关于维度和目标的了解,一定要在详细业务场景下深化剖析。并非某些字段一定是维度,某些字段一定是目标;维度和目标的界定,一定要按照详细业务场景,以及在该业务场景下的数据出产逻辑。
    正如上文所说的那样,就像“薛定谔的猫”同样,它取决于你对这次事情的主体、性质等的视察。
    假如单看“体重”这个字段,你感觉它应该是维度,仍是目标呢?
    我以为要看“体重”所在的场景。
    假如你是一个体育教师,当初要经过体重、降低、BMI、肺活量等这些字段的数值,给每一个个先生的安康情况打分,体重在这里就是一个要被计算的目标。
    反之,假定咱们要看体重跟薪资支出、寿命的瓜葛,则体重作为维度更为合适。
    另外,经过二次计算,维度和目标也能够调换,即原来是维度的字段,能够变为目标;反之,目标经过设置区间能够变为维度。
    仍是以上文提到的广告损耗为例。咱们拿到的数据是方案ID(维度)、损耗(目标);然而假如咱们想看,损耗在5万及以上、3-5万(不含5万)、1-3万(不含3万)和不到1万的方案数有多少,那末就需求把目标变为一个分类维度,而后对方案ID去重计数——方案数成为了目标。
    总之,对维度和目标引见文章看的再多,也不如本人亲手理论。你能够找公司的数仓或者BI同窗,要1张数据底表的字段明细,尝试本人剖析,好比看目标是不是能够在维度上可联系、可加总,哪些维度能够筛选、聚合。
    本文由 @简写2019 原创公布于人人都是产品经理。未经许可,阻止转载
    题图来自Unsplash,基于CC0协定
    该文观念仅代表作者自己,人人都是产品经理平台仅提供信息存储空间办事。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题26

    帖子38

    积分178

    图文推荐