华人澳洲中文论坛

热图推荐

    大数据已死!从业10年轻哥爆文鞭挞:这套唬不住客户了

    [复制链接]

    2023-2-14 18:27:41 74 0

    原标题:大数据已死!从业10年轻哥爆文鞭挞:这套唬不住客户了  
    詹士 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    “大数据已死。”  
    说这话的,恰是来自Google十年员工,数据剖析产品BigQuery开创成员之一,Jordan Tigani。  


    在最新公布的一篇博文中,他表现——  
    大数据概念在十多年前开始衰亡,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起 (唬住)客户为相干办事买单的愿望,不然就将被数字时期丢弃。作者本人也曾是其中之一。   
    但当初,Jordan Tigani不只以为这类说法行欠亨,还称——“数据大小基本不是问题所在。”  
    那末问题在哪?他以为,咱们已无需耽心数据大小,而应专一于如何使用数据来做出更好的决策。  
    如斯舆论之下,也吸引了不少业内人士的围观和热议。  
    他的上述观念有何依据?  
    无妨从证实进程看起。  
    值得留意的是,作者表现,证实过程当中相干图表曲线并非严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——首要的是曲线外形趋向,而非切当数值。  
    “吓唬”客户的话术出问题了   
    Jordan Tigani先从一张PPT聊开去。  
    这是一条数据量随时间增长,呈现指数级增长的曲线,在过来十年,简直每个大数据产品采购都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。  
         


    亮出曲线后,销售们会趁势宣传产品,告知客户——大数据时期来了!你需求我手里的产品办事!  
    但Jordan Tigani以为,多年来的事实已证实,处置数据的老办法曾经行欠亨了,且大少数运用顺序也不需求处置少量数据。  
    一个左证是近年传统架构的数据办理零碎振兴,诸如SQLite、Postgres、MySQL都增长微弱,与之比较,“NoSQL”乃至“NewSQL”增长却停滞不前。  
    一个显著例子是MongoDB,它是排名最高的NoSQL类数据库,也一样是最火的横向扩展类数据库,此前几年MongoDB增长势头微弱,但比来范围却小幅降落,且与MySQL等主流数据库仍存差距。  
    Jordan Tigani以为——假如大数据真是将来,那状况应该纷歧样。  


    宣传大数据时期就在眼前的另外一个说法是——每集体都会被发生的数据吞没。  
    但Jordan Tigani在钻研客户中发现绝大少数客户总数据存储量不超过1TB,即使大型企业,其数据量级也soso。  
    按照他的从业教训,所办事的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。  
    这样一来,客户数据大小与数量听从幂律散布。  
    只要极多数客户具有PB级数据,不计其数客户每个月存储费用不超过10美元,而他们办事客户存储资源使用的中位数,连100GB都不到。  


    不只作者自己这么以为,Gartner、Forrester等机构剖析师及其余从业者也表现,大部份企业的数据库量级都小于1TB,且100GB是常态。  
    拿一家超千名客户的公司举例,即使每个客户天天下一个定单,外面包孕100项数据,天天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。  
    另外一个例子是以前作者接触了一家E轮独角兽公司,且还在疾速生长中,但即使这样,他们的财务数据、客户数据、营销跟踪数据及办事日志加起来,也只要几GB。  
    就这,能叫大数据?  


    还不算完,即使看“已有”部份,也有问题。  
    因为古代云平台将存储与计算离开,两部份利用量级也有很大差距,即——数据存储增长速度,弘远于计算资源需要增速。  
    详细来讲,企业数据的存储量随时间推移,确定是线性减少的,但大部份剖析计算需要是针对近期数据,不成能一遍又一遍重复读取旧数据。因此,计算需要不会同步迅速减少。  


    Jordan Tigani的一个客户就是这样。  
    作为寰球头部批发商,他们原有100TB当地数据,迁徙到云上后,数据质变成为了30PB,减少了300倍,假如计算资源需要也随之拉满,那他们在数据剖析上的破费将达几十亿美元,但事实上,他们只花了很小一笔费用。  
    作者以为,少量计算办事不被需求,也就象征着前沿架构不太有须要,乃至散布式处置也Duck不用。  


    与之相似,剖析数据的任务负载也远小于数据体量。  
    少数时分,人们往往只会查问前1小时、前1天或上周数据,较小的表会被频繁查问,但大表就纷歧定了。  
    在作者自己BigQuery任务阅历中,数据量微小的客户简直从不查问少量数据,除非他们正在生成一些讲演。  
    这类需要,也不要求机能优先,且仅是企业一周几十万个查问中的极多数。  
    正如下图,90%查问工作波及的数据量级不超过100MB,仅1%超过10GB,且即使查问巨型表,数据库也可经过一定处置,增加计算量和提早。  


    一个正面左证是——业内合乎本来“大数据”定义的产品也在变少。  
    在现在,大数据的定义之一是“任何单机无奈处置相干工作/场景需要”,好比00年代,数据任务负载关于单个商业计算机来讲,带不动是常态。  
    但明天,一个AWS的规范实例所用到的物理办事器包孕了64核及256GB RAM,假如为优化实例再多掏一点钱,又能在原根底上减少2个数量级RAM,这简直掩盖一切任务负载需要。  
    既然大数据时期完结了,那是否说,相干从业者要下岗了?  
    作者也提出了本人的看法——  
    完结了,但没彻底完结。  
    详细来讲,作者以为,大数据的另外一重外延是“当数据保留的收入小于其挖掘价值,那就应该保持”,于是,咱们需求断定哪些数据需求及时革除,以及面前的缘故,这将成为数据任务的首要部份。  
    这傍边,也包罗不同时代同一数据以不同字段存储,需求有人来加以保护和留有记载。  
    另外,基于相干监管规则,得多类型数据 (好比波及集体隐衷的电话号码)也需求按期革除。   
    再有,即是一些公司需求按期判别哪些旧数据要清算,以防止将来可能的法律危险。(手动狗头)  
    ChatGPT老板有不同看法   
    关于Jordan Tigani上述观念及论证,有网友表现反对,还联想到以前相似的任务阅历。  


    也有网友表现:  
    当XX已死,阐明它实在被认可之处会被保存上去。  


    值得一提的是,并不是一切人都赞同作者的观念。  
    尤为鉴于“XX已死”将话说得太满,有网友以为:  
    在近期AI大火之际,裁决AI所依赖的大数据已死,也是挺敢说。  


    当红炸子鸡ChatGPT面前老板Sam Altman,此前在旧金山一次技术流动中,也谈过对大数据的看法,Sam以为——  
    AI钻研畛域取得使人印象粗浅的提高,不只依托海量数据,同时更需求海量的计算。
        AI钻研畛域取得使人印象粗浅的提高,不只依托海量数据,同时更需求海量的计算。  
    上述观念不只强调了海量数据首要性,比较Jordan Tigani所以为的“重存储轻计算”看法,正好相同。  
    另外一个不同声响来自一名名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是环抱“大数据是不是灭亡”  
    他以为:  
    大数据不会死,只会变得更首要。
        大数据不会死,只会变得更首要。  
    所给出理由是:一方面依据是寰球生成的数据总量仍在减速增长,且细分畛域中,处置“大数据”正成为常态。  
    基于此,Lewis Gavin以为——所谓“大数据死亡”,只是营销说法的灭亡,但Big Data处置技术和运用仍存在,且它会成为司空见惯的景象。  
    IDC于1月24日公布的一篇预测证实了大数据市场仍在增长,内容指出——  
    将来几年,寰球大数据和剖析软件市场将完成微弱增长,且详细到该板块各细分畛域,将来几年增长率均为双位数。  


    无意思的是,有网友提出“大数据的死亡”并非个技术话题。  
    他表现:数据之所以没发扬价值,实际上是商界精英们往往疏忽数据内储藏的论断。  


    另外一位网友也表现赞同,还称:  
    本人曾开玩笑,数据迷信家的任务并不是搞剖析,而是为高管们前瞻性观念提供无力证实。(手动狗头)  
    —   
    《中国AIGC产业全景讲演暨AIGC 50》调研启动  
    谁会是中国的“ChatGPT”?最有竞争力和后劲的AIGC气力位于何方?  
    量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术可以被公众看到。   
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题31

    帖子41

    积分183

    图文推荐