华人澳洲中文论坛

热图推荐

    数据护城河的浮泛许诺

    [复制链接]

    2022-9-15 15:27:44 20 0



    编者案:a16z 合伙人 Martin 和 Peter 以为咱们通常对「数据护城河」的了解实际上只是「数据范围效益」,并非真实的「数据网络效应」,后者才是值得企业数字化转型真正寻求的指标,并提出更无效构建企业数据护城河的战略。长时间以来,数据始终被誉为公司的竞争护城河,而跟着比来一波人工智能初创公司的衰亡,这类说法被进一步炒作。「网络效应」一样被晋升为构建软件业务的进攻气力。所以固然,咱们常常听到对于二者的结合:「数据网络效应」(咱们以前已具体探讨过这个概念)。
    但关于企业初创公司——这是咱们关注的畛域——咱们当初想知道是不是无数据网络效应的实际证据。另外,咱们疑心即便拿更间接的数据范围效应作为许多公司的进攻战略,其价值也无限。这不单单是一个学术问题:它对开创人在哪里投入时间和资源拥有首要意义。假如你是一家初创公司,假定你采集的数据等于一条耐久的护城河,那末这个战略可能致使你在其它的确能进步企业长时间进攻才能的畛域投资缺乏(例如:垂直化、获得市场主导位置、加强销后办理、品牌建立等)。
    将数据视为神奇的护城河可能会误导开创人去疏忽真正能获胜的其它事件
    换句话说,将数据视为神奇的护城河可能会误导开创人专一于企业开展所真正需求的货色。那末,「数据网络效应」存在吗?范围效应与传统网络效应有何不同?一旦咱们开脱了必需具有它们的炒作……初创公司如何建设更耐久的数据护城河——或者最少找出数据在他们的策略中最能发扬作用之处?
    数据+网络效应≠数据网络效应
    从狭义上讲,「网络」在用户/客户/端点/等零碎中发扬作用。在构造上摆列成一个网络。在咱们的上下文中,此类网络通常环抱反对网络构造的技术、产品或办事构建,无论是环抱用户营销功用(例如社交网络)和/或协定(例如以太网、电子邮件、加密货泉)来构建。
    当更多节点参加网络或现有节点之间的参预度减少时,当参预者参预网络的价值回升时,就会泛起网络效应。想象一下,试图进行单向电话沟-通,或者只给世界上五集体打电话,而没有其余人;跟着愈来愈多的用户参加网络,电话零碎变得更有价值。其它常见的、更古代的网络效应案例可能包罗社交网络、在线市场和区块链网络。
    拥有网络效应的零碎通常拥有节点之间经过定义的接口或协定进行间接交互的特性。参加网络需求合乎一些规范,这减少了一切节点的间接交互,并使这些交互变得愈来愈有用户粘性。然而,当谈到环抱数据网络效应的盛行叙说时,咱们通常不会看到相反的粘性、间接交互作用(更不必说节点之间因为协定或接口而发生的机械性依赖瓜葛了)。
    仅仅具有更少数据通常不会发生外在(固有)的网络效应。大少数「数据网络效应」实际上只是「范围效应」大少数环抱数据可进攻性的探讨实际上都归纳为「范围效应」,这是一种合乎网络效应更宽松定义的状态,其中节点之间没有间接交互。例如,假如您最喜爱的电影 X 的大少数观众也偏向于观看节目 Y,Netflix 保举引擎能够预测您可能会喜爱节目 Y,即便这些用户之间没有间接互动。更多的数据象征着更好的保举,这象征着更多的客户,乃至更多的数据……也就是著名的「增长飞轮」。
    但是,即便有范围效应,咱们的视察是:数据自身很难成为足够弱小的护城河。与传统的范围经济不同,固定的后期投资会跟着时间的推移而变得愈来愈无利;而偏偏相同的是:数据范围效应中,不停新增共同数据的本钱实际上可能会回升,而增量数据的价值反而降落了!
    以一家公司使用聊天机器人往返复客户反对查问为例。从下图中能够看出,从客户办事记载创立初始语料库可能会为简略的查问(「我的包裹在哪里?」)提供谜底。然而绝大少数讯问要繁杂很多,其中许多只被问过一次(「我始终在等候抵达我前门台阶的阿谁货色在哪里?」)。因此,在这类限度状况下,跟着时间的推移,采集有用的查问变得更为难题。并且,在这类状况下曾经采集了 40% 的查问之后,采集更少数据实际上基本没有任何劣势!


    上图来自 Eloquent Labs 的 Arun Chaganty 的一项钻研(经许可同享):用于提交给客服聊天机器人的问题。在其中,他发现 20% 的数据散发任务往往只能让您获取大约 20% 的用例掩盖率。超过这一点,数据曲线不只边际价值递加,并且捕捉和清算的本钱也愈来愈高。另请留意,该散布接近 40% 用意掩盖率的渐近线,这标明按照上下文自动化一切对话的难题水平。
    固然,数据范围效应削弱的临界点因业务畛域而异。但无论这类状况产生在何时,终究的后果通常都是同样的:放弃当先位置的才能往往会跟着数据范围的扩张而放缓,而不是放慢。跟着数据材料库的增长和竞争对手的追逐,可进攻的护城河不会变得更弱小,而是会逐步隐没。
    跟着数据池的增长,数据护城河并无变得更弱小
    这样做的目的不是对数据作为进攻护城河的效用做出明白的陈说——咱们的观念是,进攻性并非数据自身固有的。除非您理解指标业务畛域的数据旅程(生命周期),不然无奈包管可进攻性;下列框架可能会对您的思考有所帮忙。
    了解数据旅程的实用框架 最小可行数据库
    当大少数人议论网络效应时,他们专一于战胜疏导或冷启动问题(俗称「先有鸡仍是先有蛋」问题),即获取足够的初期节点以使网络对一切节点都有用(并使网络内的经济生态具备竞争力)。在大少数网络效应业务中,「零终点启动」问题很难解决,特别是当您需求网络曾经启动并运转以吸引流量时。
    但关于许多拥有数据范围效应的企业来讲,这其实不一定是正确的。启动咱们以为的「最小可行数据库」足以开始训练你的零碎,而且是守业公司数据之旅的第一个转机点。这个初始数据库能够来自多种来源:从可用来源自动捕捉数据,例如网络爬虫;让初期用户用他们的数据换取一些货色;经过迁徙学习从新利用其它畛域的数据;乃至综合生成数据,您能够在其中以编程形式创立要训练的数据。
    在数据之旅的初期,获取最小的可行数据库需求相对于较低的投资,并且显然不会是耐久的护城河。
    数据收集??本钱
    在给定的数据库中,跟着时间的推移,获得下一条数据往往会变得更为低廉。为您的数据库带来新信号的共同数据可能更难在乐音中找到,更难以维护,而且跟着时间的推移需求更长的时间来明晰地标志它们。在许多依赖所谓「数据网络效应」的畛域中都是如斯。
    另外一方面,在传统的网络效应下,用户获得本钱会跟着时间的推移而降落,由于参加网络的价值会减少。另外,跟着传统的网络效应,也往往伴有着更固有的病毒式传布,其中节点被鼓励本人开展网络并因此传布以减少网络的更多价值。这些属性都不合用于数据效应:数据本钱回升。
    增量数据价值
    当您采集数据时,添加到数据库中的数据也往往变得不那末有价值。为何?即便新的恣意一批数据的采集本钱与获得的最初一批数据的本钱相反,但鉴于您获得的一些新数据曾经与现有的数据堆叠,它发生的价值也较小。跟着时间的推移,这类状况只会变得更糟:新数据带来的益处会降落。
    在咱们见过的大少数初创公司中,初期的新数据合用于全部客户群。但超越某个点(例如下面示例图中的渐近线)后,采集的新数据将仅合用于特殊用例「长尾」中的小子集。因此,跟着数据集的扩展,任何数据范围效应护城河也变得不那末有价值。
    数据陈腐度
    这一点似乎很显著,但怎么强调都不为过:在许多理想世界的用例中,数据会跟着时间的推移而变得古老……它再也不相干。街道变动,温度变动,态度变动等等。
    不只如斯,许少数据初创公司的任何专有洞察力最后都会跟着时间的推移而削弱,由于跟着愈来愈多的人采集数据,数据的价值会升高:跟着竞争对手在同一畛域追赶你,你的预测劣势会逐步隐没。而且跟着时间的推移放弃现无数据库的陈腐所需的任务量——更不必说当先了——跟着范围的减少而减少。
    从这个意义上说,数据就像一种商品。何时数据才具备(竞争)进攻才能,你能做些甚么来办理它?这并非说数据毫有意义!但这的确需求比从「咱们有少量数据」跳到「因此咱们有长时间进攻才能」更三思而行的斟酌。
    因为数据护城河显然不会仅经过数据采集继续(或自动产生),因此子细斟酌映照到数据旅程的战略能够帮忙您与数据劣势竞争——而且更刻意和被动地跟上——数据劣势。当渐近线或收益递加点忽然袭击您的公司时,最佳为此做好方案。
    数据效应需求更多三思而行的斟酌,而不是从“咱们具有少量数据”到“因此咱们有长时间的进攻才能”启动初始数据库与现有者竞争者对垒如前所述,在某些畛域中疏导数据并非那末难题。但是,开创人实际上能够利用这一劣势与具有数据但未能正确运用数据的现有竞争企业展开侧面比武。在启动本人的「最小可行数据库」之后,在构建正确数据集方面处于当先位置的初创公司,可在现有竞争者弄分明如何了解数据以前,利用该洞察和技术减速和当先于现有竞争者。
    生成「分解数据」是遇上具有少量数据的现有企业的另外一种办法。咱们知道有一家初创公司出产分解数据来在企业自动化畛域训练他们的零碎;后果,一个只要多数工程师的团队可以冷启动他们的最小可行数据库。该团队终究击败了两家大型现有企业,依托他们数十年来在寰球规模内采集的现无数据集,由于这两家老企业的数据洞察力都不合适解决同一个行业问题。
    理解数据散布
    对数据的散布有一个粗浅的理解,这将为您的数据战略提供信息,以及您实际上能够创立多少进攻性,详细取决于产品的业务运用畛域。
    数据的散布及其相应的值因业务畛域而异。因此,深化理解散布的状态,并制订正确的战略来捕获它相当首要。是不是存在难以获得的症结数据的「肥尾巴」?假如是这样,将数据库扩展到长尾的方案是甚么?您的业务域中数据精确性有多首要?甚么过错率是能够承受的——假如机器学习在发给共事的电子邮件中预测过错的自动实现,这不是世界末日,但自动驾驶汽车世界中不许确的对象分类能够,从字面上看,是一个生和死的问题。假如不子细视察,乃至可能很难发现对数据散布的曲解,例如,假如权重没有正确运用于时间序列数据(例如,拜见「灾害性遗忘」)。
    咱们以前分享的应战——许多畛域的少量学习都在特殊用例的长尾中——假如你是后行者,也多是一个劣势。关于将这些常识嵌入产品和销售流程的企业来讲尤为如斯。虽然一些投资者不喜爱涉足繁杂市场,由于他们只看到了范围和利润方面的难题,但咱们以为,进入繁杂市场会发生自身能够带来竞争进攻才能的「填坑教训」。
    理解数据在多大水平上改进了您的产品
    在某些畛域,具有更少数据会发生更好的产品。如斯之多,以致于它将战胜跟着时间的推移不停减少的开消和数据价值的降落。例如,假如您有一个精确率为 85% 的癌症筛查,那末它比精确率为 80% 的筛查更有可能被使用。这类使用将提供额定的数据,从而进步精确性。
    虽然咱们尚无在理论中看到得多这种案例,但在多数状况下,数据劣势能够在产品中发明「赢家通吃」的劣势,这显然是弱小护城河的根底。
    固然,理解数据对产品的奉献水平其实不老是那末简略。通常,选择算法或调剂产品功用比独自具有更少数据的影响要大很多。
    衡量品质和数量之间的衡量
    培育数据库中最辣手的衡量之一是如何均衡品质与数量。为何会有取舍?解决太多的范围问题可能会致使在普遍的用例中失掉好的预测才能,但对其中任何一个用例都不是很好的预测。解决的范围太少,则可能致使数据库可以很好地解决一个狭隘的问题,但在客户冀望的全部用例集上则显得交付效果薄弱。
    在理论中,这可能象征着将更多的精神集中在为狭隘的用例标志丰硕的数据上,或者更普遍地为在更多用例中有用的数据广开阀门。显然,深度和广度都是任何数据库的症结属性,然而在任何一个标的目的上弄错均衡都会重大影响机能。在竞争中放弃劣势时,一直为您的特定产品提供品质/数量的衡量将使您可以最大化你的「数据护城河」增量数据的价值。
    维护专无数据源
    咱们在这篇文章中提出的问题——也是咱们但愿开创人问本人的问题——数据范围效应真正存在于哪里,它会继续多久?这其实不象征着公司无奈从专无数据中获取实际(竞争)进攻性;显然,有很长的行业列表(例如制药)和几十年来始终主导其市场的反例,特别是当他们出于行业构造缘故(例如,Equifax、LexisNexis、Experian 等)拜候专无数据集时。
    积攒专无数据是一种进攻战略,当来源希少或不肯向多个供给商(例如政府买家)提供数据时,这类战略最无效。跟着平安要乞降合规规范的门坎回升到历史最高程度,经过供给商审查以拜候敏感数据自身可能成为反抗竞争对手的护城河。
    即便承当组装、清算和规范化大型公共数据集池的一切后期本钱,也会发生范围效应,新兴竞争对手将不能不从头开始从新创立。尤为是在专业常识关于首先查找、了解和清算数据相当首要的状况下。被证实是担任任的数据保管人的初创公司能够博得客户的信赖,而后他们将只与他们同享愈来愈敏感的数据,从而造成护城河。
    枯败的数据护城河……
    数据是许多软件公司产品策略的根底,它能够经过多种形式进步进攻才能——但不要把它当做魔杖。大少数对于数据网络效应的叙事实际上都是环抱「数据范围效应」,正如咱们在这篇文章中所概述的那样,假如方案不正确,有时会发生相同的成果。但不要假定你无数据网络效应(你可能没有),或者数据范围效应会永久继续上来(简直确定不会)。
    相同,咱们激励初创公司更片面地思考可进攻性。更大的长时间进攻性更有可能来自品牌包装差别化;当您跨行业垂直化时,理解该畛域并将其反应在您的产品中;主导市场营销比赛;打赢人材大战,打造世界一流团队。这些致力将在保卫和博得市场方面获取报答,而不单单是数据。
    (作者:Martin Casado,Peter Lauten;封面摄影:Francesco Ungaro)

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题30

    帖子39

    积分184

    图文推荐