|
导读:DataWind 是火山引擎数智平台 VeDI 旗下的一站式数据剖析与合作平台,次要有三个使用场景:第一,数据探究与剖析;第二,数据合作与集成;第三, AI 才能融会。
DataWind 掩盖的人群十分普遍,简直反对字节跳动外部一切业务线,掩盖绝大少数员工使用需要,天天运转 20 万张以上活泼的仪表盘,反对超过 500 万次微小数据量的查问,天天有超过 5 万人在使用 DataWind。
分享佳宾|徐冰泉 火山引擎 DataWind技术担任人
编纂整顿|卢梦桃 巴斯大学
出品社区|DataFun
01
DataWind 在字节跳动的使用场景
aa3wskx4qo4.jpg
DataWind 次要有三个使用场景:
第一,数据探究与剖析。用户能够经过可视化查问,进行数据剖析和制造仪表盘。在微小数据量下,DataWind 能够完成秒级查问后果前往,因此用户更习气用明细表去做数据剖析。第二,数据合作与集成。用户能够在别的工具或平台上与 DataWind 互动。例如,用户能够把关怀的仪表盘推送到本人的邮箱或者办公软件上,或者在某些目标泛起异样或者激烈颠簸的时分,经过飞书或者邮件进行通知。除此以外,有一些业务方的数据剖析场景是相对于定制化的,业务方也会经过 DataWind 对比强的凋谢才能去集成,经过一系列的凋谢接口去完成定制化诉求。第三,AI 才能融会。近两年,字节跳动外部对 AI 才能的诉求愈来愈强,愈来愈多的用户但愿经过 AI 的才能,让数据剖析变得更为智能。一种诉求是但愿借助机器学习的办法,对数据进行剖析和预测;此外一种则是但愿这个平台可以帮用户找到值得关注的目标维度,完成更智能的数据洞察。02
DataWind 开展历程
ugkwyq1sfex.jpg
DataWind 是一个相对于年老的产品。
第一个版本降生于 2018 年,那时它仍是一个简略的 SQL 查问工具,用户经过写 Query 提交去查问后果,但等候时间相对于对比久。起初逐渐拓展了可视化查问的才能,让愈来愈多没有技术配景的人经过迁延拽的形式,去上手数据剖析和仪表盘制造。
数据剖析自身是离不开数据的。有一个常见的场景,想要剖析的数据在数仓尚无,或者已有的不是你想要的,这对一个没有技术配景的用户来讲,做数据剖析的进程可能就会被卡住。所以,咱们又构建了一系列的数据筹备才能,以零代码低门坎的形式帮忙没有技术配景的业务人员轻松实现 ETL。
为了顺应不同场景的数据展现诉求,咱们引入了完美的挪动端驾驶舱大屏才能。在 2021 年摆布,为了更便利的被第三方零碎集成,DataWind 凋谢平台正式构建。
03
DataWind 产品才能
lis5vq4zr0g.jpg
目前,DataWind 平台根本上已具备了一站式的数据办事和剖析才能,包孕数据接入、数据整合、数据集成、查问、剖析、探究、合作等一系列功用。
04
DataWind 与火山引擎
53y011415gh.jpg
理解火山引擎的敌人可能都知道,火山引擎包孕了得多数据产品,也不乏数据剖析类的产品,那末 DataWind 跟其它产品的区分和分割是甚么呢?
从产品定位来说,特定畛域的剖析产品都会有一些场景相对于固定的深化的数据剖析和展现办法,如 AB 测试中的明显性、用户行动剖析的留存剖析、某个用户的行动重放等等。DataWind 则是更关注通用场景下的数据剖析诉求的知足状况。
此外,DataWind 可以买通企业外部绝大少数的数据资产,与火山引擎的其它数据产品放弃严密联动,如剖析型数据库 ByteHouse、湖仓一体剖析办事 LAS 等,也能够跟 VeCDP、DataFinder 等产品的数据间接买通完成数据查问。经过买通各类数据,用户能够很便捷地把用户行动数据和数仓其余数据融会在一同,用 DataWind 进行剖析。
05
数据洞察
2kw4ltilpxm.jpg
DataWind 之所以力图对罕用的剖析场景、剖析办法和数据资产做到全掩盖,是由于数据剖析进程原本就是一个灵敏、启示式的探究进程,这与做问题排查十分相似。
剖析缘故以前,要设置多个假定。验证一个假定后,会排除一些可能性,又会发生新的设法。在这个过程当中,问题的畛域有可能产生变动,如营收数据异样、或从新剖析用户行动数据、查看监控数据、发现用户留存或者用户行动有异样等。
在启示式的探究过程当中,疾速响应十分首要的。假如不克不及做到疾速响应,验证其中某种假定将耗损很长期,等后果出来时可能曾经忘了以前的剖析思绪。因此,现实状况是有一个弱小的数据剖析零碎,只有问问题,就可以疾速精确地产出后果。
1gfxuwb1igp.jpg
要达到疾速响应,面前需求得多任务。
要知道到哪里能找到相应的数据,这些数据要如何组合起来,基于这些数据,要构建出甚么样的数据模型来做查问,去剖析后果。剖析结束果当前,又可能会发生新的问题,这个链路很容易变得十分耗时,乃至有时分在一个团队内都很难去做到闭环,影响全部数据洞察的效力。
斟酌到 DataWind 在字节外部有泛滥用户,对全部公司的效力影响十分显著,这条链路需求变得更快、更简略。思绪其实也很明白,就是要省掉一些不用要去做的事件,同时让必需要做的步骤更快地实现。根据这个思绪,有很大的优化空间,好比把元数据的办理、目标维度体系做好,优化元数据的搜寻、排序和保举。
当用户有一个新设法时,可能发现曾经有人做好了相应的图表和仪表盘,就能间接查或者请求一下权限。又或是相应的仪表盘虽然没有,然而相应数据的底表在数仓里曾经有了,能够间接去查问。
这些都可以让链路变得更快。
大少数的场景下,查问是不克不及省略的,所以晋升查问机能十分首要,尤为是在微小数据量上完成更快的查问,其首要性更加凸起。这方面假如不克不及失掉改良,通常来说,就只能做两种选择,一是增加数据量,或者去做一些预聚合,但问题是在启示式的数据探究过程当中,会不停发生新问题,很容易发现维度、目标或力度不知足需要,又需求去跑数据;二是用大数据量的细粒度数据去查,需求用户等候时间较长。所以,近些年来,DataWind 始终在千方百计地晋升查问机能。
06
用户特点
1. 海量数据的明细查问
ijkoz3nyljr.jpg
进步查问机能后,字节跳动的用户更为喜爱用明细表来做数据剖析,外部一周内被查到的数据量,根本上维持在400PB以上。天天会有 500 万次以上的查问,查问数据量过亿乃至过10亿行的这类查问是习以为常的,根本上查问均可以在 10 秒内实现。
放弃这样的水准实际上是对比难题的,由于外部业务在疾速的开展,剖析需要也在疾速增长,表范围也变得愈来愈大。在过来半年,查问量增长了 50% 以上。在不久以前,像抖音等业务方的查问数据量在 10 亿行摆布,而当初得多数据剖析曾经是基于千亿行的范围。
在硬件资源根本不减少的状况下,可能很致力的把大查问从 30 秒摆布晋升到了 10 秒,乃至 5 秒内,用户感觉体验变好了,又会上更大范围的数据。这也促使 DataWind 不停地去晋升查问机能,关注的目标是 10 秒内的查问占比,外部以为在这个时间量级内实现响应,通常不会妨碍启示式的数据剖析和探究的进程。
s2vg3sartb2.jpg
为了完成在大数据量下疾速前往查问后果,DataWind 在得多标的目的上做了致力。
首先,在硬件与引擎方面,收益是十分可观的。更高的机器与网络配置,加之在大数据量查问下面更有劣势的引擎,往往曾经可以带来十分显著的体验晋升。火山引擎的 Bytehouse 是咱们目前使用最频繁的引擎,其机能比开源版本 Clickhouse 更为凸起,也会拿 Datawind 的查问场景去做优化,为总体的查问性提供根本的保障。
其次,在运用层面,咱们也会做各种各样的优化尝试,好比尽可能增加需求扫描的数据量,增加不用要的消费。咱们尽量的让数据的存储形式,更婚配其查问形式,由于 DataWind 自身就是在通用场景下的数据剖析平台,要做到这一点是有一定难度的,按照用户的查问形式,去从新调剂数据的分区别片形式,以及索引等,就会有显著的晋升。
另外,还有一些罕用的场景,如 join 或者是在 BI 畛域使用得很频繁的计数去重。对这些频繁使用,然而机能往往对比差的场景, DataWind 做了特定的优化,能很明显地改良用户体验。
最初,就是不同的引擎对资源的需要也是纷歧样的。好比说, Bytehouse 有两个版本,其中 CE 版能够提供对比好的机能,但存储计算不别离,本钱相对于较高。CDW 云数仓版的机能没有 CE 版那末卓着,然而它是存算别离的构造。咱们外部也会按照用户的数据量、对查问响应的预期,去做数据存储下面的合成,把硬件资源划分红范围不同的集群。按照数据的范围,还有查问的形式,去选择最合适的引擎和集群。
5euuf2eoy2s.jpg
上述内容也体当初了架构中,底层有一些不同的引擎,每种引擎都由火山引擎的团队针对场景做优化。数据拜候层屏蔽了这些对引擎拜候形式的差别。对一些首要水平对比高的仪表盘,DataWind 会做预刷的处置缓和存。对查问的统计剖析,咱们但愿 DataWind 可以影响数据的存储形式,进而去影响查问的组装和优化,办事于不同场景的模块。
2. 非技术人员也想做数据建模
5griefwjuxg.jpg
有些场景下,现无数据不克不及间接查问,必需做一些处置,如筛选、衔接、合并。或者在更繁杂的场景下,可能需求把 Mysql 的表跟 Hive 的表去做 join,这时候就免不了要做一些数据模型构建。
DataWind 的次要用户大多都不具备技术配景,假如遇到数据上的卡点,往往无奈独立写数据处置工作,再把这个工作调度起来,在实时的场景上可能就更加吃力,这样就会影响总体效力。
因此可以做数据建模任务,是 DataWind 用户一个十分迫切的需要。经过打磨,DataWind 知足了这部份的需要——经过可视化的形式构建数据模型。跟着模型的构建,还可以探查到到每一个步数据的详细内容,真正做到了所见即所得。
DataWind 在数据建模的才能上也是对比齐备的,可以从超过 40 种数据源中抽取数据,有丰硕的算子,乃至包孕得多机器学习相干的算子,能够实现十分繁杂的模型构建任务。
xotan5thfto.jpg
与查问场景相似,可视化建模也是为了知足通用场景设计,而减少了繁杂度。用户的使用场景、数据源,包罗数据自身的大小、构建出来的数据模型,会不会存在数据歪斜或者数据收缩这类状况,其实都是未知的。
资源和人力都无限的状况下,咱们要求整套零碎具备对比好的不乱性和机能,可以尽可能做到无人值守。用户自身没有太多的技术配景,往往不具备大数据开发畛域的常识,好比参数怎么去调、为何报错……这些都要求 DataWind 的平台做得更为智能、简略和敌对。
从后果来看,DataWind 仍是做得对比胜利的,这个不必写代码,门坎至关低的数据建模,在字节跳动外部也被普遍使用,工作量和数据范围也十分大。走商业化线路后,使用的客户不只多,还给了十分正向的评估。
rw2g3nlliqc.jpg
从架构上看,数据源、履行零碎、还有终究数据的存储,其实跟个别的大数据开发平台相似。DataWind 值得强调的是运转办理和监控,为了让外部还有客户环境,都可以尽量的做到无人值守,DataWind 会在工作履行傍边参加一些检测,好比数据是不是产生了歪斜收缩,再及时去调剂工作的履行。
为了尽量的让门坎升高,DataWind 会辅佐用户去做一些操作,好比说类型的推导,按照数据源的某一个列的类型,以及后续的一些操作,去推断其终究的类型,也会尝试按照字段类型、字段名等,推断几张表之间是不是存在关联瓜葛,让用户的操作步骤更为冗长,构建数据模型时更为便利。
3. 随时随地做数据剖析
ms1vxph1ica.jpg
对挪动真个反对,也是为了让用户可以在更合适本人的场景上来实现数据剖析和合作。用户能够定阅感兴致的仪表盘,或是关注某些目标挪动状况,平台还能够根据用户的偏好,经过飞书、邮件等各类渠道推送给用户。用户也能够随时随地拿起手机来拜候 DataWind,被动的去做数据剖析。DataWind 也造成了挪动真个办理驾驶舱,高层也能够频繁地使用 DataWind 去关注他们感兴致的目标,做数据剖析。
4. 复意图识碰上定制化需要
r22lp1x4t3k.jpg
字节跳动强调效力,外部团队也有对比强的复意图识。大家在使用过程中会遇到 DataWind 无奈知足的特殊场景。
从 DataWind 团队的视角来说,显著带有定制化颜色的需要,假如没法反对,就象征着公司业务方要花对比大的代价完成平台曾经反对的功用,做平台类产品的同窗可能都会有这样的困扰。
DataWind 经过打造本人的凋谢才能解决以上诉求,如提供白标才能、主题配色才能等。乃至关于一些深度集成场景,为集成方提供了一系列的管制点位,允许集成方做深化定制化,如权限管制、查问管制,乃至筛选前提管制。
目前,外部曾经有泛滥业务方用以上办法复用 DataWind。在商业化过程当中,客户也会基于以上凋谢才能实现二次开发。
07
DataWind 架构回顾
fhkmuczh4mr.jpg
最初,上图为 DataWind 总体架构。前文提到的大少数内容在这里都有所体现,包罗零代码、低门坎的可视化建模,以及撑持海量数据疾速查问的症结组件。
基于产品定位、指标以及技术架构, DataWind 曾经无效晋升了字节跳动外部剖析效力,而且经过火山引擎数智平台 VeD 对外输入。将来,咱们也会持续从让数据剖析更快、更简略的角度,进一步优化 DataWind。
对 DataWind 感兴致的同窗,能够登录官网理解试用。
明天的分享就到这里,谢谢大家。
|分享佳宾|
cocvo1shdj1.jpg
徐冰泉
火山引擎 DataWind技术担任人
徐冰泉,火山引擎 DataWind 研发担任人,担任字节表里智能数据洞察产品的研发任务。
|《数据智能常识地图》下载|
上下滑动????,查看《数据智能常识地图》云原生大数据板块(点击可看大图),关注大众号“大话数智”,下载残缺版常识地图
wdmnfkjogt4.jpg
|DataFun新媒体矩阵|
qm10fczyy3n.jpg
|对于DataFun|
专一于大数据、人工智能技术运用的分享与交流。发动于2017年,在北京、上海、深圳、杭州等城市举行超过100+线下和100+线上沙龙、论坛及峰会,已约请超过2000位专家和学者参预分享。其大众号 DataFunTalk 累计出产原创文章900+,百万+浏览,近16万精准粉丝。 |
|