华人澳洲中文论坛

热图推荐

    无代码数据接入和集成——QuickTable理论探究

    [复制链接]

    2023-1-18 09:20:19 13 0

    17位初级专家独特打造,波及15个畛域,133个体系框架,1000个细分常识点!
    关注大众号“大话数智”,收费下载这份《数据智能常识地图》??

    t5dpng25yic.jpg

    t5dpng25yic.jpg


    导读:跟着时期不停开展,数据量愈来愈大,致使技术栈愈来愈繁杂,业务状况也愈来愈繁杂,部门之间、角色之间的协同也变得更为难题。数据的品质也常常不尽善尽美,随之而来的数据荡涤、整合任务也愈来愈多。在数据上投入得多的本钱,但是要从业务上看到成果,并不是吹糠见米。基于业界各种问题,咱们总结教训开收回了一款在线的表格化的数据处置工具——QuickTable。
    次要包罗下列几部份内容:
    QuickTable 简介多平台电商数据整合剖析多渠道广告数据整合剖析开展标的目的分享佳宾|张夏天 QuickTable 联结开创?
    编纂整顿|刘步龙 硕磐科技
    出品社区|DataFun
    01
    QuickTable 简介
    首先引见一下以后业界数据处置存在的问题,以及 QuickTable 产品。

    me4q33x2ysg.jpg

    me4q33x2ysg.jpg


    上图是对于企业对数据工具需要的一个讲演,能够看到以后业界所面临的各种问题。数据量愈来愈大,致使技术栈愈来愈繁杂,业务状况也愈来愈繁杂,部门之间、角色之间的协同也变得更为难题。数据的品质也常常不尽善尽美,随之而来的数据荡涤、整合任务也愈来愈多。在数据上投入得多的本钱,但是要从业务上看到成果,并不是吹糠见米。各种繁杂问题在独特推进数据工具的进一步开展。

    rb5ei40u1wt.jpg

    rb5ei40u1wt.jpg


    上图展现了一个扼要的决策反对的数据运用的流程。从数据源始终到终究的决策讲演,要通过得多步骤,通过得多部门、得多角色。看下来是一个线性的进程。但实际上这一个流程走上去,其实不能代表半途而废。由于可能后果抵达领导层后发现由这个数据失掉的论断跟他们的认知不太同样,或者有显著的过错。那这个进程就必需颠覆重来。为了把数据运用的本钱降上去,让真正需求使用数据的人可以以更低的本钱、更快捷地、自助式地把数据用起来,就降生了相似 excel 这样的工具。
    跟着数据量的不停增大,原复电子表格的模式袒露出一些显著问题。第一个是容量无限,第二个是数据逻辑组织扩散,第三个是单机存储协同难题,第四个是不克不及疾速衔接各种数据源。

    qwkycyfqjax.jpg

    qwkycyfqjax.jpg


    QuickTable 的中心理念就是用表格这类状态去衔接所有数据源或者数据消费端。咱们的一个根本的登程点,就是要衔接各种各样的数据源,有技术性的,也有业务性的,有云上的湖仓的存储的,还有 BI、飞书等等。用表格衔接所有,真正做到无代码。
    QuickTable 拥有五大特征:快衔接,快探究,快建模,快处置和快协同。

    igmz2utt4vx.jpg

    igmz2utt4vx.jpg


    第一大特征:快链接。QuickTable 能够衔接技术性的数据源,当初也正在去衔接各种业务性的数据源。数据剖析师、业务剖析师能够自助衔接各种数据文件、数据库、API。

    ywgzuotqoow.jpg

    ywgzuotqoow.jpg


    第二大特征:快探究。QuickTable 提供了一种很好的数据探究的体验,人人能够 0代码进行数据探究,了解数据内容,发现和纠负数据品质问题。目前版本的数据范围能够达到 1G,百万行级数据处置的查看达到秒级响应。数据处置的进程会按程序记载上去,很好地组织处置逻辑,也能够随时看到每一个步数据处置的后果。

    5t0zuots4ye.jpg

    5t0zuots4ye.jpg


    第三大特征:快建模。以前体例好的许多步骤能够十分迅速的转换为 SQL,间接拿到对应的平台去履行。除了 SQL 以外,还能够自定义函数,而且注册到对应的平台之后就能间接使用。

    leviyyxvub0.jpg

    leviyyxvub0.jpg


    第四大特征:快处置。让数据工程师能够按需加工数据,咱们本人研发了一个基于内存的存储引擎,而且是云原生的,能够弹性的扩展计算才能。

    kwsirjjiiio.jpg

    kwsirjjiiio.jpg


    第五大特征:快协同。反对更强的团队协同才能,相似于飞书的协同才能,能够把数据的处置进程分享给共事。将来在每个节点还会减少许多文档,让用户都能协同开发。

    0i1s2ao4nyx.jpg

    0i1s2ao4nyx.jpg


    上图展现了一个实例,在引入 QuickTable 之后,任务模式产生了变动,使得数据处置任务大幅提效。任务量由三个团队的三天任务量缩减到一集体两个小时的任务量。

    xqccojuu1z0.jpg

    xqccojuu1z0.jpg


    咱们的产品包孕了得多技术翻新点
    首先根底设施是云原生的。计算侧是一个彻底自研的内存引擎。这个内存引擎的劣势其实不在于它是一个多大范围的数据训练集,而是咱们为了去优化交互式数据处置体验而去做的高速响应的才能。两头做了一个转译层,咱们用一种本人的 tsl 层去做这个 neutral 的数据处置的语义层。一方面能够间接转成咱们内存引擎履行的各种脚原本履行,也能够把它翻译成不同的履行引擎去履行。这样在咱们的平台上用户无代码编织的这些处置逻辑,均可以很容易地对接到不同的处置平台下来。下面还做了得多优化的任务,好比 AI 加强等等。
    02
    多平台电商数据整合剖析
    接上去引见利用 QuickTable 和其余无代码工具协同处置数据的例子。首先是一个多电商平台数据整合剖析的例子,这里的数据指的是前台搜寻出来的地下的数据。

    esblavpvts5.jpg

    esblavpvts5.jpg


    好比淘宝、拼多多、京东、唯品会四个电商品牌,咱们想要搜某个品牌的数据,看一下每个平台上该品牌的数量、均匀价钱等。数据收集用八爪鱼收集器。收集到数据后,放到 QuickTable 来进行数据荡涤和数据剖析。
    好比在京东下面搜寻了京东的某个品牌,复制阅读器外面的搜寻链接,在八爪鱼首页外面间接粘贴链接,而后开始收集,就进入到了一个收集流程构建的界面。这里能够手动构建,但手动构建难度较大,所以提供了自动辨认功用,一键就能把可能的收集模式辨认出来。个别运转几十秒就能肯定。这时候能够看到上面列出了要收集的数据,没有问题就能点击收集,它就能自动开始收集了。收集完后能够导出成 CSV 文件。
    在收集到数据之后,咱们进入 QuickTable,首先新建数据文件夹,接着导入数据。

    oc5i4v5b43f.jpg

    oc5i4v5b43f.jpg


    gszc3ns1p3s.jpg

    gszc3ns1p3s.jpg


    xtnsywksllf.jpg

    xtnsywksllf.jpg


    241s0u0lwzq.jpg

    241s0u0lwzq.jpg


    导入后关上,便可进行数据荡涤和合并处置。荡涤一定是在合并以前。

    2hgwrfkfhps.jpg

    2hgwrfkfhps.jpg


    waq5va4zhij.jpg

    waq5va4zhij.jpg


    urd203rhi1a.jpg

    urd203rhi1a.jpg


    2pmn1l2t23q.jpg

    2pmn1l2t23q.jpg




    处置进程能够生成对应的 SQL 言语。
    03
    多渠道广告数据整合剖析
    接上去是咱们外部多渠道广告数据整合剖析的案例。咱们在 Google、YouTube 和Facebook 上都有广告投放,需求将不同平台的数据放到一同比较。咱们采取了无代码接入工具 Fivetran,将数据接入到 snowflake,QuickTable 能够间接衔接 snowflake,进行数据处置。最初的数据展现是用了飞书的多维表格中的 dashboard。




    Fivetran 目条件供了 160 多个接各种数据源的 API,数据能够经过它无代码的接入。


    之后 QuickTable 把 Snowflake 中的数据加载到 QuickTable 中。配置好衔接当前,咱们就能在下面拜候自动数据衔接,去找咱们需求导入的数据,把它导到咱们的 QuickTable 外面来。


    接入数据之后就能根据 QuickTable 的形式进行数据处置。把 Google 和 Facebook 的数据合并,导出到 CSV。


    最初在飞书的多维表格上展现。这样就能贯通来看不同平台的目标了。
    04
    开展标的目的


    将来的开展标的目的次要有三方面:
    第一个是反对更多的衔接:完美技术衔接和添加更多的业务衔接;第二个是进步自动化水平:处置进程的自动调度,与其余平台/产品协同;第三个是更为智能化:数据处置智能加强,数据治明智能化和产品体验智能化。05
    问答环节
    Q:QuickTable 是不是反对公有化部署?
    A:首先咱们的全部架构是根据云原生设计的。然而也是能够公有化部署的,只不外不在技术预研中,目前是没有这个才能的,不外能够在后续版本中接入。
    明天的分享就到这里,谢谢大家。
    |分享佳宾|


    张夏天
    QuickTable 联结开创?
    北京快用云科技术无限公司联结开创人,前TalkingData首席数据迷信家,曾在IBM、腾讯,华为等公司负责算法工程师和钻研员。目前担任快用云科的数据工具产品智能化, 产品PMF等任务。
    |DataFun新媒体矩阵|


    |对于DataFun|
    专一于大数据、人工智能技术运用的分享与交流。发动于2017年,在北京、上海、深圳、杭州等城市举行超过100+线下和100+线上沙龙、论坛及峰会,已约请超过2000位专家和学者参预分享。其大众号 DataFunTalk 累计出产原创文章900+,百万+浏览,近16万精准粉丝。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题30

    帖子39

    积分188

    图文推荐