华人澳洲中文论坛

热图推荐

    Neo4j图数据迷信及2.0版本新功用引见

    [复制链接]

    2022-9-7 12:23:17 22 0

    导读:本文将讨论Neo4j的图数据迷信平台,以及2.0版本的新功用。次要内容包罗:
    Neo4j图数据迷信(GDS)的前世今生Neo4j图数据迷信平台Neo4j GDS 2.0 版新特性01
    Neo4j图数据迷信(GDS)的前世今生
    Neo4j是业界最先推出图算法的厂商,图算法由初期的ALGO 3.5降级为了GDS 1.0,预示着Neo4j从算法平台向图数据迷信平台的演进。
    1. 是甚么在驱动业务翻新?


    Neo4j的业务翻新不是由数字驱动,而是在深化剖析各个业务环节间瓜葛的根底上,进行相应的业务改革,从而带来业务翻新,因此瓜葛是行动的最强预测要素
    例如:批发商超公司能够经过剖析客户与产品间的瓜葛进行产品保举,经过剖析商品门店与供给商之间的瓜葛来优化供给链等。这些都是剖析瓜葛驱动业务的实际案例。而图数据库则是处置瓜葛的最好技术。
    2. 甚么是图数据迷信?
    望文生义,图数据迷信是一门综合了图查问、图算法、图可视化,在事物、瓜葛上进行数据迷信类钻研和剖析的技术。传统的瓜葛数据库不长于处置瓜葛,图模型是建设在瓜葛之上的,因此借助图数据迷信能够获取更好的数据剖析和预测的后果。


    3. 更佳的预测后果


    现有的ML办法和技术次要基于维度和目标特点建设的特点工程,疏忽了数据中的网络/图构造。图机器学习不只能够辨认个体特点,还能辨认个体所处的网络特点,基于瓜葛进行建模和预测。图能够为机器学习模型提供高度可托和精准的特点预测。


    例如信誉卡异样用户的检测,能够由基于特点模式的传统机器学习的欺诈检测零碎实现。好比一个超大额的买卖或是同一时间超远异地买卖等,这类个体的异样特点很容易被传统的欺诈检测办法辨认到。假如欺诈者在实行欺诈的过程当中依然表示出正常行动,又该如何进行检测?钻研标明70%以上的看似正常行动的欺诈都是团伙欺诈,好比相互套用实在身份信息做一些看似正常的买卖,这类团伙欺诈就很难被传统的欺诈检测零碎发现。而图数据迷信恰是辨认这种团伙瓜葛的最好计划。
    02
    Neo4j图数据迷信平台
    1. Neo4j图数据迷信平台
    Neo4j图数据迷信平台是由图数据库、图算法库、可视化剖析组件、各类衔接零碎等组成的技术平台。
    ① Neo4j Database
    提供了原生的图存储、免索引链接技术,保障各类剖析查问场景下的高机能。也是反对ACID的买卖型数据库,保障数据的精确性、耐久性、统一性、能够用于买卖出产。
    ② GDS Library
    反对各类算法和机器学习任务流的库。
    ③ Bloom
    图形可视化的探究工具,业务用户无需学习图查问言语就能经过鼠标的点选和拖拽实现对图的剖析和探究。
    ④ Connectors
    提供多种衔接器,假如用户习气用Python实现ML的开发,能够使用Python去调用各种图算法的功用来实现开发。
    ⑤ AuraDS
    AuraDS是新上线的数据迷信的云端计划,能够借此实现图剖析的相干任务。
    2. Neo4j GDS库
    ① 提供最健全的图算法和ML办法
    计算无关拓扑构造和衔接性的目标建设预测模型以扩展您的图高度并行化,可扩展到百亿级的节点② 高效和灵敏的剖析任务空间
    自动将买卖图重塑为内存中的剖析图针对全局遍历和聚合进行了优化创立任务流程和分层算法在模型目录(model catalog)中存储和办理预测模型Neo4j的图算法需求将数据投影到内存中去运转,这样做的益处是能够具有一个高机能的计划去运转各种图算法。
    Neo4j的图算法还能够在运转过程当中去丰硕内存图的内容,好比能够将两头后果写回到内存图被其余的算法重复地调用。
    GDS库包孕60+图迷信算法,次要有下列几大类:
    门路发现&搜寻寻觅网络中的最短门路等门路发现的举措。
    中性度&首要性剖析按照网络图中的拓扑构造寻觅最有影响力的节点和它们的作用,罕用来推断群体中的静态。
    社区检测寻觅网络中节点所造成的社区集群,暴-露集群的严密型、节点集群的孤立性和构造。
    启示式衔接预测肯定一对节点的接远程度,斟酌节点的接近性及构造元夙来预测未视察到的或者将来的瓜葛。
    类似度剖析按照网络图中的拓扑构造寻觅类似节点。
    图嵌入将图中的节点和瓜葛经过低维向量或数组的形式表现,这些向量就能被表现为嵌入,作为机器学习的输出。


    图算法在实际运用中的演进有如下几个阶段:
    第一阶段:常识图谱在关联数据中搜寻特定的关联模式。例如构建企业级的运用常识图谱,借助常识图谱回答特定的问题。
    第二阶段:图算法使用无监视的机器学习技术辨认图中的关联、异样值和趋向。例如理解图中最首要的是甚么、哪里有类似性、应该在哪步做考察。
    第三阶段:图原生机器学习使用嵌入来学习图中那些可能以前不知道的首要特点,训练图内监视机器学习模型来预测链接、标签和缺失数据。例如哪些客户会购买哪些商品、哪些买卖存在欺诈行动。
    3. 金融欺诈检测
    这里以账户持有人常识图谱为例,比较图查问、图算法、基于图的特点工程进行金融欺诈检测的功用。
    ① 图查问


    关联剖析可以进步检测的效力和准确度,例如进行能够模式的搜寻和婚配等。
    例如:可疑账户与黑名单账户之间是不是有衔接、间隔有多远?账户之间有无异样的独特点、同享症结信息?
    ② 图算法


    借助无监视的学习对欺诈进行辨认。经过连通份量算法将图切分红彼此不连通的子图;经过页面排行算法计算节点在网络中的影响力,去发现某些首要水平高的节点有甚么样的特点;经过Louvain模块度算法辨认频繁泛起的集群/社团;用Jaccard类似度算法判别账户之间的类似水平。
    ③ 基于图的特点工程
    无需使用多个算法来形容图构造和特点,经过图嵌入来实现关于图构造表现,使用图构造进行预测。


    4. 图嵌入


    经过对图进行嵌退学习,以及在图中进行有监视的机器学习,来晋升数据预测精准度。图嵌入就是把图进行变换,辨认出以前其实不理解的一些症结的模式和信息。
    图(网络)往往是高维的、难以处置的;图嵌入算法作为降维技术的一种将图的节点”嵌入”到一个D维向量空间中,从而便利机器学习算法完成诸如分类的操作。
    好的图嵌入进程会将衔接的(或者相似的)节点在D维空间中会聚在一同,而没有衔接或者差别很大的节点则散布很远。
    如上图中生成的一个二维空间中,显示了不同色彩的点的地位,能够看到其散布和会萃,能够用来进一步的剖析。
    图嵌入分为上面三类:
    节点嵌入:形容每个节点的衔接信息。门路嵌入:在图上遍历的进程。子图嵌入:将一个子图嵌入成向量。GraphSAGE是目前盛行的一种可以利用节点的属性信息高效发生未知节点嵌入表现的一种归结式(inductive)学习的框架。
    5. 客户用图数据迷信做甚么
    ① BANKING CIRCLE - 欺诈检测
    300%+欺诈检测增长10%的侧面降级(行业是② AstraZeneca – 药品研发
    剖析药品研发中采集的百亿条数据瓜葛和模式按照病患的阅历找到类似案例预测最有可能受害的病人③ Meredith – 客户360
    1621%接触点长度500%每个拜候实体拜候时间20-30%客户偏好理解和辨认④ OrbitMI - 物流运输
    亚秒级的海上航线布局增加寰球碳排放6万吨为客户带来十二-16Million的ROI03
    Neo4j GDS 2.0版新特性
    1. GDS开展线路
    Neo4j GDS不只提供了业界最普遍的图算法和各类API,还自我定位为一个图数据迷信平台。其开展环抱着下列四个方面不停演进:
    ① 简略易用
    从加载任何来源的数据,到使用图数据迷信及办事的云平台,图数据迷信都很容易。
    ② 为数据迷信家量身打造
    衔接数据的方便性和一致的任务空间,为数据迷信家回答辣手业务问题提供了繁难的平台。
    ③ 企业级平台
    剖析数以千亿计的节点和瓜葛,从POC到出产反对。
    ④ 数据生态
    图数据迷信与你最喜爱的工具一同任务,当地衔接器使其余数据专家可以轻松参预其中。
    2. 新版本次要功用更新
    依然环抱下面提到的四个方面:
    ① 简略易用
    图数据库迷信及办事(AuraDS)一致的ML Pipelines简略地数据投影提醒&正告② 为数据迷信家量身打造
    原生Python客户端65+预警的算法用于加载、剖析和回写的繁多API出产环节保障③ 企业级平台
    图备份/恢复集群兼容性紧缩算法改进自动ML Ops④ 数据生态
    Neo4j Spark ConnectorNeo4j BI ConnectorNeo4j Kafka ConnectorDatalkuKnimeAuraDS产品特性民间链接:www.neo4j.com/aurads
    AuraDS是一个纯云端针对图数据迷信的平台,下方的特性能够总结为两点:开箱即用、零保护。


    提醒和告警信息


    一致的ML PipelinesML Pipelines提供了一组基于Dataframe的一致初级API,帮忙用户创立和调剂ML Pipelines。


    以Link Prediction为例,将步骤简化为一致格局的Pipeline:


    原生Python客户端让Python用户或其余平台来对Neo4j图算法进行调用


    Similarity变得更简略了


    混合部署能够间接在read replica的节点上部署GDS,同时也反对数据的回写,大大增加数据写入到写节点的任务


    图备份/恢复这里指运转算法的内存图的恢复和备份。


    生态零碎整合Neo4j能够与ingest、process、analyze、productionize、ML多个平台的运用使用衔接器进行交互。


    3. GDS 2.0版本新功用总结
    Neo4j图数据迷信平台能够提供齐备的上下文剖析和建模的反对。使数据迷信家更易在Neo4j图数据迷信平台发展各类数据建模、数据剖析的任务。明天的分享就到这里,谢谢大家。
    分享佳宾:刘洋 Neo4j 亚太地域初级技术参谋
    出品平台:DataFunTalk
    01/分享佳宾


    刘洋|Neo4j亚太地域初级技术参谋
    具有多年数据平台和数据剖析畛域教训,已经就职于Tableau、IBM、Teradata等公司,拥有丰硕的数据名目架构设计、开发、征询和名目办理教训。
    02/对于咱们
    DataFun:专一于大数据、人工智能技术运用的分享与交流。发动于2017年,在北京、上海、深圳、杭州等城市举行超过100+线下和100+线上沙龙、论坛及峰会,已约请超过2000位专家和学者参预分享。其大众号 DataFunTalk 累计出产原创文章700+,百万+浏览,14万+精准粉丝。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题31

    帖子39

    积分176

    图文推荐