商家平安算法的道与术：蚂蚁团体商家平安防控理论

iriver520

导读：数字糊口中，人们的衣食住行都可以经过手机一站式地解决，非常方便。在消费场景中，商家作为首要参预方为人们提供方便性的同时也可能被黑产利用。对黑产而言，经过商家身份使用收款功用从事危险买卖更加便捷。因此，做好商家平安，保障数字糊口生态的安康性与维护用户的资金平安非常须要。本次分享次要引见商家平安防控中三个首要的节点，包罗：
1. 商家实在性认知
2. 商家买卖危险辨认
3. 商家智能决策
商户准入签约：解决签约过程当中商家信息的实在性校验问题商户事中买卖：解决商户签约后实际运营过程当中的买卖危险辨认问题商户管控决策：融会实在性和买卖危险辨认后果，做最优管控决策101
商家实在性认知
首先引见商家平安的第一环——商家实在性认知。

这个环节试图去回答商家是谁，在哪里，属于甚么行业。个别从下列3个维度来判别商家的实在性：
商户凭证实在性：商家在准入签约环节需求提供图象凭证信息，如门头照、营业执照、外景照等，能够判别这些图象是不是商家实在拍摄上传，并从这些图象里推断出商家的运营场景及其所属行业，与后续其余信息源做比较验证商户文本实在性：商家填写的商户名、地址、行业等文本信息也需求判别是不是实在标准，并从这些信息中推断出商家运营的行业地址等，与后续其余信息源做比较验证商家买卖实在性：商家买卖状况能够用来静态验证商家提供的图象、文本信息的实在性，例如从凭证和商户名肯定为从事餐饮的面馆假如买卖时间均不在用餐时间规模内，则能够揣测商家提供的图象、文本信息可能存在虚伪，需求要求商家从新提交相干认证信息。1. 凭证实在性
首先，引见凭证实在性辨认。

这个场景会见临图象标注本钱高的问题。咱们要求商家提供的门头照、外景照等凭证类信息更多的是天然场景下的图象，与地下数据集差别很大，因此无奈利用地下数据集训练合用于该场景下的模型。而标注数据又会发生很高的人工本钱，为解决该问题，对标注数据要求对比低的自监视学习和半监视学习办法成了选择。
在没有任何标注数据的状况下，咱们选择了SimCLR这一基于比较式的自监视学习办法来进行训练。这个算法的益处在于其经过数据加强构建正负样本的才能，能够晋升咱们场景下伪冒危险的辨认成果。这次要是由于黑产会经过旋转、变换角度、窜改门头文字等形式反复提交相干凭证达到成为签约商户的目的。而这些伎俩其实是一些数据加强形式。如图左上角左边所示，其原理是一张图象经过不同的变动失掉两张图象，自监视学习的监视信息则是同一图象通过加强获取的图象对标签为1，不同图象处变换后的图象对标签为0。该算法训练时的优化标的目的是让来自同一张图象的间隔变近，而来自不同图象的间隔变远，从而完成在不依赖标注数据的状况下，能够提取到较通用的图象embedding，供上游伪冒辨认的工作使用。
在有大量标注数据的状况，咱们能够采取半监视的学习形式。个别状况下，半监视学习是使用大量的标志样本去训练一个模型；而后，使用该模型对没有标签的数据进行打分，经过设定一个高相信的阈值失掉伪标签样本；最初，将这部份样本参加到以前的标注数据中进行第二轮的训练。而咱们参考的FixMatch算法在无标签样本部份进行了一定的优化，引入了统一性的损失。如图左上角右边所示，咱们对无监视的样本一样进行数据加强，这是但愿有监视学习获取的模型在关注分类精确率的同时，还能对相反图象变换失掉的图象给出类似的分数。同时，在这个根底上，咱们引入了迁徙学习中的畛域分类loss，这是由于商户的凭证类型得多，如门头照、外景照、营业执照等。而这些图象的差别很大，咱们但愿畛域分类loss能够晋升模型在不同凭证类型之间的通用性。实际后果也标明模型产出的表征能合用不同的凭证类型，在多个上游工作中同精确率下掩盖均匀晋升10%以上。
以上即是为理解决图象标注本钱问题所采取的办法，接上去引见凭证实在性中遇到的第二个问题——繁杂配景。
经过网站、app提供办事的线上商户，可能全部网页都正常，但在一些很小的局部地位可能泛起赌博充值入口等危险元素等。为了让模型疾速关注到带有危险信息的区域，咱们提出了基于上下文疏导的attention机制。如图左下角左侧所示，该办法使用一个大的卷积核去训练一个全局的attention，一个小的卷积核去训练一个局部的attention；而后让这两个attention进行比较的穿插学习，从而使模型可以知道哪块区域相对于于全局而言是有很大差别的；之后，给这块区域更大的权重，让模型关注这部份区域进而更好地捕获这部份危险特点。该办法在网站和app危险辨认上取患了很好的成果。
同时，在繁杂配景下，同一个危险在不同图象里会表示出不同的危险特点。如经过拍屏的形式拍取网上的图片进行签约，这类危险会表示出不同的危险特点：第一，拍摄的屏幕可能有摩尔纹；第二，电脑的边框拍入图象内；第三，从反光倒影中能看到拍屏状况。传统的形式是使用同一个特点提取网络来提取不同的特点，这显然成果是欠安的。为理解决这个问题，咱们提出了基于解耦特点的细粒度内容辨认。如图左下角右侧所示，该办法将网络解耦，针对不同的特点使用不同的网络进行辨认，并使用上游的标签自顺应静态学习特点通道的权重进行融会。
经过算法的建立，标注本钱和繁杂配景问题根本可以失掉解决。但凭证实在性模型的评价不同于买卖危险有案件投诉，上线后成果评价很难进行。为此，咱们建设了可继续学习链路，将模型辨认的不同分数段样本进行随机抽样，让人工进行继续大量标注，经过不停累积的标注样原本监控模型成果，当模型成果泛起衰退时进行增量更新迭代。
终究，经过以上工程和算法的链路咱们搭建了如图右上角所示的凭证实在性模型框架。首先，咱们关注图象的拍摄品质；而后，关注凭证是否实在拍摄的；其次，辨认图象是不是有危险；最初，对没有问题的凭证进行运营场景和行业的剖析。
2. 文本实在性
第二块是文本实在性的内容。这部份次要解决文天职类和文本婚配这两个问题。

文天职类次要用来判别商户名、地址是不是标准以及判别商户行业等。咱们采取了基于Bi-LSTM的短文本预训练计划。这是由于商家场景次要波及商户名、地址、商品名等短文本，语义信息差，词表长尾重大，使用句子级别的预训练模型成果个别；同时，LSTM的间隔特点捕获才能关于短文本够用，参数相较于BERT少得多，推理效力高。如图右上角所示，由于咱们的文本太短，相较于个别LSTM的先正向后反向训练咱们对网络构造进行了一定优化，在训练任何一个context时都会同时斟酌正反向的状况。经过这个构造失掉的预训练模型，相较于BERT而言参数由十一0M降落到14M，上游各分类工作的精确率也均有15%摆布的晋升。
文本婚配次要用于判别商户名或者商户地址是不是有批量签约危险以及类似的地址是不是指向相反的商户。文本婚配是检索类的工作，个别经过发生的向量表征与底库进行婚配召回后再进行精排。因比较学习可以发生更合适文本婚配工作的embedding向量，斟酌到simCSE反对无监视和有监视的训练形式，同咱们的运用场景婚配，咱们选择了该办法。如图左下角所示，咱们会使用无标签数据进行第一阶段的无监视训练，其在训练过程当中对同一句话经过随机dropout的形式发生两个不同的embedding，用这两个embedding构建正例进行模型训练；第二步，使用打标好的大量标注数据做一个相似finetuning二阶段训练。经过这个模型产出的embedding向量进行婚配检索工作，相较于文天职类使用的短文本预训练形式，婚配精确率有6%的晋升。
基于文天职类和文本婚配这两个算法计划，文本实在性辨认的总体构造如上图右侧所示。首先，咱们会经过文天职类的形式判别文本的品质；在品质合乎要求的根底上进行内容的了解和辨认，如行业辨认和NER提取；最初，经过实体婚配的形式去判别商户是不是为批量签约。
3. 买卖实在性
买卖实在性是引入买卖信息来判别后面提到的凭证和文本这种动态信息是不是实在。

如上图所示，买卖实在性辨认框架次要依赖买卖状态、时序等信息首先判别商家是不是拥有实在运营流动，身份是不是实在；在判别商家身份真正的根底上，咱们会按照买卖信息来预测运营场景，如当LBS会萃能够推断商家为门店类，当LBS扩散时，商家多是线上商户或者活动摊贩；接着，咱们会按照买卖时间和人群散布等来校验商家提交的行业实在性。
图下方展现的是这个过程当中咱们用到的一些算法。从买卖状态散布去揣测行业和运营场景波及可解释性问题，因此咱们采取的是可解释的boosting模型。该办法是一个引入非线性函数的线性加权算法，其可以在具有趋近于XGB辨认成果的同时提供更好的可解释性。在静态行业校验部份，咱们使用了Isolation Forest的算法。其假定商家提供的动态行业信息是真正的并依此进行分群，将其买卖特点与同行业其余商户买卖特点放在一同做异样检测，假如模型标明商家为离群点，阐明其不属于该行业，即以前提供的动态行业信息是虚伪的。Robust Training 次要为理解决标签的乐音问题。因为使用买卖信息去判别商户的行业、运营场景有一定的难题，因这人工标注的数据可能存在乐音。而这类办法会构建两个分类网络，让A学习完后把易学的样本给到B，而后让B学习完后把易学的样本给到A，经过这类互为teacher的交互进程升高乐音标签的影响。
经过凭证、文本、买卖这三个维度的实在性剖析，咱们就可以够判别商家的实在性格况并回答咱们一开始提出的商户是谁，在哪里，做甚么行业的问题。当商家经过实在性校验后便能进行运营收款等流动。接上去，咱们便会关注买卖环节的危险。
02
商家买卖危险辨认

事中买卖环节，商家危险辨认和用户危险辨认所使用的数据有较大的差别。如图左边所示，咱们使用到的数据包罗商家、商家行动、商家行动属性、买家、买家行动、买家行动属性以及商家与商家之间的瓜葛、买家与买家之间的瓜葛、商家与买家之间的瓜葛。相较于文本序列而言，这是一个繁杂的多层序列，同时也是异质的、长度更短的序列。由于瓜葛数据的存在，数据与数据之间实际上聚分解了一个繁杂的网络。因此，在买卖危险辨认环节次要波及序列算法和图算法的任务。
1. 异构序列算法

如上图所示，当咱们想判别用户的第二笔买卖是不是存在危险时，个别先判别买家是不是有问题，再判别商家是不是存在问题，最初结合买卖当下的时间、金额等属性联结判别买卖是否存在危险。按照这个思绪，咱们首先会把买家在这笔买卖产生以前的事情属性抽掏出来造成token放到embedding 层发生embedding向量，随后通过concat再放入NN进行后续的辨认打分，最初失掉一个买家序列危险分。在判别商家危险时，咱们按照商家下的多笔买卖及其属性构建序列，如领取金额序列、领取形式序列等。这些序列embedding后通过concat再输出到Transformer中。这里之所以选择Transformer是由于当买卖属性序列过量时，concat失掉的向量会很长，而Transformer自带self-attention机制，能关注到更首要的部份。经过这类形式咱们就失掉了商家序列危险分。最初，咱们会使用失掉的买家危险分、商家危险分和这笔买卖的其余特点训练一个综合的买卖危险模型。
这类办法是商家序列和买家序列的后果融会，并无斟酌到商家序列和买家序列embedding之间的关联性。因而咱们尝试在特点层对二者进行融会。

如上图所示，咱们参加了融会层。关于买家序列和商家序列发生的embedding咱们尝试了concat、self-attention、local-attention这三种不同的融会形式。试验后果标明local-attention这类仅斟酌一定窗口内的attention形式成果最佳，且运算繁杂度更低。将融会后果输出到分类模型中去失掉的终究后果，相较于下面使用分数融会的形式能将auc晋升3%摆布。
2. 图稠密化算法
序列算法仅解决了一度瓜葛问题，假如咱们想在辨认时同时斟酌二度或三度街坊节点的特点就需求斟酌图算法。
但当咱们把一些学术界的办法，如静态图这种对计算资源要求较大的算法运用到大范围买卖场景时，咱们会遇到计算瓶颈问题。同时在风控场景中，图瓜葛中的大部份节点都是正常的。
用户和买卖，仅有少部份节点对危险辨认来讲是首要的。因而咱们便斟酌是不是能对图进行紧缩，增加非首要节点和边来达到勤俭计算本钱的目的。在这个畛域曾经有对比多的尝试。第一种是图采样，好比只看一个节点的二度节点而不斟酌其余。还有一种是子图切割，这类办法将图切成一个个小图，而后在小图中计算，最初将小图计算的后果合并输出到上游工作中。但这两种办法都会破坏图的连通性而且在进行抽样或者切割时并无斟酌到边和节点关于上游工作的影响，即对危险辨认的影响状况。由此，咱们选择了更优的图稠密化算法。

图稠密化算法引入了详细场景的监视信息，在商家场景的监视信息是商家历史上是不是存在过危险。商家除了买卖瓜葛外，还会有介质、社交等瓜葛。因此咱们会对每种瓜葛分别做稠密化，实际上就是分别训练模型，从而失掉图中每个节点对的attention 值，并按照该值截取top N的街坊节点来实现图的稠密化。之所以按照瓜葛的不同类型将图分红不同的瓜葛网络分别训练，是由于其可以将异质图问题转化为多个同质图问题，这样简略的GAT模型就可以失掉attention值而且多个同质图能够并行处置晋升计算效力。
接着，咱们会把失掉的多个稠密化图汇总成一个异构多瓜葛图，鉴戒HAN思想来获取节点的通用embedding。在该算法中波及到两层attention：第一层关注节点attention，即在不同的瓜葛中街坊节点的首要性；第二层关注语义attention，即不同的边瓜葛的首要性。
最初经过二者的聚合，咱们失掉节点在异构图中的embedding。经过第一步的稠密化，咱们增加了边的数量，也大大缩减了计算资源。同时，也由于其剔除了一定的乐音数据，当咱们将第二步失掉的embedding运用于上游辨认工作时，可以在同精确率的状况下晋升6%到10%的掩盖。
到此，咱们获取了商家实在性和商家买卖危险的辨认后果。接上去，咱们需求在此根底上判别商家是不是需求管控，即商家智能决策。
03
商家智能决策
通常来讲，决策是风控的最初一个环节。一方面，决策是辨认后果的失效环节，咱们需求关注使用甚么样的管控形式来防备对应的危险；另外一方面，决策是间接影响用户的环节，咱们需求关注管控的形式和强度以保障用户的体验。这实际就是危险和体验均衡的问题。

这部份次要是一些教训分享，在做决策模型时咱们遇到了得多问题：
第一，模型的迭代效力。
当泛起危险漏过或者误打搅case时，假如是规定就可以做出疾速调剂。而模型需求数据累积、迭代优化与交换这类长周期调剂，可能会对业务发生对比大的挫伤。因此咱们鉴戒强化学习的思想，将商家申述、危险投诉类信息作为增量样本对模型进行增量更新。
第二，数据存在偏差。
因决策流量是辨认为偏危险的流量，决策建模并非建设在全量样本上，因此数据是有偏的。同时，成果的评估也是有偏的，由于当一笔买卖被A处理形式管控时，咱们其实不能知道其在B管控下的表示。所以咱们利用静态流量调配的A/B test机制来获得更多无偏数据和标签训练模型。
第三，可解释性。
因为管控是间接作用于用户的，当用户表现质疑时，咱们是需求做出解释的。目前主流的可解释性是偏解释特点与终究后果或者标签的关联性，而并不是因果性。因此，咱们但愿利用因果推断算法输入管控形式保举的缘故。
以上即是商家平安防控任务中的次要内容。
明天的分享就到这里，谢谢大家。
分享佳宾：郑霖蚂蚁团体算法专家
编纂整顿：黄晓琴字节跳动
出品平台：DataFunTalk
01/分享佳宾

郑霖｜蚂蚁团体算法专家
深耕买卖平安算法任务多年，涉足反盗用、反欺诈、反赌博、反做弊等畛域，目前lead商家危险算法团队，中心打造商家危险及实在性认知等才能。
02/对于咱们
DataFun：专一于大数据、人工智能技术运用的分享与交流。发动于2017年，在北京、上海、深圳、杭州等城市举行超过100+线下和100+线上沙龙、论坛及峰会，已约请超过2000位专家和学者参预分享。其大众号 DataFunTalk 累计出产原创文章800+，百万+浏览，15万+精准粉丝。

华人澳洲中文论坛

热图推荐

商家平安算法的道与术：蚂蚁团体商家平安防控理论

发表回复

浏览过的版块

iriver520
关注TA

图文推荐

华人澳洲中文论坛

热图推荐

商家平安算法的道与术：蚂蚁团体商家平安防控理论

发表回复

浏览过的版块

iriver520 关注TA

图文推荐

iriver520
关注TA