|
数库科技成立于2009年,是一家数据科技公司,专一于在金融及产业畛域提供基于产业逻辑的智能数据产品与零碎办事,以成熟的数据计划解决金融机构、政府部门及企业的数字化转型降级问题。目前曾经实现B轮融资。
在数字化新工业反动时期,数据已成为中心出产因素。在数库科技开创人兼总裁沈鑫看来,数据品质将间接影响决策引擎机能,因此数据才能成为产业数字化转型的中心才能。在传统投研时期,因为场景繁多、数据维度极少,且数据逻辑组装及剖析次要由专业人士的人脑来实现,数据孤岛并非问题。但在如今的数据驱动决策时期,数据驱动决策场景已远超金融投研畛域,开始向银行、政务、企业、中小企业等各维度产融决策场景掩盖。在这些决策场景中,数据办事需要产生了量变,数据规模及维度剧增。因此破除数据孤岛,完成数据融会成为完成高品质运用的根底。
目前,数库科技的产品次要运用在银行、产业园区、金融机构、企业团体及政府部门等畛域,好比为银行寻觅优质企业进行存款、帮忙政府招商引资强链补链、帮忙大型企业完成智能化供给链风控及办理等,其决策实质都是不停定位及跟踪静态开展中的优质企业或潜伏危险点。目前数库科技在相干畛域中已有泛滥协作客户,营收在2021年翻了近五倍。
以银行场景举例,银行的对公业务需求锁定客户,而后造访、转化,然而如何锁定客户呢?数库科技会帮银行划定一个区域,用数字化的方式将外面的产业、不同产业节点上有甚么企业,一一呈现;而这些所呈现的企业要知足不同银行的需要,好比是不是具备足够高的科技含量、这个产业是不是有政策搀扶等,帮忙银行节俭少量人力时间和本钱。
企业供图
如何找到这些产业和企业?靠的是数库科技在以往关于不同公司地下产品信息的提取、荡涤、规范化、质检,经过数据智能搭建造成残缺的产业画像和企业画像,完成对产业及企业周边的实时资讯静态解析及跟踪,进而对指标企业的疾速定位及评价。这些才能结合后,便可造成从产业到企业的残缺画像。
沈鑫告知36氪,之所以可以达成以上成绩,源于数库科技的三大中心才能:SAM全产业链数据网络、构造化数据量产才能、NLP天然言语解析才能。
先看SAM全产业链数据网络。SAM全称Segment Analysis Mapping,中文释义为“数库产业链数据体系”。从二级市场到一级市场,数库科技都完成了规范化的数据才能。好比,一个企业是做石油的,然而详细是做冶炼、贸易、运输,实际上是有很大的差异。而数库科技能够经过地下信息,判别公司的详细业务,安放在不同的产业节点上。
其将中国大陆,香港及美国市场整个上市公司业务散布及产品集披露进行规范化,确保上市公司在业务及产品纬度完成高度可比。其中包罗A股、港股、美股、新三板、发债企业等累计3.5万+家上市公司;全量工商注册非上市公司累计6000万+家,完成了全畛域的企业掩盖。SAM产业链具有超过2万+个规范化产品节点,500000+个上上游产业瓜葛。
在这张产业链网络上,能够找出恣意两家企业的瓜葛,而不必耽心存在“数据孤岛”的问题。沈鑫向36氪举例,别的投研工具,产业链是复线的,好比芯片产业链、新动力汽车产业链,但其实实体经济运转的法则是万物关联的、是网络状的,是有胡蝶效应和传导危险的,芯片紧缺,一定会影响新动力汽车产业链,因此需求SAM来打破单链数据孤岛。
企业供图
沈鑫告知36氪,SAM产业链自身是一个数据逻辑框架,是骨架,但要真正到了客户那边,还需求皮、肉、毛发,能力真正跑起来。这就波及到其余两个才能:构造化数据量产才能和NLP天然言语解析才能,两者相反相成,密不成分。
要想让全产业链网络可以真正发扬作用,就要放弃继续不停地更新才能。在网络上任何一个相干信息,均可以被数库科技自动放进产业链体系中,这靠的就是天然言语解析的才能。而天然言语解析才能又为什么能比其余厂商精准?这与数据量产才能无关。
在当初,不同厂商的NLP算法相差无几,而影响解析后果的,是词库。而数库科技量产出来的构造化数据自身就是一个海量的词库。
IT时期的数据处置工具,虽然能提供一致规范、一致口径的数据,但归根究竟却没有解决数据疾速量产问题。沈鑫表现,虽然数库科技数据团队目前还不到一百人,然而其数据产出的维度和数量其实不比七八百人的传统数据办事商少。缘故是,假如将产出数据的进程进行具象化,数库科技和其余传统数据办事商虽同是工厂,但数库科技是机械手臂自动化功课,其余的工厂还在用流水线工人。
因此,沈鑫将数库科技描述为一个运行十多年的自动化数据工厂。然而其余厂商为何无奈完成“机械手臂自动化功课”?其中有一个难以逾越的点——数据规范化。沈鑫向36氪举例,仅拿A股3000多家上市公司为例,营销费用就有近9000种非标科目称号及叫法,数库科技经过多年积攒的容错集将其自动化处置为20种摆布的规范化科目,确保公司间高度可比,确保数据规范一致,为下一步深度建模奠定扎实根底。假如这件事要靠人来做,不只耗时耗力,还对人的财务配景有很高的要求。然而数库科技经过机器来解决这件事,其数据工厂通过十多年的积攒和四个版本的迭代,能够疾速、规范地实现。
数据标签不停积淀,训练NLP模型,而自动化辨认标签又进一步晋升了数据量产的维度和数量,造成双向反哺。
沈鑫以为,得多这个行业的守业者,会将AI才能误以为是最首要的才能,但其实中心是数据。 |
|