|
文 | 周鑫雨
编纂 | 苏建勋
数据是21世纪最首要的资产,语音数据则是完成人机交互、寰球互通的首要根底。
成立于2019年6月,未有科技(iWillTech)是一家寰球化架构的全自营AI数据办事企业,为寰球人工智能企业提供语音辨认、语音分解、天然言语处置、计算机视觉等畛域的AI模型训练数据办事。
因为数据资源掩盖面无限、自无数据个人系不健全,目前业内大少数据公司采取的是业务外包的传统模式。但这也致使数据源分歧规、数据品质低下、数据本钱不成控、办事不专业等问题。与此同时,在语音畛域,行业又存在小语种数据不完美、不足寰球化经营教训等痛点。
未有科技CEO彭成全以为,数据一定水平上曾经成为限度AI开展的中心要素,而将来泛滥寰球化运用场景的落地完成离不开寰球化的数据:“数据、算法和算力被称为驱动人工智能行业的‘三驾马车’,其中,数据更是从实质上抉择了人工智能的落地程度。智能办公、无人驾驶、智能座舱、游戏文娱,乃至将来元宇宙的落地都需求海量的高品质数据,而想要训练寰球化的模型则必需有寰球化的数据。”
据未有科技开创人杨雪平引见,为理解决行业痛点,相较行业广泛的外包模式,未有科技是首家采用“全自营”业务模式的数据企业。经过间接经营和办理终端数据出产用户,未有科技巧够完成对数据收集、标注、质检、交付全流程的管控。未有科技目前已获取ISO27701,ISO27001以及ISO9001认证,也是国际第一家许诺价钱全通明,永远包管品质的数据企业。
自创建以来,未有科技便从数据畛域壁垒最高难度最大的语音数据进行切入,目前更打造了在小语种数据方面的中心竞争力,掩盖了寰球205种言语,在美国、日本、新加坡、中国等地开设了经营核心,造成了掩盖亚非欧美五个大洲的区域团队,开发了涵盖60多种言语的自无数据集,并在此方面继续加大投入。
未有科技数据库掩盖语种规模。图源:受访者供图
目前,小语种数据已成为未有科技的中心劣势,其具有自有版权数据集的语种掩盖了寰球80%以上的人群,正确率亦能达到99%以上。跟着业务的开展,未有科技业务已逐步浸透到自动驾驶、OCR和图象等畛域,作为其业务生态的无效增补。
未有科技中心业务。图源:受访者供图
未有科技CEO彭成全曾任甘泉资本投资总监,是清华大学苏世民学者。开创人杨雪平自2016年起就进入了数据行业,曾帮忙多家人工智能和数据公司从零搭建起AI数据业务线,拥有丰硕的数据业务教训。未有科技的团队成员来自包罗芝加哥大学、清华大学、香港理工大学、武汉大学、北京本国语大学等寰球顶尖学府,具有丰硕的海内阅历和资源,在数据收集、标注、剖析、办理、销售等畛域有较深的积淀。
自成立以来,未有科技办事了包罗字节跳动、科大讯飞、腾讯、阿里巴巴、美团、京东、大疆、小鹏汽车、Momenta、中科院、中国迷信技术大学在内寰球AI企业与科研机构,帮忙客户部署人工智能。杨雪平以为,在将来,无论是人机交互,仍是人与人之间经过科技完成的互联互通,数据都将成为基石。 |
|