华人澳洲中文论坛

热图推荐

    “AI问诊就是抛硬币”!乃至漏掉67%病患,Nature都看不上来了

    [复制链接]

    2023-1-17 18:34:29 71 0

    原标题:“AI问诊就是抛硬币”!乃至漏掉67%病患,Nature都看不上来了  
    詹士 Alex 发自 凹非寺   
    量子位 | 大众号 QbitAI   
    “AI的一些医疗决策,实际上就是抛硬币。”  
    哈佛医学院的数据迷信家Kun-Hsing Yu语出惊人。  
    他还增补道:  
    即使竞赛中正确率达90%的获奖模型,再用原数据集子集测试时,精确度至多60-70%,堪称惨败。这让咱们很诧异。
        即使竞赛中正确率达90%的获奖模型,再用原数据集子集测试时,精确度至多60-70%,堪称惨败。这让咱们很诧异。  

    nhqixzmqeeu.jpg

    nhqixzmqeeu.jpg


    上述迷信家的观念来自Nature比来新颁发的一篇文章。  
    内容对AI在医疗畛域的 可反复性提出了质疑,呈现诸多医疗畛域及场景中,AI自带的黑箱属性酿成的隐患。   
    更值得关注的是,只管问题存在,但AI仍在医疗畛域大范围推行使用。  
    所以,AI到底带来了哪些医疗隐患,如何解决?  
    持续往下看。  

    fnony1ks3uy.jpg

    fnony1ks3uy.jpg


    展开全文    图源:Nature  
    人工智能的“看病难”   
    咱们先从哈佛医学院的数据迷信家Kun-Hsing Yu发现AI“抛硬币”的始末聊起。  
    在医疗畛域,AI用于诊断检测人体始终质疑声不停,Kun-Hsing Yu此番钻研也是但愿有个直观体感。  
    他选定了常见癌症之一的肺癌,每一年有350万美国人因该病症逝世,若能更早经过CT扫描筛查,得多人能够免于死亡。  
    该畛域确实备受机器学习界关注,为此,2017年业内还举行了面向肺癌筛查的比赛。  
    该流动归属于Kaggle的Data Science Bowl赛事,数据由主办方提供,涵盖1397位患者的胸部CT扫描数据。参赛团队需开发并测试算法,终究大赛按精确率给予评奖,在官宣中,最少五个获奖模型精确度90%以上。  
    但Kun-Hsing Yu又从新测试了一轮,而后震惊地发现,即使使用原竞赛数据的子集,这些“获奖”模型最高精确率却降落到了60-70%。  

    xmedw3ddtqn.jpg

    xmedw3ddtqn.jpg


    一名参赛者分享的模型构造  
    上述情况并不是个例。  
    普林斯顿一名博士,Sayash Kapoor,在17个畛域的329项钻研中讲演了可反复性失败和圈套,医学名列其中。  
    基于钻研,这位博士及本人的传授还组织了一个研讨会,吸引了30个国度600名科研者参预。  
    一名剑桥的初级钻研员在现场表现,他用机器学习技术预测新冠传布盛行趋向,但因不同来源的数据偏差、训练办法等问题,没有一次模型预测精确。还有一名钻研者也分享了——本人用机器学习钻研心思课题,但无奈复现的问题。  
    在该研讨会上,还有参预者指出谷歌此前遇到的“坑”。  
    他们曾在2008年就利用机器学习剖析用户搜寻所发生数据集,进而预测流感暴发。谷歌为此还宣传一波。  
    但事实上,它并未能预测2013年的流感暴发 。一家独立钻研机构指出,该模型将一些流感盛行有关的时节性辞汇进行了关联和锁定。2015年,谷歌住手了对外地下该趋向预测。  
    Kapoor以为,就可反复性来讲,AI模型面前的代码和数据集都应可用其实不犯错误。那位钻研新冠盛行模型的剑桥ML钻研者增补道,数据隐衷问题、伦理问题、监管障碍也是致使可反复性出问题的病灶。  
    他们持续增补道, 数据集是问题本源之一。目前地下可用的数据集对比稀缺,这致使模型很容易发生带成见的判别。好比特定数据集中,医生给一个种族开的药比另外一个种族多,这可能致使AI将病症与种族关联,而非病症自身。   
    另外一个问题是训练AI中的 “透题”景象。因数据集缺乏,用于训练模型的数据集和测试集会堆叠,乃至该状况一些当事人还不知道,这也可能致使大家对模型的正确率过于乐观。   

    4vpdzfi1hth.jpg

    4vpdzfi1hth.jpg


    Sayash Kapoor博士  
    只管问题存在,但AI模型仍已被运用在实际诊断场景中,乃至间接下场看病。  
    2021年,一个名为Epic Sepsis Model的医疗诊断模型被曝出重大漏检问题。  
    尔后,该公司对模型进行了大调剂。  
    一名计算生物学家对此指出,该问题之所以较难解决,也同AI模型通明度缺乏无关。“咱们在理论中部署了无奈了解的算法,也其实不知道它带甚么成见”,他增补道。  

    rjyfsb31f0v.jpg

    rjyfsb31f0v.jpg


    曝出Epic Sepsis Model问题的文章  
    能够明白的是,只有上述问题始终未能解决,商业巨头及相干守业名目也有些举步维艰——  
    去年谷歌谷歌安康 (Google Health)宣告人员拆分到各团队,头几天,谷歌孵化的生命安康子公司Verily又被曝裁员约15%。   
    有没改进措施?   
    关于这样的现状,一些钻研者和业内人士也在着手改进医疗AI。  
    一方面,是构建靠谱的超大数据集。  
    涵盖机构、国度和人口等多方面的数据,并向一切人凋谢。  
    这类数据库其实曾经泛起了,好比英国和日本的国度生物库,以及重症病房近程监护零碎eICU协作的数据库等。  
    就拿eICU协作钻研数据库来讲,这外面大约有 20万次的ICU出院相干数据,由飞利浦医疗团体和MIT的计算生理学试验室独特提供。   
    为了标准数据库的内容,需求建设采集数据的规范。例如一个对于医疗后果火伴瓜葛的可观测数据模型,让各医疗机构能以相反的形式采集信息,这样无利于增强医疗保健畛域的机器学习钻研。  
    固然,与此同时,也必需注重严格维护患者的隐衷,并且只要当患者自己赞成时,才有资历把他们的数据归入库。  
    另外一方面,想要晋升机器学习品质的话,打消冗余数据也颇有帮忙。  
    由于在机器学习中,冗余数据不只会延伸运转时间、损耗更多资源;并且还极可能形成模型过拟合——也就是训练出来的模型在训练集上表示很好,然而在测试集上表示较差。  
    关于AI圈很抢手的预测蛋白质构造,这个问题曾经失掉了无效减缓。在机器学习过程当中,迷信家们胜利地从 测试集中删除了和 训练集用到的过于类似的蛋白质。   

    wowdv2fkez0.jpg

    wowdv2fkez0.jpg


    but,各病人医疗数据之间的差别,并无不同蛋白质构造差别那末显著。在一个数据库中,可能有许许多多病情十分类似的个体。  
    所以咱们需求想分明究竟向算法展现甚么数据,能力均衡好数据的代表性和丰硕性之间的瓜葛。
        所以咱们需求想分明究竟向算法展现甚么数据,能力均衡好数据的代表性和丰硕性之间的瓜葛。  
    哥本哈根大学的转化性疾病零碎生物学家S?ren Brunak如是评估。  
    除此以外,还能够请行业大佬们制订一个反省表,标准医疗AI畛域的钻研开发步骤。  
    而后,钻研人员就可以更便利地搞分明先做甚么、再做甚么,有条不紊地操作;还能Check一些可能脱漏的问题,好比一项钻研是回顾性仍是前瞻性的,数据与模型的预期用处是不是婚配等等。  
    其实,现有已有多种机器学习反省表,其中大部份是基于“EQUATOR Network”先提出的,这是一项旨在进步安康钻研牢靠性的国内建议。  
    此前,上文提到的普林斯顿的Kapoor博士,也和团队独特颁发了一份包孕21个问题的清单。  
    他们倡议,关于一个预测后果的模型,钻研人员得确认训练集中的数据要早于测试集,这样能够确保两个数据集是独立的,不会无数据堆叠和互相影响。  
    —   
    「人工智能」、「智能汽车」微信社群邀你参加!  
    欢送关注人工智能、智能汽车的小火伴们参加交流群,与AI从业者交流、切磋,不错过最新行业开展&技术停顿。  
    PS. 加好友请务必备注您的姓名-公司-职位噢 ~  
    点这里 ?关注我,记得标星哦~   
    一键三连「分享」、「点赞」和「在看」  
    科技前沿停顿日日相见 ~

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    注册会员
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题30

    帖子33

    积分156

    图文推荐