一些人工智能疾病预测模型基于可疑数据训练而成

中国科学报
6次浏览

 kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

近日,一篇公布于预印本服务器medRxiv的论文显示,一些可疑的数据集被用于训练旨在预测人们中风和糖尿病风险的人工智能(AI)模型。据《自然》报道,一些模型似乎已临床应用,目前尚不清楚这是否导致了错误的诊断结果。目前,至少有两家期刊正在调查使用这些数据集的研究。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

图片来源:Marko Nikolic/Alamy

kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

澳大利亚昆士兰科技大学的统计学家Adrian Barnett团队查阅了 124 篇经过同行评审的论文,这些论文均报告使用了两个开放获取的健康数据集中的一种以上来训练机器学习模型,但关于数据来源的信息却寥寥无几。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

新研究揭示了多个在真实人群数据中不应出现的异常之处,这让Barnett团队怀疑数据可能是伪造的。“这种情况实在令人大吃一惊。”Barnett表示。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“基于来源不明数据训练的预测模型在临床决策中毫无用武之地。它们本质上就是不可靠的。”澳大利亚乔治全球健康研究院的公共卫生研究员Soumyadeep Bhaumik表示,如果这些工具未使用真实世界数据,就可能做出错误预测,导致临床医生作出不当决策,例如不必要地开具治疗方案,或在需要时未予开具。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

据悉,至少有两个模型已被印度尼西亚和西班牙的医院采用,其中一个还出现在2024年提交的一份医疗器械专利申请中。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Bhaumik表示,研究机构和资助方必须要求研究人员披露用于训练医疗应用AI模型的数据来源,而期刊应拒收未披露数据来源的论文。 Barnett提醒,研究中标记出的数据集现在应被“下架”,以防后续研究继续使用。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

该研究所涉及的两个数据集来自Kaggle—— 一个供开发者获取数据集以构建机器学习模型的平台。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

第一个数据集名为“中风预测数据集”,上传时的描述为“用于预测中风事件的11项临床特征”。该数据集包含5110人的健康信息,包括心脏病史、婚姻状况、平均血糖水平和身体质量指数(BMI)等风险因素数据。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

然而,当研究人员将平均血糖水平与参与者标识符进行关联分析时,却发现了若干异常情况。Barnett表示,其中一个异常是数据点缺失极少,这与真实数据形成鲜明对比——真实数据往往存在缺失,因为部分参与者会错过随访、退出研究或去世。“现实世界中,任何数据集都不可能完全完整。”他表示。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

共有104篇研究论文曾使用该数据集构建中风预测模型,其中包括印度尼西亚某医院采用的模型,以及在少数人身上进行测试的模型。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

该中风数据集由西班牙数据科学家Federico Soriano Palacios上传,下载量已超过28.8万次。在Kaggle平台关于该数据集的讨论区中,Palacios声明数据源自保密渠道,仅限用于教育目的。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

第二个数据集名为“糖尿病预测数据集”,被描述为“一个利用医疗和人口统计数据预测糖尿病的综合数据集”。该数据集包含10万人的信息,包括BMI、吸烟史和血糖水平。但Barnett团队发现,所有参与者的血糖数据仅包含18个离散值。鉴于人群间存在的巨大差异,这种情况是不可能的。该团队还表示,他们发现了数千个似乎重复的数值。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

有21项研究使用了这一数据集来构建糖尿病预测模型,但截至目前,这些模型均未在临床应用。值得一提的是,有一项研究同时使用了这两个数据集。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

糖尿病数据集由印度数据工程师Mohammed Mustafa上传,他在Kaggle上表示,这些数据来源于汇总的电子健康记录。针对讨论区中一位用户的提问,Mustafa表示:“出于保密原因或其他限制,我无法透露该糖尿病预测数据集的具体来源。”kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

截至目前,Palacio和Mustafa仍未对数据来源作出回应,Kaggle也拒绝就该平台是否会对这些数据集进行调查或采取任何行动发表评论。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

上个月,研究人员已在PubPeer网站上发表了关于这124篇论文的担忧。PubPeer是一个供科学家和研究诚信调查人员讨论已发表论文的网站。其中一些论文的作者已作出回应。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

印度SRM科技学院的计算机工程师M. Karpagam是2025年4月发表于《科学报告》的一篇论文的第一作者。论文报告研究人员利用这两个数据集开发出一种模型,用于预测残疾人的糖尿病和中风严重程度。 Karpagam在PubPeer回应称,该数据集仅用于验证AI框架的性能,而非得出临床结论。在另一条评论中,她写道:“在开展和提交该研究时,我们并不知晓有任何报告表明这些数据集有可能是合成或模拟的。”她强调,在机器学习研究领域,来自“公开可用的数据库”的数据集通常被用作开发和评估预测模型的基准数据集。
kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

《科学报告》主编Rafal Marszalek表示,其团队正在审查中Barnett团队论文中标记的5篇论文——包括 Karpagam的论文,并将视情况采取相应措施。自3月31日以来,该期刊已撤回其中3篇论文,并指出“这些研究中使用的数据来源和有效性存疑”。
kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

《生物工程与生物技术前沿》也在PubPeer上表示,正在评估Barnett团队标记的另一篇论文中相关问题,该期刊的研究诚信团队将“根据出版伦理委员会的指导方针对相关问题进行彻查”。kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

相关论文信息:https://doi.org/10.64898/2026.02.24.26347028kf2速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://www.gihot.com/show-11-33623-0.html一些人工智能疾病预测模型基于可疑数据训练而成

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

每年投入 10 亿美元,剖析苹果汽车项目十年历程:曾计划收购特斯拉
3 月 7 日消息,马克・格尔曼(Mark Gurman)和德雷克・贝内特(Drake Bennett)合作,今天在彭博社上发表了一篇深度报道,回顾和剖析了苹果汽车项目过去 10 年的发展历程。这篇文章为付费文章,本文简要汇总了基于其它媒体
专访全国政协委员、陕西高院副院长巩富文:建议出台《人工智能促进法》推动AI产业发展
21世纪经济报道 记者郑雪 北京报道人工智能发展如火如荼。2月初,Sora的发布只是新一轮竞争的开始,随后发布的Mistral Large大模型、Claude 3模型再次吸引全球目光。我国人工智能产业如
专访全国人大代表、中国地质大学(武汉)校长王焰新:建立多层次立体化“双碳”复合型创新型人才培养体系
21世纪经济报道记者吴文汐 北京报道 3月5日,十四届全国人大二次会议在人民大会堂开幕,国务院总理李强作政府工作报告。“加强生态文明建设,推进绿色低碳发展”被作为2024年的重要任务
专访全国人大代表、宜昌市市长马泽江:打造“电化长江”示范区,构筑长江经济带中上游新增长极
21世纪经济报道记者吴文汐 北京报道 “三峡门户”宜昌地处长江经济带重要节点,是湖北省域副中心城市,也是长江中游城市群中的重要成员。2023年,宜昌实现经济增速7.1%,居湖北全省前列;经
匈牙利外长驳斥中国汽车威胁论:这不是一个零和游戏
3月9日消息,新能源汽车换道超车成果显现,当前中国已成为全球最大汽车出口国,2023年新能源汽车产销量占全球比重超过60%。然而,木秀于林风必摧之,正当中国汽车高歌猛进的时候,一些老牌资本主义国家开始
配第5代DM-i技术 比亚迪秦L无伪装谍照
近日,网络上曝光了接近量产状态的比亚迪秦L路试谍照,该车已经完全去掉了伪装,让我们能够更清晰的看到实车。根据官方的定位,其将高于秦PLUS车型,仍然定位为一款紧凑型轿车,售价或在12-13万元起。该车将搭载比亚迪第5代D

热点精选

最新推荐

您可能感兴趣