何恺明刘壮新作:消除数据集偏差的十年之战

量子位
352次浏览

神经网络越来越强大,利用数据集偏差的能力也越来越厉害了r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

MIT新晋副教授何恺明,新作新鲜出炉:r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

瞄准一个横亘在AI发展之路上十年之久的问题:数据集偏差。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

该研究为何恺明在Meta期间与刘壮合作完成,他们在论文中指出:r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这不禁让人怀疑:我们在消除数据集偏差的战斗中,真的取得了胜利吗?r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

数据集偏差之战,在2011年由知名学者Antonio Torralba和Alyosha Efros提出——r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Alyosha Efros正是Sora两位一作博士小哥(Tim Brooks和William Peebles)的博士导师,而Antonio Torralba也在本科期间指导过Peebles。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

当时他们发现,机器学习模型很容易“过拟合”到特定的数据集上,导致在其他数据集上表现不佳。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

十多年过去了,尽管我们有了更大、更多样化的数据集,如ImageNet、YFCC100M、CC12M等,但这个问题似乎并没有得到根本解决。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

反而,随着神经网络变得越来越强大,它们“挖掘”和利用数据集偏差的能力也越来越强了!r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了分析这个问题,何恺明团队设计了一个虚构的”数据集分类”任务。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

听名字你可能就猜到了:给定一张图像,模型需要判断它来自哪个数据集。通过看模型在这个任务上的表现,就可以了解它们捕捉数据集偏差的能力。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

现代AI轻松识破不同数据集

在实验中团队发现,各种现代神经网络架构,如AlexNet、VGG、ResNet、ViT等,在数据集分类任务上表现出惊人的一致性:它们几乎都能以超过80%的准确率区分不同数据集的图像!r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

更令人吃惊的是,这个发现在各种不同的条件下都非常稳健:r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不管是不同的数据集组合、不同的模型架构、不同的模型尺寸、不同的训练数据量,还是不同的数据增强方法,神经网络始终能轻松”一眼识破”图像的数据集来源。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

那么,神经网络是如何做到这一点的呢?是靠单纯的记忆,还是学到了一些更普适的规律?r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了揭开谜底,团队做了一系列对比实验。他们发现,如果把不同的数据集随机混在一起,神经网络就很难再区分它们了(准确率下降到了33%)。这说明,神经网络并不是在单纯地记忆每一张图像,而是真的学到了一些数据集特有的模式。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

更有趣的是,即使在自监督学习的设置下,神经网络也展现出了惊人的”数据集辨识力”。在这种设置下,模型在训练时并没有用到任何数据集的标签信息,但当在这些自监督学习到的特征上训练一个简单的线性分类器时,它依然能以超过70%的准确率区分不同的数据集!r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

通过这一系列的实验,何恺明、刘壮等人的研究给我们敲响了警钟:尽管这十年我们一直在努力构建更大、更多样化的数据集,但数据集偏差这个问题似乎并没有得到根本解决。相反,现代神经网络越来越善于利用这些偏差来获得高准确率,但这可能并不代表它们真正学到了鲁棒、普适的视觉概念。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

论文的最后,作者呼吁整个AI社区重新审视数据集偏差这个问题,并重新思考如何在算法和数据两个层面上来应对这一挑战。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

CVPR最佳论文作者的通力合作

本文是何恺明在Meta期间,与Meta研究科学家刘壮合作完成。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

现在,何恺明已经正式在MIT上岗,担任电气工程与计算机科学系的助理教授。他的“开学第一课”开课即火爆,在youtube上已经有2.9万的播放量。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

和何恺明一样,刘壮本科毕业自清华,并且也是CVPR最佳论文奖得主——他是CVPR2017最佳论文DenseNet的第一作者。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

2017年,刘壮从清华姚班毕业,进入加州大学伯克利分校攻读博士学位,师从Trevor Darrell,是贾扬清的同门师弟。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

博士毕业后,刘壮进入Meta AI Research工作。在此之前,他已经在Meta实习了一年多时间,期间和谢赛宁合作,发表了ConvNeXt。r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

何恺明刘壮新作:消除数据集偏差的十年之战

论文地址:
https://arxiv.org/abs/2403.08632r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

参考链接:
https://twitter.com/liuzhuang1234/status/1768096508082008289r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

— 完 —r6s速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-3865-0.html何恺明刘壮新作:消除数据集偏差的十年之战

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

南财有数③|节后迁入人口稳居全国第一,广东为何“招人爱”?
南财智库研究员 梁施婷为期40天的春运于3月5日结束。据交通运输部消息,2024年春运期间全社会跨区域人员流动量预计超84亿人次。其中,铁路客运量预计完成4.8亿人次。另据统计,广铁集团累
南财对话|专访商务部研究院张建平:新质生产力驱动外贸转型升级,广东要为制度型开放先行先试
南方财经全媒体记者冯玉怡 施诗 北京报道今年政府工作报告提出,推动外贸质升量稳,积极扩大优质产品进口,全面实施跨境服务贸易负面清单,出台服务贸易、数字贸易创新发展政策,办好进博会
上海市人民政府办公厅关于印发《本市促进服务消费提质扩容的实施方案》的通知
上海市人民政府办公厅关于印发《本市促进服务消费提质扩容的实施方案》的通知沪府办发〔2024〕5号各区人民政府,市政府各委、办、局,各有关单位:《本市促进服务消费提质扩容的实施方案
零跑 C10 车型开启交付:售价 12.88 万元起,下半年海外上市
3 月 10 日消息,零跑 C10 车型于近日开启交付,并将于下半年在全球市场开展销售。零跑 C10 共有纯电、增程两种动力的 7 款车型,售价区间 12.88-16.88 万元。获悉,该车是零跑 LEAP 3.0 技术架构首款全球化产品,长47
匈牙利外长驳斥中国汽车威胁论:这不是一个零和游戏
3月9日消息,新能源汽车换道超车成果显现,当前中国已成为全球最大汽车出口国,2023年新能源汽车产销量占全球比重超过60%。然而,木秀于林风必摧之,正当中国汽车高歌猛进的时候,一些老牌资本主义国家开始
谍照显示多台小米 SU7 汽车疑似已在运输途中:可见海湾蓝、雅灰、橄榄绿三种配色款
3 月 10 日消息,据小伙伴投稿,今日有多张疑似小米SU7汽车运输“谍照”现身网络,画面中显示数辆滚装车上运有多款小米SU7车型,其中包含“海湾蓝”、“雅灰”、“橄榄绿”三款“预发布”的配色,不过没有出现此前报道

热点精选

最新推荐

您可能感兴趣