生成式AI内容安全检测与模型安全研究获进展

中国科学院
19次浏览

近日,中国科学院软件研究所团队聚焦多模态有害内容识别、跨模态语义检索、大模型安全防护等问题,在生成式AI内容安全检测与模型安全研究方面取得系列进展。njS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

针对网络模因有害内容隐蔽、且在形式、主题与时间上持续演化,研究提出了RepMD方法,依托攻击树理论构建设计理念图DCG,通过对历史有害模因进行设计步骤复现和图剪枝,提炼有害模因设计流程,并利用该图指导多模态大模型进行有害模因检测。这是从有害模因图的“设计理念”角度建模有害模因的生成逻辑,为溯源和分析恶意用户的攻击行为提供支撑。实验结果显示,RepMD检测精度达81.1%,在类型迁移与时间演化场景下均保持稳定性能。人工评估显示,该方法可提升审核效率,使单个模因的判别时间缩短15至30秒。njS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

针对短视频中仇恨信息隐蔽性强、模态干扰问题,研究提出了从特征融合转向决策仲裁的SAGE框架。SAGE设计了相互解耦的模态专家网络,保留各模态的独立语义表达,并通过全局专家协商与实例级“仲裁庭”机制,根据证据显著性动态做出判断。在经典数据集上,SAGE优于现有主流框架,准确率提升6.64%至21.23%。njS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

针对生成式检索语义区分能力不足、对齐偏置和闭集检索限制等问题,研究提出了SIGMA框架,构建了分层语义标识符体系。SIGMA通过多粒度层级标识符,保证图像表示的唯一性与语义一致性,并提出渐进式“语义内化”训练策略,引入语义软标签刻画细粒度图文对应关系,使模型具备对未见样本动态标识符分配的能力,实现开放集检索。在经典数据集上,SIGMA在Recall@1、5、10指标上分别提升10.65%、8.50%和7.00%。njS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

针对大语言模型面临的提示注入攻击风险,研究提出了InstruCoT方法,构建多样化攻击数据合成机制,并引入指令级Chain-of-Thought微调策略,使模型能够显式识别、推理并拒绝恶意指令。研究从行为偏移、隐私泄露和有害输出三个维度进行实验评估。结果显示,InstruCoT在四种主流大模型上均优于基线方法,并在安全增强的同时保持了模型原有的实用性能。njS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

相关论文被自然语言处理领域顶级会议ACL 2026接收。研究工作得到国家重点研发计划的支持。njS速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-12-2876-0.html生成式AI内容安全检测与模型安全研究获进展

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

绿美广东|广东十二部门联合发文,全面加强野生植物保护工作
南方财经全媒体见习记者林鹏 实习生 张梦琦 辛瑞 广州报道日前,南方财经全媒体记者从广东省林业局获悉,《关于进一步加强野生植物保护管理工作的通知》(以下简称《通知》)正式发布,明确
南财对话|专访商务部研究院张建平:新质生产力驱动外贸转型升级,广东要为制度型开放先行先试
南方财经全媒体记者冯玉怡 施诗 北京报道今年政府工作报告提出,推动外贸质升量稳,积极扩大优质产品进口,全面实施跨境服务贸易负面清单,出台服务贸易、数字贸易创新发展政策,办好进博会
专访全国人大代表、宜昌市市长马泽江:打造“电化长江”示范区,构筑长江经济带中上游新增长极
21世纪经济报道记者吴文汐 北京报道 “三峡门户”宜昌地处长江经济带重要节点,是湖北省域副中心城市,也是长江中游城市群中的重要成员。2023年,宜昌实现经济增速7.1%,居湖北全省前列;经
住建部部长谈防范房地产风险:对严重资不抵债、失去经营能力的房企 该破产的破产、该重组的重组
21世纪经济报道记者 缴翼飞 实习生 潘晓霞 北京报道3月9日,住房和城乡建设部部长倪虹在十四届全国人大二次会议的民生主题记者会上表示,从全国城镇住房存量的更新改造需求看,房地产还是
三星 SDI:明年初可量产 46 毫米大直径电池
3 月 10 日消息,韩国电池巨头三星 SDI 的总裁 Choi Yoon-ho 在韩国规模最大的电池展 InterBattery 2024 上宣布,公司研发的 46 毫米大直径电池将于 2025 年初具备量产能力,具体量产时间将根据客户需求进行调整。
配第5代DM-i技术 比亚迪秦L无伪装谍照
近日,网络上曝光了接近量产状态的比亚迪秦L路试谍照,该车已经完全去掉了伪装,让我们能够更清晰的看到实车。根据官方的定位,其将高于秦PLUS车型,仍然定位为一款紧凑型轿车,售价或在12-13万元起。该车将搭载比亚迪第5代D

热点精选

最新推荐

您可能感兴趣