交互式3D数字人框架SentiAvatar开源:SentiPulse携手人大高瓴,让数字人和人类自然交互

搜狐网
6次浏览

3D数字人行业已陷入发展怪圈:全行业的竞争维度,始终困在“视觉上够不够像人”的颜值内卷里。但行业集体忽略的是,再精致的建模、再逼真的渲染,都无法成为用户长期深度交互的核心理由。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

真正卡住数字人产业发展天花板的,从来不是视觉层面的“不像人”,而是其始终未能构建起与人类相似自然的表达能力和更流畅的动作。很多时候,数字人看似嘴在动、手在挥,肢体动作却与对话语义完全脱钩,面部表情和台词情绪彻底割裂,这种深入骨髓的机械感与违和感,直接斩断了人与数字人之间建立情感联结、实现深度交互的所有可能。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

人类真实沟通中,超70%的信息与情绪都藏在非语言信号里,耸肩的无奈、挑眉的质疑,这些细节才是对话的灵魂。但这背后是行业面临的三个瓶颈:一是中文对话场景高质量数据荒,覆盖全身动作的高质量数据集近乎空白;二是复合语义下动作漂移,面对融合情绪的复杂表达,模型语义理解能力急剧退化;三是音画节奏错位,动作机械生硬,与语音重音、停顿完全脱节。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这三道枷锁,把数字人困在“预设脚本播放机器”的定位里,始终迈不开从“能说话”、“能动”到“懂交流”的关键一步。而SentiPulse(思维光谱)联合中国人民大学高瓴人工智能学院推出的SentiAvatar交互式3D数字人框架,正是为打破这些瓶颈而来。面向全球开源的3D动作生成完整解决方案,让数字人跳出预设动作桎梏,实现贴合语境与情绪的自然实时交互,真正告别“提线木偶”式交互。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

国内首个交互式3D数字人框架,让3D数字人动作有“灵魂”tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

针对行业底层痛点,SentiAvatar打造了3D动作生成新范式。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在数据底座层,SuSuInterActs数据集围绕单一角色SUSU(22岁,温柔活泼,情感丰富)构建。包含2.1万段片段、37小时的多模态对话语料,涵盖同步语音、行为标注文本、全身动作与面部表情,填补中文高质量数据的空白。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为打破场景限制,让数字人交互摆脱“脚本化”,团队在预训练阶段引入了自研的Motion Foundation Model动作基础模型,在200K+条异质动作序列(约676小时)上训练通用运动先验,让数字人的能力远超对话场景本身。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

此外,SentiAvatar创新提出plan-then-infill双通道并行架构,在动作生成时,将身体动作与面部表情分开处理,先规划“做什么动作”,再插入“如何逐帧执行”,让整体动作生成效果更流畅。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

具体而言,第一阶段,LLM语义规划器接收行为标签文本和稀疏音频Token,输出稀疏关键帧动作Token序列。为支持多轮流式连续生成,模型以前一句话的最后两个关键帧音频-动作Token对作为上下文前缀,从下一个关键帧位置续写,实现无缝跨句过渡;第二阶段,Body Infill Transformer在相邻关键帧之间填入中间3帧,以逐帧 HuBERT连续特征(768维,20FPS)作为条件信号。模型采用5帧滑动窗口,首尾帧已知,预测中间3帧(12个动作Token)。推理时使用迭代置信度解码策略(默认6步),逐步接受高置信度预测,避免一次性预测的质量退化。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

权威实验结果显示,SentiAvatar在SuSuInterActs和行业通用BEATv2两个数据集上,多项核心指标均达到当前国际最优水平(SOTA),性能全面领跑行业主流模型。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在自建的SuSuInterActs测试集上,SentiAvatar的文本-动作检索召回率R@1达到43.64%,几乎是行业次优基线的2倍;在跨数据集、跨语言的BEATv2评测集上,SentiAvatar以FGD 4.941、BC 8.078的成绩,同时刷新两项指标的SOTA纪录,超越此前行业最优方案,充分验证了模型的跨场景、跨语言泛化能力。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

基于自研高质量数据集、动作基础模型与核心架构,SentiAvatar实现了在0.3秒内生成6秒动作序列,支持无限轮次的流式交互。这意味着数字人可以在实时对话中持续生成连贯的动作与表情,无需等待整句结束再批量处理,能直接解决数字人“交互卡顿”的问题。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

构建认知-表达闭环,夯实数字人“交互底座”tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

SentiAvatar已正式上线GitHub开源平台,面向全球科研机构与开发者全面开放,相关技术报告也已同步发布于arXiv。开发者可基于这套开源框架,低成本打造专属的3D数字人,也可拓展其在游戏交互、影视制作、机器人等领域的应用。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

当数字人不再是冰冷机械的交互工具,它能读懂你面部表情的隐喻并反馈同样稀缺的情绪价值,变成能感知语境、理解情绪、主动表达的交互主体,下一代“数字生命”即将诞生。tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM


tV3速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-3-171786-0.html交互式3D数字人框架SentiAvatar开源:SentiPulse携手人大高瓴,让数字人和人类自然交互

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

人工智能客服不能阻碍沟通
  人工智能客服不能阻碍沟通  AI客服的理想与现实总是存在落差。我们当然希望AI客服能更“聪明”一些。但在此之前,企业不应过分依赖AI客服,而该给消费者多一个选项。  态度客气,但答非所问;表示理解,却不提解决方案
国家开发银行原副行长王用生被决定逮捕
  中新经纬1月11日电 据高检网11日消息,国家开发银行原党委委员、副行长王用生涉嫌受贿一案,由国家监察委员会调查终结,移送检察机关审查起诉。日前,经最高人民检察院指定管辖,吉林省人民检察院依法以涉嫌受贿罪对王用生
多地景区人气旺 龙年旅游消费迎来火爆开局
  多地景区人气旺 世界同享中国年  龙年旅游消费迎来火爆开局  本报记者 潘福达  多家景区门票售罄约满、多地酒店“一房难求”、出入境旅游均增长明显……春节假期旅游消费火爆,成为拉动居民消费的主力军。根
标准缺失 价格无序 宠物蛋糕野蛮生长
  标准缺失 价格无序 宠物蛋糕野蛮生长    宠物美容、宠物寄养接连掀起消费浪潮,宠物蛋糕正在成为下一个浪潮。近日,好利来集团推出全新宠物烘焙品牌Holiland Pet,据介绍,Holiland Pet将专注宠物生日蛋糕及人宠服务
广州一大桥被撞断裂 当地多举措保障受影响民众生活
  广州一大桥被撞断裂 当地多举措保障受影响民众生活  中新社广州2月22日电 题:广州一大桥被撞断裂 当地多举措保障受影响民众生活  中新社记者 王坚  佛山籍集装箱船“良辉688”轮于22日5时31分左右,在航经广
亚布力对话|居然之家汪林朋:出海首站瞄准东南亚
  中新经纬2月22日电(王玉玲 刘雪玉)22日,居然之家创始人兼董事长汪林朋在亚布力中国企业家论坛间隙接受中新经纬专访时表示,2024年,居然之家将把主要精力聚焦在出海业务上,将通过电商平台和实体门店的方式走向东南亚。

热点精选

最新推荐

您可能感兴趣