腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

量子位
342次浏览

腾讯混元联合清华和港科大推出3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

单击画面中的火箭,输入“发射”prompt,瞬间起飞!3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

就连想要回收火箭,也只需要输入“Launch down”,再轻轻一点击:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

马斯克看了都要自我怀疑一下,这火箭发射这么简单,自家星舰成功进入太空怎么那么难(开个小玩笑)??3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

以上效果来自一个新的图生视频模型Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

食用方法非常友好:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

任意一张照片输入模型,只需要点击对应区域,加上少量简单的提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

就连《一人之下》的诸葛青和《唐伯虎点秋香》里的星爷也……3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

相关研究论文已经挂上了arXiv,GitHub上也放出代码,首日就小有战绩,揽星280+。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

想动哪里点哪里,so easy

注意看这个楼梯上的动画小鼠形象,只需单击小鼠腹部,再输入“跳舞”,它就能瞬间扭动起来。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

同时,画面的其他部分保持原有的静止状态。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

不只是人物、卡通形象可以控制,图片的其余部分,通过点击和输入简短提示词,也能动起来。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

,时长00:083Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

进一步测试,是可以实际感知到Follow-Your-Click对画面动态部分的精准控制的。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

同样是鸟图,点击小鸟,输入“动动脑袋”:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

输入“扇扇翅膀”:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

输入“跳个舞吧”:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

输入“不如摇摆”:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

总结,就是想要哪里动,就点哪里。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

研究团队还将Follow-Your-Click和其他视频生成模型进行了同题对比,以下是实验效果:3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

一键点,万物动

此前图生视频模型的生成方法,一般都需要用提示词描述运动区域,并提供运动指令的详细描述。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

从生成效果来看,过往技术在指定图像移动部分缺乏控制,往往是让整个场景动起来,而不是具体到图像上的某个区域。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

为了解决这些问题,腾讯混元大模型团队、清华和港科大联合项目提出了更实用和可控的图像到视频生成模型Follow-Your-Click。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

实现方式上,Follow-Your-Click首先整合了图像语义分割工具Segment-Anything,将用户点击转换为二进制区域Mask,将其作为网络条件之一。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

其次,为了更好地正确学习时间相关性,团队还引入了一种有效的首帧掩模策略3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这种方式对模型生成的视频质量有较大的性能提升,不论是在畸变还是首帧的重构效果上都有很大的帮助。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

此外,为了实现简短提示词的文字驱动能力,研究团队构建了一个名为WebVid-Motion的数据集——利用大模型来过滤和注视视频标题,并强调人类情感、动作和常见物体的运动,通过数据集提升模型对动词的响应和识别能力。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

联合研究团队还设计了一个运动增强模块,主要用途一方面是更好地适应数据集,一方面用来增强模型对运动相关词语的响,同时理解简短提示指令。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

在视频中,不同类型的物体可能表现出不同的运动速度。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

以往的工作中,每秒帧数(FPS)主要作为全局的动作幅度控制参数,间接调整多个物体的运动速度。然而,它无法有效控制移动物体的速度。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

举个3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

,一个展示雕塑的视频可能具有很高的FPS,但是没有物体的运动速度。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了实现对运动速度的准确学习,研究团队提出了一种基于光流的运动幅度控制,使用光流模长作为新的视频运动幅度控制参数。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

以上这些新提出的方法,加上各模块的组合,Follow-Your-Click大大提升了可控图生视频的效率和可控性,最终实现了用简单文本指令来实现图像局部动画。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

One More Thing

小道消息!3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Follow-Your-Click联合项目组中的腾讯混元大模型团队,正努力研究和探索多模态技术。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

此前,该团队已经作为技术合作伙伴,支持了《人民日报》的原创视频《江山如此多娇》。3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

该说不说,2024年,一定是多模态卷到爆炸的一年……3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

项目主页:https://follow-your-click.github.io/3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
论文链接:https://arxiv.org/pdf/2403.08268.pdf3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM
GitHub:https://github.com/mayuelala/FollowYourClick3Jm速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-3862-0.html腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

预计年内上市 阿尔卑斯DOM路试谍照曝光
3月5日,从国内社交平台处获取到了一组疑似蔚来子品牌阿尔卑斯旗下的SUV车型路试谍照(内部代号为DOM)。据悉,阿尔卑斯主攻20-30万元新能源汽车市场,全系车型将基于蔚来第三代技术平台NT3.0进行开发。  虽然车辆被覆盖
专访最高法副院长贺小荣:发挥司法裁判引领作用,推动民生权益保护与数字经济发展互促共进
21世纪经济报道记者 王俊 北京报道数字技术深深嵌入到人类生产生活各个环节,新技术不断迭代,随之带来治理方面的挑战。如何平衡数字经济发展与民生权益保障,考验着司法智慧。今年全国两
【财眼观两会】专访汽车流通协会郎学红:汽车以旧换新或撬动1000万辆市场增量
  中新经纬3月7日电 (宋亚芬)汽车消费等大宗消费一直是中国政府促进消费的工作重点,今年也不例外。2024年的政府工作报告提出要“稳定和扩大传统消费,鼓励和推动消费品以旧换新,提振智能网联新能源汽车、电子产品等大
深蓝汽车全新车型 G318 将于 3 月 18 日亮相,定位增程式硬派 SUV
3 月 10 日消息,长安汽车旗下深蓝汽车日前宣布,“深蓝超级增程进化日暨 G318 亮相发布会”即将于 3 月 18 日在成都举行,被官方称为“科技新硬派”的全新车型 ——SUV G318 将同期亮相。据悉,该车采用 1.5T 发动
住建部部长谈防范房地产风险:对严重资不抵债、失去经营能力的房企 该破产的破产、该重组的重组
21世纪经济报道记者 缴翼飞 实习生 潘晓霞 北京报道3月9日,住房和城乡建设部部长倪虹在十四届全国人大二次会议的民生主题记者会上表示,从全国城镇住房存量的更新改造需求看,房地产还是
配第5代DM-i技术 比亚迪秦L无伪装谍照
近日,网络上曝光了接近量产状态的比亚迪秦L路试谍照,该车已经完全去掉了伪装,让我们能够更清晰的看到实车。根据官方的定位,其将高于秦PLUS车型,仍然定位为一款紧凑型轿车,售价或在12-13万元起。该车将搭载比亚迪第5代D

热点精选

最新推荐

您可能感兴趣