从Sora到Suno,解锁多模态大模型的可能性

316次浏览

21世纪经济报道记者 董静怡 上海报道Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

像年初的Sora一样,这次AI的颠覆性影响传入了音乐圈。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

近日,AI音乐生成软件Suno发布V3版本,仅需要简单的描述,就可以生成2min长度、广播质量级别的音乐。正如Suno官网所显示:“无论您是歌手还是排行榜艺术家,我们都会打破您与您梦想创作的歌曲之间的障碍。不需要任何工具,只需要想象力。”Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

这为普通人打开了音乐制作的大门。在社交媒体上,众多网友参与讨论,并晒出通过Suno制作的曲目,这些可以称得上完整且好听的音乐作品令音乐圈内外人感到颇为震撼,当然,更震撼的还是AI生成能力的迭代速度。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在文生文模型的热度逐渐平息之时,文生图、音频、视频等多模态大模型开始了一轮又一轮的进化。华泰证券的一份研报显示,海外大模型迭代重视多模态能力拓展,相较于早期图像、音频、视频模型,基础模型能力显著提升。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“大语言模型为AI产业带来新的生机,然而语言模型的应用场景有限。要全面打开生成式AI的想象力,还是要依托多模态大模型。”IDC中国研究总监卢言霞向21世纪经济报道记者表示。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

她曾预测,未来5年,生成式AI生成的文本类文件、图像类文件、视频类文件、软件代码类文件数量将会越来越平均。而这其中,与图像文件相关的数据量可能是文本文件的100倍,视频文件是图像文件的10倍。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

当见识过这些模型的能力后,生成式AI的想象空间已经被全面打开。尽管目前很多应用尚未正式对外开放使用,也无法了解到更多技术细节,但可以确定的是,这一波技术迭代将为AI行业参与者带来可观的机遇。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

音乐圈的ChatGPT时刻

曾有业内专家认为,考虑到成品的复杂性,可能需要数年时间才能出现一种通过简单的文本描述制作歌曲的工具。但位于马萨诸塞州剑桥市的一家成立两年的初创公司Suno已经成功实现了这一目标。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

近日,Suno V3音乐生成模型发布,面向所有用户开放。Suno通过其先进的AI算法,能够理解和分析用户的输入,然后生成与之相匹配的音乐。这意味着用户只需要提供一些简短的歌词或者描述,Suno就能根据这些信息创作出一首歌曲。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

随着新版本的推出,Suno还引入了AI音乐水印系统,每段由平台生成的音乐都添加了人声无法识别的水印,旨在保护用户的创作,防止抄袭和滥用。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“相比起之前的版本,或是此前其他AI生成音乐的工具,V3生成的曲目是令人惊艳的。”有音乐博主在社交媒体上发出赞叹,“它已经不再是一小段不成熟的东西,而是有歌词、前奏、间奏、副歌的完整歌曲。”Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

在V3版本中,音质、咬字和节奏编排上都有了显著提升,是Suno AI首次能够生产出广播质量的音乐的模型,它能够在几秒钟内创作出完整的两分钟歌曲,就在半年前,这个时长还仅有30秒。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

为了激发人们的创作灵感,Suno V3还增加了更多音乐风格和流派的选项,包括古典音乐、爵士乐、Hiphop、电子等新潮曲风。同时,V3版本对于用户输入的提示词,理解和响应更加准确,减少了“幻觉”现象,使得歌曲的结尾更加自然和高质量。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“我认为完成度很高,在乐器编排、风格把控、歌词与旋律的匹配度等等方面都做得不错,甚至还有乐器solo。”某独立乐队成员向21世纪经济报道记者表示,“尤其对没有专业制作班底的独立乐队而言,提供了很好的编曲灵感。”Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

官方宣称,不少知名的艺术家已经在使用Suno,但其核心用户群依然还是没有任何音乐制作经验的普通人。在互联网上,越来越多的网友晒出了自己通过Suno生成的作品,其中不乏中文歌曲,如基于古诗词的古韵歌曲《水调歌头(明月几时有)》、中文硬摇滚《We Go!》,甚至还有以菜谱作为歌词的《宫保鸡丁》等。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“这与AI绘画给人的感觉是类似的,”有使用者向记者表示,“做不到特别好,但可以达到平均水平,甚至要更高。”Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

针对于其应用场景,业内普遍认为,作为广告、短视频等背景音乐的“功能性音乐”,Suno生成的音频有着很大的应用前景,再往前发展,个性化定制音乐也会成为一种普遍的现象。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不过,谈AI替代人力还是为时过早。上述独立乐队乐手向记者表示,作品虽然有完成度,但结构呆板,编排还是粗糙的、模块化的,对于主流的音乐产业还构不成威胁,“它确实降低了音乐制作的门槛,但还远没有突破其天花板。”Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

Suno官方则表示,目前Suno模型仍处于早期阶段,未来还将沿着质量、可控和速度方向进行改进,并透露V4已经在开发中。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

多模态仍在发展初期

事实上,去年下半年以来,由各类多模态大模型生成的作品已经一次又一次带来令人惊艳的效果,AI生成语音、图片、视频的进程似乎比预想中走得更快。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

去年年底,谷歌上线了文生图模型Imagen 2,在图像的真实性和语言理解的深度上取得了前所未有的成就,能够生成高度逼真且与文本提示一致的高分辨率图像,尤其在处理复杂细节如皮肤质感和头发方面表现出色,被称为DALL•E 3和Midjourney的最强竞品。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

年初,OpenAI的Sora模型带来更大的震撼,它能够根据文本描述生成长达60秒的视频,在此之前,同类产品生成的时长只有几秒钟。同时,它还具有精细复杂的场景、生动的角色表情以及复杂的镜头运动,使得Sora生成的视频在视觉效果上更为连贯和逼真,与之前AI视频生成模型产生的抖动和失真的视频效果形成了鲜明对比。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

再加上近期Suno的火爆,各个领域都在迎来自己的ChatGPT时刻。业内人士认为,这类多模态大模型将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力,既可以提高生产速度又可以提高生产数量,还可以创造全新的视听感受,能够帮助企业真正实现降本增效、提升用户体验。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

从更长远的角度来看,多模态最接近于人对自然界的感知,智谱AI CEO张鹏在此前接受21世纪经济报道记者采访时表示,多模态是走向通用人工智能(AGI)的起点。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“人大脑一定是各种感官融合到一起的,所以人的智力一定是多模态的。”张鹏向记者表示,“多模态不仅是文到图、图到文这么一件事情,它更多的是探究人的认知能力和各种感官之间的相互作用。”Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

东方证券的一份研报指出,多模态大模型一方面有利于形成图片、视频等更加生动活泼、更具交互性的应用,从而有助于C端爆款的诞生;另一方面,多模态大模型能真正打通物理世界和数字世界的障壁,实现与物理世界最自然的交互,从而对自动驾驶、人形机器人等具身智能领域的突破提供有力支撑。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

但从技术角度来看,多模态大模型仍面临着多重挑战。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

多模态模型的技术难度主要在于如何有效地整合和处理不同类型的数据,图像、视觉和音频等领域的数据具有更高的维度和更复杂的结构。“与NLP相比,图像、视觉、音频的数据量更大,对算力的要求也更高,计算的速度、性能要求都会更高。”卢言霞向21世纪经济报道记者表示。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

她认为,尽管在NLP领域取得了一定的进展,但在图像、视觉和音频等其他模态上,大模型的发展仍然处于起步阶段。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“很多应用表面上看上去惊艳,但是如果我们按需按场景去使用,能满足需求的时候仍是少数。”卢言霞向记者表示,真正的成熟需要至少多个场景都能有效使用,目前很明显达不到这一点。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而人们对于多模态大模型的期望显然不只限于单一的非文本模态。未来的多模态模型可能会朝着更加集成和协同的方向发展,不仅能够处理单一模态的数据,还能够在多个模态之间进行有效的信息融合和转换。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

但当前一体化多模态大模型仍存在局限。复旦大学计算机科学技术学院教授邱锡鹏向21世纪经济报道记者表示,目前的多模态大模型通常以语言模型为中心,通过将其他模态的数据映射到语言模型的语义空间中来实现多模态理解,生成时则需要调用外部的插件或系统。这限制了模型的应用场景和灵活性。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

他认为,新一代大模型的交互将实现任意模态到任意模态的内生转化,这将与更多实际生活场景相结合,赋能应用场景和生产力变革。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

目前来看,多模态整体的研究框架仍是非常开放的,它并没有一个非常清晰的、收敛的路线,这对于开发者而言是巨大的挑战,但与此同时,也意味着很多的可能性。Ygr速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:http://m.sushuapos.com/show-2-4266-0.html从Sora到Suno,解锁多模态大模型的可能性

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

两会日程预告丨3月6日:审议和讨论政府工作报告 审查计划报告和预算报告
十四届全国人大二次会议各代表团6日全天举行代表小组会议。上午审议政府工作报告,下午审查计划报告和草案、预算报告和草案。全国政协十四届二次会议6日全天举行界别联组会议和小组会
中国对瑞士等6国试行免签政策
为进一步促进中外人员往来,中方决定扩大免签国家范围,对瑞士、爱尔兰、匈牙利、奥地利、比利时、卢森堡6个国家持普通护照人员试行免签政策。2024年3月14日至11月30日期间,上述国家持普
上汽大通:无锡工厂第100万辆整车下线
近日,上汽大通宣布无锡工厂第100万辆整车正式下线,此次下线的是一辆上汽大通领地,该车定位一款中大型SUV。  据悉,上汽大通无锡工厂的产品覆盖轻客、MPV、皮卡、SUV和新能源系列,销往全球73个国家和地区。官方表示,上
深蓝汽车全新车型 G318 将于 3 月 18 日亮相,定位增程式硬派 SUV
3 月 10 日消息,长安汽车旗下深蓝汽车日前宣布,“深蓝超级增程进化日暨 G318 亮相发布会”即将于 3 月 18 日在成都举行,被官方称为“科技新硬派”的全新车型 ——SUV G318 将同期亮相。据悉,该车采用 1.5T 发动
国家疾控局局长王贺胜:多项传染病发病率降至历史最低水平 做足准备工作应对“X疾病”
21世纪经济报道记者 缴翼飞 实习生 林润 北京报道3月9日,国家疾病预防控制局局长王贺胜在十四届全国人大二次会议的民生主题记者会上表示,目前我国艾滋病、结核病、病毒性肝炎等重大传
配备有1.5T插混动力 领克07 EM-P首发
3月8日,领克正式发布了旗下全新中型轿车:领克07 EM-P。新车基于CMA Evo架构打造,搭载1.5T EM-P插电式混合动力系统,发动机最大功率为163马力。未来该车的竞争对手将包括比亚迪海豹DM-i等插混中型轿车。  外观来看,新

热点精选

最新推荐

您可能感兴趣