中国自研“智象视觉大模型” 将生命力注入你的故事-速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

中国自研“智象视觉大模型” 将生命力注入你的故事

发布时间：2024-03-18 14:51:52 390次浏览

“在AIGC的路上，我们可以说是一路狂奔。”近日，智象未来（HiDream.ai）的创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，其自主研发的“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，可实现文本、图片、视频等多模态内容的生成。

2024年第一季度，智象未来计划推出重大迭代的图像基础模型。这一技术也将持续赋能视频生成领域，原有视频基础模型预计在3月底实现大幅升级。新一版模型将在文本与视频的一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

“在AIGC的路上，我们可以说是一路狂奔。”近日，智象未来（HiDream.ai）的创始人梅涛（CEO）表示，作为国内一家专注于构建视觉多模态基础模型及应用的生成式人工智能初创公司，其自主研发的“智象视觉大模型”是目前全球同时支持图像和视频生成的最大模型。模型参数已超过130 亿，可实现文本、图片、视频等多模态内容的生成。

2024年第一季度，智象未来计划推出重大迭代的图像基础模型。这一技术也将持续赋能视频生成领域，原有视频基础模型预计在3月底实现大幅升级。新一版模型将在文本与视频的一致性、生成时长和视频连贯性等方面有显著进步，用户可享受到更加丝滑、顺畅的视频生成体验。

深耕于视频生成领域，智象未来将聚焦四大关键要素——视觉故事性、内容确定性、超高清画质（4K/8K）以及全局和局部可控性，并已在实际产品中实现4K高清画面、全局和局部的可控、剧本多镜头视频生成等功能。

其中，Pixeling 千象是智象未来打造的自主可控生成式AIGC创作平台和社区，其小程序“千象万相”集图片生成、视频生成、图片编辑（智能重绘、智能拓图、图片增强）等功能于一体。即使是零基础的用户，也能运用AIGC一站式满足需求，让天马行空的想象触手可及，让创作更加高效而强大。

E象则是专为电商卖家打造的AI制图工具。无需策划方案、道具采购、美工置景、布景拍摄、后期加工等流程及费用，商家只需上传一张商品图或真人试穿图，即可一键生成大量真实场景商品图，还原服饰的真实上身效果，助力卖家降本增效，打造爆款。

此外，智象未来团队在文生视频领域独辟蹊径，开辟更精细、稳定、品质卓越的创新之路——不直接从文本向视频转换，而是从文本先向图片转换，生成关键帧，再拓展为多镜头的完整视频。

“逐帧生成的方法不仅能够提高视频生成的稳定性、细节处理和美感，还为视频生成的时长拓展提供了可能性。”梅涛介绍。

收到一条文本或指令后，大语言模型会基于对文本的理解，自动生成分镜头脚本，再通过“文生图”功能，创造性地生成分镜头脚本所描绘的画面，从细腻纹理到光影流转，每一幅画面都精雕细琢。然后，将多个画面逐帧拼接，转换为多段单一镜头的视频。最终，将这些视频剪辑形成15秒甚至更长时间的多镜头视频。

目前，智象未来已经完成图像Diffusion Transformer 架构 130 亿参数规模的训练，拥有如此大规模的训练数据集，使模型具备强大的语言理解和视觉推理能力。

点击展开全文

本文链接：http://m.sushuapos.com/show-2-3922-0.html中国自研“智象视觉大模型” 将生命力注入你的故事

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：工业互联网“身份证”体系由建到用

下一篇：吴琦：“AI会导致电力短缺”言论是杞人忧天吗？

延伸阅读

热点精选

外媒：研究称未来10年AI对美国经济影响将达万亿美元

　　中新经纬1月11日电据《华尔街日报》中文网11日报道，据Cognizant Impact周三发布的一份研究报告称，在未来10年内，生成性人工智能对美国经济的影响力将达到惊人的1万亿美元，但这可能会让工人付出代价。　　报道称，这项

春节初一至初七逾130万人次访港内地游客占近九成

　　春节初一至初七逾130万人次访港内地游客占近九成　　中新网2月18日电据香港《文汇报》报道，据香港特区政府入境处统计，今年年初一至年初七(2月10日至16日)共录得逾130万人次旅客访港，接近2019年春节的水平(140万人

多地景区人气旺龙年旅游消费迎来火爆开局

　　多地景区人气旺世界同享中国年　　龙年旅游消费迎来火爆开局　　本报记者潘福达　　多家景区门票售罄约满、多地酒店“一房难求”、出入境旅游均增长明显……春节假期旅游消费火爆，成为拉动居民消费的主力军。根

保畅保供保民生

新华社济南2月22日电（记者陈国峰、张钟仁）连日来，山东多地迎来大风降温和雨雪天气。21日，受降雪影响，济南西站部分列车降速运行，出现晚点情况。售票大厅内，记者看到“晚点停运车次退票”窗口前排起长龙。国

亚布力对话｜91科技集团许泽玮：AI将成职场必备技能

　　中新经纬2月23日电 (王玉玲刘雪玉)近期，美国开放人工智能研究中心(OpenAI)的文生视频大模型Sora一经推出，就引爆互联网。有业内人士认为，以Sora为首的多模态大模型，将带人类走向更超乎想象的地方。如何看待Sora的发

新国标实施一周年中国婴配乳粉注册工作取得成效

　　新国标实施一周年中国婴配乳粉注册工作取得成效　　中新社北京2月22日电 (记者刘亮)记者22日从中国国家市场监管总局获悉，自婴幼儿配方食品新国标(以下称新国标)发布实施后，中国婴幼儿配方乳粉(以下称婴配乳粉)产

您可能感兴趣

韩剧篡位是双男主吗

《独一有二的她》第5集分集剧情介绍

《19层》第26集分集剧情介绍

网剧《致命游戏》在哪看

《不知剧情也无妨》第11集分集剧情介绍

活气丽品牌创始人郑善方受邀谭卓个展《不现时》

韩剧《善意的竞争》剧情介绍

《折眉》剧情介绍

-20°，真·冰天雪地里热气腾腾的年味儿

哈尔的移动城堡那团火叫什么名字