首页 > 科技

释读2300多年的战国竹简，清华系初创竟只用2B端侧大模型！

量子位

发布时间：2024-04-13 16:04:02 347次浏览

最强端侧多模态+1.2B小钢炮

金磊发自凹非寺
量子位 | 公众号 QbitAI

识读距今2300多年战国时期的上古竹简，AI正在立功。

而且在这背后的“大功臣”，竟是只有2B大小的多模态大模型！

这批上古竹简，由清华大学于2008年7月收藏，因此也被称为清华简。

清华简的数量大约是2500枚，其内容在已被发现的先秦竹简中也是前所未见，被认为是继甲骨文、敦煌遗书、居延汉简、云梦秦简之后的又一重大发现。

不过也正因如此，识读清华简便成了老大难的问题，因为上面的文字基本上都是楚文字，秦始皇统一文字后就已被废弃。

而就在最近，研究人员在一个2B大小的多模态大模型助力之下，成功地在清华简的版式检测和文字识别上取得突破：

例如询问这个大模型：

它不仅可以准确找到最短的竹简，也能精准地识别出上面的楚文字是现代的“可”字。

即使是和现代文字差异较大的古文字，这个大模型也能查字询意，得出正确结论是“我”。

并且研究团队还表示，他们正在尝试继续用这种方式进一步做探索。

嗯，不得不说，大模型“以小博大”这事，已经开始波及到多模态了。

那么这个2B大模型，到底是什么来头？

最强端侧多模态大模型，手机就能跑

不卖关子。

这个2B多模态大模型，正是由清华系初创公司面壁智能最新升级的小钢炮系列，最强端侧多模态大模型——MiniCPM-V 2.0。

划个重点：手机端就能跑！

MiniCPM-V 2.0的地址：
https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列地址：
https://github.com/OpenBMB/MiniCPM

那么它的能力到底几何？为什么说是最强端侧多模态大模型？

首先来看多模态通用能力，这也是能够衡量其底座水平的一个重要指标。

在多模态大模型综合评测权威平台OpenCompass榜单上测试的结果显示，MiniCPM-V 2.0虽然只有2B的体量，但得分已经超过了10B、17B甚至34B的主流选手：

其次再看OCR（光学字符识别）综合能力，这可以说是检测多模态识别与推理能力最硬核的指标。

在权威的OCR综合能⼒榜单OCRBench中，MiniCPM-V 2.0同样是用2B的“姿势”竞技，刷新了开源模型SOTA：

并且在场景图片文字识别榜单TextVQA中，MiniCPM-V 2.0更是直接秒杀了全系13B体量的通用模型。

甚至部分能力已经可以比肩多模态领域的王者Gemini Pro：

不仅如此，在中文OCR能力方面，MiniCPM-V 2.0展现的性能效果明显超越了GPT-4V。

同样是识别一张街景图，MiniCPM-V 2.0可以准确地叫出大厦的名字，但GPT-4V却只能回答“看不清楚”。

那么，MiniCPM-V 2.0是怎么做到不“近视”的呢？

传统做OCR的方法是比较粗暴的：它们只能处理一个固定尺寸的图片，因此就会把偏大或不规则的图片强行进行压缩。

这就会导致原始图片中大量信息的丢失，再次放大的时候就仿佛近视眼一样，很多细节都变成了马赛克：

同样的道理，传统的方法在处理极端长宽比的长图（如1:9）时效果会大打折扣，因为很长的图压缩成正方形同样会造成大量信息丢失。

为此，面壁智能团队所提出的解法就是“分而治之”——

并不是暴力压缩，而是把不规则的图片分成若干个小的图片，然后再按照大模型OCR的方式去自适应处理。

与此同时，为了解决大图像“切块”后所带来的计算量增长问题，团队还针对性地做了一个视觉模块压缩的工作，可以让增长的计算量通过局部的一些视觉感知压缩方法再打下来。

由此就保证了计算量和模型效果之间的平衡。

据团队介绍，MiniCPM-V 2.0可以处理最大180万像素高清大图，甚至1:9极限宽高比的高清图片，对它们进行高效编码和无损识别。

具体效果如下所示：

除了多模态通用能力和OCR综合能力之外，幻觉也是考量一个多模态大模型性能的重要指标之一。

在这方面，MiniCPM-V 2.0所参与的则是Object HalBench榜单。

结果显示，其幻觉水平是与GPT-4V持平的：

而MiniCPM-V 2.0，也还仅是面壁智能最新发布内容中的一隅。

除了它之外，面壁智能还发布了额外三个同样是“小体量”的大模型。

由此，在MiniCPM 2.0的矩阵中就形成了“四大金刚”屹立的阵容——四驱小钢炮。

那么四驱小钢炮中的其它三个大模型还解锁了哪些能力，我们继续往下看。

1元=4150000 tokens，适用更多端侧场景

在追求“小”这件事上，面壁智能再次刷新自己的纪录——MiniCPM-1.2B。

至于它的特点，一言蔽之：

同样的，在公开测评榜单中，其成绩依旧是做到了越级超越：

值得一提的是，MiniCPM-1.2B现在也是可以在手机端侧跑起来的那种，速度可以达到25tokens/s（人类说话速度的15-25倍）：

现场演示效果

不仅如此，MiniCPM-1.2B还做到了把价格和内存打下去。

以iOS为例，MiniCPM-2.4B的量化模型是2.10G；而到了MiniCPM-1.2B，则只需要1.01G，内存减少51.9%。

价格方面更是打了6折：1元=4150000 tokens。

（计算方式为：苹果A17 Pro为130美元（约人民币950元），如开metal，速度最大为 25 tokens/s；若芯片使用5年，则推理代价为 (25×3600×24×365×5)/950=415万 tokens/元）

这也就意味着现在更多端侧场景“快好省”地跑大模型成为了可能，不只是手机，还包括穿戴设备、PC、智能家居、汽车等等。

在各个大模型玩家都在你追我赶的长文本领域，面壁智能这一次也出手了——MiniCPM-2B-128K。

直接解锁了一个新的之最——最小的128K长文本大模型。

在InfiniteBench榜单的平均成绩也是超越了同体量的其它选手：

而之所以要做这个工作，在面壁智能看来，是因为目前在实际真正需要调用长文本大模型的时候，还是需要非常大的内存才能做较好的推理工作。

面壁智能表示，他们还将继续对MiniCPM-2B-128K做优化工作，尽快让其能够在端侧跑起来。

除此之外，面壁智能还在另一个大火的技术上发力，那便是MoE（混合专家）——发布了MiniCPM-MoE-8x2B模型。

（MoE能在不增加推理成本的前提下，为大模型带来性能激增。）

通过MoE的性能增强，让2B小钢炮（MiniCPM 1.0）在其原来的基础之上性能平均提高4.5个百分点。

从榜单成绩上来看，MiniCPM-MoE-8x2B模型做到了在性能上的越级超越，并且推理成本仅为Gemma-7B的69.7%：

以上就是四驱小钢炮的全部内容了。

不难看出，四驱小钢炮中的每一个“驱动力”都主打“够小，但能打”。

而且纵观面壁智能此次的发布，提及最多的两个关键词就是“端侧”和“最小”。

那么面壁智能为何要如此极致地追求于此？

端侧，需要高效大模型

其实从大模型整体的发展趋势来看，这两个关键词早已是定数。

自从ChatGPT引爆大模型以来，先是在国内外引发了一波百模大战的热潮，都将极大的算力和资金投入到了训练的过程当中。

而当底座的大模型训练完毕之后，各个大模型玩家又将工作重心向推理侧倾斜，随即也迎来了各式各样AIGC应用的百花齐放。

与此同时，大模型不再仅仅较真于参数规模、跑分和测评，更注重在应用侧发力。

一言蔽之，比的就是看谁能“快好省”地用起来。

在端侧的表现尤为明显，比如大火的AI手机、AI PC便是很好的印证；而要让大模型能够在端侧丝滑地跑起来，那么其体量注定便不能过于庞大。

这就注定了端侧的大模型必须要满足两点：要小，还要性能高效；也就不难理解面壁智能为何如此极致地追求于此了。

那么接下来的一个问题是：要怎么做？

面壁智能CEO李大海给出了一种“高效公式”解法：

首先在高效训练这件事上，从面壁智能的first day开始，就已然是一个终极目标一样的存在了。

面壁智能最早训练大模型之际还并没有多机多卡的训练框架，为此，团队便自主研发了BMTrain框架来支撑大模型的训练，成本相比于GPT-3直接下降了90%之多。

现如今，面壁智能在高效训练中持续死磕的一个目标就是“高效Scaling Law”，这也是“第一性原理”一样的存在。

它不同于OpenAI向上大力出奇迹的玩法，主打的就是争取更大的模型压缩效率，用更少的高质量数据训练出更好、更小的模型，这也是避免算力等资源巨大浪费的方法之一。

其次是高效落地，具体来说便是AI智能体（Agent）。

早在去年3月份之际，面壁智能便已经发表了关于AI智能体的相关论文，随后又将其演变成SaaS级智能软件开发平台ChatDev，就是为了把这种“一句话搞开发”的门槛再次打下去。

具体而言，在产品版ChatDev加持之下，在开发的整个流程中，从产品经理到程序员，再到设计和测试等等，统统都是AI智能体；开发的迭代，也变成了有想法就行的事。

要知道，常规软件的开发周期是在2-3周，且成本在10000-50000美元之间（包括人力）；如此对比起来，可真的是大写的“降本增效”！

除此之外，基于其大模型底座的基础能力，面壁智能还曾开源了两项重磅的工作——AgentVerse和XAgent；加上我们刚才提到的ChatDev，三者共同形成了大模型驱动的AI Agent“三驾马车”，围绕的核心便是AI智能体。

这也正是AI智能体能够将落地这件事变得高效的原因。

到这里，仅是在高效训练和高效落地这件事上，面壁智能就已经形成了“大模型+AI智能体”这样的技术路线。

而就在前不久，AI大牛吴恩达也公开在X中发表观点，对这样的模式给予了高度的认可。

至于高效大模型的最后一个部分高效推理，则是端云协同技术。李大海对此表示：

在这一方面，面壁智能其实也早已有所涉猎，所提出的衔尾蛇投机采样技术，可以说是打破了传统云侧大模型服务方案中因大模型串行逐 token 生成并伴随每次生成带来的频繁访存，所造成的远低于计算上限的读写速度瓶颈。

具体到端、云之间的协作，就是将起草的小模型放在手机侧、效果更好的大模型放在云侧，通过用小模型给大模型打草稿、做验证的方式，减少云端访存读写工作，为云端减负。

如此，大小模型通过敏捷的双向反馈机制，得到推理速度提升的互相激发。

以上便是面壁智能的“高效公式”了。

总结来看，面壁智能到目前为止所发力的一切，也与其智周万物的愿景高度契合——就是要让大模型“快好省”地用起来。

One More Thing

面壁智能在近日也迎来了融资方面的好消息——

完成新一轮数亿元融资。

李大海在公开信中也透露了资金的用处，依旧将是技术和人才：

有技术，有人才，有市场，面壁智能是值得继续关注一波的大模型实力派选手了。

MiniCPM-V 2.0的地址：
https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列地址：
https://github.com/OpenBMB/MiniCPM

点击展开全文

本文链接：http://m.sushuapos.com/show-2-4821-0.html释读2300多年的战国竹简，清华系初创竟只用2B端侧大模型！

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：印象大模型 × 海量数据，构建赋能千行百业的新质生产力平台

下一篇：蔚来AI大模型正式上车：NOMI进化无限畅聊，有问必答

延伸阅读

热点精选

中国春节跨境游回暖：免签效应强，入境消费火

　　中国春节跨境游回暖：免签效应强，入境消费火　　中新社北京2月18日电 (记者夏宾)“双向奔赴”的跨境旅游在中国春节假期回暖。　　随着中国对多个国家单方面免签证，与新加坡、马来西亚互免签证，推出一系列入境游便利

【光明论坛】让“新”字更突出、更鲜明

作者：王成（广西师范大学副教授、广西高校人文社科重点研究基地广西师范大学马克思主义理论与区域实践研究中心研究员）日前，习近平总书记在主持中共中央政治局第十一次集体学习时指出：“发展新质生

中国工程院院士、校长宋保维：发挥教育科技人才优势为建设制造强国贡献高校力量

今天《中国电子报》刊登西北工业大学校长、中国工程院院士宋保维署名文章《发挥教育科技人才优势为建设制造强国贡献高校力量》现将文章登载如下，以飨读者。制造业是国家经济命脉所系，是立国之本、

甘肃礼县：“点对点”输送务工人员返岗复工

中国经济导报中国发展网讯春风送暖促就业、精准服务助发展。2月21日，甘肃礼县举行2024年春风行动·东西部劳务协作招聘会暨“礼贤妹”“礼贤大嫂”赴京务工欢送仪式，来自省内外26家人力资源服

新一轮雨雪冰冻天气来袭湖南积极备战保民生

新华社记者周楠、余春生、谢奔“路上快要结冰了，开车要注意安全。”2月21日中午，在省道S306茶垭段，寒风瑟瑟，湖南省桑植县竹叶坪乡政府工作人员李雅敏正和同事对过往车辆进行警示提醒。气象部门分析，受强

“一年卖了20万条马面裙，布料都不够了”

　　中新经纬2月23日电 (周奕航)“和以往相比，今年的订单量足足翻了四五倍。”山东省菏泽市曹县的汉服加工厂老板陆平(化名)对中新经纬表示。　　这个春节，马面裙火了。许多年轻人身穿马面裙，行走在大街小巷、灯展庙会间

您可能感兴趣

《乡村爱情16》第5集分集剧情介绍

韩剧篡位一共多少集

《欢乐家长群》第5集分集剧情介绍

大型民族歌剧《八一起义》震撼首演！著名作曲家栾凯担纲作曲！

《产后世界》演员表

《我家娶了花木兰》第27集分集剧情介绍

米热首支单曲《三流剧本》踏春而来

《甜甜的陷阱》第12集分集剧情介绍

《乡村爱情16》李静雯怀孕了吗

《仙剑六祈今朝》第32集分集剧情介绍