“人大系” AI 创企「智子引擎」自研多模态大模型，落地社会治理和实体机器人场景全球快资讯

时间：2023-06-02 03:14:33 来源：36氪

文 | 周鑫雨

编辑 | 邓咏仪

想要更接近通用人工智能，提高 AI 对图像、语音、视频等多模态内容的理解不可或缺。相较于注重文本交互的单模态语言模型，多模态模型能将 AI 领域拓展至识别、检测等更广泛的领域。

(资料图片仅供参考)

成立于 2021 年， AI 创企 " 智子引擎 " 是国内较早对多模态大模型展开研究的团队。人大高瓴人工智能学院教授卢志武担任公司的首席技术顾问，并对大模型相关研究成果进行商业转化。

基于今年 3 月 8 日发布的 " 图生文 " 模型 " 元乘象 ChatImg1.0"，智子引擎推出了支持语音、文本、图像交互的 ChatImg2.0。

元乘象 ChatImg 2.0 能够对图像和视频内容进行理解。

相较于主打 " 看图 " 的 1.0 版本，ChatImg2.0 新增语音交互功能，并支持视频输入，并在页面新增 " 发现 " 功能导航入口。

元乘象 ChatImg 支持视频和语音输入，与此同时增加了 " 发现 " 功能导航界面。

ChatImg 的基座为智子引擎自研的 150 亿参数多模态大模型。2023 年 3 月，团队在关于多模态大模型 " 无人区 " 的探索有了初步的成果：会看图的 " 元乘象 ChatImg1.0" 发布，后续更迭至 2.0 版本。

智子引擎 CEO 高一钊介绍，ChatImg 2.0 的中文和英文多模态对话能力已经超过了目前主流的开源模型。在多模态对话数据集（LLaVa）的公开评测过程中，ChatImg 2.0 对 90 个问题的回答结果，拿到了 GPT-3.5 打出的最高分，并与 GPT-4 的表现最为接近。

LLaVa 对元乘象 ChatImg 2.0 以及主要开源模型的评测结果。

在应用落地上，基于对复杂场景的识别能力，智子引擎与软通智慧合作发布了城市多模态大模型和城市治理云 GPT-Creator2.0。基于软通智慧提供的城市场景、城市数据以及私有化部署及专训，智子引擎联合训练出应用于城市治理事件管理的多模态大模型。

评测结果显示，ChatImg 在复杂场景的识别上准确率达到了 90% 以上。与此同时，城市治理改变了传统 " 一场景一模型 " 的部署模式，用特定数据对 ChatImg 进行微调的解决方案将系统部署复杂度降低了 50% 以上。

与此同时，智子引擎团队正在对 "ChatImg2.0+ 实体机器人 " 进行尝试。目前，该团队联合北京理工大学张伟民教授团队共同打造了智能机器人 " 小象 "。与目前市面上大多厂商将 AI 能力接入辅助硬件功能不同，" 小象 " 的设计则从 ChatImg 的多模态交互功能出发，为 AI 打造更贴合的实体智能生命形象。" 小象 " 目前具备语音交互、图像识别等功能。

接入 ChatImg 2.0 的实体机器人 " 小象 " 目前具备语音交互、图像识别等功能。

高一钊告诉 36 氪，目前智子引擎共有 8 名全职员工， " 做成大模型的人数不在多，而是考验团队每个人的研究能力和工程能力。" 此外，首席技术顾问卢志武曾为智源研究院 " 悟道 · 文澜 " 大模型研究团队的核心成员，也是 " 文澜 BriVL" 的主要设计者。

近日，智子引擎完成千万元天使轮融资，主要用于多模态大模型的研发和落地。

" 通用化和商业化，是未来 5 年最重要的两件事。" 高一钊对 36 氪表示，" 通用化是学术上对模型能力的优化，但此外能重要的是模型能力能够对现有行业进行颠覆。目前，我们还有很多场景等待落地，在技术上也将会持续发力，这都是对自己竞争优势的一种保护。"

36kr 制图

欢迎关注

“人大系” AI 创企「智子引擎」自研多模态大模型，落地社会治理和实体机器人场景 全球快资讯