文 | 周鑫雨
编辑 | 邓咏仪
想要更接近通用人工智能,提高 AI 对图像、语音、视频等多模态内容的理解不可或缺。相较于注重文本交互的单模态语言模型,多模态模型能将 AI 领域拓展至识别、检测等更广泛的领域。
(资料图片仅供参考)
成立于 2021 年, AI 创企 " 智子引擎 " 是国内较早对多模态大模型展开研究的团队。人大高瓴人工智能学院教授卢志武担任公司的首席技术顾问,并对大模型相关研究成果进行商业转化。
基于今年 3 月 8 日发布的 " 图生文 " 模型 " 元乘象 ChatImg1.0",智子引擎推出了支持语音、文本、图像交互的 ChatImg2.0。
元乘象 ChatImg 2.0 能够对图像和视频内容进行理解。相较于主打 " 看图 " 的 1.0 版本,ChatImg2.0 新增语音交互功能,并支持视频输入,并在页面新增 " 发现 " 功能导航入口。
元乘象 ChatImg 支持视频和语音输入,与此同时增加了 " 发现 " 功能导航界面。ChatImg 的基座为智子引擎自研的 150 亿参数多模态大模型。2023 年 3 月,团队在关于多模态大模型 " 无人区 " 的探索有了初步的成果:会看图的 " 元乘象 ChatImg1.0" 发布,后续更迭至 2.0 版本。
智子引擎 CEO 高一钊介绍,ChatImg 2.0 的中文和英文多模态对话能力已经超过了目前主流的开源模型。在多模态对话数据集(LLaVa)的公开评测过程中,ChatImg 2.0 对 90 个问题的回答结果,拿到了 GPT-3.5 打出的最高分,并与 GPT-4 的表现最为接近。
LLaVa 对元乘象 ChatImg 2.0 以及主要开源模型的评测结果。在应用落地上,基于对复杂场景的识别能力,智子引擎与软通智慧合作发布了城市多模态大模型和城市治理云 GPT-Creator2.0。基于软通智慧提供的城市场景、城市数据以及私有化部署及专训,智子引擎联合训练出应用于城市治理事件管理的多模态大模型。
评测结果显示,ChatImg 在复杂场景的识别上准确率达到了 90% 以上。与此同时,城市治理改变了传统 " 一场景一模型 " 的部署模式,用特定数据对 ChatImg 进行微调的解决方案将系统部署复杂度降低了 50% 以上。
与此同时,智子引擎团队正在对 "ChatImg2.0+ 实体机器人 " 进行尝试。目前,该团队联合北京理工大学张伟民教授团队共同打造了智能机器人 " 小象 "。与目前市面上大多厂商将 AI 能力接入辅助硬件功能不同," 小象 " 的设计则从 ChatImg 的多模态交互功能出发,为 AI 打造更贴合的实体智能生命形象。" 小象 " 目前具备语音交互、图像识别等功能。
接入 ChatImg 2.0 的实体机器人 " 小象 " 目前具备语音交互、图像识别等功能。高一钊告诉 36 氪,目前智子引擎共有 8 名全职员工, " 做成大模型的人数不在多,而是考验团队每个人的研究能力和工程能力。" 此外,首席技术顾问卢志武曾为智源研究院 " 悟道 · 文澜 " 大模型研究团队的核心成员,也是 " 文澜 BriVL" 的主要设计者。
近日,智子引擎完成千万元天使轮融资,主要用于多模态大模型的研发和落地。
" 通用化和商业化,是未来 5 年最重要的两件事。" 高一钊对 36 氪表示," 通用化是学术上对模型能力的优化,但此外能重要的是模型能力能够对现有行业进行颠覆。目前,我们还有很多场景等待落地,在技术上也将会持续发力,这都是对自己竞争优势的一种保护。"
36kr 制图欢迎关注