GPT-4刷屏，这家中国AI企业多模态大模型已落地应用多年

2023 年 3 月 17 日

机器之心发布

机器之心编辑部

OmModel V3 将於近期发布，新版本将提供一句话生成演算法、自由定义需求、中英双语互动、智能报告等多个特色功能，用户可以通过语音或者文字等形式，自由提交任何需求任务，系统将根据任务给出相关反馈，包括音视图文等多个模态的结果呈现。

人类如何认知世界？

人类 80% 的信息来自於视觉，同时人类也是地球上唯一拥有完整语言体系的生物。当我们通过双眼看到这个世界，不论是阅读书籍、网上冲浪还是欣赏自然景观，我们的大脑都在进行着复杂的信息处理。我们不仅能够感知周围环境中的物体和形状，还能够理解它们的意义和内涵。这得益於我们独特的语言能力，它使我们能够表达和交流抽象的概念和想法。

通过语言，我们可以共享知识、传递经验、探讨问题，这也是人类文明发展的重要基石之一。尽管视觉是我们获取信息的主要途径之一，但是缺乏语言能力的动物只能凭藉本能行动和简单的声音表达与其他个体进行交流，无法像人类一样进行高级的社交互动和智力活动。因此，语言的重要性不容忽视，它是我们作为人类的独特标志之一，也是我们与自然界其他物种之间的重要区别。

与此同时，如何赋予机器人类般的智能一直是计算机科学的终极难题，近期随着 GPT-4 等多模态大型语言模型的出现，语言成为了打开人工智慧宝盒的关键钥匙。

让机器用语言理解世界

「人类的认知和理解需要依赖语言。语言使我们能够表达和共享常识知识。例如，「水是液体，可以流动」，这是一条常识知识，我们可以用准确的辞汇和语法结构来描述这一现象，让更多人了解和掌握这一知识。此外，语言也是人类逻辑推理的重要载体。在逻辑推理中，人们通过识别和分析命题的真假和关系，通过语言的抽象和形式化表达，可以更好地理解和应用逻辑规则。有了文字、有了语言，它们成为人类与世界交流的最基本、最便捷、最核心的介质。」对於语言之於认知的价值，联汇科技首席科学家赵天成博士的见解明确。

前日刚发布的多模态大模型 GPT-4 就是科学家通过大模型的技术方式拓展认知边界的积极尝试。

GPT-4 通过图像或文本输入，完成识别、解析，输出文本结果。对於 GPT-4 的这次升级，人们惊讶於它的「读图能力」和「幽默感」，不论是各类统计表格，还是网路梗图，GPT-4 的表现可圈可点。

尽管 GPT-4 在许多现实世界场景中能力还不如人类，但它在多种不同领域的专业应试中，已经够排到前段位置，程序编写、开放问答、标准化测试等众多方面，「超过人类的平均水平」已经是事实。

对此，赵天成博士进行了更多的解释：这次的 GPT-4 是 GPT 大模型的新一次迭代，加入了新的模态，即对图片的理解，同时大模型对语言生成和理解能力也有所提升。不论大模型的模态和规模如何增加、扩大，它的底层逻辑一定以语言模型为认知内核，将更多的模态融入进来，实现以自然语言为核心的数据理解、信息认知与决策判断。

语言曾经是人类的特有能力，现在也成了快速逼近的强人工智慧的核心载体。

再次进化的认知能力

赵天成博士表示，在文本语言理解的基础上，如果叠加视频、音频等更多模态，实现更大范围、更多行业数据的学习，则意味着大模型的认知能力将得到更智能的进化升级。

除了 OpenAI 有卓越的表现外，国内外瞄准大模型的人工智慧企业并不少，其中，赵天成博士和他的团队在多模态大模型领域技术及应用已经提前交卷。

赵天成博士的技术团队由来自卡耐基梅隆大学（CMU）、加州大学（UCLA）、微软与阿里巴巴等国际顶尖院校和机构的硕士与博士组成，多年深耕且引领国际多模态机器学习、人机交互领域的科研工作，是一支拥有多项核心技术的国际顶尖领军团队。

赵天成博士（右 4）及其核心团队

赵天成博士毕业於卡耐基梅隆大学计算机科学专业，长期从事多模态机器学习与人机交互技术领域的理论与技术研究，带领团队率先突破非结构化数据直接使用、跨模态数据融合分析等行业难题，多次获得国际顶会最佳论文，微软研究院 best & brightest phd，主持、参与多个国家、省、市重大项目研究，是国际多模态交互 AI 领域领军人物。

他们在 2019 年就开始深入研究多模态大模型技术，是业界率先从事预训练大模型研究的团队之一，并於 2021 年发布了自研的 OmModel V1 多模态预训练大模型，作为业界最早的语言增强视觉识别模型（Langauge Augumented Visual Models），OmModel 在 V1、V2 版本迭代的基础上，已经实现对视频、图片、文本等不同模态的融合分析和认知理解，尤其强调通过自然语言增强 AI 模型的视觉识别能力和跨模态理解能力，帮助用户达成认知智能。通过将视觉和语言的有机结合，将使得机器智能向人类智能更靠近了一步。

OmModel 提出的多项原创核心关键技术实现了技术和应用的创新，包括：

1. 实现更高数据与模型参数效率的无止境多任务新型预训练演算法

突破现有多模态大模型预训练耗费超大规模预训练数据和算力的局限，提出基於复杂异构训练数据的无止境多任务与训练演算法，融合图片描述、图片分类、区域描述等多种视觉语言数据类型，从多角度进行多层级的大模型预训练，实现用更高的数据效率与模型参数效率，增强在同等数据情况下的预训练效果，提高模型综合识别能力，实现一个多模态大模型网路结构支撑 N 种任务、N 种场景的持续学习机制。

2. 通过自然语言增强实现的多场景零样本新型视觉识别模型

针对传统视觉识别模型依赖海量人工标注数据与烟囱式训练的瓶颈，提出基於自然语言增强的多模态视觉识别模型，通过自然语言作为知识桥梁，让视觉识别模型可以基於大规模多模态预训练泛化到任何全新场景当中，实现高精度的零样本新领域识别，突破了传统视觉识别系统必须按照场景进行定制的魔咒，让用户可以通过自然语言定义任意视觉目标，实现了视觉识别的冷启动，大幅度降低了视觉识别应用开发的门槛。

3.「人在环路」多轮人机意图对齐的新型大模型微调机制

针对视觉语言模型现有领域微调方法对硬体要求高、微调过程可控性有限等迫切挑战，提出基於「人在环路」多轮人机互动式新型微调方式，通过结合人类专家的业务知识和迭代式的大模型微调方式，实现更加方便有效的大模型领域微调，将人类专家的业务目标和领域知识更好地融入到大模型的训练当中；通过非参数学习和提示学习，减少大模型微调所需要的 GPU 算力需求，实现更加低代价的大模型行业落地。

4. 实现在低成本推理硬体环境下的新型大模型推理机制

针对现有多模态大模型仅强调识别精度，忽略推理速度，难以在大规模多模态数据匹配查询中应用的短板，提出基於稀疏向量匹配的视觉语言推理演算法。基於端到端稀疏向量学习与倒排索引大数据结构，实现亿级多模态数据秒级匹配，匹配速度相较於传统 GPU 向量比对演算法提高 5 倍以上，在 CPU 环境提高匹配速度 300 倍以上；通过多专家蒸馏演算法，提高多模态大模型编码推理速度 5 倍以上，大幅度降低多模态大模型的部署成本。

一手技术，一手应用

赵天成博士表示，为了更好地服务行业和应用，OmModel 突破了大多数视觉语言大模型仅仅局限於学术研究和开源数据训练的瓶颈，通过上述无止境预训练机制，在通识数据的基础上持续吸纳行业预训练数据。

目前已经针对视频云、智慧城市、融合媒体等行业，在通用预训练数据的基础上，构建超过千万的多模态图文预训练数据集，大幅提高多模态大模型在垂直行业领域的零样本识别性能和小样本调优性能，实现从「通用大模型」向着「行业大模型」的重要升级和进化。

「技术创新场景应用」的双核内驱使联汇科技成为业内最早实现多模态大模型技术服务落地的企业。

比如，在电力行业中，针对基层无人机电路巡检的业务需求，传统模式存在输电线路小部件典型缺陷识别准确率不高、识别系统运行速度慢、识别结果依赖人工复核等棘手问题，通过 OmModel 行业大模型生成针对输电线路多模态数据的人工智慧预训练演算法，以及针对小部件缺陷的图像分析模型，提升输电线路小部件典型缺陷检出率和识别精度，并通过蒸馏演算法，实现缺陷检测模型的参数压缩，提高模型的运行速度，提升输电线路缺陷检测的整体效率，为电网公司在输电线路无人机巡检缺陷精准识别领域提供应用示范。

OmModel V3 来了！

OmModel 已经实现在智慧电力、视觉监管、智慧城市、机器人、数字资产等领域的落地应用，後续还会有哪些动作方向呢？

对於 OmModel 的迭代规划，赵天成博士非常明确：「我们始终秉着『用视觉感知世界，用语言理解世界』的观点，产品和技术方向一定是如何让 AI 更贴心、更懂人类，通过视觉和语言的融合理解，让用户和机器之间可以有便捷的交互、更自由地表达以及更智慧的反馈，使大模型的能力成为用户的能力，让人工智慧真正地为更多人所有、所用。」

据悉，OmModel V3 将於近期发布，新版本将提供一句话生成演算法、自由定义需求、中英双语互动、智能报告等多个特色功能，用户可以通过语音或者文字等形式，自由提交任何需求任务，系统将根据任务给出相关反馈，包括音视图文等多个模态的结果呈现。

OmModel V3 正在带来更多关於智慧未来的想像 ——

比如，现有的家庭摄像头和平台，作用非常有限，提醒和记录是其用户频繁使用的功能，甚至这类简单需求在使用中也 bug 频出，比如大量误报，让系统提醒变成了骚扰，无法定义的监控任务让本该智慧化的体验变得非常呆板、有限。

年轻的铲屎官无法时时刻刻地陪在「主子」身边，家里的主子有没有悄悄溜出门，家具拆的还剩多少，对新玩具还满意吗，有没有从未出现的异常行为需要留意，这些需求稀碎但也重要，传统摄像头及平台根本无法满足，通过 OmModel V3，铲屎官将可以通过自然对话定义属於你自己的任务需求，同时选择不同的反馈方式，可以是一份系统化的智能报告，可以是 AIGC 的视频合辑，反正结果也是由你用语言定义。