GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年
机器之心发布
机器之心编辑部
OmModel V3 将於近期发布,新版本将提供一句话生成演算法、自由定义需求、中英双语互动、智能报告等多个特色功能,用户可以通过语音或者文字等形式,自由提交任何需求任务,系统将根据任务给出相关反馈,包括音视图文等多个模态的结果呈现。
人类如何认知世界?
人类 80% 的信息来自於视觉,同时人类也是地球上唯一拥有完整语言体系的生物。当我们通过双眼看到这个世界,不论是阅读书籍、网上冲浪还是欣赏自然景观,我们的大脑都在进行着复杂的信息处理。我们不仅能够感知周围环境中的物体和形状,还能够理解它们的意义和内涵。这得益於我们独特的语言能力,它使我们能够表达和交流抽象的概念和想法。
通过语言,我们可以共享知识、传递经验、探讨问题,这也是人类文明发展的重要基石之一。尽管视觉是我们获取信息的主要途径之一,但是缺乏语言能力的动物只能凭藉本能行动和简单的声音表达与其他个体进行交流,无法像人类一样进行高级的社交互动和智力活动。因此,语言的重要性不容忽视,它是我们作为人类的独特标志之一,也是我们与自然界其他物种之间的重要区别。
与此同时,如何赋予机器人类般的智能一直是计算机科学的终极难题,近期随着 GPT-4 等多模态大型语言模型的出现,语言成为了打开人工智慧宝盒的关键钥匙。
让机器用语言理解世界
「人类的认知和理解需要依赖语言。语言使我们能够表达和共享常识知识。例如,「水是液体,可以流动」,这是一条常识知识,我们可以用准确的辞汇和语法结构来描述这一现象,让更多人了解和掌握这一知识。此外,语言也是人类逻辑推理的重要载体。在逻辑推理中,人们通过识别和分析命题的真假和关系,通过语言的抽象和形式化表达,可以更好地理解和应用逻辑规则。有了文字、有了语言,它们成为人类与世界交流的最基本、最便捷、最核心的介质。」 对於语言之於认知的价值,联汇科技首席科学家赵天成博士的见解明确。
前日刚发布的多模态大模型 GPT-4 就是科学家通过大模型的技术方式拓展认知边界的积极尝试。
GPT-4 通过图像或文本输入,完成识别、解析,输出文本结果。对於 GPT-4 的这次升级,人们惊讶於它的 「读图能力」 和 「幽默感」,不论是各类统计表格,还是网路梗图,GPT-4 的表现可圈可点。
尽管 GPT-4 在许多现实世界场景中能力还不如人类,但它在多种不同领域的专业应试中,已经够排到前段位置,程序编写、开放问答、标准化测试等众多方面,「超过人类的平均水平」 已经是事实。
对此,赵天成博士进行了更多的解释:这次的 GPT-4 是 GPT 大模型的新一次迭代,加入了新的模态,即对图片的理解,同时大模型对语言生成和理解能力也有所提升。不论大模型的模态和规模如何增加、扩大,它的底层逻辑一定以语言模型为认知内核,将更多的模态融入进来,实现以自然语言为核心的数据理解、信息认知与决策判断。
语言曾经是人类的特有能力,现在也成了快速逼近的强人工智慧的核心载体。
再次进化的认知能力
赵天成博士表示,在文本语言理解的基础上,如果叠加视频、音频等更多模态,实现更大范围、更多行业数据的学习,则意味着大模型的认知能力将得到更智能的进化升级。
除了 …