AI大模型技术路线之争：你可以信仰多模态，也可以无视多模态

原创谭婧亲爱的数据

亲爱的数据：谭婧

（一）观点争锋

大模型的故事里，欧博官网或许会有句话：

技术路线错误意味着死亡，

在错误的道路上，

跑越快，死越快。

如果你不信，我们一起算笔账，

头部大模型公司，每月算力支出是多少？

如果没有数据中心的话，

每月千万人民币级别算力支出。

不能说得再细了。

竞争到了这个阶段，犯大错意味着什么？

选择技术路线，就是选择生或死。

这些性命攸关的系统性选择，不止做一次，

选不选，什么时候选，选哪种。

反正OpenAI（OAI）已给出了自己的答案。

开始的开始，是由大语言模型拉开大幕，GPT-3.5属于超大规模语言模型。

而随后的GPT-4时刻，

OAI在官网技术博客上透露：

“GPT-4的一个重大提升是开始涉及多模态”。

并且，他们释放了图文部分的“下集预告”。

时过半年，GPT-4Vision它来了，欧博

此前预告，顺手实现。

GPT-4的情况基本可以确定，

而GPT-4Vision没有放出模型结构和论文，

不能武断，但至少可以保守地说做了图和文。

看看名字，都带着Vision。

回顾一笔，多模态大模型在国内从来都不是“稀有物种”。

早在GPT-3.5发布之前，国内早期大模型探索者也是有人选纯语言，有人选多模态，相当于两条技术路线都占了。

选择纯语言技术路线的是华为诺亚方舟实验室的盘古，选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队，紫东太初团队。

只是，早期效果都不好，谁也别笑话谁。

但可以说，中国团队征服多模态的雄心壮志自始有之，无奈效果一般。

回到当下，虽然全球范围语言大模型占多数，

开源社区更是繁茂，

但多模态仍不是“稀有物种”。

例如，欧博娱乐国外大团队的作品，GPT-4、Gemini 1.5等；

国外小团队的作品，Fuyu系列，LLaVA系列。

（《》-可点击阅读）

Claude 3更是明确说明和早期版本不同，

是多模态，能够理解文本和照片输入。

就好像某位诺贝尔文学奖获得者告诉记者：

“我的第三部作品，与之前作品截然不同。”

本质上讲，多模态大模型的训练比大语言模型更消耗GPU。

语言大模型的钱花得像流水，

多模态的钱则花得像瀑布。

虽然更费GPU，但问题的关键始终不是GPU够不够多。

而是两条技术路线路泾渭分明。

要么信仰多模态，要么无视多模态。

规模定理，依然奏效。

那么多模态大模型到底是不是一条通向通用人工智能的正确道路?

正方观点：必须是。

可以同时处理来自文本、图像、音频等多个模态的信息，有巨大潜力。市面上也有多位专家实名表态。即使不做多种模态，图文也被很多团队所重视。

反方观点：不是。

反方观点，有悲观，有激烈，有温和。

持悲观态度者认为：

“这是一个没有前途的方向。”

甚至将谷歌没做好的地方归因于此：

“为什么谷歌Gemini的效果一直没有超过OAI，就是因为错误地选择了原生多模态技术路线。”

还有更扎心观点，并且提供了一部分证据：

“OAI肯定已经对视觉信息做了大量的工作，欧博allbet但用处并不大。”

该观点的论据来自GPT-4官网博客中，

在增添了视觉数据之后，GPT-4有视觉信息派比起GPT-4（no vison）没有视觉信息派相比，模拟考试的成绩提高得并不多。

甚至推出一种结论：多模态大模型这种技术路线无法有效提升大模型“智慧”指数？

反方又打了个比方

（我怀疑在讽刺，但我没有证据）：

你给猴子脖子上挂一个索尼最新型号的单反相机（比喻增加了视觉这种模态），你觉得峨眉山的猴子对世界的理解能力会增加吗？

大语言模型无法利用好视觉模态中的信息，就好比，猴子无法理解复杂专业的相机拍摄的照片所提供的信息。

这个观点认为，姑且不讨论猴子会不会用单反拍照，相机捕捉的图像于猴子而言，只是一堆毫无意义的色彩和形状。

反方温和派的观点则认为，

如果语言模型本身存在不足，那么多模态对齐的效果也不会好。

将语言模型比厨师，而多模态对齐则是一道复杂菜肴。

厨师只有掌握了基本功，才能烹饪大席面。

同样，语言模型也只有在自身能力得到足够提升之后，

才能更好地对齐多模态。

现在语言模型动不动就幻觉，

在其没有做好之前，做原生多模态还为时尚早。

不得不承认，至今为止，

多模态模型确实面临很多困难，

包括还没能将多类信息整合为更深刻的理解，

但工作仍在继续。

现在给结论为时尚早。

是时候把争论带到另一个层面了：

Talk is cheap，show me the detail.

（二）技术细节与原理

对于多模态大模型技术路线来说，

今天的它，不是昨天的它。

似乎没过多久，多模态就经历了一次技术演进。

原有结构有所简化，

比如，图像编码器消失了，适配器也不见踪影。

模型结构的变化，带动了训练阶段的变化。

“仅有解码器的Transformer”这个模块成为核心。

给图像用，也给文字用，类型不同，也不用做区分。

怎么就发展出了原生多模态？

从图文检索开始，早期的主要方法就是把提取出来的特征映射到同一个空间，目的是对齐后再做检索。

早期多模态大模型把这套方法“生搬硬套”过来用，

多少会有点“水土不服”。

而且，更重要的是这种提取信息的方式，会造成损耗。

我们在特征提取环节，损失了信息量。

特征提取通常会丢失一些原始信息，例如数据之间的局部关系和全局结构。

而向量表示是一种有效地保留数据信息的文本或图像表示方法。特征提取虽然可以简化数据，但通常会丢失一些原始信息。

信息越保真，模型能学习到的信息越多。向量表示可以保留数据的原始信息更多。而且，向量表示的维数越高，可以保留的信息就越多。

老方法难尽如人意，对此，需专门设计出一套新“技术”。

什么样的新技术？

思想是想尽办法把不同的东西“统一处理”。

这个技术有两个拥趸：

1. Fuyu系列模型

Fuyu是“Transformer八子”中的Ashish Vaswani所在的创业公司Adept发布的模型所用的名称。Fuyu-8B模型，参数规模80亿，还没超百亿。

“身形轻巧”却有强大的图像理解能力，能理解照片、图表、PDF、界面UI等，且处理速度很快。

2. 谷歌Gemini模型

第二个Gemini，线索藏在《Gemini 技术报告》的模型架构图里，

也是“仅有解码器的 Transformer 结构” 。

这幅图中Gemini大致有两个主要模块：

第一，融合层，负责理解和融合。

第二，图和文的解码器，负责生成，最终输出，文本或者图像。

做法是，先在预先处理环节，将图像分成小块（Patch），

再将每个小块转成向量（数字）表示。

转化成向量表示的方法有很多，线性投影是其中一种。

这种类似拼图的图片小块，相当于视觉词元。

处理视觉词元的这个过程的工作原理和文本处理中的文本词元类似。

既然能“统一处理”，那就是一个“统一装置”，能投进去图和文的数据。

其他模态可以此类推。

这个处理过程，或者说这个“装置”，就是Tokenizer。

它可是个好东西，我想叫它“化功大法”。

因为可理解为一种化解信息的神功，能将各种类型的数据

（文本，图像或音视频）转化为统一的格式，转换为计算机可以理解的。

这里需要多聊2块5毛钱反方观点，

“化功大法”，有哪些难以攻克之处？

向量信息并不是一一对应的，可能会一对多，

而有监督学习解决不好一对多。

模型傻傻分不清楚，

这样情况就糟糕了。

正方观点认为，有了“统一装置”，

数据有了统一的“尺度”。

迈入了原生多模态的门槛。

接下来，通过“统一装置”后，

图文音等各种类型的数据在向量表示这个阶段，

形成了新的词元（Token）序列。

再往下，输入给核心模型（Transformer decoder）。

输入送给之后，相当于这么多不同模态的数据用一个模型把它们全部大锅烩了。

而不是以前分而治之。

这是种全新的核心组件，

甚至说是“替代方案”，也毫不为过。

甚至有正方观点说，该结构已经趋于收敛，也就是说差不多是成熟结构。

讲完技术细节，文章也步入尾声了，

2024年注定是一个声音在热浪中挣扎的年份，

多模态是一个肯定要做的方向，

信仰者和无视者都有意义，

无论是谁都在摸索中前进。

（完）

《我看见了风暴：人工智能基建革命》，

(责任编辑：)

搜索

热门标签:

AI大模型技术路线之争：你可以信仰多模态，也可以无视多模态