织梦CMS - 轻松建站从此开始!

欧博Allbet-欧博游戏

当前位置: 欧博Allbet-欧博游戏 > 欧博官网网址 > 文章页

AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

时间:2025-02-16 21:10来源: 作者:admin 点击: 45 次
原创 谭婧 亲爱的数据亲爱的数据:谭婧 (一)观点争锋 大模型的故事里,或许会有句话: 技术路线错误意味着死亡, 在错误的道路上, 跑越快,死越快。 如果你不信

原创 谭婧 亲爱的数据

亲爱的数据:谭婧

(一)观点争锋

大模型的故事里,欧博官网或许会有句话:

技术路线错误意味着死亡,

在错误的道路上,

跑越快,死越快。

如果你不信,我们一起算笔账,

头部大模型公司,每月算力支出是多少?

如果没有数据中心的话,

每月千万人民币级别算力支出。

不能说得再细了。

竞争到了这个阶段,犯大错意味着什么?

选择技术路线,就是选择生或死。

这些性命攸关的系统性选择,不止做一次,

选不选,什么时候选,选哪种。

反正OpenAI(OAI)已给出了自己的答案。

开始的开始,是由大语言模型拉开大幕,GPT-3.5属于超大规模语言模型。

而随后的GPT-4时刻,

OAI在官网技术博客上透露:

“GPT-4的一个重大提升是开始涉及多模态”。

并且,他们释放了图文部分的“下集预告”。

时过半年,GPT-4Vision它来了,欧博

此前预告,顺手实现。

GPT-4的情况基本可以确定,

而GPT-4Vision没有放出模型结构和论文,

不能武断,但至少可以保守地说做了图和文。

看看名字,都带着Vision。

回顾一笔,多模态大模型在国内从来都不是“稀有物种”。

早在GPT-3.5发布之前,国内早期大模型探索者也是有人选纯语言,有人选多模态,相当于两条技术路线都占了。

选择纯语言技术路线的是华为诺亚方舟实验室的盘古,选择多模态技术路线的是阿里巴巴达摩院和清华唐杰教授团队,紫东太初团队。

只是,早期效果都不好,谁也别笑话谁。

但可以说,中国团队征服多模态的雄心壮志自始有之,无奈效果一般。

回到当下,虽然全球范围语言大模型占多数,

开源社区更是繁茂,

但多模态仍不是“稀有物种”。

例如,欧博娱乐国外大团队的作品,GPT-4、Gemini 1.5等;

国外小团队的作品,Fuyu系列,LLaVA系列。

(《》-可点击阅读)

Claude 3更是明确说明和早期版本不同,

是多模态,能够理解文本和照片输入。

就好像某位诺贝尔文学奖获得者告诉记者:

“我的第三部作品,与之前作品截然不同。”

本质上讲,多模态大模型的训练比大语言模型更消耗GPU。

语言大模型的钱花得像流水,

多模态的钱则花得像瀑布。

虽然更费GPU,但问题的关键始终不是GPU够不够多。

而是两条技术路线路泾渭分明。

要么信仰多模态,要么无视多模态。

规模定理,依然奏效。

那么多模态大模型到底是不是一条通向通用人工智能的正确道路?

正方观点:必须是。

可以同时处理来自文本、图像、音频等多个模态的信息,有巨大潜力。市面上也有多位专家实名表态。即使不做多种模态,图文也被很多团队所重视。

反方观点:不是。

反方观点,有悲观,有激烈,有温和。

持悲观态度者认为:

“这是一个没有前途的方向。”

甚至将谷歌没做好的地方归因于此:

“为什么谷歌Gemini的效果一直没有超过OAI,就是因为错误地选择了原生多模态技术路线。”

还有更扎心观点,并且提供了一部分证据:

“OAI肯定已经对视觉信息做了大量的工作,欧博allbet但用处并不大。”

该观点的论据来自GPT-4官网博客中,

在增添了视觉数据之后,GPT-4有视觉信息派比起GPT-4(no vison)没有视觉信息派相比,模拟考试的成绩提高得并不多。

甚至推出一种结论:多模态大模型这种技术路线无法有效提升大模型“智慧”指数?

反方又打了个比方

(我怀疑在讽刺 ,但我没有证据):

你给猴子脖子上挂一个索尼最新型号的单反相机(比喻增加了视觉这种模态),你觉得峨眉山的猴子对世界的理解能力会增加吗?

大语言模型无法利用好视觉模态中的信息,就好比,猴子无法理解复杂专业的相机拍摄的照片所提供的信息。

这个观点认为,姑且不讨论猴子会不会用单反拍照,相机捕捉的图像于猴子而言,只是一堆毫无意义的色彩和形状。

反方温和派的观点则认为,

如果语言模型本身存在不足,那么多模态对齐的效果也不会好。

将语言模型比厨师,而多模态对齐则是一道复杂菜肴。

厨师只有掌握了基本功,才能烹饪大席面。

同样,语言模型也只有在自身能力得到足够提升之后,

才能更好地对齐多模态。

现在语言模型动不动就幻觉,

在其没有做好之前,做原生多模态还为时尚早。

不得不承认,至今为止,

多模态模型确实面临很多困难,

包括还没能将多类信息整合为更深刻的理解,

但工作仍在继续。

现在给结论为时尚早。

是时候把争论带到另一个层面了:

Talk is cheap,show me the detail.

(二)技术细节与原理

对于多模态大模型技术路线来说,

今天的它,不是昨天的它。

似乎没过多久,多模态就经历了一次技术演进。

原有结构有所简化,

比如,图像编码器消失了,适配器也不见踪影。

模型结构的变化,带动了训练阶段的变化。

“仅有解码器的Transformer”这个模块成为核心。

给图像用,也给文字用,类型不同,也不用做区分。

1

怎么就发展出了原生多模态?

从图文检索开始,早期的主要方法就是把提取出来的特征映射到同一个空间,目的是对齐后再做检索。

早期多模态大模型把这套方法“生搬硬套”过来用,

多少会有点“水土不服”。

而且,更重要的是这种提取信息的方式,会造成损耗。

我们在特征提取环节,损失了信息量。

特征提取通常会丢失一些原始信息,例如数据之间的局部关系和全局结构。

而向量表示是一种有效地保留数据信息的文本或图像表示方法。特征提取虽然可以简化数据,但通常会丢失一些原始信息。

信息越保真,模型能学习到的信息越多。向量表示可以保留数据的原始信息更多。而且,向量表示的维数越高,可以保留的信息就越多。

老方法难尽如人意,对此,需专门设计出一套新“技术”。

2

什么样的新技术?

思想是想尽办法把不同的东西“统一处理”。

这个技术有两个拥趸:

1. Fuyu系列模型

Fuyu是“Transformer八子”中的Ashish Vaswani所在的创业公司Adept发布的模型所用的名称。Fuyu-8B模型,参数规模80亿,还没超百亿。

“身形轻巧”却有强大的图像理解能力,能理解照片、图表、PDF、界面UI等,且处理速度很快。

2. 谷歌Gemini模型

第二个Gemini,线索藏在《Gemini 技术报告》的模型架构图里,

也是“仅有解码器的 Transformer 结构” 。

这幅图中Gemini大致有两个主要模块:

第一,融合层,负责理解和融合。

第二,图和文的解码器,负责生成,最终输出,文本或者图像。

做法是,先在预先处理环节,将图像分成小块(Patch),

再将每个小块转成向量(数字)表示。

转化成向量表示的方法有很多,线性投影是其中一种。

这种类似拼图的图片小块,相当于视觉词元。

处理视觉词元的这个过程的工作原理和文本处理中的文本词元类似。

既然能“统一处理”,那就是一个“统一装置”,能投进去图和文的数据。

其他模态可以此类推。

这个处理过程,或者说这个“装置”,就是Tokenizer。

它可是个好东西,我想叫它“化功大法”。

因为可理解为一种化解信息的神功,能将各种类型的数据

(文本,图像或音视频)转化为统一的格式,转换为计算机可以理解的。

这里需要多聊2块5毛钱反方观点,

3

“化功大法”,有哪些难以攻克之处?

向量信息并不是一一对应的,可能会一对多,

而有监督学习解决不好一对多。

模型傻傻分不清楚,

这样情况就糟糕了。

正方观点认为,有了“统一装置”,

数据有了统一的“尺度”。

迈入了原生多模态的门槛。

接下来,通过“统一装置”后,

图文音等各种类型的数据在向量表示这个阶段,

形成了新的词元(Token)序列。

再往下,输入给核心模型(Transformer decoder)。

输入送给之后,相当于这么多不同模态的数据用一个模型把它们全部大锅烩了。

而不是以前分而治之。

这是种全新的核心组件,

甚至说是“替代方案”,也毫不为过。

甚至有正方观点说,该结构已经趋于收敛,也就是说差不多是成熟结构。

讲完技术细节,文章也步入尾声了,

2024年注定是一个声音在热浪中挣扎的年份,

多模态是一个肯定要做的方向,

信仰者和无视者都有意义,

无论是谁都在摸索中前进。

(完)

《我看见了风暴:人工智能基建革命》,

(责任编辑:)
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2025-04-27 07:04 最后登录:2025-04-27 07:04
栏目列表
推荐内容
  • 焦点访谈|魅力外交,尽显大国风范

    央视网消息(焦点访谈):2025年4月14日至18日,欧博国家主席习近平应邀对越南、马来西亚、柬埔寨三国进行国事访问。此访是今年元首外访的开篇之作,是中央周边工...

  • 做中国神话寻宝人

    只有民族的才是世界的。各个民族的历史,欧博abg经过不断上溯之后,往往是一片缥缈不定的雾,一条望不到源头的河。神话,是这片雾中的灵物,是这条河里的游鱼。中国神话...

  • 人工智能何以促进未来教育发展

      自工业革命以来,人类社会的发展总是在技术与教育的角逐互动中前行。技术作为推动人类历史发展的核心推进力,与教育这一“人力资本发动机”竞相成为推动经济社会发展的...

  • 千古美神之恋:云南扎美寺古元梅的情缘神话

    在云南省丽江宁蒗县永宁乡那遥远而神秘的开基村 有一座历史悠久的寺庙——扎美寺 它依山傍水 巍峨壮观 是云南摩梭人和普米族心中的圣地 在扎美寺的北山脚下 生长着一...

  • 总台三网联合科大讯飞发布一站式AI主播解决方案

      10月24日,欧博央视网、央广网、国际在线联合科大讯飞发布AI主播解决方案。作为总台三网“人工智能编辑部”的首批重点技术产品,AI主...

  • 在东南亚卖潮玩,如何赢在长线?

      作者 | 洋紫  编辑 | 刘景丰  如果对2024年出海圈的经典瞬间做一次盘点,一定少不了潮玩在东南亚的爆火。  一款潮玩单品的价格炒到百倍以上,始于直播...

  • 云南加快打造面向南亚东南亚辐射中心

    分享: 4月13日,欧博abg“复兴号”(左上)、“澜沧号”动车组列车(中)停靠在中老铁路磨憨站。新华每日电讯记者胡超摄 初冬,在云南省昆明市城郊的...

  • 鲁北化工:公司钛白粉业务遍布东亚、东南亚、中东、非洲等多个国家

      同花顺金融研究中心06月21日讯,有投资者向鲁北化工提问, 董秘您好:欧盟拟对我国钛白粉加征临时关税,对我公司影响有多少?另我公司出口钛白粉主要有那些国家?...

  • 2023人工智能计算大会AICC在京召开

    为全面提升算力、数据等要素资源集聚,加快推进人工智能产业全链条贯通、全要素参与,北京市推动建设人工智能公共算力平台,并在大会上举行了算力平台点亮仪式。...

  • 2018中国互联网:共享经济全球领跑 人工智能弯道超车

    2018中国互联网:共享经济全球领跑 人工智能弯道超车 中国新闻来源:人民日报海外版 2018年01月01日 05:31 扫一扫 手机阅读 ...