最新电影在线观看,jrs低调看直播,avav天堂,囯产精品宾馆在线精品酒店,亚洲精品成人区在线观看

Alignment與Correspondence,用于量化衡量MLLM中視覺特征的視覺語義對齊與視覺結構程度的方法

多模態大模型MLLM通常由三部分組成:

  1. 視覺編碼器,可以是CLIP、SigLIP、DINO等
  2. 視覺連接器(Projector),通常是簡單的MLP結構
  3. 底座LLM,如LLamaQwen

對于MLLM而言,視覺特征如同眼睛,負責感知外界的視覺信息,底座LLM則如同是大腦,用于分析視覺信息并且進行理解和分析,視覺特征由視覺編碼器提供,通常會考慮采用一個連接器將視覺特征映射到LLM『可以理解』的特征空間。在一些研究中 [2],已經證實了只有在結合不同的視覺編碼器特征(如SigLIP和DINOv2)之后,才能讓MLLM同時具備對高級視覺語義和底層視覺結構理解的能力,視覺編碼器的選用至關重要,并且如何去組合不同的視覺特征也是值得去探索的問題。然而,當前的MLLM訓練范式,通常是:

  1. 固定視覺特征和底座LLM,訓練視覺連接器的參數
  2. 然后放開視覺連接器和底座LLM的參數,同時進行訓練

這意味著在嘗試挑選不同的視覺編碼器和他們之間的組合的時候,難以避免需要進行大量的LLM訓練以搜索到最優的視覺編碼器以及組合(搜索空間為k),有沒有一種比較好的方法,可以有效地縮小這個搜索空間呢? 論文 [1] 就是在嘗試解決這個問題!在深入討論本文主題之前,筆者建議讀者可以回顧下博文 《基于CLIP特征的多模態大模型中的視覺短板問題》[3],總的來說,視覺特征可以分為兩種維度:

  • 視覺語義對齊:視覺特征與文本語義的對齊能力,這個比較容易理解,語義對齊指的就是跨文本和圖像模態,對于同一個概念(比如蘋果、梨子)的共同描述方法,如圖Fig 1所示。具體的定義可見 《視頻與圖片檢索中的多模態語義匹配模型:原理、啟示、應用與展望》[4] 中的介紹。視覺語義對齊能力,是衡量跨模態的語義度量。這種模型一般采用對比學習或者弱監督學習得到,比如CLIP、SigLIP。
  • 視覺結構對齊:用于衡量建模視覺基礎結構的能力,這樣定義比較抽象,在本文中,作者指的是對于同一個局部的視覺特征,具有語義不變性的表達,如圖Fig 1所示,對于同一個實體(如雛菊)的不同局部信息,提取出來的視覺特征應該具有跨圖像的不變性,這個也稱之為圖像的對應性(Correspondence)[^1]。視覺結構對齊能力,是衡量同模態的語義度量。這種模型一般采用自監督的方法學習得到,比如DINO等。

一個好的視覺特征,應該是同時具備這兩種能力的,因此我們需要定量去衡量一個視覺特征的這兩個維度上的能力,并且將這兩個維度的能力值映射到MLLM的下游任務能力上,那么這兩個維度的能力值,就可以作為一個proxy(代理)去衡量MLLM的下游任務能力了。作者將視覺語義對齊的打分稱之為Alignment Score(A score), 將視覺基礎結構稱之為Correspondence Score(C score),他們的組合則稱之為AC score,作者發現AC score和MLLM的下游能力Z之間呈現線性關系,也就是Z∝f(A,C),其中的f(⋅)為線性函數,這意味著只需要找到AC score最高的k′個視覺特征作為搜索空間即可,而k′<。因此,我們的重點主要是看下作者是怎么計算A score和C score的。

Fig 1. 一個圖片的視覺屬性,可以分為語義對齊和視覺對齊,語義對齊指的是視覺信息與文本語義的跨模態對齊,視覺對齊指的是視覺結構自身模態內的對齊。通過描述A和C的能力,并且進行一定的組合建模,可以作為代理,和MLLM下游任務的表現進行關聯。

語義對齊能力,需要衡量待評測的視覺特征與標準視覺語義特征之間的距離,標準視覺語義特征作者采用CLIP作為參考,即是公式(1)中的E^iu,其中的i表示第i張圖片,Sc(⋅)為余弦相似度,而公式中的uv則是表示是圖片每個patch的特征(視覺編碼器采用的是ViT),也就是將待評測視覺特征和標準視覺語義特征之間進行細粒度的匹配,然后取最大值作為整體的匹配程度。整體流程可見Fig 2。

(1)A Score=1n∑i=0nmaxu,vSc(E^i(u),Ei(v))

Fig 2. 在評估待測視覺特征的Alignment Score的時候,將待評測視覺特征和標準視覺語義特征進行細粒度的匹配,然后取最大值作為整體的匹配結果,將其視為該圖片的Alignment Score,最后對多張圖片的A Score進行平均則得到最終的待評測視覺特征的A Score。

對于視覺結構對齊而言,我們需要評估待評測視覺特征的局部視覺不變性,因此我們需要成對的圖片對,如 SPair-71k數據集,這是一個圖像的語義對應點匹配的數據集,如Fig 3所示,數據集提供了成對的圖片對,會標識出語義成對的對應點。對于一個關鍵點真實標簽為{p1s,p2s,?,pms},那么對于采用待評測視覺特征的預測關鍵點為{p1t,p2t,?,pmt},可以計算其PKG(關鍵點正確占比),如公式(2)所示,其中的τ為閾值而I(⋅)為指示函數。這個指標表征了待評測視覺特征能夠正確預測出關鍵點的能力。

(2)C Score=1m∑i=0mI(||pjt−pjs||2<τ)

作者采用了一個二階線性組合對A Score和C Score進行組合,如公式(3)所示,其中的βij為待學習參數(此處按照作者原文,是6個待學習參數,而筆者認為此處應該是9個待學習參數,如公式(3)所示,不知為何作者添加了一個2−i的限制,導致缺少了3個自由度,在A和C打分不一致的情況下,這個二階的AC打分矩陣是不對稱的,不能取上半角矩陣。下文為了保持和論文一致性,將繼續沿用作者的6個待學習參數的表述),將通過實際觀察到的k′個視覺特征組合的AC Score與采用了這k′個視覺特征的MLLM的下游任務表現進行擬合學習得出。

(3)AC Score=∑i=02∑j=02−iβijAiCj

Fig 3. 如果視覺特征具有良好的局部視覺不變性,那么其特征對于視覺語義一致的局部區域,應該能夠形成匹配。

那么此時的AC Score可以視為是視覺特征在MLLM中下游任務的表現Z的代理指標,如果能擬合出一個AC Score和Z的線性關系,只需要在這個直線上找出能使的AC Score最大化的視覺特征組合,然后進行少量幾次實驗即可找出使得MLLM效果最佳的視覺特征組合。整個管道如Fig 4所示。這個直線,不妨表示為y=Xsw+?,其中Xs∈Rk′×6w∈R6,而?∈Rk′是擬合殘差,y∈Rk′是采樣的k′個視覺特征組合在MLLM下游任務中的表現。

Fig 4. 采用AC Score對視覺特征進行LLM下游任務能力預測的過程。

以上討論了如何量化衡量視覺特征的語義對齊能力和語義結構對齊能力,并且如何綜合這兩個能力二階線性擬合得出一個最終的AC Score的方法。作者在實驗中,對于13個不同的視覺特征組合,在4個視覺benchmark上都進行了LLM下游任務訓練并且得到了下游任務的指標,其擬合效果用決定系數(R2,即是因變量的變量有多少能被自變量解釋)表示,如Fig 5所示,采用了AC Score的擬合能力最好,而只采用A Score或者C Score的效果都會差些,作為對比實驗,作者也采用了擬合13個隨機打分的方法作為基線,從中能發現AC Score和MLLM的下游模型表現,確實存在強的線性關系。

Fig 5. 對于不同的Score進行擬合,線性回歸中的R^2指標的區別。

大概介紹了整個文章的思路后,筆者想把整個過程串起來給大伙兒講解一遍自己的理解。首先,對于k種可供參考的候選視覺特征組合(如本文中,待候選的視覺特征組合有13種,如下所示)和M個待測試的基準集合(benchmark),那么理論上,我們需要kM次MLLM的微調才能挑選出在M個基準集合里面各自最佳的視覺特征。一個合理的想法是,我們對于第i個基準集合Di,我們合理地挑選出一個數量為k′視覺特征組合的子集(k′<),然后只進行k′次微調,就能確定AC Score的代理直線,然后對剩余k−k′個未微調的組合,尋找性能預測的最大值即可。理論上,此時僅需要k′M次微調了。

這樣也引申出一個問題,如何得到盡可能具有更高AC Score的視覺特征候選組合呢,作者提供了兩種思路,如Fig 6所示:

  1. 提高模型輸入圖片的分辨率,如Fig 6的224 -> 336,作者認為是相當于固定了視覺特征的視覺對齊能力(也就是A Score),提高了視覺結構對齊能力(也就是C Score),從而帶來了AC Score的上升進而提高了LLM下游指標。
  2. 進行多種視覺特征的組合,如Fig 6的在DINOv2的基礎上拼接上OpenAI CLIP,作者認為這相當于固定了模型的視覺結構對齊能力,提高了語義對齊能力,從而帶來了AC Score的上升進而提高了LLM下游指標。

Fig 6. 通過提高分辨率(224 -> 336)和進行特征組合的方法,對于MLLM在下游任務中的性能影響。

當然,改變輸入圖片的分辨率,并不是僅僅會影響到C Score,比如CLIP@224和CLIP@336的A Score就不會是1,而這本應是1的,因此作者建議最好保持目標視覺編碼器和標準視覺語義CLIP的輸入分辨率的一致。這個比較困難,因為通常時候標準視覺語義CLIP的分辨率尺寸是固定的(比如224和336),因此作者同時采用CLIP@224和CLIP@336作為標準視覺語義CLIP,并且通過求平均的方式減少因分辨率不同帶來的C Score耦合影響。

作者同時注意到,相比于基于視覺的基準數據集,AC Score與基于OCR的基準數據集的下游指標關聯更為弱,這個原因可能來自于當前的C Score是采用基于自然圖片的語義匹配數據集SPair-71k計算的,如下所示,在衡量非自然圖片(如OCR為主的圖表)的時候,其衡量視覺結構對齊的能力就變差了。

Fig 7. 采用基于自然圖片的語義匹配數據集進行計算的C Score,對于非自然圖片(如OCR圖表)的語義結構對齊能力描述具有缺陷。

筆者的讀后感

總的來說,這篇論文解決的問題還是很具有價值的,即是如何高效地給MLLM在某個垂類任務下,挑選一個最為合適的視覺特征組合。本文采用的方法論是定義出MLLM中需要視覺側提供的能力的類型,分別是視覺語義對齊能力A和視覺結構對齊能力C,并且思考如何使得AC Score可以正相關于下游任務的能力,從而實現采用低代價的代理指標AC Score,就能高效地進行下游能力預測。

本文有兩個指的注意的地方,第一是采用CLIP作為標準視覺語義對齊能力的標桿,可能對于能力超過CLIP的視覺模型的能力衡量,有失偏頗,第二是采用SPair-71k進行視覺結構對齊能力的衡量,會遇到對非自然圖片估計C Score有偏的問題。

需要注意的是,對于不同類型的下游任務,理論上公式(3)的βij值都需要重新學習的,筆者比較好奇的是,是否有更好地能跨不同任務的學習方式呢?是否有遞進式的學習方式呢?

Reference

[1]. Yang, Shijia, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, and Chenfeng Xu. "Law of Vision Representation in MLLMs." arXiv preprint arXiv:2408.16357 (2024).

[2]. Tong, Shengbang, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. "Eyes wide shut? exploring the visual shortcomings of multimodal llms." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9568-9578. 2024.

[3]. //blog.csdn.net/LoseInVain/article/details/140233330, 《基于CLIP特征的多模態大模型中的視覺短板問題》

[4]. //fesianxu.github.io/2023/03/04/story-of-multimodal-models-20230304/, 《視頻與圖片檢索中的多模態語義匹配模型:原理、啟示、應用與展望》

[5], //blog.csdn.net/LoseInVain/article/details/102665911, 《立體視覺中的對極幾何——如何更好更快地尋找對應點》

[^1]: 本文提到的對應點,與傳統視覺任務中提到的對應點是有所區別的。如博文 [5] 中提到的,在傳統視覺任務中的對應點通常指的是對于同一個物體不同視角下的圖片的同一個關鍵局部圖片塊的對應關系,而本文提到的對應點,則更像是同一個視覺實體的局部視覺語義的聚類關系,因此不必限制在同一個物體,而是限制在了同一個實體。

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧