理大研究 | 神經語言學反演:感官及運動信息,可有助 AI 表達複雜概念
  • 2025-06-09 15:13

香港理工大學(理大)領銜的國際團隊,分析了大語言模型和人類在概念表徵上的相似度,為語言能在多大程度上推動複雜概念的形成和學習提出了新見解。團隊揭示「具身化訓練」(grounding,即為大語言模型提供感官及運動信息、讓模型能將抽象與具體概念聯繫起來)可以影響其對複雜概念的理解並生成接近人類的表徵。研究成果最近已發表於《自然.人類行為》(Nature Human Behaviour)。

論文:

 

研究背景

沒有聞過花香、觸摸過花瓣、在花園散步過,有可能真正了解什麼是「花」嗎?這是一個哲學與認知科學的爭論。有認知理論專家表示,親身感受和體驗是概念形成的關鍵。但是有觀點認為,目前的大語言模型研究表明僅憑語言便有可能建立對現實具有意義的真實表徵。

研究成果

理大冼為堅基金人文與科技講座教授、人文學院院長兼理大杭州技術創新研究院副院長李平教授領導的研究團隊,與俄亥俄州立大學、普林斯頓大學及紐約市立大學合作。

AI 和人類的概念表徵差異

團隊首先將個別人類和大語言模型生成的數據進行比較,以探究人類與大語言模型的詞彙評分,在各個領域中的相似程度 - 團隊使用經過驗證的《格拉斯哥詞彙範本》(Glasgow Norms)和《蘭卡斯特詞彙範本》(Lancaster Norms)數據集中近 4,500 個詞語的人類評分。這些評分涵蓋了非感官運動領域,包括情感效價、具體性、可意象性等維度;感官領域,包括視覺、嗅覺、聽覺等維度,以及運動領域,包括腿/腳、嘴巴/喉嚨等維度。

例如,人類和 AI 是否都認為某些概念相較其他概念更加具體?以「pasta」和「roses」為例,兩者同樣在嗅覺維度擁有較高的評分,但實際上「pasta/roses」遠遠不及「pasta/noodles」接近,因為概念之間的相似度需要綜合考慮其外觀和味道。團隊再運用了表徵相似性分析(representational similarity analysis),將每個詞語在各領域多個範疇的評分數據整合成一個向量(vector),以進行更全面的人類與模型比對。

研究結果表明,大語言模型生成的詞彙表徵與人類表徵的相似度,在非感官運動領域最高,感官領域次之,而在運動領域表現最差。

這凸顯了大語言模型在表徵人類概念上的局限;模型雖然能夠有效掌握非感官運動領域的概念,但涉及視覺外觀、味覺等感官概念,或需要肢體動作體驗的運動概念時,表現明顯較為遜色。團隊表示,動作性的概念較少被文字完整描述,且高度依賴具身經驗,相對於色彩一類能從文本數據學習到的感官概念,對模型而言更具挑戰性。

根據研究結果,團隊進一步檢驗「具身化訓練」能否提升大語言模型的表現。他們比較了同時接受語言及視覺輸入訓練的具身化模型(如 GPT-4 和 Gemini),跟僅僅接受了語言訓練的模型(如 GPT-3.5 和 PaLM)之間的差異,結果發現結合視覺輸入的模型生成的表徵與人類表徵相似度明顯更高。

 

感官及運動信息如何影響人類概念形成

團隊又表示,這項發現與以往提出人類表徵遷移現象的研究結果吻合。人類透過視覺和觸覺的多模態經驗獲取物件形狀知識,如當我們觀看或觸摸物件時,大腦中同一區域會被激活。大語言模型正如人類一樣,經過多模態輸入訓練後,或能在連續的高維度空間中進行表徵融合或遷移。

李平教授表示:「純語言訓練及語言+視覺輸入(如圖像及視頻等)訓練的大語言模型,為研究感官及運動信息如何影響人類概念形成提供了獨特的機遇。

「大語言模型嵌入空間所具有的平滑及連續特性,或許能解釋為何我們觀察到源自單一模態的知識能夠擴散至其他相關模態。此發現也可能揭示了先天失明人士與視力正常者之間為何會在某些領域上有相似表徵。

「目前的大語言模型在這方面還有明顯不足… 相關技術發展或將催化大語言模型真正實現具身人工表徵,從而更切實反映出人類認知所具有的複雜性和豐富性,屆時人們將無法指出大模型對玫瑰花的表徵與人類的表徵有何分別。」

 

來源:港理工大學

 


如欲知道更多教科相關消息,請留意京港 Facebook 專頁:https://www.facebook.com/BHKAEC

返回頂部