香蕉视频久久-香蕉视频三级-香蕉视频亚洲一级-香蕉视频一级-青草国产在线-青草国产在线观看

這些人工智能模型的推理能力比開源模型強,但仍然無法與人類競爭

   日期:2025-08-01     來源:本站    作者:admin    瀏覽:85    
核心提示:      人工智能(AI)能否通過為人類智商測試設計的認知謎題?結果喜憂參半。  南加州大學維特比工程信息科學學院(ISI

  

  

  人工智能(AI)能否通過為人類智商測試設計的認知謎題?結果喜憂參半。

  南加州大學維特比工程信息科學學院(ISI)的研究人員研究了多模態大語言模型(mllm)是否可以解決通常為人類保留的抽象視覺測試。

  上周在費城舉行的語言建模會議(COLM 2024)上,這項研究測試了“開源和閉源mllm的非語言抽象推理能力”,通過觀察圖像處理模型是否能更進一步,在面對視覺謎題時展示推理技能。

  據《神經科學新聞》報道,該項目的研究助理Kian Ahrabian解釋說:“例如,如果你看到一個黃色的圓圈變成了一個藍色的三角形,這個模型能在不同的場景中應用同樣的模式嗎?”這項任務要求模型使用類似于人類思維的視覺感知和邏輯推理,使其成為一個更復雜的挑戰。

  研究人員測試了24種不同的mlm,這些mlm是由Raven's Progressive Matrices(一種標準的抽象推理)開發的謎題,而人工智能模型并沒有完全成功。

  “他們真的很糟糕。他們不能從中得到任何東西,”Ahrabian說。這些模型既要努力理解視覺效果,又要努力解釋模式。

  然而,結果各不相同。總的來說,研究發現,開源模型在視覺推理難題上比GPT-4V等閉源模型更困難,盡管這些模型仍然無法與人類的認知能力相媲美。研究人員使用一種叫做“思維鏈提示”的技術幫助一些模型表現得更好,這種技術可以引導模型一步一步地完成測試的推理部分。

  閉源模型被認為在這樣的測試中表現更好,因為它是專門開發的,用更大的數據集訓練,并且具有私營公司計算能力的優勢。“具體來說,GPT-4V在推理方面相對較好,但遠非完美,”Ahrabian指出。

  研究副教授兼作者杰伊·普哈拉(Jay Pujara)表示:“我們對新的人工智能模型的理解仍然有限,在我們了解這些限制之前,我們無法讓人工智能變得更好、更安全、更有用。”“這篇論文有助于填補人工智能在哪里掙扎的缺失部分。”

  通過發現人工智能模型推理能力的弱點,這樣的研究可以幫助我們進一步充實這些技能——目標是實現人類水平的邏輯。但別擔心:目前,它們還無法與人類的認知相提并論。

 
打賞
 
更多>同類文章

推薦圖文
推薦文章
點擊排行