蘋果批評流行人工智慧模型的推理能力
Apple 的最新研究表明,現代大型語言模型 (LLM) 並不像許多人想像的那麼聰明。
OpenAI、Google 和 Meta 的法學碩士被認為能夠與人類自然交互,但根據蘋果的說法,它們只是“複雜的模式匹配”,而不是“真正的邏輯推理”。
GSM8K是目前最受歡迎的評估LLM推理能力的測試,但根據蘋果研究團隊的說法,這會導致模型被數據「感染」的風險。
為了檢驗這個假設,Apple 開發了 GSM-Symbolic,這是一種新標準,保留了推理問題的本質,但更改了變數並添加了無關資訊。
對 20 個最受歡迎的法學碩士模型的測試結果顯示,它們的性能水平「令人驚訝地脆弱」。
根據蘋果的研究,每次變數發生變化,模型的效能和準確性都會顯著下降。
結果表明,現代法學碩士可以將句子翻譯成數學運算,而無需真正理解問題的含義。
蘋果研究團隊警告稱,現代人工智慧模型的真實推理能力存在「嚴重弱點」。
研究結果顯示誇大人工智慧能力的危險。
#Apple #AI #LLM #Inference #Research
Apple 的研究表明,當今最受歡迎的大型語言模型 (LLM) 並不像許多人擔心的那麼聰明。
OpenAI、Google 或 Meta 的 LLM 被認為能夠與人類自然交互,最接近的是「具有推理能力」的 OpenAI o1 模型。然而,根據蘋果研究團隊的說法,它們只是“複雜的模式匹配”,而不是“真正的邏輯推理”。


ChatGPT 標誌顯示在電話螢幕上。影像: 法新社
GSM8K 是目前評估法學碩士推理能力最受歡迎的測驗。然而,由於其受歡迎程度,據說該工具被數據“感染”,使得法學碩士有可能知道答案,因為它是根據這些數據進行訓練的。
為了檢驗這個假設,蘋果的研究團隊開發了一種名為GSM-Symbolic 的新標準,該標準保留了所爭論問題的本質,但改變了名稱、號碼、複雜性等變量,添加了不相關的資訊.透過測試 OpenAI 的 GPT-4o 和 o1、Google 的 Gemma 2、Meta 的 Llama 3 等 20 個最受歡迎的 LLM 模型,結果顯示 LLM 效能「令人驚訝的脆弱」。
蘋果本週在其部落格上發表的一篇研究論文中表示,每次改變變量,模型的測試性能和準確性都會下降幾個百分點。 OpenAI的產品表現優於開源LLM,但差異並不顯著。
團隊還添加了不必要的短語來衡量模型的回應。例如:「奧利佛週五採摘了 44 個獼猴桃。然後他在周六採了 58 個獼猴桃。週日,他採摘的獼猴桃數量是周五的兩倍,但其中有五顆比平均水平要小。奧利佛有幾個獼猴桃?
結果是整個法學碩士的成績急劇下降。 OpenAI o1 Preview 取得了最好的結果,但準確率下降了 17.5%,但仍然高於微軟的 LLM Phi 3 的下降 65%。
在計算奇異果數量問題的例子中,法學碩士減去了 5 個較小的奇異果,但沒有「理解」水果大小與問題無關。研究團隊的一位代表表示:“這表明模型傾向於將句子轉換為數學運算,而沒有真正理解其含義。” “它證明了法學碩士尋求模式查找和匹配以進行推理而不是概念理解的假設。”
該小組強調,該測試顯示「法學碩士真正理解數學概念和區分解決問題的相關資訊的能力存在嚴重弱點」。結果表明,人工智慧模型已經開始發展出自行推理問題的能力,但水平較低,人工智慧的風險實際上被誇大了。
對於蘋果的研究結果,各方尚未發表評論。
寶林
- Apple 創建了一個 AI 模型,可以從 2D 照片中「讀取」3D 深度
- 蘋果可能會對 AI 功能收取 20 美元的費用
- Apple 參與遵守安全 AI 規則
- 蘋果在生成式AI時代走自己的路
Source link
探索更多來自 Gizmo Review 的內容
訂閱即可透過電子郵件收到最新文章。

