一道小學生難度的數學題難倒了一眾海內外AI大模型。
問題是:“9.11和9.9哪個更大?”就此問題,記者測試了12個大模型,結果顯示阿里通義千問、百度文心一言、Minimax和騰訊元寶答對了,但ChatGPT-4.0、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應、商湯商量都答錯了。每個錯誤的原因都各有不同。



大部分大模型在問答過程中錯誤地比較了小數點后的數字,認為9.11大于9.9??紤]到數字涉及的語境問題,記者將其限定為數學語境下,但像ChatGPT這樣的高級模型也依然答錯。

這反映出大模型在數學能力上的不足,這是一個長期存在的問題。有行業(yè)人士認為,生成式語言模型從設計上更偏向文字思維而非數字思維。然而,針對性的語料訓練或許能在未來逐步提升模型的理科能力。





























浙公網安備 33010502007447號