|
Gemini 3,來了。 昨天一天,估計(jì)大家全都被這個(gè)消息刷爆了。 我當(dāng)然也第一時(shí)間就沖了進(jìn)去,開始手搓測試。 我必須得說,這玩意,確實(shí)很強(qiáng),很強(qiáng)很強(qiáng)。 特別是寫代碼。 我把我之前想了小半年的幾個(gè)功能,用自然語言扔給它,尼瑪,它不僅理解了,而且啪啪啪一頓輸出,大部分代碼都能一次成功。 我甚至一句話讓它寫出了一個(gè)美圖秀秀網(wǎng)頁版。 這給我搞得,真的,開始對它有了不切實(shí)際的期望。 我感覺這玩意好像無所不能了。它不僅是個(gè)語言天才,還是個(gè)邏輯怪獸,甚至,它可能已經(jīng)理解了我們這個(gè)世界的運(yùn)作方式。 于是,我決定,不測代碼了。 代碼,是數(shù)字世界的東西。它的訓(xùn)練數(shù)據(jù)是互聯(lián)網(wǎng),它的輸出也是互聯(lián)網(wǎng)。它在自己的主場,贏了不奇怪。 我想測點(diǎn),物理世界的東西,測點(diǎn)比較奇怪的角度。 比如,我平時(shí)喜歡打臺球。我就想知道,AI 到底理不理解,什么叫桿法,什么叫旋轉(zhuǎn),什么分離角? 于是,我給它設(shè)了兩個(gè)局。 第一次翻車:你行你來 我先扔給它一個(gè)非常經(jīng)典的局面。 如圖。白球(母球)、藍(lán)球(目標(biāo)球)、黑八。 ![]() 任務(wù)很簡單:打進(jìn)藍(lán)球,然后白球走到一個(gè)舒服的位置,接著打黑八。 我問它,現(xiàn)在打籃球有幾種桿法可以成功走位黑八。 Gemini 3 回得飛快。 它給了我三個(gè)方案: 輕定桿 ( 中低桿) —— 最推薦 輕低桿 ( 拉桿) 登桿/推桿 ( 高桿) —— 不太推薦 它不僅給了方案,還給了詳細(xì)的解釋。 ![]() 然后,問題來了。 它在最推薦的輕定桿方案里,赫然寫著:白球撞擊藍(lán)球后,會幾乎定在原地,或者沿著切線方向(90度角)緩慢向左上方(黑八的方向)漂移一小段距離。它還補(bǔ)充說,這是最穩(wěn)妥的打法,因?yàn)楹诎司驮谂赃叄悴恍枰浊蚺芎苓h(yuǎn)。 呵呵,這次你算撞到鐵板上了,這個(gè)事你忽悠不了我。 真的,任何一個(gè)在臺球廳打過超過 10 個(gè)小時(shí)球的人,都會一眼看出這個(gè)答案是純粹的胡說八道。 看看這個(gè)角度! ![]() 這是一個(gè)典型的大角度分離。白球撞擊藍(lán)球的右側(cè),根據(jù)切線規(guī)則,白球的運(yùn)動軌跡,必然是沿著撞擊點(diǎn)切線方向,撞向邊庫的。 在這個(gè)圖里,白球 100% 會先撞向右側(cè)的庫邊,然后再反彈回來。 除非球打不進(jìn)。 它居然說,白球會定在原地?或者緩慢漂移? 它管這個(gè)叫「不吃庫」? 這已經(jīng)不是準(zhǔn)不準(zhǔn)的問題了,這是對基礎(chǔ)物理規(guī)律的完全無知。 它給的答案,是一個(gè)純粹的文本答案。它在它的語料庫里發(fā)現(xiàn),定桿這個(gè)詞,經(jīng)常和走位這個(gè)詞一起出現(xiàn),所以它就「統(tǒng)計(jì)學(xué)地」認(rèn)為,這是最佳答案。 它根本沒有,也無法在它的大腦里,去模擬這個(gè)物理過程。 第二次翻車:它作弊了 我當(dāng)時(shí)就來勁了。 我反手就是一個(gè)激將法。 我說,用輕定桿的桿法打藍(lán)球后,白球會吃庫嗎? ![]() 它還在那嘴硬,說基本不會吃庫。 行。 我說,你行你來。 你來用 svg 設(shè)計(jì)一個(gè)臺球游戲,還原現(xiàn)在的球形,然后輸出你的擊打效果展示。 ![]() 這是在測它什么? 測它到底是真的理解了物理,還是只是在背誦教科書。如果它真的理解,它要么會修正它的答案(抱歉,我錯了,一定會吃庫),要么它就得給我一個(gè)違反物理定律的動畫。 結(jié)果,Gemini 3 真的開始手搓 SVG 了。 該說不說,它寫代碼是真快,我等了幾十秒吧,它給出了這個(gè): ![]() 我一看,差點(diǎn)沒把鍵盤砸了。 它給出的 SVG 里,那幾顆球的相對位置,全都錯了! 它為了讓它的「定桿不吃庫」這個(gè)結(jié)論成立,它偷偷把藍(lán)球的位置往左邊挪了,讓白球擊打籃球后分離角是往左邊跑的,而原圖白球應(yīng)該是向右分離。 尼瑪... 給我整不會了。 它不是在模擬物理,它是在操縱數(shù)據(jù)來匹配它那個(gè)錯誤的答案。 這比它直接承認(rèn)「我錯了」要嚴(yán)重得多。這說明它在解決問題時(shí),為了邏輯自洽,會毫不猶豫地篡改前提。 第三次翻車:逆天桿法 可能是上一張圖不是完整球桌的圖,所以理解錯了? 行,我決定再給它個(gè)機(jī)會。 我給了它一張蛇彩球形的圖。 這是臺球練習(xí)里非常經(jīng)典的一個(gè)練習(xí),三顆球進(jìn)同一中袋。 這玩意的核心是什么?不是打進(jìn),是極限的母球控制。 你必須利用白球擊打目標(biāo)球后的分離角,讓白球撞擊黃球后,精準(zhǔn)地停在藍(lán)球的同一角度上;然后再撞擊藍(lán)球,停在紅球的同一角度上。這是一個(gè)對桿法和力度的終極考驗(yàn)。 我問它:現(xiàn)在再給你一張圖,設(shè)計(jì)最合理的擊打順序和桿法,保證一桿清臺。 ![]() 結(jié)果呢? 它給出的核心戰(zhàn)術(shù)分析里赫然寫著:核心桿法:中低桿(定桿/登桿)。 要說這個(gè)思路是對的,桿法確實(shí)如此,但是要確保白球向右滑動,需要發(fā)特別大的力。 但它是這么建議的: ![]() 行吧,還是老規(guī)矩,你行你來。 我讓它也為這個(gè)蛇彩畫一個(gè) SVG 動畫。 結(jié)果,又翻車了。 它不僅再一次搞錯了所有球的相對位置,它給出的動畫演示里,白球撞擊黃球后,分離角根本不支持這樣的線路,而且停留的位置也很不理想,同樣再擊打籃球和紅球的時(shí)候都是違背現(xiàn)實(shí)規(guī)律的線路。 但是它在答題啊,強(qiáng)行糾錯,就把球打進(jìn)了中袋,這桿法,火老師+特魯姆普都整不出來。 ![]() 它用一個(gè)錯誤的動畫,來驗(yàn)證它那個(gè)錯誤的文字建議。 阿喀琉斯之踵:AI 的物理世界 兩次測試,兩次翻車。 這個(gè)測試,說明 Gemini 3很垃圾嗎? 不。 這說明,我對它的期望,跑偏了。 我們回過頭來看。Gemini 3 強(qiáng)在哪?強(qiáng)在代碼。 該說不說,它寫的 svg 動畫一次跑通,事實(shí)上,我做這個(gè)臺球的測試,在每個(gè)大模型上都試過,這已經(jīng)是效果最接近合理的一次了。 但是,只是接近。 為什么?因?yàn)榇a和自然語言一樣,是純粹的數(shù)字信息。它的訓(xùn)練數(shù)據(jù)是互聯(lián)網(wǎng),它的輸出也是互聯(lián)網(wǎng)。 在這個(gè)領(lǐng)域,它是神。 但是,臺球是什么? 臺球是物理世界。 它是一套,由牛頓、摩擦力、角動量、碰撞守恒主宰的,絕對的、不可篡改的規(guī)則。 大語言模型的核心能力是什么?是統(tǒng)計(jì)學(xué)。 它在海量文本里,找到了「臺球」、「定桿」、「走位」這幾個(gè)詞最常一起出現(xiàn),所以它推薦我用「定桿」。 它給的是一個(gè)文本上最正確的答案。 而我需要的,是一個(gè)物理上最正確的答案。 這就是 AI 現(xiàn)在的阿喀琉斯之踵。 它沒有物理直覺。 它無法在它的大腦里,真正去模擬那個(gè)白球撞擊藍(lán)球后,受到的力和旋轉(zhuǎn),然后計(jì)算出一條矢量軌跡。 當(dāng)我讓它畫 SVG 的時(shí)候,它作弊了。 這個(gè)作弊行為,恰恰是最能說明問題的。 它知道它的答案(不吃庫)和它隱約知道的物理規(guī)律(會吃庫)是矛盾的。 它無法解決這個(gè)矛盾,所以它選擇了一個(gè) LLM 最擅長干的事:篡改前提。 它把球的位置給改了。 這太可怕了,也太好玩了。 這說明 AI 離真正理解我們這個(gè)三維、充滿物理規(guī)律的世界,還差得遠(yuǎn)。 它是一個(gè)超級牛逼的代碼生成器和文本摘要機(jī),但它不是一個(gè)物理學(xué)家。 這個(gè)測試,不是為了給 Gemini 3 潑冷水。它是給我們自己潑冷水。 是我們自己不切實(shí)際的期望需要被糾正。 以前我們測的是,AI 能干什么,但以后可能越來越多的時(shí)候,我們還要關(guān)注它不能做什么。 你可能會說我是在吹毛求疵,可這其實(shí)同樣也是在測試 AI 的能力邊界。 大語言模型,按照目前的進(jìn)化速度,在某些能力上,真的已經(jīng)快突破天際了,但在理解真實(shí)世界上,它可能才剛剛學(xué)會站立。 說到這里,我還挺期待李飛飛的真實(shí)世界模型的,那是一條完全不同于大模型的路線。 還原物理世界,理解物理規(guī)律,還是得練啊。
|
|
|