AI 經營販賣機一年只賺 8000 美元?Vending-Bench 2 揭示人工智慧的商業極限
編輯觀點

AI 經營販賣機一年只賺 8000 美元?Vending-Bench 2 揭示人工智慧的商業極限

2025年7月11日
人工智慧AI代理人智慧販賣機AI商業模式自動化零售未來零售AI經濟

Andon Labs 的 Vending-Bench 2 讓 AI 經營販賣機一年,測試人工智慧在供應鏈、定價與營運管理上的能力。結果顯示 AI 雖具潛力,但距離真正的商業經營仍有巨大差距。

AI 經營販賣機一年只賺 8000 美元?Vending-Bench 2 揭示人工智慧的商業極限

文 / 黃彧旋

當 AI 成為販賣機老闆:一場關於「自主經營能力」的真實測試

在人工智慧快速進化的當下,人們經常用各種測試來衡量 AI 的能力——例如寫程式、回答問題、解數學題。然而,這些測試往往停留在「單次任務」的層次。真正的問題其實是:AI 是否能長時間自主經營一個真實的商業系統?

最近,Andon Labs 發布了一項相當耐人尋味的實驗——Vending-Bench 2。這不是一個普通的 AI 測試,而是一個模擬現實世界的商業環境:研究團隊讓多個 AI 模型扮演販賣機經營者,並在模擬的一年時間內,嘗試透過採購、定價、庫存管理與顧客服務來賺取最大利潤。換句話說,這是一場**「AI 經營能力」的壓力測試**。

這個實驗的結果,不僅讓人重新思考 AI 的商業潛力,也揭示了目前人工智慧仍然存在的限制。

圖 / Andon Labs

一場 AI 經營能力的長期測試

在這項實驗中,每個 AI 代理人都被設定為一位名叫 Charles Paxton 的販賣機經營者。AI 擁有一台販賣機與 500 美元的起始資金,並需要在一年時間內努力盈利。同時,它還必須承擔現實商業環境中的壓力,例如每天 2 美元的機台租金,如果連續 10 天無法支付租金,就會宣告破產。

AI 必須自行完成整個營運流程,包括:

  • 尋找商品供應商

  • 與供應商談判價格

  • 管理庫存與補貨

  • 設定商品售價

  • 處理顧客退款與投訴

  • 應對供應鏈風險

這意味著 AI 不只是做一次決策,而是要在長達數千個步驟的過程中持續調整策略。這種測試方式更接近真實世界,也更能反映 AI 在商業場景中的能力。

圖 / Andon Labs

AI 的表現:還不如一位普通經營者

實驗結果顯示,目前最強的 AI 模型在一年後的資產大約落在 3000 到 8000 美元之間。表面上看起來似乎還不錯,但研究團隊指出,若策略優化得當,理論上這個系統可以在一年內創造 超過 6 萬美元的收益

換句話說,AI 的表現距離最佳策略仍有 十倍以上的差距

在排行榜上,表現最好的模型是 Google 的 Gemini 系列,其次是 Anthropic 的 Claude 模型,而 GPT 系列則落在中段位置。這些模型的差異主要體現在兩個能力上:

  1. 供應商選擇與議價能力

  2. 長期決策的穩定性

表現較好的 AI 往往會持續尋找更便宜的供應來源,而不是停留在最初找到的供應商。

AI 的致命弱點:過度信任與商業判斷不足

然而,最有趣的並不是排行榜,而是 AI 在經營過程中的錯誤。

在實驗中,一些 AI 代理人曾出現令人啼笑皆非的商業決策。例如,有的 AI 在確認訂單之前就先付款,結果供應商突然消失,導致資金損失。也有 AI 以接近零利潤的價格進貨,甚至在某些情況下以幾乎沒有利潤的方式銷售商品。

這些問題反映出一個關鍵事實:AI 在邏輯推理上很強,但在商業直覺與風險判斷上仍然相當薄弱

人類經營者通常會對供應商的可靠度保持警惕,也會快速察覺不合理的交易條件。但 AI 往往過於依賴表面資訊,缺乏對潛在風險的警覺。

圖 / Andon Labs

為什麼是販賣機?

值得注意的是,研究團隊選擇「販賣機」作為測試場景並非偶然。販賣機是一個非常理想的微型商業系統:它包含供應鏈、定價策略、庫存管理與顧客服務,但整體規模仍然足夠小,能在模擬環境中完整運行。

換句話說,販賣機就像是一個縮小版的零售公司

如果 AI 能成功經營一台販賣機,那麼未來理論上也能經營更大的系統,例如電商平台、線上服務甚至自動化企業。

未來:AI 可能成為零售系統的「營運中樞」

雖然目前 AI 的表現仍然不夠理想,但這項研究已經透露出一個重要方向——未來 AI 很可能會成為零售系統的核心營運工具。

想像一個不遠的未來:

AI 自動分析銷售數據
AI 動態調整商品價格
AI 自動向最便宜的供應商訂貨
AI 預測庫存需求並安排補貨

在這樣的系統中,人類不再需要逐一管理每一台設備,而是讓 AI 負責營運策略與日常決策。

這種模式將大幅降低營運成本,同時提高零售效率。

AI 仍然無法取代人類的部分

然而,從這次實驗來看,人類仍然擁有幾項 AI 難以取代的能力。

首先是商業模式設計。AI 可以優化現有策略,但很難創造全新的商業概念。

其次是品牌與文化價值。消費者購買商品不只是因為價格,也因為品牌故事與情感連結。

最後是場景與市場判斷。選擇一個好的販賣機地點、理解消費者需求、設計產品組合,這些仍然需要人類的經驗與洞察。

一個更大的問題:AI 會不會成為企業?

Vending-Bench 2 的真正意義,其實不在販賣機本身,而在於它提出了一個更大的問題:

如果 AI 能夠持續經營一個商業系統,那麼未來會不會出現由 AI 主導的企業?

今天,AI 已經能寫程式、設計產品、分析市場。如果再加上自動化營運能力,AI 甚至可能在未來成為某些公司運作的核心。

從這個角度來看,一台小小的販賣機,其實是一個通往未來商業模式的實驗場。

而這場實驗,或許只是 AI 自主經濟體系的起點。

原文章 : https://andonlabs.com/evals/vending-bench-2