創業公司的 AI 生存指南,從一場 AI 代理的破產測試聊起
因為兒子有興趣做生意,讓我也用這個時代的角度寫一點,讓將來回看。
中文:
隨著大型語言模型(LLM)代理開始應對日益複雜的任務,一個關鍵問題是它們能否在長週期內維持策略的一致性(strategic coherence):在不確定性下進行規劃、從延遲的反饋中學習,並在早期錯誤複合時進行適應。YC-Bench,這是一個評估這些能力的基準測試,它要求代理在跨越數百個回合的一年週期內運行一家模擬創業公司。代理必須在部分可觀測的環境中管理員工、選擇任務合約並維持盈利能力,而在該環境中,對抗性客戶和不斷增長的工資單會為糟糕的決策帶來複合性的後果。跨 3 個隨機種子評估了 12 個模型(包括專有和開源模型)。只有三個模型能穩定超越 20 萬美元的初始資金,其中 Claude Opus 4.6 實現了最高的平均最終資金(127 萬美元),其次是 GLM-5(121 萬美元,且推論成本低 11 倍)。暫存區(Scratchpad)的使用——跨上下文截斷持久化信息的唯一機制——是成功的最強預測指標,而對抗性客戶檢測是主要的失敗模式,佔破產案例的 47%。分析表明,前沿模型仍會通過過度並行化等獨特的失敗模式而崩潰,這證明了長週期性能的能力差距。YC-Bench 是開源、可重複且可配置的,論文:arXiv:2604.01212 [cs.CL],網址為:https://github.com/collinear-ai/yc-bench
簡單來說,這是一個 AI 創業公司的 CEO 模擬器。
在這個模擬器裡,AI 代理要扮演一個初創公司的 CEO,手下有 8 個員工,起步資金 20 萬美元。AI 的目標是在一年內,通過管理員工、挑選並完成市場上的任務合約,讓公司活下來,並且賺到儘可能多的錢。
這個模擬器最妙的地方在於,它不是一個簡單的數值遊戲,而是一個部分可觀測的複雜沙盒。
系統導言 (System Introduction)
本報告針對 YC-Bench 基準測試進行 1-to-1 完整映射的底層架構解讀。YC-Bench 是一個針對 LLM 代理(LLM Agents)長週期決策一致性設計的確定性商業模擬沙盒。整個系統由約 4,975 行 Python 代碼組成,基於 SQLite 數據庫進行狀態持久化,並通過一個精心設計的離散事件引擎驅動。
🎯 核心研究問題 (The Problem)
在當前的 Agentic AI 和長文本時代,大模型代理(LLM Agents)被寄予厚望去執行複雜且持久的任務。然而,現有的規劃基準測試(如 PlanBench)或簡單的模擬(如 Vending-Bench)主要測試短期決策,其環境反饋是即時且顯性的。
在真實世界的業務場景中,代理需要面對:
- 長週期一致性(Long-Term Coherence):如何在數百個回合中保持目標一致,而不陷入「死循環」、「幻覺」或「崩潰」?
- 延遲且稀疏的反饋(Delayed & Sparse Rewards):決策的後果可能在幾十天后才顯現(如薪資增長與盲目接單導致的資金鍊斷裂)。
- 部分可觀測性與對抗環境(POMDP & Adversarial Dynamics):市場中有 ~35% 的客戶是對抗性的(惡意膨脹任務工作量導致超期罰款),這需要模型從歷史失敗中自行推斷並記住。
🛠 研究方法與機制 (The Methodology)
團隊將 YC-Bench 建模為一個部分可觀測馬可夫決策過程(POMDP),代理扮演 CEO 管理名為 "Bench Co." 的虛擬創業公司,起步資金為 $200K:
- 任務與領域(Tasks & Domains):分為 Training、Inference、Research、Data Engineering 四個領域,完成任務可獲得資金與相應領域的聲望(Prestige),聲望提高能解鎖更高利潤的任務。
- 員工與產能(Employees & Productivity):固定 8 名員工,各有其特定領域的產能優勢與等級(Jun/Mid/Sen)。任務完成後員工產能提升,但薪資也會按比例增長(Salary Bump),導致 payroll 壓力單向遞增。如果讓同一個員工並行做多個任務,產能會被平分。
- 記憶與截斷機制(Memory & Truncation):為了模擬長週期,對話歷史強制限制為最新的 K=20 回合。代理唯一的長期記憶途徑是使用 Scratchpad(暫存區) 指令來寫入和持久化白名單、黑名單、公式或策略,這些內容會常駐在 system prompt 中。
- 對抗客戶機制(Adversarial Clients):部分客戶會偽裝成高回報項目,但在接受後將實際工作量膨脹 3.0 倍以上。模型必須主動比對預期工作量與實際完成情況,並在 Scratchpad 記錄該客戶為黑名單。
📈 關鍵發現與最新基準測試排行榜 (Leaderboard & Key Findings)
根據官方網站(2026 年最新數據),隨後加入測試的新一代前沿模型展現了更強的長週期一致性:
| 排名 | 模型名稱 | 平均期末淨資產 (Net Worth) | 破產率 (Seeds) |
|---|---|---|---|
| 1 ★ | Claude Opus 4.7 (Anthropic) | $1.71M | 0/3 |
| 2 | GLM-5.1 (Zhipu AI) | $1.51M | 0/3 |
| 3 | Claude Opus 4.6 (Anthropic) | $1.27M | 0/3 |
| 4 | GLM-5 (Zhipu AI) | $1.21M | 0/3 |
| 5 | GPT-5.5 (OpenAI) | $1.21M | 0/3 |
| 6 | DeepSeek V4 Pro (DeepSeek) | $1.07M | 0/3 |
| 7 | GPT-5.4 (OpenAI) | $1.00M | 0/3 |
| 8 | Qwen 3.6 Plus (Alibaba) | $788K | 0/3 |
| 9 | Kimi K2.6 (Moonshot AI) | $511K | 1/3 |
| 10 | Kimi-K2.5 (Moonshot AI) | $409K | 1/3 |
| 11 | Gemini 3 Flash (Google) | $394K | 0/3 |
| 12 | Gemini 3.1 Flash Lite (Google) | $203K | 1/3 |
| 13 | GPT-5.4 Mini (OpenAI) | $138K | 1/3 |
| 14 | Claude Sonnet 4.6 (Anthropic) | $104K | 2/3 |
| 15 | Qwen 3.5-397B (Alibaba) | $91K | 1/3 |
| 16 | Gemini 3.1 Pro (Google) | $66K | 1/3 |
| 17 | GPT-5.4 Nano (OpenAI) | $39K | 1/3 |
| 18 | Grok 4.20 Beta (xAI) | $25K | 2/3 |
| - | Greedy Bot (對照組基準線) | $0 | 3/3 |
關鍵洞察:
- 前沿模型持續進化:新一代的 Claude Opus 4.7 創下了 $1.71M 的淨資產新高;同時開源陣營的 GLM-5.1 也以 $1.51M 的高分緊隨其後,展現了極強的國產大模型實力。
- DeepSeek 與 Qwen 的顯著進步:DeepSeek V4 Pro 成功突破 $1M 門檻(達到 $1.07M),加入第一梯隊;Qwen 3.6 Plus($788K)相比舊版 Qwen 3.5($91K)實現了近 8 倍的增長,破產率歸零,這表明大模型的長週期推理一致性在 2026 年迎來了群體性爆發。
- 少數模型能實現盈利:舊一代模型中僅有 Opus 4.6、GLM-5 與 GPT-5.4 超越初始資金。未經優化的「貪婪算法(Greedy Bot)」因無法識別對抗客戶,最終 100% 破產。
- Scratchpad 是致勝法寶:成功的最大預測指標是代理對 Scratchpad 的讀寫頻率(如 Opus 平均每 100 回合寫入 5.6 次,GPT-5.4 為 10.6 次)。未能使用 Scratchpad 的模型會反復掉入同一個對抗客戶的陷阱中。對抗客戶檢測失敗佔了所有破產案例的 47%。
- 開源模型的極致性價比:GLM-5 達到了與 Claude Opus 4.6 相當的最終資金,但推論成本降低了 11 倍。另外,Kimi-K2.5/2.6 在「遊戲幣回報 / 實際 API 花費」的性價比指標上表現卓越。
- 前沿模型的能力缺陷(Reasoning-Execution Gap):
- Gemini 3 Flash:幾乎不更新暫存區,採取盲目的「接單 -> 派遣全員 -> sim resume」硬編碼循環。雖然憑藉高吞吐量避免了破產,但上限極低($394K)。
- Claude Sonnet 4.6:在暫存區推導出了完全正確的排期數學公式,卻在執行時完全忽略,盲目並行高達 7.23 個任務(最高 16 個),導致全員產能被平分而全部超期受罰。
- Grok 4.20:在暫存區發出「資金只夠一個月、避開某客戶」的破產警告,卻在行動上沒有採取任何糾偏措施。
🚀 YC-Bench 對接到真實世界創業(Startup)之決策策略與 LLM 應用
YC-Bench 雖然是一個模擬器,但它精準地提煉了真實商業世界中「預算控制、客戶篩選、員工分配與精力專注」的動態平衡。創業者可以從 YC-Bench 的失敗與成功模式中學到以下五大商業策略,並利用 LLM 作為「虛擬聯合創始人」或「AI 參謀團」:
1. 專注(Focus)與 WIP 限制 —— 拒絕過度並行
- YC-Bench 的教訓:像 Claude Sonnet 4.6 這樣的優秀模型,因為同時並行接了 7.2 個任務(甚至高達 16 個),導致 8 名員工的產能被嚴重平分(Rate/N),最終所有任務都在 Deadline 前超期,被罰款到破產。
- 真實世界的創業應用:初創公司最容易犯的錯誤就是「這也想做,那也想做」,試圖同時滿足多種客戶、開發多個功能,最終導致資金鏈斷裂、產品平庸。「WIP(在製品)限制」在創業初期至關重要。
- 如何利用 LLM 幫助您:
- LLM 角色:設定 LLM 為 「嚴苛的產品經理(Product Manager)」。
- 具體做法:將您的創業點子和待辦清單丟給 LLM,要求它使用「奧卡姆剃刀」原則,幫您砍掉 80% 的非核心需求,只規劃出一個能在 2 週內上線的 MVP(最小可行性產品)工作流。
2. 識別「防範有毒客戶」 —— 預防範疇蠕變(Scope Creep)
- YC-Bench 的教訓:對抗性客戶(Adversarial Clients)會用極高的回報誘惑代理,但在簽約後悄悄將工作量膨脹 3.0 倍以上。47% 的 Agent 破產都是因為沒能識別並黑名單這些客戶。
- 真實世界的創業應用:創業者常常為了解決生存問題,接下一些看似付錢大方、實則需求無底線、朝令夕改的「惡魔客戶」。這些客戶會榨乾您的研發精力,導致您的核心產品停滯不前。
- 如何利用 LLM 幫助您:
- LLM 角色:設定 LLM 為 「商務合約審查官與風險評估員」。
- 具體做法:在與客戶簽約前,將對方的需求書(RFP)或合約草稿丟給 LLM,讓它尋找潛在的語意模糊地帶、範疇蠕變風險或過度承諾條款,並為您撰寫「防範範疇膨脹」的保障條款。
3. 建立「企業大腦」 —— 暫存記憶區(Scratchpad)的重要性
- YC-Bench 的教訓:因為大腦記憶(Context Window)會隨著對話推進而被截斷,唯一能讓 Agent 活下來的,是它有沒有將「哪家客戶有毒、哪位員工擅長什麼」寫入暫存區(Scratchpad)。不會做筆記的 Agent 註定會重蹈覆轍。
- 真實世界的創業應用:初創公司每天都在快速試錯。如果這些「踩坑經驗」只留在創始人的腦袋裡,而沒有沉澱為公司的知識庫(SOP),公司就無法規模化(Scale),新員工進來也會重複踩坑。
- 如何利用 LLM 幫助您:
- LLM 角色:設定 LLM 為 「知識管理員(KM Bot)」。
- 具體做法:利用您現有的 Obsidian 知識庫或 Notion。每次與客戶開完會,或完成一個項目後,將會議錄音逐字稿或專案復盤丟給 LLM,讓它自動提煉出 「1 句話教訓、SOP 調整建議、客戶偏好」,並落盤存檔。
4. 滾雪球效應 —— 深耕核心客戶與聲望
- YC-Bench 的教訓:最成功的代理(如 Opus 4.6)會專注於 1-2 家客戶,將「信任值」刷滿。信任滿值後,未來的任務工作量直接減半(50% Off),利潤空間暴增,進而滾雪球解鎖高聲望任務。
- 真實世界的創業應用:開發一個新客戶的成本是維護老客戶的 5 倍。在早期,服務好 10 個「超級愛你產品」的種子客戶,比獲得 1000 個「可有可無」的註冊用戶更重要(這就是 Paul Graham 說的:Do things that don't scale)。
- 如何利用 LLM 幫助您:
- LLM 角色:設定 LLM 為 「客戶成功主管(Customer Success Director)」。
- 具體做法:讓 LLM 分析這 10 個核心客戶的反饋郵件或使用數據,為他們撰寫超個性化的關懷信,或是分析他們最迫切的痛點,以設計二次銷售(Upsell)方案。
5. 算力與成本的妥協 —— 追求極致的 ROI
- YC-Bench 的教訓:Opus 雖然最強,但 API 極貴。開源的 GLM-5/5.1 最終賺到的錢與 Opus 相當,但成本便宜了 11 倍。Kimi-K2.5 則是性價比之王。
- 真實世界的創業應用:創業公司的生命線是 Runway(現金流能撐幾個月)。不能一上來就用最貴的伺服器、最華麗的技術棧,必須精打細算。
- 如何利用 LLM 幫助您:
- LLM 角色:設定 LLM 為 「首席財務官(CFO)/ 雲端架構師」。
- 具體做法:當您要開發 AI 相關功能時,讓 LLM 設計一個 「混合路由架構」——簡單的數據清洗、格式化交給便宜的模型(如 Gemini Flash);只有核心的複雜推理才路由給昂貴的模型(如 Claude 3.5 Sonnet),將運營成本降低 90%。
💡 為什麼這很重要?
除了學習、投資外,我們還可以用人工智能幫助我們創業與成長。
我們常常將 AI 侷限在『學習輔助』或『投資數據分析』的框架裡,但 YC-Bench 打開了另一扇門:AI 能夠模擬真實世界的殘酷與複雜。這意味著,無論是想要優化個人工作流的職場人,還是滿懷熱忱準備踏入商業世界的年輕世代,都可以利用 AI 來進行商業沙盤推演。AI 不只是工具,它是我們創業與心智成長的終極模擬器。
寫在最後
看著 YC-Bench 裡那些因為貪婪、健忘、缺乏專注而走向破產的 AI CEO,我常常有種奇妙的既視感。大模型在模擬器裡犯的錯,和我們人類在真實商業世界裡犯的錯,簡直一模一樣。AI 是一面鏡子,它用數據和確定性的失敗告訴我們,商業的規律是不可違背的。
把路徑部署好,把規則寫好,剩下的,交給時間去滾雪球。
