2026年5月25日星期一

創業公司的 AI 生存指南,從一場 AI 代理的破產測試聊起

創業公司的 AI 生存指南,從一場 AI 代理的破產測試聊起

因為兒子有興趣做生意,讓我也用這個時代的角度寫一點,讓將來回看。

摘要 (Summary)

中文:
隨著大型語言模型(LLM)代理開始應對日益複雜的任務,一個關鍵問題是它們能否在長週期內維持策略的一致性(strategic coherence):在不確定性下進行規劃、從延遲的反饋中學習,並在早期錯誤複合時進行適應。YC-Bench,這是一個評估這些能力的基準測試,它要求代理在跨越數百個回合的一年週期內運行一家模擬創業公司。代理必須在部分可觀測的環境中管理員工、選擇任務合約並維持盈利能力,而在該環境中,對抗性客戶和不斷增長的工資單會為糟糕的決策帶來複合性的後果。跨 3 個隨機種子評估了 12 個模型(包括專有和開源模型)。只有三個模型能穩定超越 20 萬美元的初始資金,其中 Claude Opus 4.6 實現了最高的平均最終資金(127 萬美元),其次是 GLM-5(121 萬美元,且推論成本低 11 倍)。暫存區(Scratchpad)的使用——跨上下文截斷持久化信息的唯一機制——是成功的最強預測指標,而對抗性客戶檢測是主要的失敗模式,佔破產案例的 47%。分析表明,前沿模型仍會通過過度並行化等獨特的失敗模式而崩潰,這證明了長週期性能的能力差距。YC-Bench 是開源、可重複且可配置的,論文:arXiv:2604.01212 [cs.CL]網址為:https://github.com/collinear-ai/yc-bench

簡單來說,這是一個 AI 創業公司的 CEO 模擬器。

在這個模擬器裡,AI 代理要扮演一個初創公司的 CEO,手下有 8 個員工,起步資金 20 萬美元。AI 的目標是在一年內,通過管理員工、挑選並完成市場上的任務合約,讓公司活下來,並且賺到儘可能多的錢。

這個模擬器最妙的地方在於,它不是一個簡單的數值遊戲,而是一個部分可觀測的複雜沙盒。

系統導言 (System Introduction)

本報告針對 YC-Bench 基準測試進行 1-to-1 完整映射的底層架構解讀。YC-Bench 是一個針對 LLM 代理(LLM Agents)長週期決策一致性設計的確定性商業模擬沙盒。整個系統由約 4,975 行 Python 代碼組成,基於 SQLite 數據庫進行狀態持久化,並通過一個精心設計的離散事件引擎驅動。

🎯 核心研究問題 (The Problem)

在當前的 Agentic AI 和長文本時代,大模型代理(LLM Agents)被寄予厚望去執行複雜且持久的任務。然而,現有的規劃基準測試(如 PlanBench)或簡單的模擬(如 Vending-Bench)主要測試短期決策,其環境反饋是即時且顯性的。
在真實世界的業務場景中,代理需要面對:

  • 長週期一致性(Long-Term Coherence):如何在數百個回合中保持目標一致,而不陷入「死循環」、「幻覺」或「崩潰」?
  • 延遲且稀疏的反饋(Delayed & Sparse Rewards):決策的後果可能在幾十天后才顯現(如薪資增長與盲目接單導致的資金鍊斷裂)。
  • 部分可觀測性與對抗環境(POMDP & Adversarial Dynamics):市場中有 ~35% 的客戶是對抗性的(惡意膨脹任務工作量導致超期罰款),這需要模型從歷史失敗中自行推斷並記住。

🛠 研究方法與機制 (The Methodology)

團隊將 YC-Bench 建模為一個部分可觀測馬可夫決策過程(POMDP),代理扮演 CEO 管理名為 "Bench Co." 的虛擬創業公司,起步資金為 $200K:

  1. 任務與領域(Tasks & Domains):分為 Training、Inference、Research、Data Engineering 四個領域,完成任務可獲得資金與相應領域的聲望(Prestige),聲望提高能解鎖更高利潤的任務。
  2. 員工與產能(Employees & Productivity):固定 8 名員工,各有其特定領域的產能優勢與等級(Jun/Mid/Sen)。任務完成後員工產能提升,但薪資也會按比例增長(Salary Bump),導致 payroll 壓力單向遞增。如果讓同一個員工並行做多個任務,產能會被平分。
  3. 記憶與截斷機制(Memory & Truncation):為了模擬長週期,對話歷史強制限制為最新的 K=20 回合。代理唯一的長期記憶途徑是使用 Scratchpad(暫存區) 指令來寫入和持久化白名單、黑名單、公式或策略,這些內容會常駐在 system prompt 中。
  4. 對抗客戶機制(Adversarial Clients):部分客戶會偽裝成高回報項目,但在接受後將實際工作量膨脹 3.0 倍以上。模型必須主動比對預期工作量與實際完成情況,並在 Scratchpad 記錄該客戶為黑名單。

📈 關鍵發現與最新基準測試排行榜 (Leaderboard & Key Findings)

根據官方網站(2026 年最新數據),隨後加入測試的新一代前沿模型展現了更強的長週期一致性:

排名 模型名稱 平均期末淨資產 (Net Worth) 破產率 (Seeds)
1 ★ Claude Opus 4.7 (Anthropic) $1.71M 0/3
2 GLM-5.1 (Zhipu AI) $1.51M 0/3
3 Claude Opus 4.6 (Anthropic) $1.27M 0/3
4 GLM-5 (Zhipu AI) $1.21M 0/3
5 GPT-5.5 (OpenAI) $1.21M 0/3
6 DeepSeek V4 Pro (DeepSeek) $1.07M 0/3
7 GPT-5.4 (OpenAI) $1.00M 0/3
8 Qwen 3.6 Plus (Alibaba) $788K 0/3
9 Kimi K2.6 (Moonshot AI) $511K 1/3
10 Kimi-K2.5 (Moonshot AI) $409K 1/3
11 Gemini 3 Flash (Google) $394K 0/3
12 Gemini 3.1 Flash Lite (Google) $203K 1/3
13 GPT-5.4 Mini (OpenAI) $138K 1/3
14 Claude Sonnet 4.6 (Anthropic) $104K 2/3
15 Qwen 3.5-397B (Alibaba) $91K 1/3
16 Gemini 3.1 Pro (Google) $66K 1/3
17 GPT-5.4 Nano (OpenAI) $39K 1/3
18 Grok 4.20 Beta (xAI) $25K 2/3
- Greedy Bot (對照組基準線) $0 3/3

關鍵洞察:

  • 前沿模型持續進化:新一代的 Claude Opus 4.7 創下了 $1.71M 的淨資產新高;同時開源陣營的 GLM-5.1 也以 $1.51M 的高分緊隨其後,展現了極強的國產大模型實力。
  • DeepSeek 與 Qwen 的顯著進步DeepSeek V4 Pro 成功突破 $1M 門檻(達到 $1.07M),加入第一梯隊;Qwen 3.6 Plus($788K)相比舊版 Qwen 3.5($91K)實現了近 8 倍的增長,破產率歸零,這表明大模型的長週期推理一致性在 2026 年迎來了群體性爆發。
  • 少數模型能實現盈利:舊一代模型中僅有 Opus 4.6、GLM-5 與 GPT-5.4 超越初始資金。未經優化的「貪婪算法(Greedy Bot)」因無法識別對抗客戶,最終 100% 破產。
  • Scratchpad 是致勝法寶:成功的最大預測指標是代理對 Scratchpad 的讀寫頻率(如 Opus 平均每 100 回合寫入 5.6 次,GPT-5.4 為 10.6 次)。未能使用 Scratchpad 的模型會反復掉入同一個對抗客戶的陷阱中。對抗客戶檢測失敗佔了所有破產案例的 47%。
  • 開源模型的極致性價比:GLM-5 達到了與 Claude Opus 4.6 相當的最終資金,但推論成本降低了 11 倍。另外,Kimi-K2.5/2.6 在「遊戲幣回報 / 實際 API 花費」的性價比指標上表現卓越。
  • 前沿模型的能力缺陷(Reasoning-Execution Gap)
    • Gemini 3 Flash:幾乎不更新暫存區,採取盲目的「接單 -> 派遣全員 -> sim resume」硬編碼循環。雖然憑藉高吞吐量避免了破產,但上限極低($394K)。
    • Claude Sonnet 4.6:在暫存區推導出了完全正確的排期數學公式,卻在執行時完全忽略,盲目並行高達 7.23 個任務(最高 16 個),導致全員產能被平分而全部超期受罰。
    • Grok 4.20:在暫存區發出「資金只夠一個月、避開某客戶」的破產警告,卻在行動上沒有採取任何糾偏措施。

🚀 YC-Bench 對接到真實世界創業(Startup)之決策策略與 LLM 應用

YC-Bench 雖然是一個模擬器,但它精準地提煉了真實商業世界中「預算控制、客戶篩選、員工分配與精力專注」的動態平衡。創業者可以從 YC-Bench 的失敗與成功模式中學到以下五大商業策略,並利用 LLM 作為「虛擬聯合創始人」或「AI 參謀團」:

1. 專注(Focus)與 WIP 限制 —— 拒絕過度並行

  • YC-Bench 的教訓:像 Claude Sonnet 4.6 這樣的優秀模型,因為同時並行接了 7.2 個任務(甚至高達 16 個),導致 8 名員工的產能被嚴重平分(Rate/N),最終所有任務都在 Deadline 前超期,被罰款到破產。
  • 真實世界的創業應用:初創公司最容易犯的錯誤就是「這也想做,那也想做」,試圖同時滿足多種客戶、開發多個功能,最終導致資金鏈斷裂、產品平庸。「WIP(在製品)限制」在創業初期至關重要。
  • 如何利用 LLM 幫助您
    • LLM 角色:設定 LLM 為 「嚴苛的產品經理(Product Manager)」
    • 具體做法:將您的創業點子和待辦清單丟給 LLM,要求它使用「奧卡姆剃刀」原則,幫您砍掉 80% 的非核心需求,只規劃出一個能在 2 週內上線的 MVP(最小可行性產品)工作流。

2. 識別「防範有毒客戶」 —— 預防範疇蠕變(Scope Creep)

  • YC-Bench 的教訓:對抗性客戶(Adversarial Clients)會用極高的回報誘惑代理,但在簽約後悄悄將工作量膨脹 3.0 倍以上。47% 的 Agent 破產都是因為沒能識別並黑名單這些客戶。
  • 真實世界的創業應用:創業者常常為了解決生存問題,接下一些看似付錢大方、實則需求無底線、朝令夕改的「惡魔客戶」。這些客戶會榨乾您的研發精力,導致您的核心產品停滯不前。
  • 如何利用 LLM 幫助您
    • LLM 角色:設定 LLM 為 「商務合約審查官與風險評估員」
    • 具體做法:在與客戶簽約前,將對方的需求書(RFP)或合約草稿丟給 LLM,讓它尋找潛在的語意模糊地帶、範疇蠕變風險或過度承諾條款,並為您撰寫「防範範疇膨脹」的保障條款。

3. 建立「企業大腦」 —— 暫存記憶區(Scratchpad)的重要性

  • YC-Bench 的教訓:因為大腦記憶(Context Window)會隨著對話推進而被截斷,唯一能讓 Agent 活下來的,是它有沒有將「哪家客戶有毒、哪位員工擅長什麼」寫入暫存區(Scratchpad)。不會做筆記的 Agent 註定會重蹈覆轍。
  • 真實世界的創業應用:初創公司每天都在快速試錯。如果這些「踩坑經驗」只留在創始人的腦袋裡,而沒有沉澱為公司的知識庫(SOP),公司就無法規模化(Scale),新員工進來也會重複踩坑。
  • 如何利用 LLM 幫助您
    • LLM 角色:設定 LLM 為 「知識管理員(KM Bot)」
    • 具體做法:利用您現有的 Obsidian 知識庫或 Notion。每次與客戶開完會,或完成一個項目後,將會議錄音逐字稿或專案復盤丟給 LLM,讓它自動提煉出 「1 句話教訓、SOP 調整建議、客戶偏好」,並落盤存檔。

4. 滾雪球效應 —— 深耕核心客戶與聲望

  • YC-Bench 的教訓:最成功的代理(如 Opus 4.6)會專注於 1-2 家客戶,將「信任值」刷滿。信任滿值後,未來的任務工作量直接減半(50% Off),利潤空間暴增,進而滾雪球解鎖高聲望任務。
  • 真實世界的創業應用:開發一個新客戶的成本是維護老客戶的 5 倍。在早期,服務好 10 個「超級愛你產品」的種子客戶,比獲得 1000 個「可有可無」的註冊用戶更重要(這就是 Paul Graham 說的:Do things that don't scale)。
  • 如何利用 LLM 幫助您
    • LLM 角色:設定 LLM 為 「客戶成功主管(Customer Success Director)」
    • 具體做法:讓 LLM 分析這 10 個核心客戶的反饋郵件或使用數據,為他們撰寫超個性化的關懷信,或是分析他們最迫切的痛點,以設計二次銷售(Upsell)方案。

5. 算力與成本的妥協 —— 追求極致的 ROI

  • YC-Bench 的教訓:Opus 雖然最強,但 API 極貴。開源的 GLM-5/5.1 最終賺到的錢與 Opus 相當,但成本便宜了 11 倍。Kimi-K2.5 則是性價比之王。
  • 真實世界的創業應用:創業公司的生命線是 Runway(現金流能撐幾個月)。不能一上來就用最貴的伺服器、最華麗的技術棧,必須精打細算。
  • 如何利用 LLM 幫助您
    • LLM 角色:設定 LLM 為 「首席財務官(CFO)/ 雲端架構師」
    • 具體做法:當您要開發 AI 相關功能時,讓 LLM 設計一個 「混合路由架構」——簡單的數據清洗、格式化交給便宜的模型(如 Gemini Flash);只有核心的複雜推理才路由給昂貴的模型(如 Claude 3.5 Sonnet),將運營成本降低 90%。

💡 為什麼這很重要?

除了學習、投資外,我們還可以用人工智能幫助我們創業與成長。

我們常常將 AI 侷限在『學習輔助』或『投資數據分析』的框架裡,但 YC-Bench 打開了另一扇門:AI 能夠模擬真實世界的殘酷與複雜。這意味著,無論是想要優化個人工作流的職場人,還是滿懷熱忱準備踏入商業世界的年輕世代,都可以利用 AI 來進行商業沙盤推演。AI 不只是工具,它是我們創業與心智成長的終極模擬器。

寫在最後

看著 YC-Bench 裡那些因為貪婪、健忘、缺乏專注而走向破產的 AI CEO,我常常有種奇妙的既視感。大模型在模擬器裡犯的錯,和我們人類在真實商業世界裡犯的錯,簡直一模一樣。AI 是一面鏡子,它用數據和確定性的失敗告訴我們,商業的規律是不可違背的。

把路徑部署好,把規則寫好,剩下的,交給時間去滾雪球。


2026年5月23日星期六

完蛋了,我的兒子說不讀醫科!iAL & IB STP

學校考完試,等成績的時候,說一些有趣一點的話題,會比較像我的性格,我才會有動力將來回來看。

先說說個考試期間的故事才入正題 -

序幕:

考試期間見個仔好忙,仲不斷聽他說,「哎呀唔識」「未溫晒㖭,夠鐘瞓覺」「又做錯了」「安靜一點好嗎?」

我焦慮的性格讓我忍唔住問他:「咁你使唔使去補習啊?」

我以為他會答我「唔使啦」,但他答我「考完試睇吓成績點先決定」

這個答案令我更加憂慮,點解會唔識㗎?IB好難嘅咩?

雖然是這樣,但他的恆常習慣,打波啦、健身啦、晚飯時看劇集聽音樂等,依舊如常地進行,這讓我好奇,第一天考完試的早上,他會做什麼呢?

答案是:是看Kindle𥚃的書。

這個習慣讓我看見希望,有動力寫這篇文章,哈。

當你有能力的時候,就會有一些意想不到的問題出現⋯⋯

完蛋了,我的兒子說不讀醫科!

有一天,我的媽媽直接問我的兒子,即是嫲嫲問孫仔:

「到底你係無能力讀醫生?定只係無興趣讀?」

一句話,把我差點笑噴湯。
在香港長輩眼中,不讀醫只有兩個原因:要麼你笨,要麼你任性。

我以為已經好誇張,點知外父接着問:

「我約了一個退休了的大學教授,諗住約你暑假得閒見他一面,但他不在香港…」

直接行動,完全架空他的父母,即是我跟我老婆。

看見他們的絕招,不禁讚嘆,讓我學到了提問的藝術及動用人脈的力量。

但是,等等,咦,為什麼我和我的弟弟沒有問過我們相同的問題?為什麼我的老婆沒有這樣的安排?

想一想,還是算了,心照不用宣。

好啦,到底個仔會怎樣回答呢?

兒子只是輕輕笑了笑:「我想,只是無興趣吧。」(我心諗:這麼有信心嗎?為什麼覺得你有能力?)

另一邊,

兒子說:「我暑假很忙,好多嘢要做,應該無時間離開香港。」(我心諗:你有幾忙啊?)

所以到底個仔是無能力、或者是無興趣、同埋係咪真係咁忙呢?

爺爺嫲嫲、公公婆婆仲有咩招數出手呢?

仲有咩特別的故事呢?

我好期待..

-

題外話:

1. 我跟朋友食飯,他的孩子iAL,可以考兩次,用最高嗰次成績,聽落好正。

2. IB STP 更新課程,聽說只會更忙。

STP(Systems Transformation: Leadership for just futures) 是 IB Diploma Programme 的全新試點替代路徑,300 小時課程取代傳統兩個 SL 科目,學生仍可拿完整 IB Diploma。

核心結構

•  選課:3 門 HL + 1 門 SL + 3 核心(TOK、EE、CAS)+ STP

•  內容:聚焦 4 大影響領域(食物、生物多樣性、移民、能源),強調系統思考、領導力、行動與社會/生態正義

•  課程架構

•  Core curriculum(100 小時)

•  Inquiry into impact areas(50 小時)

•  Impact area specialization(150 小時,含個人 + 合作真實項目)


時間表:已在 UWC Atlantic 等學校試點多年,2026 年 5 月正式獲批,2028 年早期採用,2030 年全球開放

2026年5月3日星期日

憤怒留聽得懂的人:兒子教我的「情緒降級」課

繼續兒子教我的事⋯⋯我覺得好好用⋯⋯

有時,我真的極度佩服我個仔。

最近看到他在家𥚃被一個不講理的人不停指責、甚至動手動腳,他居然可以全程處之泰然,連眉頭都沒皺一下。


事後我實在忍不住好奇:「人哋咁對你,你真係一啲都唔嬲?」

他沒有直接回答,反而問我:「你會對一個三歲小朋友發脾氣嗎?」

我心想這什麼問題:「睇情況啦。」

他緊咬不放:「乜嘢情況下你絕對唔會嬲?」

我答:「當我知道,我點發脾氣,佢個腦都根本聽唔明嘅時候。」

他笑了笑:「對。既然他都聽不明白,生氣有什麼用?」

我愣住:「就係咁簡單?」

兒子點點頭:「對,你只要在心裡面,把那個人當成一個發緊脾氣的幼稚園小朋友就可以了。」


那一刻,我被徹底點醒,我明白了。


~憤怒是留給聽得懂的人的,聽不懂的,看著他表演就好。~





2026年4月26日星期日

戒打機的底層邏輯:兒子教我的「反意志力」課

在孩子的成長過程中,「打機(玩遊戲)」幾乎是每個家庭必經的戰場。回顧我兒子的遊戲史,剛好經歷了四個極端變化的階段:

第一階段(幼稚園): 遊戲是「誘餌」。那時要哄他看書,必須用「看完可以玩一陣手機」作為獎勵。

第二階段(小學): 閱讀終於養成了習慣。他在看書時能做到絕對專注,不受外界影響,但只要一放下書本,其他時間的預設模式依然是打機。

第三階段(初中): 進入黑暗期,因為開始頻繁使用手機及電腦,徹底沉迷遊戲,這是多數父母最頭痛的階段。

第四階段(現在,16歲): 進入了一種「全新」的境界。


為了測試他現在的定力,這星期我故意做了一個極端的實驗:我每天刻意在他面前不停地打機。

結果出乎意料,他完全視若無睹,繼續看他的書、溫習、做自己的事,連一眼都沒有看過來。

我終於忍不住,帶著好奇問他:「點解我唔見你打機嘅?」

兒子頭也不抬地回答:「因為我已經冇打機啦。」

我追問:「點樣可以忍住唔打?靠自制力?」


兒子頭也不抬地回答:「其實一開始,我將隻 Game 安裝咗喺同學部機度。」

這個操作讓我有點意外。他為了不讓自己隨時能玩,主動把誘惑轉移,變成要見到同學才能打機。

「咁後來呢?」我問。

「後來有一日,我突然㩒咗刪除,永遠 Del 咗,之後就再冇裝過。」


他放下書,給了我一個非常清醒的答案:「自制力係會用完㗎。 當你眼瞓或者攰嗰陣,就根本冇自制力可言。永遠唔好迷信你可以控制到自己。」

我問:「咁應該點做?」

兒子:「直接刪除隻 Game。」

我故意挑戰他:「好難喎,點捨得?」

兒子冷笑了一聲,說出一句極度殘酷的真理:「覺得難?咁你繼續打囉。

我再問:「但係刪咗都可以裝返㗎嘛,係咪?」

接下來,他講出了一段堪稱「頂級系統設計師」的邏輯:

「安裝一隻遊戲要十分鐘,但刪除只需要一秒,你話邊樣容易啲?當我想打機嘅衝動出現時,我需要等十分鐘下載。只要喺這十分鐘內,我有任何一秒鐘後悔,按取消,我就裝唔成。 既然刪除咁容易,點解唔一開始就做咗先?」


聽完他的解釋,我陷入了長久的思考。

我們這代父母,在面對孩子沉迷遊戲時,最常說的一句話就是:「你可不可以有點自制力?」我們將「戒除壞習慣」視為一場道德與意志力的考驗。孩子做不到,我們就覺得他懶惰、不上進。

但兒子那句「自制力是會用完的」,直接點出了心理學上的「自我耗損(Ego Depletion)」。大腦是一台極度節能的機器,當你學習了一整天,意志力早已見底,這時大腦自然會尋求最廉價、最容易取得的多巴胺——也就是手機遊戲。

他用來對付大腦的武器,不是死忍,而是《原子習慣》裡提到的核心法則:增加壞習慣的摩擦力(Make it difficult)。


一秒鐘的決策: 刪除遊戲,只需要在理智尚存的那一秒鐘按下確認。這是一個「一次性」的系統設定。


• 空間隔離:這招非常高明。他沒有一開始就要求自己徹底戒斷,而是把觸發器(Trigger)移出自己的物理空間。當打機變得麻煩(需要找同學),多巴胺的即時反饋被切斷,遊戲對他的大腦控制力就開始減弱。


十分鐘的等待: 當脆弱的時刻來臨,大腦想要多巴胺時,他為自己設置了一道高達「十分鐘」的物理圍牆。在這漫長的下載等待期裡,衝動會冷卻,理智會回歸。



他把戰場轉移了。他不再跟自己的慾望硬碰硬,而是利用「麻煩」來阻擊慾望。


不要再對著沉迷遊戲的孩子大吼「控制你自己」。如果連成年人都無法抗拒演算法的誘惑,憑什麼要求一個前額葉還沒發育完全的青少年靠「死忍」控制?


教他們認識大腦的弱點,承認意志力的不可靠。然後,幫他們在環境中加上一點摩擦力。有時候,做到或做不到,不是多強大的意志,而只是那多出來的十分鐘而已。




2026年4月19日星期日

表達與記憶

今天與兒子傾計:如何讓表達更清楚、記憶更牢固?從「先講結果」到「連成網絡」

今天我和兒子聊天,主要談「表達能力」和「記憶應用」。

我先分享一個自己想了很久才真正明白的知識或事件,一定要講到他完全聽懂,然後輪到他試試看。

聊完之後,我們得出一個簡單卻很有用的結論:

最好的表達方式,是先講結果或實際應用,然後再慢慢解釋背後的知識和原理,最後再舉一反三,把這個知識點擴展成一個網絡,套用到其他事情上。

因為這個話題,我們很自然地轉到「記憶」和「學習」上,討論為什麼有些知識點很容易忘,又怎樣才能記得更牢。

我先用一個 AI 生成的例子來解釋,兒子聽得很有興趣。


從一張圖開始:記憶是怎麼從「一堆點」變成「活的網絡」的

最近我用 Graphify 在 Obsidian 裡生成了這樣一張圖(見下圖):


中央是 Nassim Nicholas Taleb(塔雷伯),周圍有許多小點,點與點之間用線連接。有些地方線很密集,像一團彩色的煙火;有些地方線比較稀疏,像星星散落在夜空。

這張圖不是隨便畫的,它代表了一個「知識記憶系統」。

簡單來說:記憶不是把東西堆在一起,而是把每一個想法都連接起來。連結越多、越緊密,記憶就越牢固,越容易想起來,也越容易產生新的想法。

這讓我想起小時候背書:單獨死背一個英文單字很容易忘,但如果把它放進句子、故事,或跟其他字連起來,就記得特別牢。AI 的記憶也是同樣道理。


在我們平常的學習中,這種「點連成網」的想法其實很常見

準備 IB Diploma(國際文憑課程)或 SAT 考試時,大家應該都有過這種感覺:

•  單純死背一個歷史事件、一個英文單字、或一個科學概念,考完很容易就忘。

•  但如果把這個事件跟其他歷史時期連起來、把單字跟相似的詞根或例句連起來、把概念跟日常生活或別的科目連起來,就記得特別牢,而且考試時還能靈活運用。

這就是「記憶越連越牢固」的道理。

在 IB 的 TOK(Theory of Knowledge)課,老師特別強調「connections」(連結)和跨學科思考,鼓勵學生畫 mind map 或 concept map,把不同想法像星星一樣連起來。IB 還很喜歡把歷史、文學、經濟、科學等科目互相連結,這樣理解才會更深、更完整。

SAT 的閱讀和寫作部分,也特別考「在上下文中理解詞彙」和「把不同段落的想法連起來」。只死背單字列表很容易卡住,但如果習慣把新知識連成小網絡,閱讀和寫作都會順暢很多。

學習記憶可以從四個不同緯度(維度)去思考,由淺入深:

1.  點(Point)
就是單獨的一個知識點,例如記住「黑天鵝事件」這個詞。這是最基礎,但如果只有點,記了很容易忘。

2.  列(List / Chain)
把點排成一條線,形成順序或故事。例如把「黑天鵝事件」跟「反脆弱」的概念連成因果鏈:看到黑天鵝 → 理解不確定性 → 學會反脆弱。這就像背歷史時間線,或寫作文時的邏輯順序。

3.  圖(Graph / Network)
把點與點交叉連結,形成一個網絡。這正是 Graphify 這張圖在做的事:Taleb 的想法不只跟「黑天鵝」連,還跟經濟、心理學、生活經驗、其他哲學家等連起來。連結越密,記憶越強,也越容易產生新洞見。就像 IB 的 concept map,或 SAT 閱讀時把文章不同段落連在一起。

4.  層(Layer / Hierarchy)
把記憶分成不同層級,像大腦一樣有深有淺,並且會自動調整。有些是短期即時用的,有些是常用核心知識,有些是海量資料庫。重要的東西會自動「升級」到核心層,不常用的會「降級」到外層,記憶就會永遠保持整潔又靈活。

這四個緯度由淺入深:從孤立的點,到線性的列,再到立體的圖,最後到有生命力的層。越往後走,記憶就越不容易忘,也越容易被我們使用。


【加碼章節:從種子到森林——年幼孩子的「演算法大腦」初啟蒙】

如果你的孩子還小,還沒到準備 IB 或研究 Obsidian 的年紀,我們同樣可以利用這套「點、列、圖、層」的邏輯來訓練他們的表達與記憶。重點在於「將抽象變為玩具」。

1. 表達的「電影預告片」法則(先講結果)

幼兒應用: 當孩子想講一件學校發生的事時,他們往往會從頭講起,講很久都講不到重點。

做法: 玩「預告片遊戲」。要求他先用一句話講出「最開心/最驚訝」的事(結果),然後再講過程。  

口訣: 「先講大獎,再講故事。」

2. 記憶的「樂高連結」遊戲(點連成網)

幼兒應用: 記住一個新單字(點)沒用,要讓他像樂高積木一樣「咔」一聲扣住另一個東西。

做法: 玩「為什麼連在一起?」遊戲。

• 給他兩個無關的東西:例如「蘋果」和「雨傘」。

• 讓他編一個連結:例如「下雨時,我撐著雨傘去摘蘋果」。

底層邏輯: 這就是簡易版的 Graph / Network。連結越荒謬,大腦的「掛鉤」就越牢固。  

3. 表達的「漢堡包結構」(從列到層)

幼兒應用: 訓練邏輯順序(List / Chain)。  

做法: 畫一個漢堡包。

上層麵包: 我想說什麼?(結果)

中間的肉與菜: 發生了什麼事?(細節/原因)

下層麵包: 感覺怎麼樣?(總結)

進階: 當孩子長大一點,我們可以教他「加料」,這就是在練習 Hierarchy(層級),區分哪些是主要資訊,哪些是裝飾細節。  

4. 整理房間即是「管理記憶」(層級化訓練)

幼兒應用: 讓孩子參與玩具分類,這其實是最好的 Layer / Hierarchy 訓練。  

做法: * 常用層: 每天玩的車車放在最容易拿到的地方。

存檔層: 偶爾玩的積木放在箱子裡。

教育意義: 讓他明白,「整理物理空間」就是在練習「整理大腦空間」


這些遊戲不需要複雜工具,只需要你的陪伴、紙筆和一點創意。每次 5–10 分鐘,保持開心,孩子就會自然養成「連接思考」的習慣,表達更清楚,記憶更持久。


我把這四個緯度應用到 AI 記憶系統

2026 年 4 月 16 日,arXiv 上剛好出了幾篇重要論文,講的就是 AI 要怎麼建立真正有用、會成長的記憶。我把這些理論直接套用到我的 Obsidian 筆記庫和CLI 裡,變成以下四個實踐做法:

1.  效用優先的記憶修剪(對應「點」的精煉)
只保留未來真正會用到的資訊,不什麼都記。每次對話結束,AI 會自己問:「這件事在未來 30 天內會再被用到嗎?」

2.  技能即記憶(對應「列」的自動化)
把成功的步驟變成可重用的「技能」。以後不用每次從頭想,直接執行整條流程,就像把「列」變成自動播放的影片。

3.  認知快取 + 知識圖譜(對應「圖」的全局連結)
讓 Graphify 產生的網絡圖變成 AI 的「地圖」。需要找東西時,先看全局,再精準找到目標,大幅節省時間。

4.  層級化動態演化(對應「層」的自動調整)
記憶分成三層:即時對話、核心常用知識、全量筆記庫。重要的自動升級,不常用的自動降級,讓記憶自己「整理房間」。

將這些理論應用到 Obsidian + CLI 體系中,我的 AI 助手就不再只是「執行者」,而是慢慢進化成「進化體」。


小結


無論是教年幼孩子、準備 IB / SAT,還是打造 AI 記憶系統,核心道理都一樣:不要只記孤立的點,要把知識連成網絡、排成故事、分成層級,讓它變得有生命力

當孩子學會像 AI 一樣管理自己的記憶,他就不再是被動的儲存器,而是具備自我迭代能力的進化體。




Related Posts Plugin for WordPress, Blogger...