Skip to main content

AI 时代如何思考:90 分钟速成课

6 种纪律 · 6 种 AI 失败模式 · 1 条规则


周一早上,两个人打开同一个 AI 工具。任务完全相同:判断公司应该招聘一位高级战略负责人,还是把同样的钱投入到许可证、基础设施和设计时间中,构建一支能增强每位现有顾问能力的 AI workforce。两个人都能使用 Claude、ChatGPT 和 Gemini,也都有同样一周时间做决定。

A 到周五拿出了一份能 defend 的建议:她记录了自己接受和拒绝过的每一条关键主张,并写清楚了 3 个会让她改变路线的信号。这种材料,董事会可以拿来追问。B 到周五也有一份漂亮 memo,但它大体只是复述 AI 在周一给出的分析。当 CFO 问「为什么第 4 段会落在这个结论上」时,她答不上来。

同样的工具,同样的问题,不同的结果。差别不在于她们 prompt 了哪一个模型,不在于用了哪些功能,也不在于用了哪些 prompt-engineering 技巧。差别是认知上的:A 在打开 AI 之前先形成了自己的位置;B 从第一段听起来合理的 AI 文字里继承了一个位置。

这门速成课要补上的就是这个差距。六种纪律,三个短部分,不写代码。每一种纪律都针对 AI 在无人监督时的一种独立失败方式。合在一起,它们把 AI 从 oracle 变成 partner:不是你问、它答、你接受,而是你先预测、它回答、你比较、你决定。

前置要求。 本页假设你已经完成 2026 年 AI Prompting。那门课教的是机制:context、reasoning modes、deep research、多模态、AI desktop apps。本课教的是让这些机制产生回报的纪律。现在在另一个标签页打开 Claude、ChatGPT 或 Gemini 的免费账号;后面的练习会用到。


一句话论点

交付物从来不是答案。交付物是记录下来的思考证据。

核心要点(五条)

下面五条是本页的地图,不是本页本身。把它们当作地图阅读;把下面的六种纪律当作地形阅读。这五条告诉你要做什么;下面的纪律告诉你怎样在真实工作中做到,而不是退回到 2023 年开始使用 prompting 以来的旧习惯。

  1. 先预测,再提问。 一旦读过 AI 的答案,你就无法「取消阅读」。第一段听起来合理的文字,会占据原本属于你自己立场的位置。在打开任何工具之前,先封存诊断、排序后的问题、预测答案和信心。
  2. receipt 才是交付物。 对每一条「如果错了会改变你的建议」的 AI 主张,记录 ACCEPT、REJECT、MODIFY、SURFACED 或 MISSED,并用一句话说明原因。空 receipt 或全是 ACCEPT 的 receipt,说明真正的思考没有发生。
  3. 流畅文字不等于准确文字。 AI 对错都会显得自信。六类错误常藏在最 polished 的输出里。转发、发布或行动之前,按名字逐类扫描。
  4. 一阶答案永远不是完整答案。 AI 会优化可见变量,却忽略刚刚被它扰动的另外三个变量。任何值得开会讨论的决定,都要画 cascade map。至少找出一个 feedback loop。坚持机制,不接受标签。
  5. 协作是第三条路。 单人做,输在速度;只靠 AI,输在原创性。协作两者都赢,但前提是你负责决定性的推理,AI 负责繁琐劳动。把这个分工倒过来,你就成了问题和答案之间的中间人。中间人会被自动化。

第六种纪律 First Principles,以及贯穿前五条的练习脚手架,是把这张清单落实到真实工作的方式。

六种纪律与六种 AI 失败模式配对,并分成三条弧线。第一部分 Foundations 建立姿态:Prediction Lock、Reasoning Receipt。第二部分 Detection 捕捉 AI 漏掉的内容:Error Taxonomy、Thinking in Systems。第三部分 Origination 做 AI 做不到的事:First Principles、Working WITH AI。每一部分都为下一部分打基础。横幅写着:在六种纪律之下,交付物都是记录下来的思考证据。 图 1:六种纪律对应六种 AI 失败模式,并排成三条弧线。Detection 需要 Foundations;Origination 同时需要前两者。


为什么这些纪律事后看起来都很显然

读完上面的五条,大多数人的反应会是半耸肩:当然。prompt 前先预测。记录自己的判断。检查错误。追踪二阶影响。找到共识失效的边界。不要直接接受,要协作。这些都不是新想法。Lindy Effect 说的正是这个:认知类想法如果看起来很古老,通常是因为它已经被前几代思考者反复测试过。先预测再提问,是一条有 400 年历史的 courtroom rule。Reasoning receipt,是编辑一直以来阅读草稿的方式。Cascade map,是系统工程二年级的内容。First principles,可以追到亚里士多德。

2026 年变化的不是这些纪律,而是跳过它们的代价。过去 polished output 很贵,瓶颈是 production:你真的能把东西做出来吗?AI 让 polished output 变得几乎免费。任何一个 12 岁孩子,有免费账号就能写出一份看起来完成了的 memo。瓶颈转移到了 evaluation:你能判断这个东西对不对吗?一个自信但错误的 AI 分析,比没有分析更危险,因为它看起来已经完成。下面这些纪律不再是可选的好习惯,而是让你的 judgment 对别人可见的地方;judgment 也是 AI 唯一无法伪造的东西。

Lindy 观点的另一半是:工具每 6 个月变一次,思考不会。那些把整个 2023 工作流建在某个 AI 产品上的团队,基本都在 2024 年重建一次,2025 年又重建一次,因为模型发布不断改写表层能力。产品之下的技能,会在产品失去优势时继续保值。押注能长期存在的东西。


阅读路径

根据你今天可用的时间,有三种读法:

  • 30 分钟尝鲜(第一次读,或只有一杯咖啡时间):读纪律 1、2、3 和 6。这四个覆盖最重要的变化:prompt 前先预测、边工作边记录 verdict、按六类错误扫描 AI 输出、停止把 AI 当 oracle。纪律 2(Reasoning Receipt)很短,但很关键。跳过它,你会得到一个在会议室里无法 defend 的 Prediction Lock。等你在真实工作中感到差异后,再单独回来读纪律 4 和 5。
  • 90 分钟核心阅读(推荐的标准路径):按顺序读完六种纪律。阅读每个 worked example。本周每种纪律至少做一次 practice callout。可跳过可选的 Blank Page Sprint 扩展。
  • 完整阅读加实践(约 2 小时,再加一周真实应用):读完整页,并把每个练习都用在接下来 7 天你真正面对的决定上。这条路径会真正塑造直觉。第一次做 Prediction Lock 时,你预测的答案会含糊或错误。这正是重点。你的预测和 AI 答案之间的差距,就是 calibration 发生的地方。

选择与你本周匹配的路径。纪律之所以会留下来,是因为你把它用于真实问题,而不是只读过一次。


Part 1:Foundations(姿态)

后面所有内容都建立在两个习惯之上。如果你跳过其他所有小节,也不要跳过这两个。2026 年 AI 的第一种失败模式:它会很乐意替你思考。它会在你形成自己的位置之前,先递给你一个听起来完成了的答案。第二种失败模式:第一版太早显得完成。AI 的 polished look 像 completeness,于是你还没有评价就发出去了。纪律 1(Prediction Lock)是打开 AI 之前的姿态;纪律 2(Reasoning Receipt)是与 AI 工作时产出的 artifact。两者共同保证 judgment 留在人身上,而模型负责重活。第二、第三部分都默认你已经有了这两个基础。

Discipline 1:Prediction Lock

你问 AI 一个重要问题。答案回来得又快又顺。你点头,把它转发出去,或者照着做。两天后有人问你为什么这样选,你才意识到,那是 AI 的答案。下面没有你自己的答案。

修复方法就是便签上的四行。三分钟。打开 AI 之前。做起来比解释起来简单,所以先用别人的决定走一遍。

Maya 13 岁。学校刚发邮件:暑期只能选一条路线。辩论营(两周,朋友都去)或 coding bootcamp(一周,她好奇但有点紧张)。爸爸在她肩后读邮件,说:「直接问 ChatGPT,它会知道。」

站到 Maya 的位置。在她发送问题之前,替她写四行。

第 1 步:用一句话写清楚,这个决定真正关于什么?

如果你写的是「选辩论还是选编程」,再来一次。那是标签,不是决定。真正的决定,是标签隐藏的东西。可能是:她是跟着朋友走,还是选自己一个人也会选的事;或者是:她更会后悔错过 coding,还是错过 debate;又或者:她的好奇心是否足够让她跨过紧张。选最接近的一句。写原因,不写话题。

第 2 步:哪个问题的答案能解决最大的一块?

Maya 不能什么都问 ChatGPT。哪个问题的答案会真的帮她缩小选择?

如果你写的是「哪个更好」,再来一次。问题必须指向具体东西:数字、名称、测量、事实。「这个 bootcamp 会用 Python 吗?」就是具体问题。她学校 9 年级本来就教 Python,所以答案会改变选择。为 Maya 写下你的一个问题。

第 3 步:你猜答案是什么?

要具体,不要「看情况」。如果问题是「会不会用 Python」,你的猜测就是会或不会。如果问题是「9 月还会有几个朋友亲近」,你的猜测就是一个数字,比如「大约一半」。

如果你猜不出来,说明问题太宽。缩窄它,或换一个。写下你的猜测。

第 4 步:你有多确定,什么会让 Maya 改变想法?

给一个百分比。60%、75%,数值本身不重要。重要的是给出数字这个动作。然后写出一个具体的反转条件:「70%。如果 bootcamp 教的是学校已经会教的内容,就选辩论,因为她在其他地方得不到辩论。」

如果说不出反转条件,你其实没有位置,只有希望。重写第 3 步,直到第 4 步里有真实内容。


Maya 的便签现在是这样:

真正发生的事: 她是在跟朋友走,还是在选择自己独处时也会选的事。 问题: Bootcamp 会教 Python 吗(学校 9 年级已经会教)? 猜测: 会。 确定度和反转条件: 70%。如果 bootcamp 教的是学校不会教的内容,就选辩论。

现在 她才把一个问题发给 ChatGPT。实际 prompt 如下:

My school's summer program runs a one-week coding bootcamp. I'm trying
to figure out one thing: will it teach Python? My school already teaches
Python in 9th grade, so I want to know if there's overlap. Just answer
the question. Don't recommend which camp I should pick.

注意,她没有问「我该选哪个」。她问了第 2 步的具体问题,并加了一句让 AI 不要替她做决定。这就是动作。

ChatGPT 回答说:「大多数面向中学生的一周 coding bootcamp,会在前两三天覆盖 Python 基础。」Maya 把这个答案和便签放在一起。她的猜测(会)和 AI 的答案(会)一致。lock 起作用了:bootcamp 多半会重复她 9 年级本来就会学到的内容。她选辩论。晚饭时爸爸问为什么,她有自己的理由,不是 ChatGPT 的模糊建议。

这四行就是 Prediction Lock。在 AI 自信的答案占据你脑中原本属于自己答案的位置之前,先花三分钟写下来。一旦读过那个答案,你就无法取消阅读。你甚至无法知道自己原本会怎么想。你只会在两天后发现,自己说不清为什么那样决定。你吸收了 AI 的答案,却没有赢得自己的答案。

两条流程对比。没有 lock:问题到 AI 答案,到「听起来合理」的同意,到继承来的位置。有 lock:问题到封存的预测,到 AI 答案,到比较后决定。 先写预测,否则就等于不写。

更高风险的场景也一样。一位银行经理要决定是否关闭两家亏损网点。她写下四行:「网点亏损是因为客户转向 mobile。那些网点的存款中,有多少比例属于 mobile-only 客户?猜测:70% 以上。60% 确定;低于 50%,关闭逻辑就崩了。」然后她才问 AI。AI 给出的数字是 45%。她的猜测错了,但问题是对的。她的数字和 AI 的数字之间的差距,成了她带进董事会 memo 的开头。

Maya 的四行和银行经理的四行,表面上完全不同,实际是同一个动作。

现在轮到你

你不需要提交自己的真实决定。刚才替 Maya 写的四行就是真练习;如果一时想不到别的,可以直接粘贴那四行。如果你愿意拿自己的生活做练习,可以用这些常见场景:你犹豫过的 $50 以上购买、两个都想参加但只能选一个的活动、一直回避的一次谈话、一门课或一项承诺。

无论哪种方式:写四行。然后,如果你真的想问 AI,可以用这个模板(和 Maya 的结构相同):

I'm trying to decide [your situation in 1-2 sentences].

My specific question is: [your Step 2 question].

Just answer that one question. Don't make the decision for me.

不要先偷看 AI 的答案。下面的 AI 只评价你四行的 FORM:你的「真正发生的事」是否指出原因而不是标签;问题是否真的缩小选项;猜测是否具体到可能出错;反转条件是否给你真实出口。它不评价你的决定对不对。第一次尝试会比 Maya 的例子更乱。这是作业,不是失败。

1Your Work

AI 会检查这些:

  1. 你的「真正发生的事」是在命名原因,还是只写了标签? 1–10 分。引用我作业中决定评分的部分。
  2. 如果你的问题得到回答,是否真的会缩小真实选项? 1–10 分。指出同一情境下另一个可能原因,而我的问题无法把它区分出来。

不要重写我的作业。如果字段为空或模糊,直接说明。第一次尝试乱一点可以,但不要奉承,也不要打击。

你的「真正发生的事」(原因,不是标签):

你的一个问题(能解决最大一块的问题):

你的猜测(具体,不要模糊):

你有多确定,什么会让你反转:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次大约 8 分钟。用 AI 反馈最有价值的方式:找出一个你不同意它的地方。你的 judgment 就住在那里。

这是纪律的一半。另一半是,在对话推进时记录哪些 AI 主张被你接受、拒绝或修改。那是纪律 2。

为什么有效(短版)

在咨询外部来源之前先写下猜测,比 AI 早了几十年。Gary Klein 把工作场景中的版本称为 project premortem:项目开始前,想象它已经失败,并先写下失败原因。Phil Tetlock 的 forecasting 研究表明,校准能力是在答案出现之前记录预测时改善的,而不是答案出现之后。Tversky 和 Kahneman 关于 anchoring 的研究也说明,一旦一个自信答案占据原本属于你自己的位置,你就无法知道自己原本会怎么想。

Prediction Lock 就是这三件事在 AI 场景下的版本。

完整练习版本(10 个排序问题加 Reasoning Receipt 模板,45–60 分钟)在 Part 0 Chapter 1, Lesson 1。本页教动作;那一页把它做成系统。

Discipline 2:Reasoning Receipt

你花了一上午用 Claude 迭代一份真实文档。输出很干净。你把它放进 slides,开完会,然后继续下一件事。两周后的复盘会上,老板问:「哪些部分是你真正 push back 过的?」你突然想不起来。你扫了一遍,接受了,发出去了。交付物通过了,思考没有。

修复方法是:与 AI 工作时,把它提出的每一条 decisive 主张记录下来,并给出五种 verdict 之一。如果某条主张一旦错误就会改变你的建议,它就是 decisive。

Verdict含义一句话说明
ACCEPT原样采用这条主张你为什么信它(来源、过往经验)
REJECT放弃这条主张哪个证据压过了它
MODIFY使用修改后的版本你改了什么,为什么改
SURFACEDAI 提出了你没考虑到但保留的点它为什么重要
MISSED你提出了 AI 没抓到的点AI 漏了什么,为什么重要

这份日志叫 Reasoning Receipt。真实文档里,receipt 会随着对话逐行增长。下面练习中,你一次性给 5 条主张做 receipt。

Reasoning receipt 的结构:五列标注每个关键判断。Decision、AI 的主张、Verdict(ACCEPT、REJECT、MODIFY、SURFACED、MISSED 之一)、Why、Confidence change。每一行记录人类对一条 AI 输出做出的一个决定。 receipt 一行一个决定。verdict 说明你做了什么;why 说明未来读者(包括未来的你)为什么该相信它。

真实工作中的样子。

一位产品负责人让 Claude 为新功能写 launch plan。Claude 返回了 3 页干净计划。她没有直接放进文档,而是打开并排视图,逐条阅读那些如果错误会改变计划的主张,并建立 receipt:

AI 的主张VerdictWhy
「发布页只放一个清晰动作(一个按钮),能让最多用户行动。」ACCEPT与最近三次发布一致;一个清晰动作的页面每次都赢过两个动作。
「先从前 10% 用户开始,包括付费客户。」REJECT付费客户最不愿忍受 bug;如果发布有问题,会直接烧掉信任。
「周二上午发发布公告。」MODIFY周二可以,上午不行。这个 segment 的 engagement window 是周二 6–8pm。
「这个功能与竞品 3 月发布有重叠;要以差异化开场。」SURFACED我之前没有比较竞品发布时间。差异化 framing 更好。
(AI 没提新功能对 paid-tier pricing 的影响。)MISSED我补了一条:发布前必须做 pricing review,否则等于把折扣送给老客户。

她把 receipt 和 launch plan 一起发出。两周后 CEO 问为什么 rollout 跳过付费 cohort。她指向第 2 行,对话 90 秒结束。没有 receipt,就会变成 30 分钟的自我防御,因为她无法重建自己当时到底判断了什么。

没有 receipt 的同一个人会产出这个:

AI 的主张VerdictWhy
「发布页只放一个清晰动作。」ACCEPT听起来对。
「从前 10% 用户开始,包括付费客户。」ACCEPT听起来对。
「周二上午发公告。」ACCEPT听起来对。
「用差异化对比竞品。」ACCEPT听起来对。
(没有记录)

连续 5 个 ACCEPT 只说明两种可能:AI 每件事都对(罕见),或者 receipt 没有真正工作。全 ACCEPT 的 receipt 和没有 receipt 是一回事。写下每个 why 的摩擦,就是纪律。如果写不出真实 why,你并没有接受这条主张,而是继承了它。

自己试一次

你是一家 60 人软件公司的产品负责人(面向中型销售团队的销售跟踪工具,年收入约 $12M,每年增长 30%)。这次功能是重做 reporting layer,头部客户已经要求了 6 个月。当前版本有 2 个小边界场景 bug,影响约 4% 账户。最近的竞品上周刚发布了类似功能。你问 AI:「我们现在发布,还是再等两周测试?」AI 返回 5 条建议。请对每条做 receipt,使用五种 verdict 之一,并写一句 why。

  1. 「现在发布。产品还新的时候,最重要的是先到市场。」
  2. 「等两周可能错过新闻窗口,因为竞品上周已经发布。」
  3. 「你们最近三次发布的数据说明,bug 都在第 1–3 周浮现,所以多两周测试也抓不到。」
  4. 「发布后第一周,客户支持负载通常会上升 40%。」
  5. 「工程师在 firefighting launch 时,交付速度会慢约 15%。」

(如果你不做软件,把表面替换成你本周真正做的决定:AI 给了你 5 条关键主张,你就 receipt 那 5 条。)

1Your Work

AI 会检查这些:

  1. 你是否为每个 verdict 写了真实 why,还是只写了「听起来对」? 1–10 分。引用我 receipt 中最弱的 why。
  2. 是否至少有一个 REJECT 或 MODIFY,并至少有一个 SURFACED 或 MISSED? 如果全是 ACCEPT,receipt 没有工作。1–10 分。若全 ACCEPT,请直接说明。

不要重写我的内容。不要按性格打分。字段为空或模糊,就直接说。

Claim 1(「现在发布,先到市场最重要」):

Claim 2(「等两周可能错过新闻窗口」):

Claim 3(「数据说明 bug 在第 1–3 周浮现」):

Claim 4(「客户支持负载通常上升 40%」):

Claim 5(「工程师 firefighting 时慢 15%」)或你自己的 MISSED 行:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次 10–15 分钟,之后会更快。用反馈最有价值的方式:找一行你写了「听起来对」但没有真的赢得它的地方。那一行,就是你差点用自己的名字发出别人推理的地方。把那一行重新 receipt 一遍,练习成本就已经回来了。

这一步能逐条抓住 decisive claims。它还抓不到每条主张内部隐藏的技术错误:编造引用、过期事实、虚假自信。这是纪律 3。

想看一个强样本?(提交自己的之后再打开)

同一个「现在发布还是等两周」场景,一个读者写了这样的 receipt:

ClaimVerdictWhy
1REJECT先到市场只在产品高度可替代时最重要;我们的买家处在受监管工作里,对 bug 的惩罚比对慢的惩罚更重。
2MODIFY竞品发布的是相关功能,不是同一个功能;差异化比新闻窗口重要,而且窗口已经过去。
3ACCEPT与最近三次发布一致:紧急修复几乎都发生在第 1–3 周,第 4–6 周很少。
4SURFACED我只按 20% 支持负载增加做预算,不是 40%;支持团队只有 1.5 周人员缓冲,这对我构成真实风险。
5MISSEDAI 没提出再等两周会撞上最大客户年度计划锁定窗口;那才是真限制。

好的地方:只有一个 ACCEPT,而且背后有真实证据。两个 why 引用内部数据,而不是感觉。MISSED 行捕捉到 AI 不可能知道的约束。最终决定可能仍是「等」,但理由已经从「多测试」变成「客户锁定窗口」,这在会议室里更可 defend。

如果你想看这一步背后的认知科学(点击展开)

receipt 比 AI 早得多。Donald Schön 的 reflective practitioner,是在工作发生时留下决策轨迹,以便之后能 defend。Chris Argyris 的 double-loop learning,强调不只修正错误,还要暴露底层模型。全 ACCEPT receipt 最多只是 single-loop。写下每个 why 的摩擦,会强迫第二层循环出现。Make It Stick 和 retrieval-practice 研究则说明,用自己的话写下「为什么重要」会显著改善长期记忆。Reasoning Receipt 就是在自己的决策上做 retrieval practice。

深入学习: Part 0 Chapter 1: Asking Better Questions。完整版本是 10 行 receipt 加 Contradiction Challenge,45–60 分钟。本页教动作;那章把它变成高风险 AI 对话里的习惯。


Part 2:Detection(抓住 AI 漏掉的东西)

Foundations 给了你姿态。Detection 训练的是模式识别:抓住 AI 持续漏掉的东西。这里有两种主要失败模式。第一,AI 无论对错都会显得自信,而且大多数错误藏在最专业的段落里。第二,AI 会优化可见变量,却忽略刚刚被它扰动的三个变量。纪律 3(Error Taxonomy)是针对流畅文字的命名分类扫描,在发出前找到六类具体错误。纪律 4(Thinking in Systems)是面对任何值得开会讨论的决定时画出的 cascade map,用来找到 AI 没追踪到的二阶影响。

Discipline 3:Error Taxonomy

你知道这个陷阱。把真实文档粘进 Claude 或 ChatGPT,答案 polished、fluent,你像读自己的文字那样阅读:看整体意思,看论证形状。它很顺。你点头。错误就藏在全稿最专业的段落里,正是你的眼睛因为「没什么不对」而滑过去的地方。三天后它发布了,那一个编造数字,或那个不存在的引用,成了读者最先抓住的东西。

修复方法是:不要按「感觉」读,而是按名字逐类扫描 AI 输出。六种错误类型,每一种都有一个先看哪里的问题。

错误类型看起来像什么先看哪里
Factual error可证明为假的具体主张:数字、日期、名字、引用、API 方法任何带具体数字的句子,尤其是小数。精确会制造研究感。
Logical gap结论并没有从前提中推出「evidence」和「therefore」之间。把 therefore 括起来,问:真的推出了吗,还是我自己补了缺失的一步?
False confidence不确定信息用确定语气说出最流畅的段落。hedging(may、could)说明 AI 知道自己站在薄冰上;争议话题上没有 hedge 才是红旗。
Missing context漏掉一个会改变分析的关键因素你的 subject-matter expert 第一反应会问的东西。你会问「等一下,考虑 X 了吗?」AI 大概率没考虑。
Fabricated source不存在的引用、库函数或 API,或存在但没有说 AI 声称的内容每条引用、每个 quoted statistic、每个外部函数调用。转发或运行前先验证。
Stale fact曾经是真的,但现在不是真的任何有时间敏感性的东西:价格、领导层、法律、API 版本、工具自身能力。

真实文档里,按名字逐类扫。下面练习先做两个命名扫描(Factual 和 Fabricated Source),让你感到这个动作;完整六行 pass 见示例。

一段听起来很自信的 AI 文字,上面叠加六种错误类型标注:Factual、Logical Gap、False Confidence、Missing Context、Fabricated Source、Stale Fact。 六类错误不会主动暴露自己。它们藏在最专业的段落里,所以按名字扫描胜过凭感觉阅读。

真实生活中的样子。

一位家长在买可靠的二手车。看中了一辆 2021 Honda CR-V。开车一小时去看车前,他让 Claude 先检查,把 listing、照片和自己修车师傅的备注都粘进去。Claude 给出干净自信的总结:里程低、历史干净、发动机强、还有 rebate 可拿。读起来很好,他差点就转给伴侣,说「就买这辆」。但他先做了六行扫描。

错误类型写稿里发现的东西Verdict
Factual error写着「odometer 32,000 miles」,但仪表盘照片清楚显示 58,000,差了 26,000 miles。抓住。按照片修正。
Logical gap写着「事故记录干净,因此没有机械问题」。事故记录干净并不能说明发动机没问题。抓住。clean history 不是 clean engine。
False confidence写着「这台发动机至少还能无故障跑 200,000 miles」。没有 likely,没有依据。抓住。改成「保养得当时,很多 CR-V 寿命很长」。
Missing context完全没提 timing belt,而 60,000 miles 左右就要换,师傅已经提醒过。抓住。把 belt 放到首要检查项。
Fabricated source写着「Consumer Reports 2026 年 3 月可靠性期刊说它是最可靠小型 SUV」。查不到这条。抓住。删除引用。
Stale fact写着「仍符合 dealer $1,000 loyalty rebate」。电话确认后发现上个月结束了。抓住。从价格计算中删除。

一个短 write-up 触发了 6 类中的 5 类。最容易漏的是假的 Consumer Reports 句子,因为它听起来非常像评论员会说的话。家长最后带着真实里程、belt 问题和真实价格去看车,用事实谈判。差点转发的版本,会给伴侣一个错误价格、漏掉的维修项和一本从没写过那句话的杂志引用。

自己试一次

你这个周末要买二手车。卖家已经有另一个买家,所以没有几天可想。你让 AI 比较 shortlist 上两辆车并推荐。它写了下面这段。请按六类错误逐名扫描,先从 Factual 和 Fabricated Source 开始,填下面的表。

应该买哪辆?

选 2020 Toyota Corolla。Corolla combined mpg 是 47,所以油费会比同尺寸多数车低很多。根据 CarReliability Index 2026 排名,Corolla 评分 9.4/10,是同级第一。2019 Honda Civic 也不错。Civic 里程更低,因此如果你想少遇到意外,它是更可靠的选择。

两辆车都能再跑 10 年且不发生 major repair,所以可以按价格、颜色和感觉选。两辆车仍符合 $2,000 state clean-vehicle rebate,实际成本会很好看。无论如何,你买到的都是可靠车。

1Your Work

AI 会检查这些:

  1. 你是在按名字扫描,还是先凭感觉读完再贴标签? 1–10 分。引用我表格中决定评分的那一行。真正的命名扫描,每一行都有 verdict,包括「已主动扫描,未发现」。
  2. 你引用的句子是否真会影响买哪辆车,还是只抓了容易抓的句子? 1–10 分。若我引用的不是最关键句,指出同一段里更强的候选。

不要重写我的作业。不要按写作风格评分。某一行空白且没有「已主动扫描,未发现」,请直接说明。

你的六行扫描表(每行引用 AI 的原句;只有主动扫描后未发现,才可写「已主动扫描,未发现」):

每行信心(每类 1–10 分,并写一句原因):

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次 8–15 分钟,之后更快。用反馈最有价值的方式:找一个 AI 不同意你扫描的地方。那个分歧,就是下一轮 judgment 建立的地方。

你刚做的是抓住当前输出里的局部错误。它还抓不到你的输出会在下游触发的二阶影响:建议落地后的士气冲击、政策发布后客户行为变化、成本节约导致服务质量下降又导致客户流失的循环。这就是 cascade map,纪律 4。

想看一个强样本?(提交自己的之后再打开)
错误类型AI 原句为什么触发
Factual error「Corolla gets 47 mpg combined。」这是可查数字;真实 combined rating 约 33 mpg。
Logical gap「Civic has lower mileage, therefore it is the more reliable choice。」低里程有帮助,但不能单独证明更可靠;therefore 没有被证明。
False confidence「Either car will run for another decade without a major repair。」对二手车未来做无条件承诺,是把猜测装成事实。
Missing context文本中完全没提 2019 Civic model-year 有 open airbag recall。Missing context 正是页面上没有的东西;安全召回应在购买前命名。
Fabricated source「According to the CarReliability Index 2026 rankings……」具体、自信、但来源不存在。
Stale fact「Both still qualify for the $2,000 state clean-vehicle rebate。」曾经可能为真,但该 rebate 已在 2025 年结束。
如果你想看这一步背后的认知科学(点击展开)

taxonomy 是对更老研究的一种 2026 应用:为什么自信流畅的文字会降低审查。Alter 和 Oppenheimer 关于 processing fluency 的综述说明,容易处理的信息会被判断为更可信,独立于真实准确性。Kahneman 的 cognitive ease 也是同一机制。Nate Silver 强调 confidence 和 calibration 是两回事。Gigerenzer 的 calibration 工作则说明,被迫明确判断并之后核对,能改善校准。Error Taxonomy 就是在 AI 输出上做这种强制判断。

深入学习: Part 0 Chapter 2: Detecting Broken Reasoning。完整版本包括 8 类 taxonomy、双 AI cross-check、prediction-vs-actual calibration,60–75 分钟。

Discipline 4:Thinking in Systems

**一句话版:**当你询问某个决定时,多数 AI 工具会给出一串 effects。它们漏掉的是 feedback loops:后果绕回来,放大或抵消原决定。Cascade Map 会跨多个 stakeholder group 追踪后果,并要求你在发出干净答案前至少命名一个 loop。

你知道这个陷阱。你让 AI 分析 staffing change,得到三个 bullet 和清晰建议。当天就发出去了。

三个月后,隔壁团队士气崩了,两个客户开始绕过你们小组,那个默默接下被转移工作的经理 burn out。领导问发生了什么,你解释不出来。一阶答案是对的。二阶影响吃掉了它。三阶影响还留在房间里。

修复方法:第一次 20 分钟,以后 10 分钟。任何值得开会讨论的决定,在打开 AI 前先画五条线。

  1. 中心写决定。 一句话,不含糊。不要写「考虑涨价」,要写「下季度起,新合同 list price 上调 18%」。
  2. 五个 domain 向外发散。 Employees、customers、competitors、regulators、internal knowledge。每个 domain 一条分支。
  3. 每个 domain 追三层「然后呢?」 一阶影响,然后该影响的后果,再然后那个后果的后果。
  4. 至少命名一个 feedback loop。 找到一个下游影响绕回来改变原决定的地方。写机制,不写标签。不要写「客户离开」,要写「客户离开,因为新的 automated tier 无法让他们在 10 秒内接触到真人,而他们上一家 provider 可以」。
  5. 只有地图变乱时才结束。 如果它很整齐,说明停得太早。多数战略灾难都是没人画出来的 loops。

这个图叫 Cascade Map。重点不是预测未来,而是拒绝发出过于干净的答案。

AI 会优化你问的变量,却不会自然推理那个变量扰动的另外三个变量。人类容易漏掉 breadth(旁边第二个 domain、没命名的 stakeholder);AI 容易漏掉 loops(6 个月后绕回来撤销收益的 feedback)。盲点互补,所以先自己画图,再让 AI stress-test 分支。

Cascade map。中心一个决定。五个 domain 向外发散(employees、customers、competitors、regulators、internal knowledge)。三层同心的「然后呢」二阶影响。一个 feedback loop 被圈出,显示两个 domain 如何互相强化。 五个 domain,三层后果,一个命名 feedback loop。乱不是 bug,而是功能。

真实工作中的样子。

一位城市规划师有 6 周时间,建议是否在市中心商业走廊 2.3 miles 上增加 protected bike lanes。一阶论证很干净:bike lanes 让更多人骑车少开车、降低排放、减少骑行者受伤。该走廊 cyclist-injury rate 是全市平均的 2 倍。倡导联盟有组织也有耐心。AI 很愉快地验证了这个 case。

转发 memo 前,她画了 cascade map。中心决定:安装 protected bike lanes;每个方向移除一条机动车道;移除 40% curbside parking。五个 domain 追三层。多数二阶影响可预期:骑行者开心,司机不满,部分停车位转移。第三层让建议真正打开。

改变 memo 的 loop 是:走廊商家周末 visitor revenue 下滑,导致 local tax base 收缩,进而带来 council pressure;下一轮政策被削弱,原本更多人骑车少开车的收益被侵蚀,最后让下一个走廊的 case 也失败。而做这条走廊,本来就是为了赢下后面 10 条。

她没有杀掉项目,而是加入 12 个月 loading-zone trial、保证 bus-stop redesign budget、季度 revenue threshold(持续下降超过 15% 触发 revisit),以及和 transit agency 的 bus-stop access 书面协议。这个版本在 council 以 7–2 通过。干净的 AI 版本没有这些条款。

Domain1st-order2nd-order3rd-order
EmployeesPublic-works 重画路缘Parking enforcement 预算上升以处理 loading conflicts公交司机因 buses 无法顺利靠站而申诉
Customers骑行者获得 protected route送货司机 double-park 到 bike lane走廊商家周末收入下降,3 家威胁搬迁
Competitors相邻走廊保持 car-friendly该走廊争取受威胁商家18 个月内 tax base 转移到邻区
Regulators适用 state transport-grant 条款Disability-access review 标出 bus-stop curb cuts必要修复让时间线延后 6 个月并增加成本
Internal knowledge旧的 driving-vs-cycling shift 研究已有 3 年假设过期,周末 traffic pattern 已改变规划部门无法 defend forecast,除非刷新数据

命名 loop: corridor revenue loss → tax-base reduction → council pressure → 下次 session policy weakened → cycling-vs-driving gains erode → defenders lose the case for the next corridor。这个 loop 是建议长出牙齿的原因。

自己试一次

你是一家 200 人 HR 软件公司的 revenue 负责人(年收入约 $32M;280 个客户,前 20 个贡献 55% 收入;平均合同期 18 个月;平均销售周期 11 周;上季度现有客户 spending 同比多约 8%)。下季度,领导层想对所有新合同把 sticker price 提高 18%,并把销售可给折扣从 0–30% 缩到 0–15%。你是 decision-recommender。周四 leadership read-out 前,先 cascade 这个 pricing change。五个 domain 直接适用:salespeople(目前 quota attainment 74%)、未来 6 个月要续约的 existing customers、两个 named competitors、top accounts 的 buying teams、以及你们自己的 sales materials。

1Your Work

AI 会检查这些:

  1. 你的地图是否五个 domain 宽、三层深,并且每个连接都有机制而不是标签? 1–10 分。指出最薄的 domain 和其中一个漏掉的具体 effect。
  2. 你的 feedback loop 是否是真 loop,并用因果句写清机制? 1–10 分。如果只是标签,请指出并提出一个你没命名的额外 loop,写出机制。

不要替我重画地图。不要按风格评分。字段为空或模糊,就直接说。

你的 cascade map(中心决定,然后 5 个 domain x 3 层;粗略文本即可,但结构要可见):

你的 feedback loop,用一句因果句写出(不要只写标签):

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次 15–20 分钟。Cascade map 会比 Prediction Lock 更长,因为价值在混乱的中间层。前几次「然后呢?」会显得勉强,第四第五次通常才出现真正重要的三阶影响。熟练后,完整 map 8–12 分钟可完成。

你刚做的是 stress-test 已有计划的二阶和三阶影响。它还没有质疑这个计划是否建立在正确假设上。

一个建立在错误 premise 上、但画得很完美的 cascade plan,仍然会撞墙,只是撞得更晚,文档更好。这是纪律 5。

想看一个强样本?(提交自己的之后再打开)

中心决定: Q3 起新合同 sticker price 提高 18%;salespeople 可提供的折扣层级从 7 个减少到 4 个。

Domain1st-order2nd-order3rd-order
Salespeople季中 quota math 变难salespeople 集中追折扣审批更快的小单大客户新线索放慢,deal mix 在没人决定的情况下漂向小客户
Renewal customersrenewal price 被拿来对比新 sticker pricebuying teams 重开 3 个 top accounts 的 best-price-guarantee 条款两个最大账户谈出多年 freeze,锁在新 sticker price 之下
CompetitorsCompetitor A 不动,Competitor B 降价抢Competitor B 直接 outreach top 50 prospectscompetitive deals win rate 下滑 8–12 pts
Buying teams审批流程新增 finance gatedeal cycle 平均延长 11–18 天Q3 forecast 仅因周期滑移就 miss
Sales materials旧 pricing sheets 仍在 sales-tracking tools 中salespeople 过渡期 2–3 周引用旧价一些合同按旧价签出,legal 需要决定 honor 还是 renegotiate

**命名 loop:**新 sticker price 下的 sales-target pressure 推动旗舰 deal 更深一次性折扣;这些折扣通过 buying teams 的 reference checks 泄漏到 renewal expectations;真实成交价被压回 sticker price 以下;headline 18% 涨价最后只体现为 4–6% 实收涨幅;明年再做 pricing review 时,团队已失去 credibility。

如果你想看这一步背后的认知科学(点击展开)

先画决定再咨询分析师,是系统思维中的老动作。Cascade Map 站在两条传统交汇处:stakeholder breadth(Meadows、Sterman)和 feedback-loop depth(Forrester)。五个 domain 强制 breadth;命名 loop 强制 depth。Meadows 的核心提醒是:系统中的高杠杆点通常不是管理者盯着的变量,而是 feedback loops 和 governing rules。你无法干预一个没有命名的 loop。

深入学习: Part 0 Chapter 3: Thinking in Systems。完整版本包括 peer review、AI counter-analysis 和 assessment rubric,60 分钟。


Part 3:Origination(做 AI 做不到的事)

Foundations 给了你姿态。Detection 训练你抓住 AI 漏掉的东西。Origination 是第三条弧线,回答另一个问题:哪些工作必须由你来做,因为 AI 结构上做不到?这里有两种失败模式。第一是 consensus drift:AI 把训练数据中的平均答案交回来,你没测试它是否适合自己的具体情况就发出去了。第二是 oracle reflex:你开始把 judgment 外包给一个没有 judgment 的工具。纪律 5 和 6 关闭这两个缺口。

这个部分有一个短语会反复出现:named threshold。named threshold 是一个数字、计数、具体状态或命名条件,用来告诉你某条建议何时停止为真。「当团队规模低于 20 名工程师」就是 named threshold。「有时候」不是。记住这个词,马上会用到。

Discipline 5:First Principles

你经营一家服务单一行业的软件公司。三个竞争对手在一个季度内刚涨价 12%。董事会、三位投资人中的两位、财务负责人都推同一条线:跟随涨价,拿到 margin,搭上风。你在咖啡时问另一个 CEO 朋友,他也这么说。你打开 Claude 问,summary 也同意。聊了五天,所有信号都指向同一个方向。

这个 convergence 就是失败模式。共识在发挥作用:把你拉向显而易见的答案。而这个显而易见的答案,可能只适用于别人公司的别的市场。AI 是合唱里最后也是最响的声音,因为它平均了所有写过 pricing strategy 的人。它无法告诉你,这首合唱何时不再适用于你的情况。

动作很简单。看一位 SaaS founder 第一次试着写 boundary:「有时候 competitive set 是一个糟糕的涨价理由。」这是 gripe。它用「有时候」来反对,却不说什么时候。他回去追踪自己情境真正不同的地方,改写成:「当竞争对手是对成本冲击作出反应,而我们已经提前保护自己(去年锁定了多年 infrastructure contract,所以成本没变)时,跟随涨价会发出一个我们并不具备的 weakness signal。」改写后,threshold 是 locked contract 的存在,机制是 signaling,并指向一个共识看不见的决定。这个从 gripe 到 threshold 的差距,就是整条纪律。

修复方法:选一个别人不断让你遵循的共识。写三行。每行命名一个共识失效的具体条件,并把它追溯到带 named threshold 的机制。如果写不出三行 threshold,你一直是在跟随一个自己并不理解的共识。

你正在检查的共识它在什么 named threshold 下失效

有 threshold 的行是 boundary;没有 threshold 的行只是 gripe。gripe 改变不了决定,threshold 可以。

中心是一个被广泛接受的 best practice,周围有三个带标签的 boundary cases,说明这个 practice 会在什么具体条件下悄悄失效。 每个共识都有边界。练习会有意沿着边界走,在坏决定先撞上它之前。

完整输出的样子。

上面的 SaaS founder 不是一次就写出三行完美 boundary。大约 90 分钟修改后,他得到这张表:

共识:「Always match competitor price hikes。」
Boundary 1. 当增长的真实限制是留住现有客户而不是赢新客户时,每一个 price hike 后离开的客户百分点,在 long-term value 上造成的损失都可能超过涨价收回的收益。named threshold:新的 data-portability rules 让 switching 比过去十年都更容易。
Boundary 2. 当竞争对手是对成本冲击作出反应,而你已经锁定多年 infrastructure contract、成本没动时,跟随涨价会发出一个并不存在的 weakness signal。named threshold:locked contract 的存在。
Boundary 3. 当竞争对手正在合并整合时,hold price 是 positioning move,可以把客户从竞争对手 renewal lists 上拉走,且几乎没有 acquisition cost。named threshold:competitor-renewal window(约 90 天)。

他把三个 boundary 带到董事会。他们没有涨价。六个月后,现有客户 spending 同比高约 4 个百分点,并且他们几乎零成本拿下了 3 个竞争对手 renewal list 上的账户。三条 boundary 都没有出现在共识 brief 中,也没有出现在 AI 的第一版 summary 中。

自己试一次

你是一家 35 人专业服务公司的 COO(精品战略咨询;12 位 senior consultants,时薪 $350–$450;3 位 partners;年收入 $14M;4 个 active practice areas)。一个关键岗位已经空了 5 个月:高级顾问,负责第 5 个 practice area,聚焦 hands-on AI-assisted delivery,预计第 18 个月可新增约 $3M 年收入。两个 paper 上很强的候选人本周要接受其他 offer。整个 leadership team 都把「hire slow, fire fast」当作显然正确。你的任务:在周五 leadership meeting 前,走一遍这条共识的 boundary,写三行。

开始前的 threshold checklist。 threshold 是数字、计数、具体状态或命名条件。「有时候」「经常」「看情况」都不是 threshold。

本练习的硬规则:如果第三行写不出来,说明你选的共识是一个你一直在跟随但没有理解的共识。不要硬凑第三行,换一个共识。这本身就是发现。

1Your Work

AI 会检查这些:

  1. 每行是否命名了 threshold(数字、计数、状态或具体条件)? 1–10 分。引用最弱行的 threshold,或指出缺失的行。
  2. 每行是 principle-based,还是把某个公司故事伪装成规则? 1–10 分。标出任何只是 gripe 而不是 boundary 的行。

不要重写我的行。不要按性格评分。字段为空或模糊,就直接说。

我正在检查的共识 practice(一句话):

Boundary row 1(具体条件 + named threshold + mechanism):

Boundary row 2:

Boundary row 3:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次 15–25 分钟,比 D1 慢,因为 threshold 很难。用反馈最有价值的方式:找一行写了「有时候」或「看情况」的地方,把它改成具体 threshold。那个改写,就是纪律所在。如果改不出来,那一行很可能不是 boundary,应该删掉或替换。

你刚做的是找单个 practice 的边界。它还没有帮助你在一个没有明显共识可挑战的问题上与 AI 协作。这是纪律 6。

想看一个强样本?(提交自己的之后再打开)
共识:「Hire slow, fire fast。」
Boundary 1. 在 founder-led 小团队中(named threshold:约 40 人以下),「slow」hiring 会悄悄变成「no」hiring,因为 founder 是每个循环的瓶颈。每增加一轮 interview 都在吃掉本该用于 shipping 的 founder time。
Boundary 2. 当岗位空缺时间超过两个 replacement cycles(named threshold:4+ 个月),更多「slow」不再是谨慎,而是谨慎的表象。缺失岗位的工作每周堆积,团队背上 fast-firing 无法修复的债务。
Boundary 3. 在高信任服务市场(named threshold:客户平均 tenure 24+ 个月),「fast firing」会撕裂客户买下的信任关系。客户买这家公司,部分是为了与其中的人共事;快速轮换 senior staff 会破坏隐性资产。
如果你想看这一步背后的认知科学(点击展开)

沿着共识边界走,比 AI 早得多。Gigerenzer 关于 ecological rationality 的框架,把每个 heuristic 或 best practice 看作只有在特定环境中才准确的工具。Klein 的 Recognition-Primed Decision 模型说明,专家会先匹配第一个 plausible script 并行动;Defend the Opposite 就是在这个 pattern-match 之前故意打断。Popper 的 falsifiability 给了更窄的动作:一个主张只有在你能说出放弃条件时,才有操作价值。named-threshold 列就是让边界可说。

深入学习: Part 0 Chapter 4: Reasoning from First Principles。完整版本包括 Blank Page Sprint、结构化 AI counter-analysis 和 peer review,60 分钟。

Discipline 6:Working WITH AI

你花了一上午用 Claude 迭代 strategy memo。输出 polished,framing 紧,数字对齐。然后 CEO 从你肩后读到一半,问:「为什么你落在这里,而不是另一个选项?」你张口,才发现自己无法把 judgment 和模型分开。有些句子是你的,有些是模型的,多数已经混在一起。memo 很好,但你不知道哪些部分自己能 defend。

修复方法:对一份值得 board meeting 的真实 memo,用限时约束把同一任务跑三遍,然后并排阅读。

  1. Solo。 45 分钟,不用 AI。只有你和问题。
  2. AI-only。 20 分钟。你 prompt,AI 回答,你不编辑,接受第一版。
  3. Collaborative。 30 分钟。你 prompt、evaluate、push back、override、iterate。AI 是会 push back 的 partner,不是 oracle。

按四个轴评价每个 draft:depth、breadth、originality、time-to-value。collaborative 版本通常赢,但只有当你能指出让它赢的具体 overrides 时,这个赢才有用。这就是 Three-Path Comparison。锁定它,因为 comparison 才是诊断,不是 drafts 本身。

真实 board memo 上,完整 95 分钟 comparison 就是纪律。下面练习提供 10 分钟 on-ramp(3 分钟 Solo、2 分钟 AI-only、5 分钟 Collaborative,写一封短 email),让你今天就能感到差异。

通往同一任务的三条平行路径。Path A Solo human,45 分钟,深但窄。Path B AI-only,20 分钟,宽但浅。Path C Human-AI collaborative,30 分钟,结合两者优势。右侧显示每条路径的 judgment 在哪里赢。 比较让你看见自己的 judgment 哪里不可替代。没有 side-by-side,你分不清自己是在协作还是投降。

真实工作中的样子。

一位医疗诊所 owner 经营 14-provider primary-care group,需要写一份两页 memo,向 partners 提议与最大 regional insurer 转向一种按保持患者健康付费、而不是按 visit 付费的合同。三年收入影响、文化成分、运营 lift 都会触碰每位 clinician。发送前,她决定测试自己的 collaboration posture,于是同一任务跑三遍。

Solo,45 分钟。她写出了一份基于自己最熟悉 operational risks 的 memo。具体、防御性强、诚实。但最强的财务点被埋在第二页,也没有回应那位过去两年公开反对支付方式改变的 partner。

AI-only,20 分钟。她把 brief 给模型,第一版不改。draft polished、结构清晰,以泛泛的「为患者健康付费的好处」开场,和上一季度 3 家竞争诊所用过的 framing 几乎一样。没有点名 partner,没有市场特定风险,读起来像 industry brochure。

Collaborative,30 分钟。她自己写结构论证,命名 3 个支撑 memo 的财务假设,并要求模型从反对 partner 的角度提出最强 counter-argument。模型提出一个她没预料到的 objection,她重写 memo 正面回应。她还让模型写 executive summary;模型版弱化了 ask,所以她重写那段,因为 ask 才是重点。memo 通过了,两位 partner 改变立场。反对 partner 后来发来的书面 objection,memo 第一页已经回应。collaborative draft 赢了,但赢在她对财务假设和 partner-specific counter-argument 的 overrides,而不是模型的 prose。

一个从未比较三条路径的人,只会写 Collaborative version,并失去这些:

失去什么为什么失败
无法命名自己的 judgment 做了什么没有 Solo 和 AI-only baseline,每个句子都感觉同样属于自己。CEO 的「为什么落在这里」无从回答。
无法证明 Collaborative draft 确实更好「感觉更好」不是 defense。4-axis side-by-side 才是证据。
无法发现自己何时滑入 oracle-mode从内部看,投降和协作很像。AI-only draft 是诊断:如果它和 Collaborative 过于接近,你过度接受了。

这条纪律适合谁。 用在 AI 不如你的工作上:judgment calls、novel problems、依赖模型没有的 context 的决定。routine work 上,如果 AI 已经和你一样好或更好,跑这条纪律就是浪费。要知道眼前是哪类工作,本身就是技能的一部分。

自己试一次

你是一家 400 人软件公司的 VP of Strategy(年收入约 $72M,中型企业数据分析产品,盈利,profit margin 12%)。CEO 要你给 executive team 写一页 memo,建议是否收购一家小竞争对手 Forsight(90 人,年收入约 $11M,直到上季度都以 60% YoY 增长,但刚失去最大客户;该客户占 Forsight 收入 22%)。Forsight 据说愿意以 $40–$55M 被收购。memo 会进入 board pre-read。你的建议未来 3 年都会被引用回来。

你的建议是什么,你怎么知道?

如果 acquisition strategy 不是你的工作,就换成你本周真实桌面上的一个短 memo 或 email。on-ramp 版本:选一封你今天本来会用 AI 起草的 200 字以内 email。Solo 3 分钟,AI-only 2 分钟,Collaborative 5 分钟。三版并排。重点不是 email,而是感到差异。

不要跳过 AI-only draft。 它最容易被跳过,也是最有诊断价值的一版。如果你的 Collaborative 和 AI-only 过于接近,你过度接受了。只有两版都写出来,你才知道。

1Your Work

AI 会检查这些:

  1. 三条 path summary 描述的是三个不同 draft,还是同一 draft 的三种说法? 1–10 分。分别引用每个 summary 中决定评分的一句。如果 Solo 和 Collaborative 近似,请直接说。
  2. 三个 overrides 是否具体到去掉任意一个都会明显削弱 Collaborative draft? 1–10 分。逐个说明如果没有这个 override,draft 会变成什么样。若某个 override 只是「我加了更多细节」,请直接指出。

不要重写我的作业。不要奉承 human-edited version。字段为空或模糊,就一句话说明。

你的三条 path summaries(每条一个段落,说明你写了什么、什么让你意外、哪里不足):

你的三个关键 overrides(命名 Collaborative draft 中由你的 judgment 承重的 3 个具体位置):

你实际会发哪一版,为什么:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

10 分钟 on-ramp 加 reflection 大约 15–20 分钟。完整 95 分钟版本适合本周真正高风险工作。用反馈最有价值的方式:找 AI 认为 Solo draft 在某个维度更强的地方。那说明你的 overrides 还没有承重。若 AI 找不出,push 它更严;若能找出,你就知道 collaboration posture 哪里还软。

你刚做的是整门速成课的缩影。你先于 AI 形成位置(D1),记录每条主张的 verdict(D2),扫描输出中的 fabrications(D3),追踪建议的二阶影响(D4),测试共识 framing 的边界(D5),并在模型想滑向 oracle mode 时把 judgment 留在人身上(D6)。交付物从来不是答案。交付物是记录下来的思考证据,而你现在有六种能按需产生这种证据的纪律。

想看一个强样本?(提交自己的之后再打开)
PathSummary
Solo (45 min)建议不收购。customer-concentration risk 很强(目标公司一夜之间失去 38% revenue),但 integration thesis 弱:没有说清 acquirer 的 product team 到底会拿 engineering hires 做什么。建议埋在第一页最后一行。
AI-only (20 min)建议 structured acquisition with earn-out triggers。polished,但含有 CEO 在最近 all-hands 批评过的两个短语(strategic optionality、tuck-in upside),也没有处理目标客户集中在 acquirer 没有 presence 的一个 region 这一点。
Collaborative (30 min)建议不收购,但提出 60-day pause-and-license deal:雇用 talent + license technology,以 15% 成本获得 70% strategic value。pause-and-license framing 来自模型;60-day window 和 license carve-out 是用户 overrides;开头直接 recommendation 是用户写的。

三个关键 overrides:拒绝模型的 strategic optionality framing;补入 geographic-concentration point;用 60-day pause-and-license deal 替换三年 earn-out。每个 override 都来自模型没有的 context。

如果你想看这一步背后的认知科学(点击展开)

Collaboration posture 不是新理论。Kasparov 在 Deep Blue 后提出 advanced chess:人加 engine 的组合,在人做 positional calls 时能击败单独的人或机器。Brynjolfsson 等 2025 年关于客服公司的研究显示,生成式 AI 平均提升生产率 14%,收益主要集中在经验较少者身上;经验丰富者收益较小,因为模型建议更接近他们本来会写的内容。Noy 和 Zhang 对专业写作任务的实验也显示,AI 提高平均质量,但压缩质量差异。没有 selective override,AI-assisted output 会回归到 competent mean。Three-Path Comparison 就是让 override 变得可见的最简单 forcing function。

完整练习版本(95 分钟 three-path comparison、peer review、XP tracking、完整 collaboration-style diagnosis)在 Part 0 Chapter 6: Working WITH AI, Not For AI。本页教动作;那页把它建成一周的工作方式。


综合练习:一个决定,六种纪律

一家 12 人咨询公司在财年结束前有 $180,000 可花。CEO 看到两个选项。Option A:招聘一位 senior strategy lead,这是 partner-track hire,会负责一两个大客户并 mentoring bench。Option B:把同样的 $180,000 投入到 licenses、infrastructure 和 design time,构建一支增强现有每位 consultant 的 AI workforce,让现有 11 个人做出更多工作。两个选项都能 defense。两位董事支持 hire,两位支持 AI workforce,第五位未决定。CEO 下周四要带着 recommendation 和 reasoning 走进 board meeting。她有 5 个 business days。下面是六种纪律在这 5 天里的样子。

Discipline 1,Prediction Lock。 打开任何 AI tool 之前,拉取任何 vendor pitch 之前,CEO 在自己的页面上写四行 lock。Diagnosis:公司增长的真实限制,是每位 consultant 能完成多少工作,不是 consultant 数量。三个 diagnostic questions,每个都有预测答案和 confidence number:Option B 是否真的帮助现有 11 人做出更多工作(预测:6 人会,5 人不会,confidence 55%)?Option A 是否覆盖 B 无法覆盖的 account-level gap(预测:是,针对一个具体账户,confidence 70%)?如果每项支出表现不佳,18 个月内能收回多少钱(预测:B 更 recoverable,confidence 65%)?她给页面打时间戳。不打开 Claude,不打开 ChatGPT。先 lock prediction。

Discipline 2,Reasoning Receipt。 接下来两天,她用 Claude 和 ChatGPT 跑这个决定,请它们做 vendor comparison,拉 peer-firm benchmark,读两份 analyst notes。每条 decisive claim 进入五列 receipt。AI 说 AI-workforce option 让 consultants 生产率提高 22%;她标 MODIFY,因为 cited study 覆盖的是比她公司大 3 倍的 firms。她对 gain size 的信心下降,但对 direction 的信心保留。AI 说 senior hire 需要 9 个月 ramp up;她标 SURFACED,因为自己之前一直假设 6 个月,receipt 抓住了她的乐观。周三上午 receipt 有 14 行。空 receipt 说明她吸收了共识;14 行说明她仍然拥有决定。

Discipline 3,Error Taxonomy。 她对每份 vendor pitch 和 AI summary 做六行 error scan。AI-workforce vendor 的 ROI deck 有两个 False Confidence flags、一个 Stale Fact、一个 Fabricated Source。recruiter 的 senior-hire pitch 有一个 Logical Gap 和一个 Missing Context。错误没有杀掉任何选项,但重新排序了她脑中的 option costs。

Discipline 4,Thinking in Systems。 她把两个选项跨五个 domain cascade。Employees:A 传达投资于人,B 传达投资于流程;bench 对两者的读取不同。Customers:A 接住一个 named account,B 让公司对现有 12 个客户显得更 capable。Competitors:A 对它们不可见,B 向两个 regional rivals 宣告公司的 bet。Regulators:B 有 client-data rules 下的数据处理影响,A 没有。Internal knowledge:A 把 senior judgment 集中在一个人身上,B 把它分散到大家使用的 tools 中。她圈出一个 feedback loop:在 Option B 下,最快掌握 tools 的 junior consultants 最可能离开,因为他们新增的产能会跟着他们走。这个 loop 改变了 option 的 risk profile。

Discipline 5,First Principles。 她写 500 字反驳「more senior staff equals more capacity」这个共识。Boundary 1:当真实限制是 work flow 而不是 winning new work 时,senior hire 只会把更多工作压到破流程上,而不是修复它。Boundary 2:当从 junior staff 身上拿到更多产出,是获得同样 hourly output 的低成本路径时,senior hire 未来四个季度的成本超过收益。Boundary 3:当公司 reputation 建在 leading with better tools 上时,senior hire 看起来像退回旧姿态。这个共识对另一类公司可能正确;她公司的限制是每个人能做多少,不是 seniority。

Discipline 6,Working WITH AI。 她把最终 recommendation 跑三遍。Solo:45 分钟写出一份 defending Option B 的 memo,但 cultural risk 较轻。AI-only:20 分钟得到一份 polished memo,在两个选项间折中,像 McKinsey brief。Collaborative:30 分钟,她自己写 structural argument,让模型从 historically favored hiring 的 partner 角度提出 Option A 的 strongest argument,并提出 3 个 guardrails 处理 Option B 的 cultural risk。模型提出两个她没考虑到的 guardrails。collaborative draft 是她带进 board 的版本。建议是 Option B,加 3 个 named guardrails 和 6-month checkpoint;如果 productivity 不动,触发 partial reversal。

董事会采纳 Option B,其中两个 guardrails 通过,第三个重新谈判。CEO 走出会议时,拥有一个每一行都能 defend 的决定。

注意这六种纪律做了什么。它们没有产出答案,而是产出 trail:可以比较的 prediction、partners 可 audit 的 receipt、重新排序 vendor pitches 的 error scan、浮现 retention loop 的 cascade map、打破 consensus framing 的 boundary list,以及找到 guardrails 的 three-path comparison。没有这六种纪律,同一个 CEO 周四会带着一页 memo 和一个无法推动的 split board 走进去。有了它们,她带进去的是一个董事会可以 stress-test 的决定,以及两季度后公司可以回看的 paper trail。交付物从来不是答案。交付物是记录下来的思考证据。

最后提醒:这些动作不适合什么。 最常见失败方式是过度应用:午饭吃什么也画 Cascade Map,每条内部 Slack message 都做 Reasoning Receipt,对已经决定的事做 Prediction Lock。只把它们留给值得开会的工作。其他时候,信任你多年建立的经验。


接下来去哪里

如果想深入练习六种纪律中的任何一种,本书 Part 0 有长篇处理:

本速成课没有覆盖的四种 thinking skills,Part 0 也有完整处理:

在本书中的下一步,选择一种 mode:

  • 如果你写代码,继续 Claude Code & OpenCode。这是 Mode 1 problem-solving 的工程表面。
  • 如果你做知识工作(legal、finance、marketing、operations、healthcare、education、leadership),继续 Cowork。这是 Mode 1 problem-solving 的 domain-expert 表面。
  • 如果你准备构建能自行运行的 AI Workers(Mode 2 manufacturing),继续 Build AI Agents

这些纪律可以迁移到每一种工具、每一种 mode、每一个 domain。它们是你从这里带到任何地方的东西。


交付物从来不是答案。交付物是记录下来的思考证据。

它让 AI 成为你手中更强大的工具,还是让你变成那个工具的慢速版本?