AI 时代如何思考：速成课

6 项修炼 · 6 种 AI 失效模式 · 1 条规则

周一早上，两个人打开同一个 AI 工具。任务相同：他们应该把预算花在雇一位有经验的人身上，还是用同样这笔钱购买能帮团队所有人更快完成工作的 AI 工具？两人都能用上 Claude、ChatGPT 和 Gemini。两人都有一周时间来决定。

A 在周五交出了一份她能讲清楚的明确建议。她写下了自己同意 AI 的哪些说法、对哪些提出了反驳，以及什么会让她改变主意。B 在周五交出了一份精致的文档，里面大部分只是重复周一 AI 告诉她的内容。当她的老板问「你为什么推荐这个？」时，她讲不出自己的推理。她只是转发了听起来不错的东西。

工具相同。问题相同。结果不同。

两条路径，同一个 AI 工具。A 先思考：在打开 AI 之前先形成自己的看法，读完 AI 的回答后加以比较，反驳了 3 处说法，写下什么会让她改变主意，周五时能讲清楚每个决定。B 先接受：打开 AI 就立刻提问，接受答案，润色措辞，转发文档，周五时讲不出自己为什么推荐这个。

差别在于思考。 A 在问 AI 之前先形成了自己的看法。B 让 AI 的第一个答案变成了她的看法。

这道鸿沟正是这门速成课要填平的。六个思考习惯，三个简短的部分，不涉及代码。每个习惯都针对 AI 在你让它替你思考时误导你的一种具体方式。它们合在一起，把 AI 从一台魔法答案机器（你问，它答，你接受）变成一个思考伙伴（你先预测，它回答，你比较，你决定）。

本课训练你抵抗的那股力量

B 并不懒，也不是粗心。她正被一种已经有名字的力量拉着走。

MIT Sloan 教授 Eric So 把它叫作 AI gravity：一种不断把更多思考外包给 AI 的拉力。简单说：每天，让 AI 替你思考都会更容易一点；停止自己思考也会更容易一点。

为什么叫 gravity？因为它像真实引力一样工作。你看不见它。它从不关闭。它一直拉着所有人，而且同时来自三个方向：

你的大脑想节省能量。 大脑会躲开困难工作，这很正常。但 AI 越聪明，把又一项任务交给它就越容易；先写自己的答案就越像可以跳过的额外工作。
你希望工作看起来像专家水平。 AI 几秒内就能写出像专家产出的文本。离开它工作，开始像只穿一只鞋比赛。
你看不见别人用了多少 AI。 同学和同事不会主动宣布。于是每个人都以为别人用得更多，没人想落后，竞赛会自己加速。

再看周一早上的 B。三股力量把她推向同一个简单动作：打开 AI，提问，接受。她甚至没有感觉自己做了决定。这就是 gravity well 从里面看起来的样子。

AI gravity well。顶部三张 force cards：你的大脑想节省能量，你希望工作看起来像专家水平，你看不见别人用了多少 AI。三支箭头弯进由圆环画出的 gravity well。底部站着 B，标签为 "asks first, accepts first"。边缘站着 A，标签为 "predicts, compares, decides"，由一根金色绳子拉住，绳子系在写着 "the six disciplines — counterweight, not abstinence" 的柱子上。 三股力量，一种拉力。A 面对同样的 gravity，差别在 counterweight。

这股拉力的代价。 MIT Media Lab 的研究者做过一项早期研究。参与者用 ChatGPT 帮忙写作文。刚交上去之后，100 人里有 83 人无法复述自己作文里的任何一句。文字从屏幕到了提交物，却没有经过写作者的大脑。研究仍是 preliminary，但警告很清楚。

Professor So 把丢失的东西叫作 cognitive capital。可以把它理解成你的思考肌肉：处理问题、识别错误答案、发现自信答案遗漏了什么的累积能力。本页每一项 discipline 都靠这块肌肉运转。

这股拉力的代价。左侧卡片写着 "AI's answer on the screen"，右侧卡片写着 "the submitted essay"。写作者站在中间。一支粗箭头 "copy, polish, forward" 从写作者头顶跳过。通向写作者的虚线被划掉，标签为 "never enters"。 文字从屏幕到了提交物，却没有经过写作者。

教师也从讲桌另一侧感到同样的拉力。2026 年 6 月，马德里 IE School of Science & Technology 的一位院长说，学校里 AI 的真正危险不是它写出更差的摘要，而是学生停止建立写摘要本来要建立的 mental muscle。她的建议很简单：继续做困难思考，再把 AI 加在上面。 (BusinessWorld, June 2026)

Professor So 还给出四种抵抗方式。你会认出它们，因为本页正是在练这些：

抵抗方式	本页在哪里练
继续自己做困难思考	练习，以及下面的 caution box
知道不用 AI 时你能做什么	Prediction Lock 和 Discipline 6 的 Solo path
把 AI 节省的时间花在更难的思考上	Part 3, Origination
把 AI 当 coach，而不是 answer machine	本页每个 AICheck 练习

本节不是在说少用 AI。六项 discipline 不是节食。它们是 counterweight。Gravity 只会赢过那些不再承受自身重量的东西。页面剩下部分讲的是你如何继续保持重量。

前置要求。 本页假设你已经学完前面的 Foundations 课程，尤其是帮助建立心智模型的 What AI Actually Is 和 2026 年的 AI 提示词。那门课教的是机制：如何给 AI 提供上下文，如何使用网络搜索和深度研究，如何处理图像和音频，以及如何使用 AI 桌面应用。这门课教的是让那些机制真正发挥作用的思考修炼。现在就在另一个标签页里用 Claude、ChatGPT 或 Gemini 开一个免费账号。你会在练习环节用到它。

关于 AI 模型的一点说明。 练习题包含由 AI 评分的反馈。它们配合强大的当前模型（处于最佳推理水平的 Claude、ChatGPT 或 Gemini）效果最好。较旧或较弱的模型往往不管你提交什么，都给出含糊或一味肯定的反馈。请使用你能用上的最好的模型。具体是哪个品牌并不重要；重要的是这个模型能否仔细推理。

📚 教学辅助

打开完整幻灯片

查看完整演示 —— 与 AI 一起思考

一句话规则

交付物永远不是答案。交付物是思考过程的书面证据。

把它当作两个论断来读。第一，交付物——你交给老板、教授或客户的那个东西——不再只是答案。AI 几秒钟就能产出一个精致的答案；产出答案不再是难点。第二，如今让一份交付物值得信赖的，是你如何思考的书面记录：你在问 AI 之前锁定的预测，你在某一行把 AI 的某个说法标为 REJECT 并说明原因的地方，以及你为追踪连锁反应而画的级联图（一张单页图，给你的决定所影响的每个群体——学生、教授、家长、赞助方——各设一个简短的列，每个列下面用三个箭头标出先发生什么、那又导致什么、之后又导致什么；修炼 4 会完整解释）。如果有人问「你为什么这么决定？」，你就指向证据。

实践中，证据通常就活在交付物内部——一个脚注、一段「考虑过并否决了」的话、一张作为插图的级联图，或者临近结尾处一句「什么会改变我的主意」。有时它活在交付物旁边的一份工作文档里。无论哪种方式，当有人问为什么时，你都能指给他看。如果你指不出任何东西，那你手里就是一个自己无法辩护的答案，而在 2026 年，那不算交付物。

聊天记录链接本身算证据吗？

有时算。一次聊天会话记录下 AI 说的一切和你问的一切，比任何推理回执都更完整。对于低风险的工作——调试代码、快速查资料、探索性的头脑风暴——单凭聊天链接往往就够了。但对于正式的交付物，聊天链接有三个局限：它显示 AI 说了什么，却不显示你对每个说法做了什么决定；它太长，忙碌的读者扫不过来；它也不显示 AI 错在哪里（那些被你抓住的地方活在你脑子里，不在记录里）。把聊天链接当作原始素材，就像一篇学术论文对待它的原始数据那样。推理回执或备忘录才是你交给受众的交付物；聊天链接则放进附录或脚注，供想核对的人查阅。

下面是这在实践中的样子。 回想开头的 A 和 B——同样的问题、同样的 AI、不同的结果。周五早上，他们的老板问两人：「你为什么推荐这个？」 B 没有任何东西可指。她转发那份 AI 帮她产出的文档，说它听起来没错。老板读了一遍，发现两个他不同意的说法，而此刻他没办法判断 B 究竟审视过这两个说法，还是只是接受了。A 则打开她的工作文档说：「我周一预测有经验的人选会是更好的选择。AI 的分析推翻了那个预测，下面是我改变主意的原因——我核查的三个说法、我否决的那一个，以及会让我的建议改回去的那个假设。」同样的问题。两段截然不同的对话。

证据现在、就在这份交付物里，给你买来了什么？ 两样东西。第一： 写的动作迫使思考真正发生。你没法在不先确定自己究竟相信什么的情况下写下一个具体的预测，也没法在不先解释原因的情况下把一个说法标为 REJECT。没有书写，思考就太容易被跳过——你读了 AI 那个精致的答案，它听起来没错，于是你把它当成自己的看法采纳了，从未先形成一个用来比较的立场。书写是你没法造假的那部分。第二： 书面记录是一件工作工具，不只是一份审计留痕。那位银行经理写下*「我的建议是关掉那些网点，因为我认为这些客户大多只用 App」*，又看到 AI 拿回数据显示只有 45% 的人只用 App，她不只是记录了一处分歧——她的立场与数据之间的那道差距，成了她报告的开场白和建议的主线。记录是第二遍思考发生的台面，而第二遍思考正是交付物真正变好的地方。

变的不是把东西写下来这个习惯。变的是跳过它的代价。 当精致的产出很昂贵时，难点在于做出那个东西。AI 让精致的产出变得免费。瓶颈从产出工作转移到了评估工作，而书面证据正是你做评估的方式。工具每六个月就变一次；这一点不会变。

要点（五条）

五种 AI 失效模式，与回应它们的五个习惯一一配对。第 1 行：AI 接管你的思考——先思考再提问，先写下你自己的答案。第 2 行：AI 不管对错听起来都一样好——保留一份书面记录，给每个说法标上接受、否决或修改。第 3 行：AI 即使出错也显得自信——按名称扫查错误，行动前逐一核查这六种类型。第 4 行：AI 给出一阶答案却忽略副作用——追踪接下来在每个受影响群体身上会发生什么。第 5 行：AI 想当你的神谕，而你的判断力在不知不觉中消退——和 AI 一起工作而不是替它打工，你来决定和思考，AI 负责调研和起草。第六个习惯，测试常见建议在哪里失效，出现在下面的完整章节里。

你刚学了那条规则。下面是本页其余部分要教的六个习惯中的五个——先看简短版，完整版在下面的章节里。要点告诉你做什么；章节告诉你怎么做。（第六个习惯，测试常见建议在哪里失效，需要的铺垫比一条要点能给的更多，所以单独成节。）

先思考，再问 AI。 在打开任何 AI 工具之前，先写下你认为答案是什么。为什么？因为你一旦读了 AI 的答案，它就会接管你的思考。如果 AI 说了听起来合理的话，你会在没意识到的情况下把它当成自己的看法采纳。先写下你自己的答案，能保护你独立的判断力。
保留一份记录，记下你接受了什么、否决了什么。 当 AI 给你说法或建议时，逐条过一遍并写下：我同意这个吗？我不同意吗？AI 漏掉什么重要的了吗？给每一条写一句话解释原因。如果你对 AI 说的一切都同意、没有反驳任何东西，那你大概思考得还不够。
精致的文字不等于正确的文字。 AI 总是显得自信而专业，即使它出错。有六种具体的错误藏在听起来顺滑的 AI 输出里（六种你都会在下面学到）。在你发送、发布或据此行动之前，按名称逐一核查每一种。
显而易见的答案从来不是完整的答案。 当 AI 分析一个决定时，它聚焦于你问的那件事，而忽略副作用。在任何重要决定之前，追踪接下来在不同的人和群体身上会发生什么。寻找副作用绕回来、把原决定抵消掉的地方。
最好的结果来自和 AI 一起工作，而不是把方向盘交给它。 单干很慢。让 AI 包办一切则产出泛泛的东西。制胜的做法：你来思考和决定，AI 来调研和起草。如果你把这个反过来（AI 思考，你只做编辑），你就变得可有可无了。只会传递 AI 答案的人，最终会被 AI 本身取代。

完整框架：六项修炼

上面五条要点是可用的摘要。下面是完整的架构：六项修炼，与它们各自回应的 AI 失效模式一一配对，分到三个部分里。

六项修炼与六种 AI 失效模式一一配对，分到三个部分里。第 1 部分「基础」奠定姿态：预测锁定、推理回执。第 2 部分「侦测」抓住 AI 漏掉的东西：错误分类法、系统思考。第 3 部分「原创」做 AI 做不到的事：第一性原理、与 AI 协作。每个部分都为下一个部分铺路。横幅写着：「在这六者之下，交付物是思考过程的书面证据。」 图 1：六项修炼对应六种 AI 失效模式，分到三个部分里。

三个部分按顺序进行。**第 1 部分「基础」**讲的是在问 AI 之前先思考——先采取你自己的立场，再追踪你对每个答案做的决定。**第 2 部分「侦测」**讲的是发现 AI 出错之处——埋在自信文字里的错误，以及它从不追踪的副作用。**第 3 部分「原创」**讲的是 AI 替你做不了的思考——找到常见建议失效的地方，并在 AI 想要接管时让你的判断力继续掌舵。每个部分都依赖于它前面的那个。

本页反复出现四个术语。 修炼是你练习的一个思考习惯——你做的事。失效模式是 AI 误导你的一种具体方式——AI做的事。每项修炼都与它所回应的失效模式一一配对（在图中每个修炼名称下方那行斜体字里标出）。课程的一个部分把共享同一项工作的修炼归在一起；一共三个部分（基础、侦测、原创），每个部分两项修炼，每个部分为下一个铺路。交付物是你交给老板、教授或客户的东西——在 2026 年，它是答案加上产出它的那份思考过程的书面证据（图底部的那条横幅）。

图中每个带编号的方框是一项修炼。底部那行小字是行动句——那项修炼要你采取的那个具体动作，写得能塞进一张便利贴。修炼的名称告诉你这个习惯叫什么；行动句告诉你实际要做什么。

从这里开始。第 1 部分的两项修炼，正是阻止 AI 替你思考的那两项。跳过它们，其余四项就没法发挥作用。

如何阅读本页

你有多少时间	读什么	跳过什么
45 分钟	习惯 1、2、3、6（只读，不做练习）	习惯 4 和 5（稍后再回来）
90 分钟	全部六个习惯 + 范例，只读	AICheck 提交
一个工作日（推荐）	全部内容，在你本周一个真实决定上跑每个练习	无

这些习惯在你拿本周真实问题来试时才会扎根。用 90 分钟读完本页让你看到这些动作。在真实决定上做练习，才是让它们成为你自己的方式。

这一页假设你已经会思考。它不教你怎么思考。

这里每一个习惯都需要一个能用来上手的东西。预测锁定要你先写下你自己的答案，但你只有在已经懂得足够多、能有一个答案时，才做得到。错误分类法要你认出一个假数字，但你只有在知道一个真的长什么样时，才认得出来。这些习惯用的是你的判断力。它们不培养它。

所以如果你还是个学生，别跳过那些苦活。自己写那篇摘要。不用 AI 解那套习题。是的，AI 能做得更快。但自己做才是让你的大脑变得够强、好在日后 AI 出错时抓住它的方式。如果你从不做苦活，你的预测锁定就只是一个猜测，AI 给一个答案，而你没有任何属于自己的东西来和它比较。那个习惯看起来在起作用，其实是空的。

简单的规则：用 AI 去拉伸一项你已经有的技能，而不是用它来跳过学这项技能。 一位有二十年经验的会计师可以很依赖 AI，因为他们已经知道一个好答案长什么样。一个从没动手做过的大一新生不能，至少现在还不能。

第 1 部分：基础（姿态，即你开始之前所采取的站位）

如果你跳过其他一切，也别跳过这两个习惯。 它们修正人们用 AI 时犯的两个最大错误：

错误 1：AI 替你思考。 你提一个问题，AI 给一个顺滑的答案，你还没形成自己的看法就接受了。习惯 1（预测锁定）修正这一点：你在打开 AI 之前先写下你的想法。
错误 2：AI 的初稿看起来已经完成了。 文字太精致，以至于你没核查它是否真的正确就发了出去。习惯 2（推理回执）修正这一点：你逐条过每个说法，写下你是同意、不同意，还是需要核实。

这两个习惯合在一起，让思考留在你这边、让打字留给 AI。第 2 和第 3 部分的一切都建立在它们之上。

修炼 1：预测锁定

目标只有一件事：在 AI 的答案到来之前，先有一个属于你自己的、写下来的立场。 下面的一切——那四行字、那张便利贴、那个置信百分比——都是为了让这一件事真正发生而存在的。如果你把四行都写了，却仍说不出打开 AI 之前你的立场是什么，那这项修炼就没起作用。如果你的立场清晰、而你用两行而不是四行就到达了，那这项修炼仍然起了作用。四行是配方，不是这道菜本身。

下面是没有锁定时通常会发生的事。你问 AI 一个重要问题。AI 给你一个自信、措辞讲究的答案。你想「这听起来没错」就照办了。两天后有人问「你为什么那么决定？」你才意识到：那是 AI 的答案，不是你的。你从未形成过自己的看法。

这个修正只需三分钟。 在打开 AI 之前，先在纸上写四行字。我们先在别人的决定上一起试一遍。

玛雅 13 岁。 她的学校发来邮件：选一个暑期活动。选项 1：辩论营（两周，她所有朋友都去）。选项 2：编程训练营（一周，她有点好奇但也有点紧张）。她爸爸说「直接问 ChatGPT 吧，它会知道的。」

在玛雅问 AI 之前，她写了四行：

预测锁定的四行字，配上玛雅填好的答案。左列显示每一行问的是什么。右列显示玛雅在辩论营与编程营之间这个决定上的答案。第 1 行（真正的决定）：跟着朋友走，还是选我独自一人时会选的？第 2 行（一锤定音的那个事实）：训练营教不教 Python——她学校九年级本来就教这门？第 3 行（你的决定，在问 AI 之前）：辩论，因为两周和朋友们一起学一样学校不提供的东西，胜过用一周重复明年的课程。第 4 行（置信度加上什么会让你翻盘）：70% 确定；如果训练营教 Rust、嵌入式或任何学校不教的东西，就转向编程。第 1 行和第 2 行用中性色显示，作为铺垫；第 3 行和第 4 行用珊瑚色，标出它们是这项修炼真正起作用的那两个承诺。 图：预测锁定的四行字，以玛雅的答案作为范例。

第 1 行：这个决定真正关乎的是什么？

不是「辩论还是编程」。那只是表面。底下真正的问题也许是：「我要做朋友们做的事，还是做没人盯着时我会选的事？」或者：「错过编程会比错过辩论更让我后悔吗？」用一句话写下真正的问题。

第 2 行：最能帮上忙的那一个事实是什么？

不是「哪个更好？」那太含糊。要一个你能核查的具体的东西：「编程训练营教 Python 吗？」这很重要，因为她学校九年级本来就教 Python。如果训练营教的是同样的东西，那两周编程大部分只是重复她反正都会学的内容。如果它教的是学校不涵盖的东西，那训练营提供的就是一项她在别处得不到的技能。

第 3 行：在 AI 发表意见之前，你的决定是什么？

采取一个立场。不是「看情况」。不是「我看看 AI 怎么说」。选辩论或选编程，并写下为什么。玛雅的推理：她知道学校九年级涵盖 Python，训练营很可能也涵盖 Python，而两周和朋友们一起学一样她从学校课程里得不到的东西，价值高于重复明年的课程。所以她的决定是辩论。

这是人人都想跳过的部分。「我怎么能不先问 AI 就决定？」 你能。你本来就知道一些事——你学校教什么、你会后悔错过什么、你朋友们在做什么。用你已经知道的来形成一个立场。一分钟后 AI 的任务是确认或推翻那个立场，而不是替你形成它。

第 4 行：你有多确定，以及 AI 的哪个具体答案会让你翻盘？

挑一个百分比：60%、75%，随便。确切的数字不重要。重要的是你做了承诺。然后写下那个会改变你主意的 AI 答案。玛雅：「70% 确定辩论是正确的选择。如果训练营教的是我学校不教的东西（Rust、嵌入式编程、游戏开发），那编程胜出，因为那是一项我在别处得不到的技能。」

如果你说不出那个会让你翻盘的具体 AI 答案，那你还没承诺一个真正的立场。「看情况」不是立场。「除非 AI 告诉我 Y，否则我就做 X」才是立场。

你怎么知道锁定起作用了？

只有一个测试，而且不涉及数行数：

你能不能大声说出，在你打开 AI 之前你的立场是什么——以及什么本来会让你改变主意？

如果能，锁定就起作用了。行数不重要。

如果不能——如果你发现自己在说*「呃，AI 说了 X，所以我就照 X 办了」或「我想了想，决定听 AI 建议的随便什么」*——那锁定就没起作用。行数仍然不重要。

那四行是辅助轮。它们让目标难以被跳过。练习几周后，你也许能把四行压缩成一段话或几个心里的念头，而锁定仍然起作用。但在你头十次做这件事时，请明确地把四行写出来。这是你确认自己真的承诺了一个立场、而不只是以为自己承诺了的唯一方式。

这四行在做什么

这四行对玛雅起作用，是因为她的决定很简单：一个二选一，一个一锤定音的事实。不是每个决定都长这样。所以在你照搬这个四行模板之前，先看看每一行底下实际在做什么。玛雅的四行是一个过程的一个实例，这个过程在不同决定之间保持不变，即使形式变了。

预测锁定有四个部分。对任何决定来说，它们都是同样的四个部分：

浮现出真正的决定。 剥掉标签。玛雅表面的决定是「辩论还是编程」。她真正的决定是「跟着朋友走还是自己选」。银行经理表面的决定是「关掉两个网点」。她真正的决定是「对一个已经转向 App 的客户群该怎么办」。标签总是藏起实际的问题。点出实际的问题。
确认什么会一锤定音。 哪条信息，如果你有了它，会让决定变得显而易见？对玛雅来说，是一个事实（训练营教 Python 吗？）。对一个有三名候选人的招聘决定来说，可能是三个事实（每名候选人有没有我们最需要的那项具体技能？）。对一个分到五类的预算分配来说，可能是一个比较（哪一类在边际一元上的回报最低？）。把这些事实点得足够具体，让你能逐一核查。数量取决于决定；它们必须可核查这一点则不变。
承诺一个立场。 基于你本来就知道的——在用 AI 核查任何东西之前——你会怎么做？把它连同支撑它的推理一起写下来。对玛雅：辩论，因为学校本来就涵盖 Python。对一个招聘决定：点出一名具体的候选人，附上理由。对一次预算削减：点出那些条目，附上理由。一个立场是是什么加上为什么，不只是是什么。
点出翻盘条件。 哪个具体发现会改变这个立场？玛雅：如果训练营教学校不涵盖的东西，编程胜出。对一次招聘：如果第二名候选人的背景调查回来明显强过头名，就转向。对一次预算削减：如果 X 类的预计收入偏差超过 30%，就改削另一类。如果你说不出什么会让你翻盘，那你就还没承诺——你只有一个偏好。

玛雅的便利贴恰好能塞进四行，是因为她的决定小到每个部分都能放进一行。一个更大的决定——一轮招聘、一次战略转向、一笔大额采购——可能每个部分要写一段话，填满一张 A4 纸。一个更小的决定——你真正在意时午饭点什么——可能放进一张索引卡就够了。

一个形状不同的范例： 设想你要从三名软件工程师里招一人，有一周时间决定。

真正的决定： 不是「谁纸面上最强」，而是「这三人里谁在十二个月后、当代码库已经改过两轮时，仍然高产」。
什么会一锤定音： 三件事，不是一件。每名候选人在长项目上的过往记录、他们学习陌生工具的意愿，以及他们从一位带过他们熬过艰难季度的前任经理那里得到的推荐质量。
你的立场： 候选人 B，因为她在上一份工作待了两年说明有耐力，而她的业余项目显示她不用别人要求就会上手新工具。
什么会让你翻盘： 如果候选人 A 的推荐说她交付了过去一年最难的项目，就转向 A。如果候选人 C 的推荐提到任何沟通问题，那就保持 B。

这和玛雅的是同一个预测锁定。不同的决定、每个部分下面写的量不同、同样的四个部分。

为什么要四行？为什么不就一行？

这是每个读者都会问的问题，通常问在第 3 行（「我不能就写下决定吗？」）。答案是不能，而且值得搞清楚为什么。

每一行抓住一种其他行抓不住的失效模式。把它们压成一行，你就会失去一些具体的东西：

跳过第 1 行，你就回答了错误的问题。 玛雅表面的决定是「辩论还是编程」。她真正的决定是「跟着朋友走还是自己选」。这两者有不同的答案。银行经理表面的决定是「关掉两个网点」。她真正的决定是「对一个已经转向 App 的客户群该怎么办」。标签总是藏起实际的问题。第 1 行把它浮现出来。
跳过第 2 行，你给 AI 的提示词就让锁定崩塌。 没有一个具体的问题要问，读者就默认退回到*「我该选哪个？」*——一个让 AI 替你做决定的开放式邀请。第 2 行迫使一个封闭、可核查的问题，AI 要么确认、要么反驳。「训练营教 Python 吗？」 可核查。「哪个营更好？」 不可核查。
跳过第 3 行，就没有东西用来对照 AI 的答案。 这就是锁定本身。第 1 行和第 2 行为它做铺垫；第 4 行让它变具体。但第 3 行才是那一行——当 AI 自信的答案到来时，它给你一个可以辩护的立场。
跳过第 4 行，你有的就是一个愿望，不是一个承诺。 「我选辩论」 听起来像个决定。但在你点出那个会让它翻盘的具体 AI 答案之前，你没法判断自己究竟是真承诺了，还是会在 AI 一提出别的就放弃这个立场。第 4 行迫使承诺变得具体。它也是那一行——让你在几个月后能核查自己的直觉是否校准过——「我说了 70%，结果却反了过来」——而这是判断力随时间改善的唯一方式。

试试那个一行版本，自己看看。「我觉得玛雅应该选辩论」 是一个随口的偏好，不是预测锁定。它没说真正攸关的是什么，没说哪个 AI 问题会一锤定音，也没说什么会改变你的主意。一个只写那唯一一行的读者，会读 AI 那两段话的回应、并毫无抵抗地采纳它——因为那一行里没有任何东西可供抵抗。

这四行表面上看着相似（它们都是关于「你的立场」），但它们抓的是不同的东西。这项修炼要求四行，是因为经验表明：任何想跳过一行的人，都会掉进那一行所抓的那个具体失效模式里。

还有一个教学上的理由。四行短到读者真能做（三分钟，塞得进一张便利贴），但又长到让书写这个动作迫使思考发生。一行太短——你不思考就能写出来。十行太长——你会干脆跳过整个练习。四是思考真正不得不发生的下限，也是一个忙碌的读者在周二早上开会前仍肯做的上限。

所以：要预测锁定的外表，就一行。要这个东西本身，就四行。

玛雅的便利贴现在是这样：

怎么回事： 她到底要做朋友们做的事，还是做她独自一人会选的事。

会帮上忙的问题： 训练营会用 Python 吗（她学校九年级本来就教这门）？

决定： 辩论。两周和朋友们一起，学一样学校不提供的东西，胜过用一周重复明年的课程。

置信度 + 什么会让我翻盘： 70%。如果训练营教 Rust、嵌入式系统或任何她学校不涵盖的东西，编程胜出。

现在她才把问题输进 ChatGPT。下面是她实际粘贴的提示词：

My school's summer program runs a one-week coding bootcamp. I'm trying
to figure out one thing: will it teach Python? My school already teaches
Python in 9th grade, so I want to know if there's overlap. Just answer
the question. Don't recommend which camp I should pick.

锁定改变了问题。 没有便利贴上那四行，玛雅本会问 AI 「我该选辩论还是编程？」——一个把决定交给 AI 的开放式问题。有了锁定，她本来就有了一个决定；她只需要一个事实来确认或推翻它。所以她改问一个封闭式问题。AI 的角色从决策者转为事实核查者。那个转变正是这项修炼所产出的。这四行不只是厘清了玛雅的思考——它们重新分配了这段对话里谁做什么。

ChatGPT 回来说：「面向初中生的一周编程训练营，大多在头两到三天涵盖 Python 基础。」玛雅把它拿到便利贴旁边比。AI 的答案（Python）与她事先准备好的答案一致。所以她的决定（辩论）成立——为的是她写下的那个理由，而不是因为 AI 这么告诉她。

晚饭时她爸爸问为什么，玛雅有一个真正的答案：「训练营涵盖 Python，而我学校明年本来就教这个。我宁愿花两周和朋友们一起学辩论，那是学校完全不提供的。」 那是她的推理。AI 确认了其中一个事实。

把它和没有锁定的版本比一比。玛雅打开 ChatGPT，问*「我该选辩论营还是一周的编程训练营？」* ChatGPT 写了一个平衡的两段话答案，结尾是*「两个都很有价值；考虑一下什么最能让你充满干劲。」* 玛雅读完，选了辩论因为朋友们都去那儿，晚饭时说*「ChatGPT 说两个都好，所以我选了辩论。」* 决定相同。推理却没了。两天后她讲不出自己为什么选了她所选的。

那四行就是预测锁定。三分钟的书写，赶在 AI 那个自信的答案占据你脑中本来属于你自己答案的位置之前。

你一旦读了 AI 的答案，就没法再把它读回去了。 你甚至说不出没有它你本会怎么想。你只会在两天后注意到，自己讲不太清楚为什么决定了所决定的。你吸收了 AI 的答案。你没挣得你自己的。

两条流程的对比。没有锁定：从问题到 AI 的答案，到「有道理」的认同，到继承来的立场。有锁定：从问题到封存的预测，到 AI 的答案，到比较，到决定。 在答案之前封存，否则就不是预测。

同一项修炼在更大的决定上也起作用。 一位银行经理得决定是否关掉两个亏损的网点。在问 AI 之前，她写下她的四行：

第 1 行（这真正关乎什么）： 这两个网点亏损，是因为大多数客户现在用 App 而不再亲自到店。真正的问题是，还有没有足够多的客户走进门，足以撑起把网点开着。

第 2 行（一锤定音的那个事实）： 这两个网点的客户里，有多少比例只用 App（从不到店）？

第 3 行（在 AI 发表意见之前我的决定）： 关掉网点。我和客服团队共事的经验表明，这些客户大多在好几年前就不再到店了。两年前我不会预测到这一点，但自从 App 上线以来，趋势就一直很清楚。

第 4 行（置信度 + 什么会让我翻盘）： 60% 确定。如果只用 App 的客户少于一半，那意味着确实还存在一个到店的基本盘，关掉网点就会把那些客户完全流失掉。那种情况下就保持网点开着。

然后她调出她银行的客户数据，问 Claude：

I have transaction data for two branches we're considering closing.
For each customer who used these branches in the last 12 months,
I need to know what percentage NEVER walked into a branch and
only used the mobile app. Just give me the percentage. Don't
recommend whether to close the branches.

Claude 回来说 45%。这低于她 50% 的阈值，也就是说她的第 4 行翻了盘——关掉网点不再是正确的选择。

但更有意思的是她的预期（大多数客户只用 App）与数据所显示的（只有 45%）之间的那道差距。那道差距告诉她，她高估了客户群转移的程度。她在报告里用了这两个发现：数据把她的建议从「关掉」翻成「保持开着」，而那道差距成了她的开场白——「我原以为这些客户大多只用 App；数据显示只有 45% 是，这改变了建议。」 她最终提出一条中间路线：让网点保持开着但缩减员工工时，因为 55% 的客户仍在到店，只是没有达到全天的水平。

没有预测锁定，她本会直接接受 AI 说的随便什么，从不会注意到自己的假设有偏差——而那条中间路线（缩减工时）本也不会浮现，因为她本来就不会有一道差距去注意。

玛雅的四行和银行经理的四行表面看着不同。它们是同一个预测锁定——同样的四个部分，应用在不同大小的决定上。

现在轮到你

你已经为玛雅写了四行。你可以把那同样的四行粘进下面的方框里。或者，如果你有一个自己的决定，就在那上面试这四行。比如：你想买的某样东西、你在两个方案之间做选择、你一直在回避的一段对话，或者你拿不准的一门课。

先写你自己的四行。 然后用这个提示词问 AI 你的第 2 行问题：

I'm trying to decide [describe your situation in 1-2 sentences].

My question is: [paste your Line 2 question here].

Just answer that one question. Don't make the decision for me.

下面是玛雅那个提示词的版本，从她的便利贴填好：

I'm trying to decide between two summer camps. One is a one-week
coding bootcamp; the other is a two-week debate camp where all my
friends are going.

My question is: does the bootcamp teach Python? My school already
teaches Python in 9th grade, so I want to know if there's overlap.

Just answer that one question. Don't make the decision for me.

ChatGPT 的回应：

Most one-week coding bootcamps for middle schoolers cover Python
basics in the first two to three days, then move on to a small
project using those basics. Some bootcamps add light JavaScript or
web concepts later in the week, but Python is almost always the
core language.

玛雅把它拿到她的第 4 行旁边比。她的第 4 行说，只有当训练营教她学校不涵盖的东西时，编程才胜出。AI 确认 Python 是核心——而那正是她学校九年级本来就教的。那不是她的翻盘条件。她的决定不变：辩论。

只有第 1 行和第 2 行进提示词。 把第 3 行（你的决定）和第 4 行（什么会改变你的主意）留在 AI 看不到的地方。如果 AI 知道你已经承诺了什么，它往往会顺着你——而你就失去了锁定为之而建的那个比较。

然后把 AI 的答案和你的第 4 行对照。 你写下了一个会改变你主意的具体发现。AI 到底告诉你那个发现了，还是没有？

如果 AI 的答案不是会让你翻盘的那个， 你第 3 行的决定成立。你能为你写下的那个理由辩护它。 玛雅的情况（实际发生的）： 她的第 4 行说，只有训练营教 Rust 或她学校不涵盖的东西，编程才胜出。AI 说训练营教 Python——那是她学校本来就教的。那不是翻盘条件。她的决定不变：辩论。
如果 AI 的答案恰恰是会让你翻盘的那个， 你的决定就改变——为的是你事先设定的那个理由，而不是因为 AI 显得自信。 玛雅在 AI 说了别的话时的情况： 假设 AI 回来说「训练营教的是嵌入式系统，不是 Python」。那本会恰好命中玛雅的第 4 行（学校不教嵌入式系统）。她本会转向编程——为的是她周一承诺的那个理由，而不是因为 AI 说服了她。
如果 AI 的答案介于两者之间， 回到你第 3 行的推理。新信息真的削弱它了吗？如果是，就改变你的决定并写下原因。如果不是，你的决定仍然成立。 玛雅在 AI 含糊其辞时的情况： 假设 AI 说「训练营头三天涵盖 Python，然后引入 React」。React 是她学校不教的东西，但它只占训练营的两天。玛雅重读她的第 3 行：当时的论点是「两周和朋友们一起学辩论，胜过一周大部分在重复 Python」。两天的 React 改变不了这一点——训练营大部分仍是重复内容。她的决定不变。

如果 AI 是含糊其辞而不是给答案，就再加一句话问一次：「只给我那个具体信息；别加限定条件。」 如果 AI 提了一个澄清性问题，就回答它，但加上：「然后回答原来的问题。」 目标是一个你能拿到第 4 行旁边比的具体答案——而不是一段*「这取决于若干因素」*。如果你第二次尝试仍没拿到一个可用的答案，那你的第 2 行问题可能太宽泛了。把它重写得更具体，然后再试。

关于修订锁定的一点说明。 如果 AI 的答案让你意识到你的第 4 行错了——你点出了错误的翻盘条件——那是一个值得尊重的真实信号，但要当心什么时候修订。在你决定如何回应 AI 的答案之前修订第 4 行没问题；你注意到了一个漏掉的东西，正在更新你的思考。在 AI 的答案进来之后修订第 4 行、好让那个答案不算翻盘，则击垮了锁定。测试是：即使没看到 AI 的答案，你会不会也写下这个新的第 4 行。如果会，就修订。如果不会，那你旧的第 4 行成立。

核查锁定起作用了。 试着大声把这句话说完：「我决定这个是因为……」。如果你不用*「AI 说」*这几个字就能说完，锁定就起作用了。如果说不完，就找出你跳过的那一行。

那句话——你能大声说完的那句——是你能产出的最小一块思考过程的书面证据。它就是本页顶端那条规则所讲的东西：不是 AI 递给你的精致答案，而是一个你能指向的理由。下面每项修炼都建立在这一块证据上。把这一块弄到位，其余的就更容易了。

下面的练习不核查你的决定是否「正确」。它只核查你的四行是否清晰：你点出真正的决定了吗？你的问题具体吗？你的立场承诺了吗（不是「看情况」）？你点出那个会让你翻盘的具体 AI 答案了吗？你第一次尝试乱一点没关系。

1Your Work

你有两个选择来填这些方框。选择 1：为玛雅写四行——用她的决定（辩论营对编程训练营）和你自己版本的每一行该说什么。评分器会核查你的几行是否清晰。选择 2：为你本周一个真实的决定写四行——一件你确实需要弄清楚的事。评分器核查同样的东西。两个选择都行；修炼是一样的。

如果你选择 1，下面是玛雅的几行作为参考：

第 1 行（怎么回事）： 她到底要做朋友们做的事，还是做她独自一人会选的事。

第 2 行（会帮上忙的问题）： 训练营会用 Python 吗（她学校九年级本来就教这门）？

第 3 行（决定）： 辩论。两周和朋友们一起，学一样学校不提供的东西，胜过用一周重复明年的课程。

第 4 行（置信度 + 什么会让我翻盘）： 70%。如果训练营教 Rust、嵌入式系统或任何她学校不涵盖的东西，编程胜出。

填好四个方框并点击提交。评分器给每一行打分，并告诉你该改进什么，就像老师在批改你的作业，即时反馈。

预测锁定：四行字

第 1 行：这个决定真正关乎什么？（点出标签底下真正的决定。）

第 2 行：那个答案会帮你决定的唯一问题。（封闭且可核查，不是开放式的。）

第 3 行：你的决定以及你为什么这么定。（一个有推理的承诺立场，不是猜测。）

第 4 行：你有多确定，以及 AI 的哪个具体答案会让你翻盘？

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次做这个大约需要 8 分钟。拿到分数后，找一个你认为 AI 评分器判错了的地方。那是这个练习里最有用的部分。

这覆盖了修炼 1 的一半。另一半（追踪 AI 说了什么，并决定你对哪些部分同意、不同意或想改）是修炼 2。

它为什么有效（背后的研究）

预测锁定不是新点子。它是三种更早的技巧的 AI 时代版本，每一种都已被研究了几十年。

事前验尸（加里·克莱因，2007）。 在项目开始之前，团队设想它已经失败，并写下所有原因。先写下失败原因这个动作——在项目的乐观情绪占上风之前——浮现出本来会被埋没的风险。德博拉·J·米切尔、杰伊·罗素和南希·彭宁顿的研究发现，「前瞻性后见」——设想一个事件已经发生——能把正确识别未来结果原因的能力提高 30%。你刚学的这项修炼做的是同一件事的微缩版：在 AI 发表意见之前，你写下你的决定和那个会改变你主意的具体发现。「先书写」是其中承重的部分。

读克莱因的原文：做一次项目事前验尸，《哈佛商业评论》，2007 年 9 月。

预测校准（菲利普·泰特洛克，「良好判断项目」，2011-2015）。 泰特洛克和同事办了一场为期多年的锦标赛，数千名预测者对世界事件做出概率性预测。最好的预测者——泰特洛克称为「超级预测者」——有一个具体的习惯：他们在答案到来之前用置信百分比记录预测，之后再把预测与结果对照。没有写下来的预测，你就没法判断自己的直觉是否校准过，因为你会把「先前的信念」重构成与已发生的事相符。预测锁定的第 4 行（置信百分比）是这个做法的最小可能版本。在数月乃至数年里，把你锁定的置信度与实际结果对照，是判断力改善的唯一方式。

读关于这个项目：良好判断项目（维基百科）。整本书的论述见：泰特洛克与加德纳，《Superforecasting: The Art and Science of Prediction》（2015）。

锚定（阿莫斯·特沃斯基与丹尼尔·卡尼曼，1974）。 当一个自信的答案占据了你脑中本来属于你自己答案的位置，那个自信的答案就成了你的参照点——你再也说不出没有它你本会怎么想。特沃斯基和卡尼曼的原始工作用的是数字例子（人们在被展示一个任意数字后被要求估计一个百分比，给出的估计就锚定在那个数字上），但这个原理是普遍的：任何在你形成自己答案之前落进你脑中的自信答案，都会成为你后续思考据以调整的那个锚。AI 的答案默认是自信的。这让它们成为强力的锚。预测锁定正是阻止那个锚形成的动作——你先放下你自己的锚，写下来，赶在 AI 的锚落下之前。

读原始论文：不确定性下的判断：启发式与偏差，《Science》，第 185 卷，第 4157 期，1974 年 9 月 27 日，第 1124-1131 页。（如果你没有 Science 期刊的访问权限，可在这个镜像上开放获取。）

预测锁定把三者合在一起。 先写下你的决定和你的翻盘条件（事前验尸）。记录你的置信度，好让你日后能核查校准（泰特洛克）。并且在读 AI 的答案之前做这两件事，这样 AI 的自信就不会成为你据以调整的锚（特沃斯基和卡尼曼）。一张便利贴上的四行字，把三十年的研究压缩成一个三分钟的习惯。

这个练习的完整版（10 个排序问题加上推理回执模板；45-60 分钟）活在第 0 部分第 1 章第 1 课。本页教这项修炼。那一页把它变成一个系统。

修炼 2：推理回执

你花了一上午和 Claude 一起做一份报告。结果看起来不错。你把它发出去就接着忙别的了。两周后有人问：「这里面哪些部分是你实际核查过的？哪些是你改过的？」 你答不上来。你读了 AI 写的，看起来没问题，于是你就用了。活儿是干完了，但你从未真正思考过它。

这是仅次于让 AI 替你思考（修炼 1）的第二常见的 AI 失效模式。即使你已经锁定了自己的立场，AI 的草稿也是以一大块一大块精致的形式出来的——五条建议、一份六段的备忘录、一个十行的计划——而你日后无法为其中任何一处辩护，因为你从未追踪你对每一块做了什么决定。

下面是修正它的方法。每当 AI 给你一个说法、一条建议或一段进入你最终成果的文字时，你就做一条单行的笔记，写下你对它做了什么以及为什么。不是整段——只是每一块一条笔记。这些笔记合在一起，就叫推理回执。

下面是一行长什么样。 假设你让 Claude 帮你策划一次小组演示，它建议：「演示开头放一段短视频来抓住注意力。」 你想了想。你老师本学期早些时候说过，视觉化的开头能拿更好的分数，所以这条建议符合你已经知道的、在这门课里管用的东西。你决定保留它。

那个决定就成了你回执里的一行：

AI 说了什么	你做了什么	为什么
开头放一段短视频来抓住注意力。	ACCEPT	我们老师说视觉化的开头能拿更好的分数。这符合。

三列。AI 说了什么（好让未来的你记得当时在决定的是什么）、你做了什么（一个单词标签）、为什么（一句话，好让这一行日后经得起辩护）。

现在假设 Claude 的下一条建议是*「给每个人 5 分钟发言。」* 你们小组有四个成员，总共 15 分钟。算术不对。所以你否决它：

AI 说了什么	你做了什么	为什么
给每个人 5 分钟发言。	REJECT	我们 15 分钟要分给 4 个人。算术不对。

这就是这项修炼。每条 AI 建议一行，每行三列。

五种标签。 你做了什么总是落入五类之一。大多数时候你会用 ACCEPT、REJECT 或 MODIFY。另外两个（SURFACED 和 MISSED）抓住那些否则容易被跳过的情况。

标签	你做了什么	写一句话解释为什么
ACCEPT	你保留了 AI 说的，没有改动。	你为什么信任它。
REJECT	你判定 AI 错了并把它移除。	什么让你不同意。
MODIFY	你保留了这个点子但改了它的一部分。	你改了什么、为什么。
SURFACED	AI 提出了一个你没想到的东西。你保留了它。	它为什么重要。
MISSED	你注意到 AI 忘了提的某个东西。你把它加了进去。	缺了什么、为什么它重要。

ACCEPT、REJECT 和 MODIFY 是基本动作。SURFACED 用于 AI 教了你某个东西的时刻——那些值得追踪，因为它们正是 AI 真正补上了你独自不会做的思考的情况。MISSED 用于 AI 没说但本该说的——那些是你自己的判断抓住了 AI 起草时一笔带过的东西的情况。

一份好的回执，长期来看五种标签都有一些。如果每一行都是 ACCEPT，那你并没有真正思考——你只是在给 AI 写的东西签字放行。

「可是没人会审我的工作——何必费这个事？」

这是对这项修炼最合理的反对，它值得一个真正的回答。大多数读者、大多数时候，不会被审查。你老板不问。你教授翻篇了。你客户签字了。如果推理回执唯一的回报是*「万一有人问呢」*，那这份回执就不值得这个麻烦。

保留一份回执，即使从没有人问，也做三件事。

第一，书写这个动作改变你的决定。 当你默默接受一条 AI 建议时，你的大脑把它当作*「听起来没错，下一个」来处理。而当你必须写一个单词标签和一句话理由时，你的大脑就不得不真正审视这条建议。大多数读者第一次试这个时，会发现每次会话里至少有一行，他们写不完那句「为什么」*。那一行就是他们正打算不假思索就拿来用的东西。回执在它出厂之前抓住了它。

第二，回执成为你工作的一部分，不只是它的一份记录。 修炼 1 里那位银行经理把她的立场与数据之间的差距变成了她报告的开场白。下面下一个例子里的那位学生，把她的回执当作和她小组一起用的工作文档，而不是审计留痕。一个标为 REJECT 的行，往往会变成最终文档里的一段「考虑过的备选方案」。一个标为 SURFACED 的行，往往会变成你带到会上最有意思的洞见。回执是一件工作工具，不是一个档案柜。

第三，未来的你是最常见的审查者。 三个月后，你会看着这份工作，记不清哪些部分是你的、哪些是 AI 的，或者你为什么决定了所决定的。回执是给未来的你的一张便条。回执发挥作用的大多数时候，那个问题来自你自己，而不是来自老板。

审计场景是最显眼的回报，但它是最罕见的。而前三种回报，每次你保留回执时都会发生，即使从没有人读它。这就是本页那条核心规则在实践中的意思：交付物是思考过程的书面证据。回执并不与你的工作分离——它在你产出工作的过程中塑造工作，而随着时间推移，当对项目的记忆已经褪去，它正是你留下来的东西。

一张推理回执的剖析：三列，标注每一个有分量的判断。AI 说了什么、你做了什么（ACCEPT、REJECT、MODIFY、SURFACED、MISSED 之一），以及为什么。每一行记录人对 AI 输出的某一块所做的一个决定。 一份回执是每行一个决定。标签告诉你你做了什么。「为什么」告诉未来的你（或任何在读的人）这一行为什么可信。

下面是这在现实生活中的样子。

一名学生让 Claude 帮她策划一次小组课堂演示。Claude 给了一份完整的计划。这名学生没有直接拿来用，而是逐条过每一条建议，写下她的想法：

AI 说了什么	标签	为什么
「演示开头放一段短视频来抓住注意力。」	ACCEPT	好点子。我们老师说视觉化的开头能拿更好的分数。
「给每个人 5 分钟发言。」	REJECT	我们总共只有 15 分钟，而我们有 4 个人。算术不对。
「以问答环节结束。」	MODIFY	问答可以，但我们会准备 3 个备用问题，以防没人提问。
「加一段你做的那个 App 的现场演示。」	SURFACED	我没想到这个。现场演示会让我们的演示脱颖而出。
（AI 没提谁带笔记本电脑和投影仪转接头。）	MISSED	这个我加的。上次我们小组忘了转接头，浪费了 5 分钟。

她把回执分享给她的小组。演示结束后，老师问他们为什么没给每个人 5 分钟。她指着第 2 行：「我们 15 分钟只能分给 4 个人。算术不对。」那一句就够了。没有回执，她本得从头回忆并解释一切。

没有回执时会怎样：

AI 说了什么	标签	为什么
「开头放一段短视频。」	ACCEPT	听起来没错。
「给每个人 5 分钟。」	ACCEPT	听起来没错。
「以问答环节结束。」	ACCEPT	听起来没错。
「加一段现场演示。」	ACCEPT	听起来没错。
（什么都没写。）

全是 ACCEPT 是一个警告信号

如果每一行都是 ACCEPT、理由都是「听起来没错」，那你并没有真正思考它。你只是抄了 AI 说的。一份好的回执标签是混合的。如果你解释不了为什么你接受某个东西，那你并没有真正决定保留它。你只是随大流了。

自己试一试

你在筹办你大学的年度科技节。你的团队有 10 个成员。活动在 3 周后。你还没开始做营销。另一所大学宣布了同一个周末的一个类似活动。你问 AI：「我们该把活动提前一周，还是保持原定日期？」 AI 给了你五条建议。对每一条，挑一个标签（ACCEPT、REJECT、MODIFY、SURFACED 或 MISSED）并写一句话解释为什么。

AI 的建议

「提前办。当两个活动争夺同一批观众时，抢先很重要。」
「如果保留原日期，学生会比较两个活动，可能会选择另一个。」
「你的社交媒体帖子在周四互动最高，所以从这个周四开始营销。」
「提前一周意味着你的团队只有 2 周准备时间，而不是 3 周。」
「大多数学生根据朋友要去哪里来决定参加哪些活动。」

1Your Work

AI 评分器会核查两件事：

你解释了你的推理，还是只写了「听起来没错」？ 打 1-10 分。引用我最弱的那条解释。
你用了不止一种标签吗？ 如果每一行都是 ACCEPT，那你并没有真正思考它。打 1-10 分。

别改写我的工作。如果某个方框是空的或含糊的，直接说出来就行。

说法 1：「提前办。抢先很重要。」

标签（ACCEPT/REJECT/MODIFY/SURFACED/MISSED）+ 一句话为什么

说法 2：「学生会比较这两个活动，可能会选另一个。」

标签 + 一句话为什么

说法 3：「这周四开始营销，因为那时帖子互动最高。」

标签 + 一句话为什么

说法 4：「提前办意味着只有 2 周准备，而不是 3 周。」

标签 + 一句话为什么

说法 5：「学生根据朋友要去哪个来决定。」

标签 + 一句话为什么

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次做这个大约需要 10-15 分钟。拿到分数后，找出任何一行你写了「听起来没错」却没有真正理由的。那就是你接受了 AI 的思考、却没做你自己思考的那一行。回去为那一行写一个真正的解释。

你刚做的，帮你一条一条地核查每条建议。但它不抓每条建议内部的错误，比如编造的事实、过时的信息，或者 AI 对它弄错的东西显得自信。那是修炼 3 的职责。

想看一个好例子？（在你提交自己的之后再打开。）

另一名学生做了同一个科技节练习。这不是唯一正确的答案，但它显示一份好回执的样子。

说法	标签	为什么
1	REJECT	抢先在这里不重要。学生根据听起来好不好玩来选活动，而不是根据哪个先宣布。
2	MODIFY	学生可能会比较，但只有在他们听说了两个活动的情况下。如果我们营销做得更好，另一个活动就不重要。
3	ACCEPT	我们上学期的 Instagram 数据显示，周四的帖子点赞多 2 倍。这说得通。
4	SURFACED	我没想到这个。损失一周的准备时间是个真问题，因为我们还没订场地。
5	ACCEPT	这是真的。去年我们在报名表里加了「带上你的朋友」选项后，报名量大涨。
6	MISSED	AI 没提我们最大的赞助方需要提前 3 周通知。提前办意味着我们可能会丢掉赞助。

为什么这是好的： 只有两个 ACCEPT，而且两个背后都有真正的理由（上学期和去年的实际数据，而不只是「听起来没错」）。MISSED 那行（第 6 行）抓住了一个 AI 不可能知道的东西（赞助方提前 3 周通知的规则）。这名学生最终决定保持原定日期，但理由是 AI 从未提过的：赞助。

这不试图做的： 显得聪明。大多数行都是一句话。重点是写真正的理由，而不是写长的理由。

它为什么有效（背后的研究）

推理回执也不是新点子。写下你决定了什么、为什么，是人们对专家如何实际思考研究得最多的习惯之一。三个领域的工作解释了它为什么有效。

行动中的反思（唐纳德·舍恩，1983）。 通过研究医生、建筑师、工程师和教师如何实际工作，舍恩发现技艺娴熟的专业人士并不只是行动然后翻篇——他们持有一段不断进行的内心评注，留意意外并决定该怎么应对，就在工作展开之时，而不是在事后的复盘里。改善最快的专业人士，是那些把那段评注明确说出来、而不是让它停留在隐性状态的人。推理回执就是把那段评注写下来：你不再默默地想「这条 AI 建议好像不对劲」，而是在你还在工作之中、它还能改变你下一步做什么的时候，写下标签和理由。

读更多：反思性实践（维基百科），它总结了舍恩的《The Reflective Practitioner》（Basic Books, 1983）。

单环与双环学习（克里斯·阿吉里斯，1977）。 阿吉里斯在两种修正之间划了条线。单环学习修正眼前的错误——答案错了，于是你改答案。双环学习则退一步，问整个方法或假设是否一开始就错了。他的发现是，聪明能干的人默认会卡在单环模式里；他们调输出，却从不质疑框架。一份每行都是 ACCEPT 的回执，就是单环思考被显形——你在批准输出，却从不问这个方法对不对。在每一行上强加一个真正的「为什么」、并留意你什么时候写不出一个，正是把你推进双环的东西。

读阿吉里斯的原文：组织中的双环学习，《哈佛商业评论》，1977 年 9 月。

精细加工与生成效应（布朗、罗迪格、麦克丹尼尔，2014）。 几十年的记忆研究汇聚到一个简单的发现上：当你用自己的话把某个东西表达出来、并把它和你已知的东西联系起来时，你记得它远比仅仅重读它要好。生成那个解释的动作——哪怕只是一句话——正是建立持久记忆的东西。你回执里的每个「为什么」都恰恰是这个动作。三个月后，你写了真正理由的那一行，是你仍能理解的那一行；你用「听起来没错」盖章的那一行，则会是一片空白。

读更多：Make It Stick: The Science of Successful Learning（Belknap Press of Harvard University Press, 2014）——该书核心发现的一篇总结。

推理回执把三者合在一起。 你在还处于工作之中时写下你对每个 AI 说法的决定（舍恩），被强加的「为什么」把你从给输出盖章推向质疑方法（阿吉里斯），而用你自己的话写下理由正是让你日后记住它的东西（布朗、罗迪格、麦克丹尼尔）。没有人专门拿推理回执对照过 AI——但它底下的那个习惯，写下你的选择并解释它们，是人们如何思考与学习中最被确立的结果之一。把它用在 AI 的输出上，是水到渠成的下一步。

深入了解： 第 0 部分第 1 章：提出更好的问题。完整版（对照一段真实 AI 对话的 10 行回执，加上「矛盾挑战」——你让另一个 AI 来攻击你的推理，45-60 分钟）作为基础序列的一部分活在那里。本页教这项修炼。那一章把它变成一个你能在每一次高风险 AI 对话上跑的习惯。

第 2 部分：侦测（抓住 AI 漏掉的东西）

第 1 部分教你在用 AI 之前如何思考。第 2 部分教你如何在 AI 给回来的东西里发现错误。

问题在这里：AI 不管对错听起来都一样自信。它最糟的错误往往藏在听起来最精致的句子里。AI 还倾向于聚焦你问的那一件事，而忽略副作用。

**修炼 3（错误分类法）**给你一份六种常见 AI 错误的清单，让你能在信任输出之前扫查它们。**修炼 4（系统思考）**教你问「如果我做这个，还有什么会变？」，好让你抓住 AI 漏掉的副作用。

修炼 3：错误分类法

这项修炼是对 AI 究竟是什么（概念 3）的实际回应：机器内部没有内置的真假核查器，所以你就是那个核查器。下面六类错误，就是「充当核查器」在实践中的样子。

你大概经历过这个。你问 AI 一个问题，答案回来听起来顺滑而专业，你读了一遍，似乎一切都好，你就用了。三天后你发现其中一个数字错了，或者 AI 提到的某个来源其实并不存在。错误就明摆在那儿，但你漏掉了它，因为文字听起来太好了。

下面是要紧的部分：为那个被漏掉的错误买单的人，通常是你，而不是某个日后抓住你的审查者。如果 AI 告诉你一辆二手车里程是 32,000 英里、而它实际是 58,000，你不是在会议上丢脸——你买了错的车。如果 AI 为你的报告编了一个统计数字，你不只是有人核对时显得难看；你是基于一个从来不真实的数字做了决定。AI 的错误伤的是最先据此行动的人。那个人就是你。

为什么叫「分类法」？ 分类法只是一个命名系统——一组贴了标签的固定类别，你把东西归进去，就像生物学家把生物归入物种那样。力量在于命名。「核查一下这个好不好」太含糊，没法据以行动；你的眼睛在页面上滑过，没有任何东西能拦住它们。但「核查一下有没有编造的来源」是一次有具体目标的具体搜寻，于是你真的会在每一处引用前停下来看。错误分类法是六类有名称的 AI 错误。给它们命名，正是把一个含糊的担忧（「可能有什么不对」）变成六次你真能跑起来的具体搜索的东西。

下面是抓住它们的方法。不要读 AI 的输出然后问自己「这感觉对吗？」，而是每次只盯着一种具体类型的错误过一遍。一共六种：

错误类型	它长什么样	先在哪里找
事实错误	一个错的事实：错的数字、错的日期、错的名字。	任何带具体数字的句子。看起来精确的数字让东西显得是研究过的。例子：「73.6% 的人不会核查 AI 的数字。」那听起来很真。这是我刚编的。
逻辑断裂	结论其实不从证据推出。	找「因此」或「所以」之类的词。然后问：证据真的证明了这个，还是中间缺了一步？
虚假自信	AI 把一个不确定的东西当成事实陈述。	听起来最顺滑的段落。如果 AI 用了「可能」或「也许」，它知道自己拿不准。如果 AI 没有任何「可能」或「也许」就陈述一个有争议的东西，那就是警告信号。
缺失上下文	AI 漏掉了一个会改变答案的重要细节。	想想专家会先问什么。如果你会问「可是 X 怎么办？」，那 AI 大概没想到它。
编造来源	AI 提到一本书、一篇文章、一项研究或一个工具，而它其实并不存在。	核查 AI 点名的每一个来源。把标题搜一下。如果你找不到它，那 AI 大概是编的。
过时事实	曾经为真、但如今不再为真的东西。	任何随时间变化的东西：价格、规则、法律、软件版本、谁在经营一家公司。

下面是一次扫查的感觉。 只拿第一种，事实错误。说明是：看任何带具体数字的句子。所以你读 AI 的输出，在每个数字处停下，忽略其他一切。假设 AI 写了*「这辆车里程表上有 32,000 英里。」* 那是一个数字，所以你停下。你不问「这听起来对吗？」——一个错的里程听起来和一个对的一样合理。相反，你拿它对照来源：你看仪表盘的照片。它写着 58,000。抓到了。你不是靠仔细读抓住它的；你抓住它，是因为你在专门搜寻一种类型的错误——一个错的数字——而数字正是你停下来的地方。

这就是整个技巧，重复六次。每一遍搜寻一种类型。你不是把输出读六遍；你是带着六个不同的问题读一遍，在每个问题所指向的地方停下。在下面的练习里你会练习两遍（事实错误和编造来源）来掌握节奏。接下来的范例展示全部六种。

一段听起来自信的 AI 文字，上面叠加了六种错误类型作为标注。事实（错的事实）、逻辑断裂（跳过的一步）、虚假自信（夸大的确定性）、缺失上下文（被丢掉的相关约束）、编造来源（虚构的引用）、过时事实（曾经为真、如今不再）。 这六种错误类型不会自报家门。它们藏在读起来最专业的段落里，而这恰恰是为什么按名称扫查胜过凭感觉阅读。

下面是全部六种在现实生活中的样子。

一位家长在挑一辆可靠的二手车。他找到一个他喜欢的车源：一辆 2021 款 Honda CR-V。在开车一小时去看之前，他让 Claude 帮他过一遍。他把车源、照片和他自己技师的一条备注都贴了进去。Claude 写回来一份干净、自信的摘要：里程低、车况记录干净、发动机强劲、还有一笔该抢的返利。读起来不错。他差点就转给伴侣并附上「就买这辆」。但他没有，而是跑了那个六行的扫查。

错误类型	他们在那份说明里发现了什么	裁定
事实错误	说明写着：「里程表上 32,000 英里。」车源里仪表盘的照片清楚地显示 58,000。差了 26,000 英里。	抓到了。从照片更正。
逻辑断裂	说明写着：「它的事故记录干净，因此没有机械问题。」干净的事故记录对发动机什么都没说。那个「因此」站不住。	抓到了。干净的记录不是干净的发动机。
虚假自信	说明写着：「你能从这台发动机上跑出至少 200,000 英里无故障。」没有「应该」，没有「很可能」，没有依据。那个一口咬定的承诺在唱独角戏。	抓到了。改写成「很多 CR-V 能用很久，前提是有保养。」
缺失上下文	说明从未提到正时皮带，它大约在 60,000 英里时该换。这位家长自己的技师标记过它。模型从未看到那条备注。	抓到了。把皮带加为第一件要核查的事。
编造来源	说明写着：「正如《消费者报告》在他们 2026 年 3 月的可靠性专刊里所写，这是市面上最可靠的小型 SUV。」家长核查了《消费者报告》。没有这条说法。	抓到了。把这段引用删了。
过时事实	说明写着：「它仍然符合经销商 1,000 美元忠诚返利的资格。」家长打电话给经销商。那笔返利上个月就结束了。	抓到了。把返利从算账里去掉。

六种错误类型里有五种出现在一份简短的摘要里。最难抓的是那条假的《消费者报告》引用，因为它听起来恰恰像一本真杂志会写的东西。因为这位家长按名称逐一核查了每种错误类型，他去看车时知道了真实的里程、它需要的那项维修，以及实际的价格。注意这保护了谁：不是这位家长在某个审查者面前的名声，而是这位家长自己的钱包。如果他信了那份摘要，他本会开一个小时去买一辆他以为里程 32,000 英里的车，付一个假设了一笔不再存在的返利的价格，并跳过一项他不知道即将到来的维修。这次扫查不是救他免于显得难看。它救他免于在自己的决定上出错。

如果你只是读、而不按类型核查，会怎样：

你怎么读	你会漏掉什么	为什么
你读整段，问「这听起来好吗？」	错的数字。当一切听起来顺滑时，你的眼睛会跳过数字。	那个错的里程（32,000 而不是 58,000）很容易漏掉。核查「事实错误」迫使你在每个数字处停下。
你因为一段引用点了你认识的牌子就信了它	那条假的《消费者报告》引用。真杂志名，但引用是编的。	它听起来很真，而那恰恰是陷阱。核查「编造来源」迫使你去查每一段引用。
你把「因此」只读成一个连接词	那处逻辑断裂。「记录干净，因此没问题」听起来没错，却跳过了一步。	当你核查「逻辑断裂」时，你在每个「因此」处停下并问：这真的证明了它所声称的吗？
你只有在感觉哪里不对时才注意到缺失的信息	那条 60,000 英里时该换的正时皮带。AI 从未提它，所以页面上没有任何东西警告你。	缺失的信息从不会自己跳出来。你得问自己：一个懂车的人会问什么、而 AI 没问？

那个按类型核查的家长，和那个只是随便读读的家长，可能是同一个人。唯一的区别在于他们怎么读 AI 的输出：一个按名称核查了每种错误类型，另一个只是读了一遍、并指望没有哪里出错。

那张填好的扫查网格也值得留着，不只是跑一遍。它是和本页那条规则同一种证据——交付物是思考过程的书面证据。当你把一份报告交给某人、而他问「你核查 AI 的数字了吗？」时，那张网格就是你的回答。更常见的是，它是给未来的你的一张便条：六个月后，当你想知道自己究竟核实过那个统计数字、还是只是信了它时，网格会告诉你是哪一种。

自己试一试

你这个周末要买一辆二手车。卖家说已经有另一个买家感兴趣了，所以你得快点决定。你让 AI 比较两辆车并告诉你买哪一辆。下面是 AI 写回来的。读它，然后按上面列出的六种错误类型逐一核查它。从事实错误和编造来源开始（这两种你漏掉的话最费钱）。填好下面的方框。

你该买哪辆车？

选 2020 款 Toyota Corolla。Corolla 综合油耗 47 英里每加仑，所以你在加油站花的钱会远少于大多数同尺寸的车。根据 CarReliability Index 2026 排名，Corolla 得 9.4 分（满分 10），是同级别第一名。2019 款 Honda Civic 也是辆好车。Civic 里程更低，因此如果你想以后少点意外，它是更可靠的选择。

两辆车都能再开十年而不需大修，所以你可以按价格和颜色来挑，挑完心安理得。两辆都仍然符合 2,000 美元的州清洁车辆返利资格，这把你的实际成本压得很好。无论哪一辆，你都得到一辆可靠的车。

（如果你愿意，你可以跳过这个买车的例子，改用你自己生活里任何真实的 AI 输出：一份作业答案、一份大学申请草稿、一份研究摘要。这六种错误类型在任何题材上都管用。）

1Your Work

AI 评分器会核查两件事：

你是真的核查了每一种类型，还是只是读了读、猜了猜？ 打 1-10 分。好的回答每一行都写了东西。如果你核查了某一种、什么也没发现，就写「核查过，没发现问题」，别留空。
你抓住了重要的错误，还是只抓住了容易的？ 打 1-10 分。如果同一份说明里我漏掉了一个更大的错误，告诉我该抓住哪一句。

别改写我的工作。如果某一行空着却没有解释，直接说出来就行。

对六种错误类型的每一种，从 AI 的说明里复制有错误的那句原话，并解释错在哪里。如果你核查了某一种、没发现错误，就写「核查过，没发现问题」。

事实错误：[粘贴句子] - [错在哪里] 逻辑断裂：[粘贴句子] - [错在哪里] 虚假自信：[粘贴句子] - [错在哪里] 缺失上下文：[AI 漏掉了什么] 编造来源：[粘贴句子] - [错在哪里] 过时事实：[粘贴句子] - [错在哪里]

每一个你有多确定？（打 1-10 分并用一句话说为什么。）

例如：『事实错误：9，我查了真实的油耗。编造来源：6，我在网上没找到这个排名，但我不是 100% 确定。』

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次做这个大约需要 8-15 分钟。随着练习会变快。拿到分数后，找一个 AI 评分器和你意见不一致的地方。那处分歧正是你学到最多的地方。

你刚做的，帮你找到 AI 答案内部的错误。但还有另一种它不抓的问题：在你据 AI 的建议行动之后会发生什么？如果你买了错的车，你在维修上损失钱。如果一家公司听了糟糕的 AI 建议，客户就流失。一个决定引发另一个问题，又引发另一个。修炼 4 教你在这些连锁反应发生之前追踪它们。

想要一个有力的样本来对照？（在你提交自己的之后再打开。）

另一名读者做了同一个二手车练习。这不是唯一正确的答案，但它显示一个好的样子。

错误类型	来自 AI 说明的句子	错在哪里
事实错误	「Corolla 综合油耗 47 英里每加仑。」	错的数字。真实评级约为 33 英里每加仑。这改变你在汽油上会花多少钱。
逻辑断裂	「Civic 里程更低，因此它是更可靠的选择。」	里程更低有帮助，但它不证明一辆车可靠。「因此」这个词让它听起来已被证明，而其实没有。
虚假自信	「两辆车都能再开十年而不需大修。」	没人能就一辆二手车保证那个。AI 把它当成事实陈述，没有「大概」或「很可能」。那是一个伪装成事实的猜测。
缺失上下文	（不在说明里。）2019 款 Civic 有一个未处理的安全气囊召回。	AI 从未提这个。安全召回恰恰是你买车前需要知道的那类东西，而 AI 把它漏掉了。
编造来源	「根据 CarReliability Index 2026 排名，Corolla 得 9.4 分（满分 10）。」	这个排名不存在。AI 编了一个听起来很真的来源。如果你搜「CarReliability Index」，你什么也找不到。
过时事实	「两辆都仍然符合 2,000 美元的州清洁车辆返利资格。」	那笔返利在 2025 年结束了。它曾经为真，但现在不是。这会改变你实际付的价格。

为什么这是好的： 每一行都有答案，而且每一句引用都是会真正改变你买哪辆车的那一句。缺失上下文那行点出一个具体的安全召回。编造来源那行指向一个不存在的排名。

这不试图做的： 抓住一切。你不是在写一份完整的报告。十五分钟里六行就是目标。三处真正的抓获胜过三十处勉强的。

它为什么有效（背后的研究）

错误分类法之所以有效，是因为人类判断处理顺滑文字时的一个怪癖。当文本易读时，我们就更信任它——与它是否为真无关。AI 写得非常顺滑，这让它成了那个偏差的近乎完美的触发器。四项发现解释了为什么按命名的类型扫查胜过凭感觉阅读。

加工流畅性（亚当·奥尔特与丹尼尔·奥本海默，2009）。 在回顾了几十年的实验后，奥尔特和奥本海默表明，我们加工某个东西的轻松程度——清晰的字体、简单的词、顺滑的措辞——会被大脑误读为内容为真的信号。「这读起来很顺」的感觉，渗进了「这是对的」的判断里，尽管两者毫无关系。AI 的输出被打造得极度流畅，所以它把这个杠杆拉得很狠。扫查一种具体的错误类型打破了这种魔咒：你不再评估文本感觉如何，而是开始核查某一类具体的说法是否站得住。

读论文（开放获取）：让流畅性的各部落联合成一个元认知的国度，《Personality and Social Psychology Review》，13(3)，2009。

认知放松（丹尼尔·卡尼曼，2011）。 卡尼曼的框架给这个机制起了个名字：当信息毫不费力地到来时，头脑里快速、自动的那部分（系统 1）就接受它，而缓慢、负责核查的那部分（系统 2）从不醒来。顺滑的 AI 文字让系统 2 一直沉睡。六类型扫查是把系统 2 重新打开的一种刻意做法——每一个有名称的核查都是一项自动头脑没法用自动驾驶完成的任务，这迫使那个流畅文字本想把你哄出去的费力一看。

读更多：思考，快与慢（维基百科）；相关材料是关于认知放松的那一章。

自信不是准确（内特·西尔弗，2012）。 通过研究政治、金融和体育领域的预测者，西尔弗记录下一个一贯的差距：听起来最笃定的人往往最不准确，因为自信和校准是两种分开的技能。AI 继承了这其中最糟的部分——它几乎对一切都用同样笃定的语气陈述，不管它是对的还是在瞎编。扫查里「虚假自信」那一行的存在，正是为了把语气和真相分开：你把那个一口咬定、不加限定的说法当作警告信号来标记，而不是把它的笃定读成证据。

读更多：信号与噪声（维基百科）。

为什么是六次分开的核查、而不是一个总体判断。 格尔德·吉仁泽关于风险的工作表明，一个问题如何被呈现，决定了人们是否对它推理得好——把一个含糊的判断拆成清晰、具体的几块，准确率就会跳升，尽管底下的事实并没有变。「这个 AI 输出好不好？」恰恰是人们不擅长的那种含糊的、一锅端的判断。扫查把它分解成你能一个一个回答的六个具体问题，这正是为什么它能抓住一次整体性阅读会径直滑过的错误。

读更多：格尔德·吉仁泽（维基百科），总结了《Calculated Risks》（2002）里的论证。

错误分类法把这四者合在一起。 流畅的文本让人觉得为真（奥尔特与奥本海默），让负责核查的头脑一直沉睡（卡尼曼），AI 整齐划一的自信掩盖了哪些说法其实站不稳（西尔弗），而一个含糊的「这看起来对吗？」是抓错误的错误呈现方式（吉仁泽）。给六种错误类型命名、并逐一核查，一次性修正这四者。没有人专门拿这份清单对照过 AI——但这个机制的每一块都已被充分确立。把它用在 AI 的输出上，是水到渠成的下一步。

深入了解： 第 0 部分第 2 章：侦测破裂的推理。完整版（8 种错误类型、与第二个 AI 交叉核对、以及随时间追踪你的准确率；60-75 分钟）把这变成一个完整的系统。

如果你懂得不够、核查不了怎么办？

六类型扫查在你懂这个题材时效果最好。但你不熟悉的题材呢？三个小窍门有帮助：

向 AI 要确切的来源。 别接受「研究表明」。要：「给我作者名、标题、年份，以及发表在哪里。」如果 AI 给不出一个真实的来源，就别信那个说法。
对没有来源、看起来精确的数字保持怀疑。 「销售额上涨 47.3%」听起来非常精确。但如果 AI 没说那个数字从哪来，那精确就是警告信号，不是证据。
拿不准时，把它标为 MODIFY。 如果你两分钟内核查不了一个说法，就别 ACCEPT 它。写 MODIFY 并加上「尚未核查」。你可以日后在用它之前再查。

修炼 4：用系统的方式思考

一所大学想省钱，于是用一个 AI 聊天机器人替换掉一部分线下辅导。他们问了 AI，AI 说：「这能省下 30% 的辅导成本。」听起来很棒，于是他们就照做了。

六个月后：那些最吃力的学生不再来求助了，因为聊天机器人听不懂他们的问题。他们的成绩下滑。家长投诉。大学不得不雇更多的辅导老师来弥补损失，最后花的钱比原来的预算还多。「省 30%」这个答案在纸面上是对的。但那串连锁反应把省下的钱全抹掉了。

这就是修炼 4 要对付的失败模式。当你就一个决定去问 AI 时，它回答你问的那个问题，「这能省多少钱？」，然后就停在那儿了。它几乎从不去追那串连锁反应：效应 A 引出效应 B，B 又引出效应 C，而有时候效应 C 会绕回来，把你最初的决定给推翻。级联图就是你自己去追那串连锁反应的办法，在你拍板之前，让意外发生在纸上，而不是发生在一笔你收不回来的预算用了半年之后。

注意它保护的是谁：不是你在审计员面前的名声，而是你自己的决定。没有人因为一次失败的聊天机器人上线去审计那所大学。那所大学只是花了钱，承受了后果，又花了更多钱去补救。级联图不是你日后拿出来的一份辩护，它是那个在一开始就拦住你、不让你做出那个昂贵动作的思考。

为什么叫「用系统的方式思考」？ 系统就是任何一组互相影响的部件，学生、辅导老师、预算和成绩并不是各自独立的事实，它们彼此推挤。我们大多数人是直线式地推理：这个引出那个，到此为止。但一个系统的各个部件是用回路连在一起的，所以一个效应能绕一圈再回来，改变最初启动它的那个东西。「用系统的方式思考」无非是指：拒绝停在第一个效应上，你不停地追问「然后呢？」，直到你找到那条直线拐回成一个圈的地方。级联图就是这个习惯的纸面版本：它把各个部件摊开，追出它们之间的连线，并去找那条绕回来的线在哪。

下面是怎么画一张。 第一次画大约要 20 分钟，熟练之后 10 分钟。

用一句清楚的话写下你的决定。 要具体。不是「也许改一下辅导」，而是「从下学期起，把一半的线下辅导时数换成 AI 聊天机器人」。
列出这个决定会影响的五组人。 每个大决定都会触及不同的人。一个好的起点清单：做这件事的人（比如辅导老师），用这项服务的人（比如学生），跟你竞争的人（比如别的大学），适用的规则（比如校规），以及你的团队知道或不知道什么（比如，那个聊天机器人到底有多好？）。
对每一组，问三次「然后呢？」。 从第一件发生的事开始。然后问那件事又引出什么。然后问那件事之后又来什么。一直追到第三层深。
至少找出一个回路。 找一个地方：一个靠后的效应绕回来，让你最初的决定变得更糟（或更好）。要具体说出它是怎么发生的。
如果你的图看起来干净又简单，那你停得太早了。 真正的风险藏在第二层和第三层。继续往深里推，直到它看起来乱糟糟。

画一条链是什么感觉。 拿那个辅导的决定，只看「最吃力的学生」这一组。从第一件发生的事开始，然后再问两次「然后呢？」。

第一层： 吃力的学生试用聊天机器人。它听不懂他们那些没成形的问题，于是他们放弃，不再求助。
然后呢？（第二层。）没人帮忙，他们的成绩下滑。他们正是最需要支持的学生，却得到了最少的支持。
然后呢？（第三层。）其中一些人转学去了还有真人辅导的大学。大学失去了他们的学费。

意外就藏在最后那一环里。决定本是「辅导省 30%」。但往下三层，它变成了「失去最需要我们的那些学生的学费收入」。你问 AI「这能省多少钱？」永远看不到这一点，你只有连着问三次「然后呢？」才看得到。

现在去找那个回路：失去学费意味着预算更紧，预算更紧意味着辅导的钱更少，钱更少意味着聊天机器人得覆盖更多，覆盖更多意味着更多吃力的学生放弃。最初的决定在喂养它自己。这就是回路，正是它把一次性的 30% 节省变成了一场持续的下滑。

级联图的步骤

这张图叫级联图。目标不是完美预测未来。目标是在你拍板之前、在改决定还不花钱的时候，找到那些回路。

为什么「乱」很重要

如果你的图看起来整洁又利落，你大概只写下了显而易见的那些效应。真正的风险在更深的层。继续画。

在这件事上，你和 AI 的盲点正好相反，这正是为什么这门修炼是一种合作。AI 擅长回答你问的那个具体问题，却不擅长留意你的决定造出来的那些副作用。你更擅长想到 AI 忘掉的那些人，以及那些要好几个月才显现的连锁反应。所以你先画图，那是只有你能做的部分，然后你可以请 AI 帮你把你画出来的每条分支都压力测试一遍。

对一个真实的决定，画图可能要 20-30 分钟。下面的练习用了一个更短的例子，好让你练这个手法。

针对「用 AI 替换信贷员」这个决定的级联图。上半部分「级联」把决定放在中心，五个领域像辐条一样向外伸出，每个领域各点出一个首要效应：员工（信贷员失业）、客户（服务质量变差）、竞争对手（被迫跟进）、监管方（公平性审查）、内部知识（隐性的本地经验流失）。客户这个领域被高亮，因为它喂给了下方的回路。下半部分「反馈回路」从那个领域追出一条五步链：砍成本（替换信贷员）导致服务下降（AI 漏掉信号）导致客户流失（流失率上升）导致收入下降（低于省下的钱）导致节省化为乌有，一条虚线箭头绕回起点，显示这个砍成本的决定被它自己的后果反噬。 这张图显示去哪里看；那个回路显示什么在反噬这个决定。乱是特性，不是缺陷。

分两遍读这张图。上半部分是广度那一遍：中间一个决定（「用 AI 替换信贷员」），周围五个领域，以及每个领域里第一件发生的事。其中大多数是任何人都会列出的效应，员工失业、客户得到更差的服务、竞争对手感到要跟着学的压力。容易漏掉的那一个是内部知识：隐性的本地经验流失。信贷员身上带着从没被写进任何系统的知识，哪些本地企业虽然信用记录单薄却很可靠，谁的收入有季节性、所以三月份晚还一次是正常的，什么时候一个申请人不太老实。换掉这些信贷员，那些知识就随他们走出大门了，因为它从来就不在 AI 学习的那套软件里。

下半部分是深度那一遍，也正是这个决定为什么会适得其反。顺着客户这个领域往前追：砍成本撤掉了信贷员，于是服务下降（AI 漏掉了真人本来会接住的那些信号，正是流失掉的那份经验），于是客户流失，于是收入跌到比省下的还低，于是节省化为乌有。那条虚线箭头才是关键：这条链绕回了起点，意味着这个砍成本的动作最终抹掉了它自己的理由。那个绕回来，正是你画级联图要找的东西，而如果你只问 AI「这能省多少钱？」，它是看不见的。

下面是同一门修炼，换一个决定。

一位学生会主席想省钱，把一年一度的运动会从租来的体育场搬到大学自己的场地。AI 说：「这能省下 40% 的活动预算。」好处显而易见：不用付租金、离校园更近、布置更省事。AI 列了一堆好处，并建议照办。

在提出这个想法之前，她画了一张级联图。她的决定：把运动会从租来的体育场搬到大学场地，省下 40% 的预算。 她列了五组人，给每组追了三层。显而易见的效应都在意料之中（省钱、学生少跑路、场地更小）。但第三层揭出一个她没想到的问题：大学场地能容纳的观众少得多，于是来的家庭更少，于是活动显得更小，于是为了曝光度而出钱的赞助商明年会少付钱，于是预算会缩水，于是活动又得办得更小。一个回路，这个省钱的动作在悄悄地让活动一年比一年小。

级联图示例：运动会

上面这张图展示了她完整的级联图：每组人（学生、运动队、餐饮摊主、行政、赞助商）会发生什么，那个本会让活动一年比一年小的回路，以及她为防止它而加的保护，一份保底的最低赞助套餐，和一次在拍板前对观众容量的检查。AI 最初的答案（「直接搬，省钱」）一项保护都没有。她照样省了钱，但省得没触发那个回路。

她画的这张级联图，本身就是一份被记录下来的思考证据，正是这一页顶上那条规则讲的东西。当她向学生会汇报、有人问「这不会让活动缩水吗？」时，她不用临场现想。她指着她早就画好的那个回路、早就搭好的那份保护。那张图既是思考，也是思考过的证据。

自己来试试

你的练习： 你的大学刚宣布，下学期所有考试都将采用 AI 监考（考试期间 AI 通过你的摄像头盯着你），并且只能在线进行。不再有线下考试。

画一张级联图，包含五组人：学生、教授、IT 人员、家长、校方。 每组追三层深。找出一个回路：一个靠后的效应绕回来，让最初的决定变得更糟。

（或者用你自己这周生活里任何一个真实的决定。那才让它真正记得住。）

1Your Work

AI 评分器会核查两件事：

你是否覆盖了全部五组、每组三层，并且解释了每个效应是怎么发生的（而不只是给它起个名）？ 打 1-10 分。告诉我哪一组最弱，我漏了什么。
你的回路是一条真正的因果链，还是只是一个标签？ 打 1-10 分。「学生有反应」是一个标签。「网不好的学生考砸，拉低了大学的通过率，让校方重新考虑这项政策」是一条真正的链。如果我的只是一个标签，告诉我怎么把它变成一条链。

别重画我的图。如果某个格子是空的或含糊的，直接说出来就行。

你的级联图（写下决定，然后列出每组人和三层效应。不用整齐）：

决定：所有考试都将采用 AI 监考并只能在线进行。学生：第 1 层 → 第 2 层 → 第 3 层教授：第 1 层 → 第 2 层 → 第 3 层 IT 人员：第 1 层 → 第 2 层 → 第 3 层家长：第 1 层 → 第 2 层 → 第 3 层校方：第 1 层 → 第 2 层 → 第 3 层

你的回路（把它写成一条因果链）：

示例：『网速慢的学生被 AI 监考标记为作弊。他们提出申诉。申诉太多迫使校方加上人工复核，这比原来的线下考试还贵。』

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次大约要 15-20 分钟。头几个「然后呢？」问起来会觉得别扭。这很正常。真正的洞见通常出现在第三层，而不是第一层。练熟之后，你能在 8-12 分钟里画完一整张图。

拿到分数后，去找一个 AI 评分器提到、而你忘掉的组。那就是你盲点所在的地方。如果 AI 找到了一个你漏掉的回路，就格外留意它。回路是最重要的东西，因为它们告诉你一个决定什么时候会随时间反噬。

你刚才做的事，帮你追了一个决定之后会发生什么。但它不检查这个决定一开始是不是建立在对的信息上。

一个画得完美无缺、却建在错误假设上的计划，照样会失败。它只是会失败得更晚，附带更好的笔记。这就是修炼 5 要对付的事。

想看一个好例子吗？（提交你自己的之后再打开。）

另一位学生做了同一道 AI 监考的练习。这不是唯一的正确答案，但它展示了一张好的级联图长什么样。

决定： 下学期所有考试都将采用 AI 监考并只能在线进行。

组别	首先发生什么	这又引出什么	那又引出什么
学生	网速慢或笔记本旧的学生很吃力	有些人被 AI 监考错误地标记为「作弊」	这些学生提出申诉；对考试系统的信任下降
教授	教授在考试期间看不到学生	他们分辨不出学生是困惑还是卡住了	教授把考试重新设计得更短更简单，于是拉低了标准
IT 人员	IT 得安装并支持监考软件	考试周里学生不停打电话给 IT 反映技术问题	IT 不堪重负；全校所有人的响应时间都变差
家长	家长担心隐私（摄像头录像）	一些家长联系校方投诉	大学得写新的隐私政策，这要花好几个月
校方	校方省下了考场的钱	但他们花钱买了监考软件的授权	省下的钱结果比预期的要少

那个回路： 网不好的学生被标记作弊 → 他们提出申诉 → 校方不得不雇人逐一人工复核 → 这比订考场还贵 → 校方考虑改回线下考试 → 最初的决定被推翻。

为什么这是好的： 五组人都覆盖了，每组三层。每个效应都解释了它是怎么发生的，而不只是说发生了什么。那个回路是一条真正的链：它从一个学生问题开始，最后以推翻最初的决定收尾。

这并不试图做到： 列出每一个可能的效应。这个场景里还有更多回路（教授辞职、学生转学）。重点是找到一个带清晰因果链的真实回路，而不是在第一次就把它们全找出来。

如果你的图看起来比这张还整洁，那就是信号：在你最弱的两个领域再往深问一个「然后呢？」，再去找一个回路。

它为什么有效（背后的研究）

级联图不是什么新点子，它是系统动力学的一个精简版本，这个领域花了七十年记录下一个顽固的事实：人按直线推理，世界却按回路运转。三套研究解释了为什么把图画出来胜过在脑子里想一遍。

需求放大（杰伊·福瑞斯特，1958）。 福瑞斯特在 MIT 创立了系统动力学，他表明，在一条链上某一点做出的决定，会向外扩散、再变了形地绕回来。他最著名的演示就是如今所谓的牛鞭效应：零售端顾客需求一个小而稳的变化，会在上游工厂订单里产生剧烈的波动，因为每一环都只对挨着它的那一环做反应，看不到整个回路。这个教训远不止适用于供应链，当你用直线的方式做决定（「这能省 30%」），你就漏掉了那个效应穿过系统、变了形再回来的过程。级联图就是那个让这趟返程在你拍板前显现出来的工具。

读更多：牛鞭效应（维基百科），它把这个想法追溯到福瑞斯特的《Industrial Dynamics: A Major Breakthrough for Decision Makers》，《Harvard Business Review》，36(4)，1958。

对反馈的误判（约翰·斯特曼，啤酒游戏）。 斯特曼做过一个如今已成经典的实验，啤酒分销游戏，玩家各管一条简单供应链上的一环。即便是聪明、积极的参与者，MBA 学生、高管，也可靠地制造出巨大而昂贵的震荡，因为他们只对眼前的东西做反应，忽略了他们看不见的那个系统里的延迟和反馈回路。这个失败不是因为不努力或不聪明，而是因为那些回路是隐形的，除非有什么东西逼你把它们摊开来。那个「什么东西」，正是级联图提供的：一个五分钟、低风险版本的被迫画图，让那个回路在它害你之前先现形。

读更多：啤酒分销游戏（维基百科）。完整论述在斯特曼的《Business Dynamics: Systems Thinking and Modeling for a Complex World》（McGraw-Hill，2000）里。

杠杆点（唐内拉·梅多斯，2008）。 梅多斯在同一个 MIT 传统里工作，她一辈子都在论证：改变一个系统最有力的地方，几乎从来不是那些显而易见的地方。最大的杠杆通常就坐落在反馈回路里，正是那些直线分析从不点名的结构。她那句直白的推论：你没法去调节、削弱或防范一个你还没画出来的回路。级联图的整个任务就是把至少一个回路浮上来，因为那个回路既是隐藏的风险，也是杠杆最大的可干预之处。

读更多：梅多斯的文章 Leverage Points: Places to Intervene in a System，它成了她那本《Thinking in Systems》（Chelsea Green，2008）的基础。

级联图把这三者合在一起。 决定穿过一个系统、变了形再回来（福瑞斯特），人们可靠地漏掉这些返程，除非被逼着把它们画出来（斯特曼），而他们漏掉的那些回路，恰恰是杠杆最大的可行动之处（梅多斯）。这张图就是那个在改决定还不花钱时抓住回路的被迫画图。没有人专门拿级联图对照过 AI，但底下那个发现，人会漏掉反馈回路、把它们外化出来就能修正，是这个领域里被反复验证得最多的结论之一。AI 时代的转折只在于：你现在有了一个盲点正好相反的搭档，AI 在你会忘掉的广度上很强，在你天生能感知的回路上很弱，所以一起画图，一次就把两边的缺口都补上了。

深入了解： 第 0 部分第 3 章：用系统的方式思考。完整版（同行评审、加上 AI 反向分析、再加上评估量表；60 分钟）把这变成一个系统。

第 3 部分：原创（做 AI 做不到的事）

第 1 部分教你在问 AI 之前先思考。第 2 部分教你发现 AI 答案里的错误。第 3 部分讲的是另一件不同的事：做 AI 没法替你做的那种思考。

AI 在这里有两个大盲点。第一，它给你最常见的答案，而不是最适合你处境的答案。如果一千个人问了同一个问题，AI 给你的是对他们管用的那些东西的平均值。但你的处境也许不一样。第二，你用 AI 越多，就越容易停止自己思考，直接接受它说的任何话。

修炼 5 和修炼 6 修正这两个问题。

开始之前，先学一个重要的说法：命名阈值。命名阈值是一个具体的条件，它告诉你一条建议什么时候不再管用。比如：「这条建议在你的班级少于 30 名学生时管用」是一个命名阈值。「这有时候管用」不是，因为「有时候」没告诉你什么时候。你过一会儿就要用上这个说法。

修炼 5：第一性原理

你是你大学编程社的主席。校园里其他每个社团都刚开始收会费了。你的副社长、你的指导老师、还有两位资深成员都说着同一句话：「我们也该收费，别人都在收。」你问 AI。AI 同意。所有人都指向同一个方向。

那个一致正是危险所在。当所有人都站到同一个答案后面，包括 AI，它就让人觉得尘埃落定，于是很容易停止思考、随大流。但这个常见答案建立在对大多数社团管用的东西之上。你的社团也许是那个例外，而房间里没人在核查它是不是。这门修炼就是你核查的办法。

这个核查有一个具体的形状：你拿过那条常见建议，找出它不再管用的那个确切条件。大多数人在怀疑一条建议时，产出的是一句含糊的抱怨，「收会费不总是个好主意。」那没用，因为「不总是」从不说什么时候。这门技能是把含糊的抱怨变成一个命名阈值，一个具体的、带数字的、建议会破裂的条件。

为什么叫「第一性原理」？ 从第一性原理推理，意思是拒绝仅仅因为人人都重复某个答案就接受它，而是去算出对你的处境来说究竟什么是真的。人们通常把这想象成从零搭起一个答案。这门修炼做的是更轻、更快的版本：你不重建那条建议，而是测试它，你找出那个常见答案对你不再为真的确切条件。同一个根本动作（别凭权威接受共识，对照你自己的情况核查它），瞄准的是边界，而不是空白页。

把这个动作看一遍。 同一个处境，两种怀疑建议的方式：

含糊的抱怨： 「收会费不总是个好主意。」
命名阈值： 「当你社团的主要目标是吸引从没写过代码的大一新生、而他们大多数付不起会费时，收钱会把你正想触及的那群人吓跑。」

第一句是耸耸肩。第二句告诉你这条建议确切在什么时候失败（付不起的大一新生）以及为什么（会费挡住了社团存在的意义所要触及的那些人）。第一句什么都改变不了。第二句改变你的决定。那个差距，在耸肩和一个命名条件之间，就是这整门修炼。

下面是怎么练。 挑一条你身边每个人（还有 AI）都叫你照办的常见建议。然后写三行。每一行里，描述一个那条建议不管用的具体处境。用一个真实的数字或真实的条件，而不只是「有时候」。

那条常见建议	它什么时候不再管用？（用一个具体的数字或条件。）

如果你没法用具体条件填满三行，那说明你一直在照这条建议办、却没真正理解它。

怎么判断你这一行写得好不好： 一行写着「当你社团 80% 以上的成员是没有收入的大一新生时，收会费会让你的会员人数砍半」是有用的。它告诉你这条建议确切在什么时候破裂。一行写着「收会费不总是管用」太含糊，帮不了你做决定。

注意它保护的是谁。没人会因为社主席收会费去审计她，整个房间，加上 AI，都同意那是对的动作。要是她随了大流，她只会做出一个更糟的决定，眼看会员人数下滑，却永远不知道那个命名阈值才是原因。阈值不是你为了日后辩护而产出的东西。它是那个在你身边所有人还在点头附和时就拦住一个坏决定的东西。

边界条件：从含糊的抱怨到命名的阈值

一个好结果长这样。

上面那位编程社主席并不是第一次就写出了三行完美的。想透了之后，她有了这些：

常见建议：「每个社团都该收会费。」
边界 1。当你 80% 以上的成员是没有收入的大一新生时，收会费会把你正想触及的那群人吓跑。阈值：80% 是没收入的大一成员。
边界 2。当你社团的主要价值是任何人都能参加的免费工作坊时，加一道会费就造出一道门槛，扼杀了随到随参加的出席。这在你校园里有 3 个或更多仍然免费的竞争社团时最要紧。阈值：同校园里有 3 个以上免费的竞争社团。
边界 3。当你社团的大部分预算来自一笔要求你对所有学生开放的校方拨款时，收会费可能让你丢掉那笔拨款。阈值：一笔带「开放准入」要求、且覆盖你一半以上预算的拨款。

她把这三条边界拿给指导老师看。他们决定让社团保持免费，改靠有赞助的黑客松筹钱。到学期末，会员人数增长了 40%，而那些开始收费的社团出席率却在下滑。这三条边界没有一条出现在那条常见建议里。也没有一条出现在 AI 的第一个答案里。

那三条边界也是一份被记录下来的思考证据，正是这一页顶上那条规则讲的东西。当这位主席和她的指导老师坐下来时，她没说「我对收费有种不好的预感」。她在桌上摆出三个命名条件。一种感觉和三个命名阈值之间的差别，就是被否决和被听取之间的差别。那几行既是她的思考，也是她思考过的证明。

没有命名阈值，她大概会写成这样：

常见建议：「每个社团都该收费。」	为什么这帮不上忙
有时候收会费不是个好主意。	太含糊。「有时候」没说什么时候。这可能指 5% 的成员退出，也可能指 90% 退出。它帮不了你做决定。
别的社团也不总是知道自己在干什么。	这是对别的社团的抱怨，不是你做决定的理由。它什么都改变不了。
这要看情况。	说「看情况」却不说看什么情况，帮不上忙。大家早就知道它看情况。

自己来试试

你的练习： 挑任何一条人们不停叫你照办的常见建议。例子：「追随你的热情」「永远要组队学习」「每份薪水存 20%」「别翘课」。写三行。每一行里，命名一个那条建议不再管用的具体处境（带一个数字或条件）。

（不管你挑哪条建议，做法都一样。）

开始前记住： 一个阈值用一个具体的数字或条件（「当你班上超过 200 名学生时」）。像「有时候」「常常」「看情况」这样的词都不是阈值。

如果你想不出第三行， 那说明你一直在照这条建议办、却没真正理解它。试着换一条建议，而不是硬凑一个弱弱的第三行。那本身就是一个有用的发现。

1Your Work

AI 评分器会核查两件事：

每一行是否都有一个具体的阈值（一个数字、一个条件、一个清楚的处境）？ 打 1-10 分。引出最弱的那一行。
每一行是否解释了那条建议在那个处境里为什么失败，还是只说了「它不管用」？ 打 1-10 分。指出任何一行是含糊的抱怨、而非真正的解释。

别重写我的几行。如果某一行是空的或含糊的，直接说出来就行。

我正在审视的那条常见建议：

示例：『永远要组队学习。』

第 1 行：这条建议什么时候不再管用？（命名一个具体条件并解释为什么。）

当【带一个数字或条件的具体处境】时，这条建议失败，因为【原因】。

第 2 行：

当【带一个数字或条件的具体处境】时，这条建议失败，因为【原因】。

第 3 行：

当【带一个数字或条件的具体处境】时，这条建议失败，因为【原因】。

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

第一次大约要 15-25 分钟。阈值比你以为的更难写。拿到分数后，找出任何一行你写了「有时候」或「看情况」的，用一个真实的数字或条件重写它。如果你重写不出来，那一行大概不是一个真正的边界。把它丢掉，换一条。

你刚才做的事，帮你找到了一条建议在哪里不再管用。但它帮不了你在那些没有明显建议可挑战的问题上和 AI 协作。这就是修炼 6 要对付的事。

想看一个好例子吗？（提交你自己的之后再打开。）

另一位学生挑了「永远要组队学习」这条建议。下面是她的三行：

常见建议：「永远要组队学习。」
第 1 行。超过 5 个人的小组效果不好。大多数人只是坐着听，由 2-3 个人干真正的活。什么时候破裂：超过 5 个人。
第 2 行。有些科目需要安静专注（比如解数学题或写文章）。在小组里，每隔几分钟就有人打断你。什么时候破裂：需要超过 30 分钟安静思考的任务。
第 3 行。当一个人懂得比其他所有人多得多时，他整段时间都在讲解、而不是在学。他自己的功课落下了。什么时候破裂：当最强和最弱的学生差了 2 个年级以上时。

为什么这是好的： 每一行都用了一个具体的数字（5 个人、30 分钟、2 个年级）。每一行都解释了那条建议为什么失败，而不只是说它失败。

三行清楚的就够了。你不需要列出每一种可能的处境。

它为什么有效（背后的研究）

第一性原理那个动作，找出常见建议对你不再为真的确切条件，坐落在三个关于建议为什么失败、以及如何测试它的更老想法之上。

生态理性（格尔德·吉仁泽、彼得·托德与 ABC 研究小组，1999）。 他们的核心发现可以用一个短公式抓住：启发法 + 环境 = 结果。一条经验法则本身从来不分好坏，它在它契合的环境里是好的、在它不契合的环境里是坏的，而整门技能就是知道你身处哪个环境。「收会费」是为成员付得起钱的社团调好的启发法；把它丢进一个全是没收入的大一新生的社团，同一条法则就适得其反。一个命名阈值无非是你精确地说出那条建议不再契合的环境，而这恰恰是这套研究所说的、把好决定和坏决定区分开的那种判断。

读更多：生态理性（维基百科），概括了吉仁泽、托德与 ABC 研究小组的《Simple Heuristics That Make Us Smart》（Oxford University Press，1999）。

识别启动决策（加里·克莱因，1998）。 通过研究压力下的消防员、护士和其他专家，克莱因发现他们很少权衡选项，他们把一个处境识别为熟悉的，然后跑第一个契合的模式，通常自己都没察觉到这么做了。那又快又往往正确，但那也恰恰是共识建议如何不经审视地溜过去的方式：它感觉像一个被识别出来的、尘埃落定的答案。逼自己写下这个模式什么时候会失败，就是那个打断自动匹配的刻意停顿，你停止模式匹配，停得够久，去核查你这个情况是不是那个例外。

读更多：识别启动决策（维基百科）；完整论述在克莱因的《Sources of Power: How People Make Decisions》（MIT Press，1998）里。

可证伪性（卡尔·波普尔，1959）。 波普尔论证道，一个论断只有在你能说出什么会证明它错的时候，才告诉了你关于世界的东西。一个在任何可能结果下都能存活的信念，什么都解释不了。一个命名阈值就是把可证伪性测试用到建议上：*「这管用，除非超过 80% 的成员付不起会费」*命名了你会放弃这条建议的那个确切条件。一句含糊的抱怨，「它不总是管用」，没命名任何条件，永远没法核查，于是什么都改变不了。那就是一个阈值和一次耸肩之间的差别。

读更多：可证伪性（维基百科），波普尔在《The Logic of Scientific Discovery》（1959）里引入的想法。

第一性原理把这三者合在一起。 建议永远只对它契合的环境为真（吉仁泽与托德），共识溜过你是因为识别一个「尘埃落定」的答案是自动的（克莱因），而解药是命名那个会证明这条建议对你为错的确切条件（波普尔）。一个命名阈值一次做到这三件：它陈述了环境，打断了自动匹配，并且具体到足以被核查。没人专门拿这个练习对照过 AI，但底下那些想法已经站住了几十年。用它们去压力测试 AI 那些自信的共识答案，是水到渠成的下一步。

深入了解： 第 0 部分第 4 章：从第一性原理推理。完整版（空白页冲刺：针对一个你一直在遵循的做法写 500 字，然后跑一次结构化的 AI 反向分析和一次同行评审，60 分钟）在第 0 部分里。这一页教你那个「行」的形状。那一页教你那篇长论证。

修炼 6：和 AI 一起工作

你花了一上午和 AI 一起写一篇重要的文章。结果看起来很棒。论点清楚，文字流畅。然后你的教授问：「这里面哪些部分是你的想法、哪些来自 AI？」你张开嘴，才意识到你分不清。有些句子是你的。有些是 AI 的。大多数是混在一起的。文章是好的。你只是不知道哪些部分你真的能解释和辩护。

下面是怎么修。把同一项任务用三种不同的方式做一遍，然后把结果并排比较。

独自做。 15 分钟，不用 AI。只有你和问题。
只用 AI。 5 分钟。问 AI，接受第一个答案，什么都不改。
协作做。 10 分钟。问 AI，带着批判去读，该不同意就不同意，问追问的问题，自己重写一些部分。

然后比较三个版本。问自己：哪个版本最好？「一起做」那个版本里，哪些部分是因为你顶回去过某件事才变好的？「一起做」那个版本通常胜出，但真正的教训是看清你的思考确切在哪里让它变好了。这就是这门修炼讲的事。

这个比较是什么感觉。 假设你的任务是一封给教授的邮件的结尾那句话。把三个版本并排摆开，只读那一句：

独自做： 「谢谢，再次为给您添麻烦说声抱歉。」（道歉式的，有点软。）
只用 AI： 「感谢您的时间与体谅。」（流畅，但它可能是任何人发的任何一封邮件。）
协作做： 「如果有帮助，我可以把我目前做的给您看看。」（你的，它证明你已经开始干活了。）

并排读它们就是整个动作。独自做那句显示你单独会写出什么。只用 AI 那句显示 AI 默认会写什么。而协作那句是你能辩护的那一句，因为你知道它为什么胜过另外两句：它做了另外两句都没做的一件事。你不只是觉得协作版本更好，你能指着那一句说出它做了什么。那个「指出来」就是技能。

对一个真实项目，完整的比较大约要 30 分钟。下面的练习是一个 10 分钟的快速版本，好让你今天就感受到那个差别。

三条路径的比较

在一整项任务上看，它长这样。

一位学生得给她的教授写一封邮件，为一项大作业请求延期。她有一个真实的理由（她在应对一桩家庭急事），但她需要这封邮件诚实、又不听起来像找借口。她决定三条路径都试一遍。

独自做，15 分钟。 她没用 AI、自己写了这封邮件。它诚实而个人化。她把自己的处境讲得很清楚。但她说得啰嗦，真正的请求（「能给我多 5 天吗？」）埋在了最底下。邮件太长，教授可能读不到结尾。

只用 AI，5 分钟。 她把处境给了 AI，接受了第一稿、什么都没改。邮件流畅、结构好。但它听起来很笼统，像一个谁都能发的模板。它没提到任何关于她处境的具体细节。它听起来不像她。教授大概会以为她只是复制了一封 AI 邮件。

协作做，10 分钟。 她自己写了开头（用她自己的话讲她那个具体处境），然后请 AI 帮她重排邮件、让请求先出现。AI 建议把语气放软；她不同意，保留了她直接的措辞，因为她知道这位教授偏好诚实甚于客套。她还请 AI 给一个结尾句；AI 那版太正式，于是她重写成了她实际说话的样子。最终的邮件清楚、个人化、结构好。教授一小时内回复，给了她延期。

协作版本胜出，靠的是她做的两件具体的事： 她保留了自己直接的措辞（AI 试图把它放软），并把请求放到了最前面（这是她自己想不到的）。她能确切地指出她的判断在哪里让邮件变好了。

最后那句话，就是和这一页顶上那条规则的连接。三个版本并排就是被记录下来的思考证据。胜利不是「这封邮件很好」。一大堆只用 AI 的邮件都很好。胜利在于她能逐行地显示，她的判断在哪里改变了结果，而这正是教授那个问题（「哪些部分是你的？」）真正在问的东西。还要注意，这个回报并不取决于教授有没有问。哪怕没人质疑过它，那个比较也让她的邮件真的比另外两条路径会产出的都更好。审计只是让一个本来就在那儿的价值变得可见。

为什么你需要全部三个版本、而不只是协作那个：

没有独自做的版本， 你不知道你单独会写出什么。所以你分不清最终邮件里哪些想法是你的、哪些来自 AI。
不把三个都比较， 你没法证明协作版本真的更好。要是有人问你为什么选这个版本，「它感觉更好」不是个真答案。
没有只用 AI 的版本， 你分不清自己是不是把 AI 说的全接受了。如果你的协作版和只用 AI 版看起来几乎一样，你就没真的协作。你只是复制了。

什么时候用它、什么时候跳过

对那些你的个人经验要紧的活用它：需要听起来像你的邮件、AI 不了解你处境的决定、需要你自己想法的创作。对那些 AI 自己就能做好的简单任务（比如排一张表格或总结笔记），就让 AI 做。别把这个练习浪费在不需要你判断的任务上。

自己来试试

从这里开始： 写一条给房东、请求减租的消息，或者一封给教授、请求延期的邮件。一件你掌握着 AI 没有的背景的事（你的付款记录、你和对方的关系、那个具体处境）。

职场版本： 你的老板让你写一份一页的备忘录，建议你公司该不该收购一个更小的竞争对手。那个竞争对手有 90 人，本来增长很快，直到上个季度它丢了最大的客户（那个客户占了它们 22% 的收入）。它们愿意以 4000-5500 万美元被收购。你的建议在接下来三年里会被人引用回来。

不管选哪个，都做全部三个版本：独自做（5 分钟）、只用 AI（3 分钟）、协作做（5 分钟）。把三个并排摆开。重点不是那份备忘录。重点是这三条路径之间被感受到的差别。

（或者挑你这周桌上任何一个真实的决定。越接近真实的，比较越锋利。）

别跳过只用 AI 那一稿。 它是最诱人去省掉的一个（「我已经知道 AI 会说什么了」），也是最有诊断价值、最该留下的一个。如果你的协作版最后跟你的只用 AI 版近得让人不安，那你就接受过头了。你只有把两个都写出来才学得到这一点。

1Your Work

AI 评分器会核查两件事：

你的三个版本真的不一样，还是它们都在说同一件事？ 打 1-10 分。如果独自做版和协作版看起来几乎相同，说出来。
你那三处覆盖具体吗？ 打 1-10 分。每一处覆盖都应该是你能指着说「没有这个，邮件就会更糟」的东西。如果哪一处覆盖含糊（比如「我把它弄好了」），说出来。

别重写我的活。如果某个格子是空的或含糊的，直接说出来就行。

描述你三个版本各自（你写了什么、什么让你意外、它在哪里不足）：

独自做（15 分钟，不用 AI）：我写了…… | 只用 AI（5 分钟）：AI 写了…… | 协作做（10 分钟）：我用了 AI 但改了……

命名你在协作版本里改了或加了、让它更好的三件具体的事：

1. 我改了……因为…… | 2. 我加了……因为…… | 3. 我在……上不同意 AI，因为……

你实际会发出哪个版本，为什么？

独自做 / 只用 AI / 协作做。一句话解释为什么。

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

包括思考时间在内一共大约要 15 分钟。拿到分数后，找一个 AI 评分器说你独自做版本在某件事上更好的地方。那告诉你你的协作版本在哪里太依赖 AI、而不是依赖你自己的思考。

你刚才做的事，是把整门速成课浓缩进了一个练习。你在问 AI 之前先形成了自己的意见（修炼 1）。你追踪了你同意和不同意的地方（修炼 2）。你检查了错误（修炼 3）。你想了接下来会发生什么（修炼 4）。你测试了常见建议在哪里不再管用（修炼 5）。而当 AI 试图接管时，你守住了自己的判断（修炼 6）。重点从来都不是答案本身。重点是能够展示你是怎么思考到那里的。

想看一个好例子吗？（提交你自己的之后再打开。）

另一位学生写了一封给教授、请求延期的邮件。下面是每个版本长什么样：

版本	她写了什么
独自做（15 分钟）	诚实而个人化。把她的家庭处境讲得很清楚。但它太长了，真正的请求（「能给我多 5 天吗？」）埋在了最底下。她知道它需要重排，但时间用完了。
只用 AI（5 分钟）	短而有条理。但它听起来像个模板。它用了像「我将不胜感激您的体谅」这样她现实里绝不会说的话。它没提到任何关于她的课程或她教授的具体细节。
协作做（10 分钟）	她用自己的话写了开头，然后请 AI 帮她把请求放到最前面。AI 建议把语气放软；她保留了直接的措辞，因为她知道这位教授喜欢诚实。她用了 AI 建议的结构，但把结尾换成了她自己的一句话。

她在协作版本里改的三件事：

保留了她直接的语气。 AI 试图把它弄得更正式（「我将感激您的理解」）。她保留了原本的措辞（「我需要多 5 天」），因为她的教授说过他偏好开门见山的学生。没有这个，这封邮件就会听起来跟其他每一封 AI 写的延期请求一样。
把请求挪到了第一句。 这是她自己想不到的。AI 建议了它。这是相比她独自做版本的单项最大改进。
替换了 AI 的结尾句。 AI 写的是「感谢您的时间与体谅。」她把它换成了「如果有帮助，我可以把我目前做的给您看看。」这显示了她已经开始干活了。没有这个，邮件就会以一句什么也没加的笼统话收尾。

为什么这是好的： 每一处覆盖都指向一件她知道、而 AI 不知道的事（她教授对直接的偏好、她已经开始干活这个事实）。她能确切地说出她的判断在哪里让邮件变好了。那就是检验。

它为什么有效（背后的研究）

这个练习所基于的模式，人加 AI 胜过任何一方单独、但前提是人守住决定权，是 AI 生产力研究里最一致的发现之一。三套研究从三个角度解释了它。

人机协作（加里·卡斯帕罗夫，谈「半人马」象棋）。 1997 年输给 IBM 的深蓝之后，卡斯帕罗夫并没有断定机器就这么赢了。他帮着推广了高级象棋，让人和电脑并肩对弈。在随后出现的自由式比赛里，最强的参赛者往往不是特级大师、也不是最好的引擎，而是擅长驾驭机器的普通棋手，知道何时该信任它的计算、何时该用人对策略的判断去覆盖它。那个持久的教训并不是专门关于象棋的（如今的引擎已经强到人很少能改进纯下法）；它是说，当人贡献出机器缺的东西时，协作就胜出。在写作和决策里，那个东西就是你的私有背景，你的处境、你的读者、你真正想说的，而这恰恰是协作那条路径逼你加进去的。

读更多：高级象棋（维基百科）；卡斯帕罗夫在《Deep Thinking》（PublicAffairs，2017）里展开了这个论证。

AI 把懂得最少的人抬得最高（布林约尔松、李与雷蒙德，2023）。 在第一项关于生成式 AI 在工作中应用的大型实地研究里，研究者跟踪了 5,179 名配了 AI 助手的客服人员。生产力平均上升了 14%，但这个增益几乎全集中在新手身上（大约跳了 34%），对最有经验的人几乎没影响。原因很说明问题：那个 AI 基本上是在把老手早就有的知识递给新手。这对本练习的含义很直接，协作只有在你带来 AI 还不含有的东西时才增加价值。在 AI 已经知道答案的地方，没有判断让你去加；在你掌握着背景的地方，你的覆盖才是全部重点。

读更多：工作中的生成式 AI（NBER），发表于《Quarterly Journal of Economics》（2025）。

AI 把每个人都压向同一个中间（诺伊与张，2023）。 在一项受控实验里，444 名专业人士做写作任务，一半人用 ChatGPT。这个工具缩短了时间、提高了平均质量，但它做到这一点的方式是压缩了分布：弱的写作者提升很多，强的写作者几乎没变，产出之间也变得更相似了。那个压缩就是这个练习里内置的警告。如果你原封不动地拿 AI 的草稿，你就落到和其他每个人都落到的那个能干而笼统的中间。协作那条路径就是你怎么从那个中间爬回来的，你的覆盖才是让结果属于你、而非那个共享默认值的东西。

读这篇论文（开放获取）：关于生成式人工智能生产力效应的实验证据，《Science》，381，2023。

三路径比较把这三者合在一起。 协作只有在人驾驭机器、而非顺从它时才胜过独自工作（卡斯帕罗夫）；AI 在你懂得最少的地方加得最多，这意味着你的价值就是 AI 还不掌握的东西（布林约尔松、李与雷蒙德）；而若放任不管，AI 会把每个产出都拉向同一个笼统的中间（诺伊与张）。把任务写三遍，独自做、只用 AI、协作做，让这三者一次都现形：只用 AI 那稿给你看那个笼统的中间，独自做那稿给你看哪些是你独有的，而协作那稿正是你的判断把前者变成后者的地方。没人专门测试过这个练习，但底下那个发现，差不多是这个领域里立得最稳的结论。

这个练习的完整版本（95 分钟的三路径比较，带同行评审、XP 追踪、以及全面的协作风格诊断）在第 0 部分第 6 章：和 AI 一起工作，而不是为 AI 工作里。这一页教你这门修炼。那一页围着它搭起一整个工作周。

总结篇：一个决定，六门修炼

你是你大学学生会的主席。学校刚给了你的学生会一笔意外的 10,000 美元预算，必须在学期结束前花掉。你看到两个选项。选项 A： 雇一位专业活动策划，办一场盛大的年末告别派对。选项 B： 用这笔钱买 AI 工具和设备，帮每位学生会成员一整年都把活动办得更好。一半的学生会想要告别派对。一半想要 AI 工具。你得在周五的学生会上提出你的建议。下面是每门修炼怎么帮你决定。

修炼 1，预测锁定。 在问 AI 任何事之前，你写下你的四行。真正的决定： 不是「告别派对 vs. 工具」，而是「一场盛大的活动 vs. 让未来每场活动都更好」。能定夺它的问题： 这些 AI 工具真的会被足够多的学生会成员用起来、值回这笔投资吗？你的立场： 选选项 B，AI 工具，因为你看着这届学生会整年都在为活动策划挣扎，你知道对的工具会改变接下来的四场活动、而不只是一场。信心 + 什么会翻转你： 55% 确定。如果 8 名学生会成员里少于 6 名真的会用这些工具，就换成选项 A。

然后你去问。注意你的第 2 行问题是关于学生会成员的，所以答案来自他们、而不是来自 AI：你直接问那八个人。六个说他们会用这些工具并完成培训；两个不确定。那达到了你六的标准。你的立场守住了，选项 B，理由就是你写下的那个，而现在背后多了个数字、而不是一种直觉。（不是每个定夺的问题都是 AI 问题。预测锁定只是告诉你该回答哪个问题；有时候你靠问人、而不是问模型来回答它。）

修炼 2，推理回执。 现在你向 AI 求教怎么花这笔钱。AI 说告别派对会「为 500 多名学生创造长久的回忆」。你把它标为 MODIFY：场地只容得下 300 人。AI 说 AI 工具能把活动质量提高 35%。你把它标为 REJECT：没给来源，而且你的学生会从没用过这些工具。AI 提到别的大学靠用 AI 做活动策划省了钱。你把它标为 SURFACED：你没想过别的大学在做什么。你还注意到 AI 从没提过一场 10,000 美元的告别派对会需要活动保险和安保，你把它标为 MISSED 并自己加上。过完 AI 的建议，你有了 8 个标好的行。你确切地知道哪些说法你信、哪些不信。

修炼 3，错误分类法。 回执处理了你停下来看的那些说法；错误扫查针对的是你可能放过去的那些。你把 AI 的输出过一遍那六种错误类型，抓出三个回执漏掉的：一个捏造的来源（AI 引用了一份你哪儿都找不到的「2025 年全国学生活动报告」），一个过时的事实（AI 报的 AI 工具价是去年的；现价大约高了 15%），以及一个虚假的自信（AI 一口咬定这些工具「一个学期就能回本」、背后什么都没有）。那个过时的价格改变了你的预算算法；另外两个是在提醒你，AI 那自信的语气里有多少是没挣来的。

修炼 4，级联图。 你追了每个选项在五组人那里会发生什么：

学生会成员： 选项 A 意味着一场盛大的活动、然后就没了。选项 B 意味着每个人都获得新技能。
学生： 选项 A 给 300 名学生一个美好的夜晚。选项 B 给所有学生改善每一场活动。
校方行政： 选项 A 安全又熟悉。选项 B 显出学生会有前瞻性。
下一届学生会： 选项 A 什么也没留下。选项 B 留下下一支队伍能用的工具和培训。
赞助商： 选项 A 吸引想在一场活动上获得曝光的赞助商。选项 B 更难向赞助商兜售。

你找到一个回路：如果你选了选项 B、但 8 名成员里只有 4 名真的用了工具，活动就没改善，下一届学生会看不到好处，于是他们砍掉这些 AI 工具。这笔投资就白费了。这恰恰是你在预测锁定第 4 行里命名的那个翻转条件，而它真实得足以让你为它搭一道防护。

修炼 5，第一性原理。 人人都说「一场盛大的活动建立校园归属感」。你测试那条建议在哪里破裂。边界：当能参加的学生少于 20%（2,000 人里有 300 人）时，告别派对为一小群人建立了归属感，其余的人觉得被晾在一边。那个边界改变了整幅图景。

修炼 6，和 AI 一起工作。 你把你的建议写三遍。独自做：一个支持选项 B 的扎实理由，但你忘了照顾那些想要告别派对的学生会成员。只用 AI：一份各打五十大板（「两个都办！」）的流畅建议，却没解释怎么把两个都塞进预算。协作做：你自己写核心论证，请 AI 帮你照顾告别派对支持者的顾虑，并加上一条具体规则：如果 8 名成员里少于 6 名在 3 个月内完成 AI 培训，剩下的钱就改用于告别派对。

学生会投票通过了选项 B 加上你那条防护规则。你能解释你建议的每一部分，因为它是你自己、在 AI 的帮助下搭起来的。

这六门修炼做到的： 它们没给你答案。它们给了你那条轨迹：一个你周一就承诺了的立场、附带那个会翻转它的具体发现，一份显示你信了哪些 AI 说法、不信哪些的回执，一次修正了你数字的错误扫查，一张找到了风险的级联图，一条挑战了显而易见之选的边界，以及一次找到了那道防护的三版本比较。没有这六门修炼，你带着「我觉得选项 B 更好」走进会场。有了它们，你带着证据和一个备用方案走进去。

别在每个决定上都用全部六门修炼

你不需要一张级联图来决定去哪儿吃午饭。你不需要为每条短信写一份推理回执。把这六门修炼用在真正要紧的决定上。其余的，决定了往前走就好。

哪些修炼配哪种决定？

这个决定有多重要？	例子	该用哪些修炼	时间
一点也不重要	选去哪儿吃饭、回一条例行消息	一个都不用	0-1 分钟
有点重要	挑下学期一门课、买台笔记本	对最靠前的那个 AI 建议用预测锁定 + 错误分类法	10-15 分钟
重要、有截止时间	职业选择、大额采购、小组项目提案	预测锁定 + 推理回执 + 错误分类法 + 一两门契合的	30-60 分钟
非常重要、会有人评判你的推理	论文答辩、求职面试演示、学生会建议	全部六门修炼	90+ 分钟

🚀 项目

上面那个总结篇是别人的决定。下面这四个项目是你的。你不交付一个 URL，也不构建一个 App。你拿你自己这周的一个真实决定，把它过一遍这些修炼，直到你抓住一个本来会漏掉的东西，并留下那条轨迹。

这些修炼是为「抓住」而造的。事前验尸抓住你的计划失败的一种方式。回执抓住一个你其实不信的说法。错误扫查抓住一个 AI 编出来的来源。所以这里的胜利小而真实：一句你能大声说出来、以一个动词收尾的话。「我差点决定 X，但我抓住了它会失败的一种方式，所以我改了我的计划。」 「它听起来很笃定，但我抓住了一个编造的来源，所以我没有就那么接受它。」 而你留下来的那个东西是一份决定档案：一个简短的文件，只属于你，回答「你为什么这么决定？」、而你什么都不用记。那个文件就是这一页顶上那条规则的具体化，你思考过的那份被记录下来的证据。

这些不是在一个编出来的案例上的练习。只有当那个决定是真实的、并且是你的时，那次抓获才算数。这四个项目层层搭向总结篇：第一个抓住一个计划失败的方式，第二个审计一个自信的答案，第三个重构问题本身，第四个把六门修炼全跑在一个决定上、并留下结果。

Project 1约 15 分钟在它发生之前先叫出来锁定你的决定，然后跑一次事前验尸，在你拍板之前抓住它会怎么失败。

挑你这周正要做的一个真实决定。接受这个 offer 还是留下。买那个东西还是再等等。把那次谈话谈了还是放下。换计划还是按兵不动。

先写你的预测锁定，在你问 AI 任何事之前。来自修炼 1 的四行短话：标签底下那个真正的决定、一锤定音的那个事实、你的立场及其理由、以及你的信心加上什么会翻转你。

现在跑一次事前验尸。这是预测锁定底下的那个动作，修炼 1 里那个研究框里点过它的名：你设想这个决定已经失败了、并问为什么。注意这是你唯一一次故意把你的决定交给 AI。在修炼 1 里你把你的立场留在页面之外，好让 AI 不只是同意你。在这里你想让它来攻击，所以你确切地告诉它你选了什么：

我已经决定要【你的决定】。设想现在是六个月后，而这件事结果是个错误。别安慰我。列出它失败的三个最可能的原因，最可能的排在最前，并让它们贴着我的具体处境。

把这三个原因对照你的第 4 行读一读。其中一个通常是一种你没看到的失败模式。那就是那次抓获。针对它写一句话的防护（一条规则、一次检查、一根绊线），就像那位学生会主席加上「如果 8 名成员里少于 6 名完成培训，钱就改用于派对」那样。

你能大声说出来的那场胜利： 「我在我拍板之前抓住了这件事会失败的一种方式，并搭了一道防护。」

做完的标志： 你已经命名了一种事前验尸浮出来、而你之前没看到的失败模式，并针对它写了一行防护。把这两行都留着；它们是你档案的第一页。

Project 2约 20 分钟审计那个自信的答案让 AI 列出它自己的说法，然后抓住它其实撑不起来的那一个。

拿你这周真会去问 AI 的一个真实问题，让它给你一个完整、自信的建议。买哪台笔记本。选哪笔贷款。向一个客户收多少钱。那个补剂值不值。怎么应付那个租客。

大多数读者读那个建议，觉得它精致，就用了。你要改成审计它，一次用两门修炼。先是推理回执（修炼 2）：每个说法一行，标上 ACCEPT、REJECT、MODIFY、SURFACED 或 MISSED，外加一句为什么。然后是错误分类法（修炼 3）：在那同一个答案里扫查那六种错误类型，尤其是一个捏造的来源、一个过时的数字、和虚假自信。

把那些浮出来的最快办法，是让 AI 给它自己的答案打分。把这个紧接在它的建议之后粘进去：

回过头去看你刚给我的那个建议。把每一个事实性说法列成一个带编号的清单。对每一个，老实告诉我你是真的知道、还是在估计，并标上 KNOW 或 GUESS。对任何带来源的，给我确切的标题和年份，好让我能去查。

现在去抓。试着找它点名的一个来源；一个真的能在搜索里活下来，一个捏造的活不下来。拿一个数字对照今天的实际价格或数据核一核。那个撑不住的说法就是你的抓获。把它连同理由和错误类型一起放进你的回执。

你能大声说出来的那场胜利： 「它听起来很笃定，但我抓住了一个编造的来源，所以我没有就那么接受它。」

做完的标志： 你有一个标好的行、它是一次真正的抓获（一个你找不到的来源、一个过时的数字、或一个背后什么都没有的自信），而且你能说出它是那六种错误类型里的哪一种。把这份回执加进你的档案。

Project 3约 20 分钟那个解开它的问题别再向 AI 要答案；和它一起找到那个化解问题的问题。

这一整页都在论证：杠杆在问题里，不在答案里。在这里你拿一件你真卡住的事来证明它。挑你这周一个真实的问题，那种你通常会甩给 AI、配上一句「我该怎么办？」的：一个定不下来的决定、一个你反复回放的冲突、一个你总没达成的目标。

先把你通常会问的那个问题用一行写下来。然后别问它。把这个问题交出去，要更好的问题、而不是一个答案：

我卡在【你的问题】上。先别解决它。相反，问我那五个我在尝试解决它之前就该回答的问题，按最可能改变我整个思路的排在最前、到最不可能的排在最后。然后告诉我哪一个是我大概在回避的。

把这个清单对照你先写的那个问题读一读。通常其中一个，往往就是它说你在回避的那个，会重构整个问题：原来你一直在试着解决错的东西。自己回答那一个问题，用一两句话，然后看着原来的问题缩小或变形。那个被重构的问题就是你的抓获。

你能大声说出来的那场胜利： 「我不再回答那个错的问题，而那个真正的问题让难题变小了。」

做完的标志： 你能命名那个改变了你看待问题方式的、被重构的问题，并用一句话说出你一开始所用的那个问题为什么是错的。把这两个都加进你的档案。

Project 430-45 分钟决定档案把一个真实决定过一遍全部六门修炼，并把那条轨迹留在一个文件里。

这是总结篇。挑这周一个真正要紧的决定，那种日后可能有人要你为它辩护的：一次招聘、一笔大额采购、一个项目方向、一次职业变动、一次艰难的谈话。你要把六门修炼全跑在它上面，并把结果留作一份决定档案：一个文件，只属于你，回答「你为什么这么决定？」、而你什么都不用记。它不是一份精致的备忘录，也不会发布在任何地方。它是你思考过的那份被记录下来的证据，集中在一处。

打开一个空白文档。下面每一步加上一个简短的小节。

预测锁定（2 分钟）。写一个 2 行的锁定：一句命名标签底下那个真正的决定，一句承诺一个立场、附带那个会翻转它的具体发现。
推理回执（5 分钟）。就你那个真实问题向 AI 求建议，然后给它三个说法各开一张回执，用 ACCEPT、REJECT 或 MODIFY，每个外加一句为什么。（项目 2 里那个自我审计提示词让那些说法很容易看见。）
错误分类法（3 分钟）。在 AI 输出里扫查那六种类型里一个命名的错误。引出那句确切的话，并点出类型。
级联图（5 分钟）。挑三组你的决定影响到的人。每组下面写一层「然后呢？」。命名一个效应绕回到那个决定上的回路。
第一性原理（3 分钟）。写一行边界：人人重复的那条建议对你这个情况不再管用的那个阈值。
三路径比较（5 分钟）。独自把你的建议写一小段，再和 AI 一起写一段。比较它们。留下那处覆盖：你自己写的、AI 那版缺的那一句。

它不会精致。它会是你的，而且会是完整的：一个你锁定的立场、你信的和不信的那些说法、你抓住的那个错误、级联找到的那个风险、你测试的那个边界、以及你留下的那处覆盖。那就是那次抓获，放大到一整个决定。

你能大声说出来的那场胜利： 「有人问我为什么这么决定，而我有整条轨迹可以给他们看，不只是那个答案。」

做完的标志： 你有一个文件，为一个真实决定填好了全部六个小节，而且你能把它交给任何问「你为什么这么决定？」的人、让它替你回答。

接下来去哪里

想在六门修炼里任何一门上做更深的练习，本书的第 0 部分是长篇版本：

第 0 部分第 1 章：问出更好的问题。预测锁定和立场锁定在四个练习和一份问题质量作品集里展开。
第 0 部分第 2 章：侦测破裂的推理。错误分类法外加信心校准和一次领域专长压力测试。
第 0 部分第 3 章：用系统的方式思考。级联图用在四个真实决定上，外加一次人对 AI 的系统分析练习。
第 0 部分第 4 章：从第一性原理推理。空白页冲刺、假设解剖、和一次约束重建练习。
第 0 部分第 6 章：和 AI 一起工作，而不是为 AI 工作。三路径比较、协作日志、和贯穿一个工作周的覆盖测试。

想学这门速成课没覆盖的那五门思考技能，第 0 部分有完整版本：

第 5 章：传达要紧的东西。读者预测、临场调整、艰难对话。
第 7 章：在两难中推理。伦理立场锁定、对抗式辩护、利益相关者互换。
第 8 章：从无到有造点东西。空白页冲刺、创作日志、三稿演化。
第 9 章：在不确定中做决定。封存的决定、翻转触发条件、决定审计。
第 10 章：学会如何学习。元学习、72 小时冲刺、一套个人学习框架。

想在本书里走下一步，挑一种模式：

如果你写代码，继续去 Claude Code 与 OpenCode。模式 1（用 AI 改进你已经在做的工作）的工程界面。
如果你做知识工作（法律、金融、营销、运营、医疗、教育、领导），继续去 Cowork。模式 1 的领域专家界面。
如果你已经准备好造能自己运转的 AI Worker，继续去构建 AI 智能体。这是模式 2（构建独立工作的 AI 系统）。

这些修炼能跨越每一种工具、每一种模式、每一个领域。它们是你从这里带去任何地方的那个东西。

术语表

如果你读到一半、忘了某个词是什么意思，这里把那些承重的术语集中放在一处。

四个关键概念（来自规则那一节和那张图）。

修炼，一个你练习的思考习惯。是你做的事。
失败模式，AI 倾向于误导你的一种具体方式。是AI做的事。每门修炼都和它所应对的那个失败模式一一配对。
部分，一组共担某项共同任务的修炼。这门课有三个部分（基础、侦测、原创），每部分各两门修炼。
交付物，你交给老板、教授或客户的东西。在 2026 年，交付物不只是答案；它是答案加上产出它的那份被记录下来的思考证据（你写下的预测、你接受或拒绝 AI 说法的那些回执行、那张级联图、那个命名阈值）。如果你指不出那份证据，你就没有一份交付物。

这六门修炼。

#	修炼	那句行动	它做什么
1	预测锁定（第 1 部分：基础）	提示之前先预测	在你问 AI 之前写下你承诺的立场，包括那个会翻转它的具体 AI 答案。
2	推理回执（第 1 部分：基础）	记录每一个决定	对 AI 说的每件事，标上 ACCEPT / REJECT / MODIFY / SURFACED / MISSED 外加一句为什么。
3	错误分类法（第 2 部分：侦测）	预测错误藏在哪里	在 AI 的输出里扫查六种具体的错误类型：事实错误、逻辑断层、虚假自信、缺失背景、捏造来源、过时事实。
4	用系统的方式思考（第 2 部分：侦测）	级联图与回路	追一个决定之后、在它影响的各组人那里会发生什么，追三层深，并找出那些效应绕回来的回路。
5	第一性原理（第 3 部分：原创）	找到那个边界	命名那个命名阈值，常见建议不再管用的那个具体数字或条件。
6	和 AI 一起工作（第 3 部分：原创）	覆盖与迭代	比较你独自写的、AI 单独写的、和你协作写的。只有当你能指出你的判断让它变好的那些具体覆盖时，协作版本才胜出。

这一页用到的另外几个术语。

命名阈值，一个告诉你某条建议什么时候不再管用的具体数字或条件。*「这在你班级少于 30 名学生时管用」是一个命名阈值。「这有时候管用」*不是。
级联图，一张一页的图，给你的决定影响到的每组人（学生、教授、家长、赞助商等）各一个短列，每列下面三个箭头，显示首先发生什么、那又引出什么、那之后又来什么。
推理回执，一份行的清单，每个重要的 AI 说法一行。每行有三部分：AI 说了什么，你对它做了什么（ACCEPT、REJECT、MODIFY、SURFACED 或 MISSED），以及一句为什么。
回路，一条因果链，其中一个靠后的效应绕回来、改变最初的决定，通常让它变得更糟。

闪卡学习辅助

检验你的理解

Checking access...

这些修炼不是交付物。它们产出的证据才是交付物。这些修炼是你产出那份证据的方式。

这让 AI 成为你手中一件更强大的工具，还是让你成为这件工具的一个更慢的版本？

本课训练你抵抗的那股力量​

📚 教学辅助​

一句话规则​

要点（五条）​

完整框架：六项修炼​

如何阅读本页​

第 1 部分：基础（姿态，即你开始之前所采取的站位）​

修炼 1：预测锁定​

你怎么知道锁定起作用了？​

这四行在做什么​

为什么要四行？为什么不就一行？​

现在轮到你​

修炼 2：推理回执​

「可是没人会审我的工作——何必费这个事？」​

自己试一试​

第 2 部分：侦测（抓住 AI 漏掉的东西）​

修炼 3：错误分类法​

自己试一试​

修炼 4：用系统的方式思考​

自己来试试​

第 3 部分：原创（做 AI 做不到的事）​

修炼 5：第一性原理​

自己来试试​

修炼 6：和 AI 一起工作​

自己来试试​

总结篇：一个决定，六门修炼​

🚀 项目​

接下来去哪里​

术语表​

闪卡学习辅助​

检验你的理解​

本课训练你抵抗的那股力量

📚 教学辅助

一句话规则

要点（五条）

完整框架：六项修炼

如何阅读本页

第 1 部分：基础（姿态，即你开始之前所采取的站位）

修炼 1：预测锁定

你怎么知道锁定起作用了？

这四行在做什么

为什么要四行？为什么不就一行？

现在轮到你

修炼 2：推理回执

「可是没人会审我的工作——何必费这个事？」

自己试一试

第 2 部分：侦测（抓住 AI 漏掉的东西）

修炼 3：错误分类法

自己试一试

修炼 4：用系统的方式思考

自己来试试

第 3 部分：原创（做 AI 做不到的事）

修炼 5：第一性原理

自己来试试

修炼 6：和 AI 一起工作

自己来试试

总结篇：一个决定，六门修炼

🚀 项目

接下来去哪里

术语表

闪卡学习辅助

检验你的理解