2026 年的 AI 提示词：速成课

13 个概念，覆盖 80% 的真实用途

大多数人把 AI 当成谷歌搜索来用。他们输入一个简短的问题，扫一眼答案，然后就走开了。这套做法应付琐碎的小事还行，但对你生活和工作中真正重要的一切，它都行不通。

高手的做法不一样。他们给 AI 做简报，就像给一位聪明但刚入职的同事做简报一样：附上文件、上下文、约束条件，再加一个明确的请求。他们期待拿到三个选项而不是一个。他们会争论，会反复迭代，会检查成果。新手提示词和高手提示词之间的差距，靠的不是聪明，而是几个任何人花一个下午就能学会的习惯。

这一页就是那个下午。13 个概念，分成四个简短的部分。不涉及代码，不用配置，没有靠上下文就猜不出来的行话。

在读这一页之前：先读 AI 究竟是什么。那门课解释这台机器是什么；这一页教你怎么和它说话。

📚 教学辅助

打开完整幻灯片

查看完整演示文稿：2026 年的 AI 提示词

有一个事实支撑着这一页的其他一切，而你已经在 AI 究竟是什么（概念 2）里见过它：模型是「无状态」的，它在两轮之间没有自己的记忆，每次只根据此刻上下文窗口里的内容作答。下面所有内容都来自这个事实。

这就是为什么有一条洞见贯穿下面每一节：这一页上几乎每一项「高级技巧」都是两个动作之一，把对的上下文放进去，或者把错的上下文挡在外面。 对于这一次的回答，模型只能看到它上下文窗口里的东西。你的任务就是控制进去的是什么。请带着这个视角去读每一节。

关于工具的一点说明：示例会提到 ChatGPT、Claude 和 Gemini，因为大多数读者手上至少有其中一个。这些技能可以迁移到任何现代聊天式 AI。当某个功能为某一款产品独有时，会明确点名。

如何阅读这一页

现在就在另一个浏览器标签页里，用 Claude、ChatGPT 或 Gemini 中的一个开一个免费账号，然后再往下读。每个都有免费档，注册大概只要一分钟。你暂时不用在里面做任何事，开着就行。然后先通读一遍把握整体脉络，回头再到结尾的部分去试那些提示词。光读不试，你得到的是说法；动手去试，你得到的才是技能。（结尾的一个练习会让你把两款工具并排比较，所以等你读到那里时，你可能想再开一个免费账号。）

关于上次你看它以来发生了什么的简短说明

如果你在 2022 或 2023 年用过 ChatGPT，认定它是个聪明的玩具，那么你记忆中的那个工具已经不是你现在手上的这个了。有几处变化是悄悄发生的：

上下文窗口增长了大约 1000 倍。 2022 年的模型能容纳几千个词，2026 年的模型能容纳几十万个，有时达到一百万。这改变了你能塞进一个提示词里的东西：一整本书、好几天的讲话、一整文件夹的合同。
推理变成真的了。 「一步一步想」过去是一句魔法咒语，现在模型有了明确的思考模式，能运行几秒钟、有时几分钟，先探索多种思路，再作答。有一种衡量方式：一年前，AI 能可靠完成的最难任务，是一个人花几分钟就能做完的事；今天则是一个人要花一个小时甚至更久才能做完的事。概念 5 有实测的数字。
网络搜索变成了内置工具。 模型自己决定一个问题什么时候需要最新信息，发起一次搜索，读上几页，再把找到的内容用在答案里。2022 年的模型只能凭训练时记下的东西作答；2026 年的模型可以在作答途中去查一查。这对一切会变化的东西最重要，新闻、价格、新近的法规、本周的体育比分。
代码执行也变成了内置工具。 模型可以写一小段程序、运行它、看到结果，再把结果用在答案里。这对一切它本来只能在脑子里估算的东西最重要，真实数字的算术、解析一份表格、跑一次快速模拟。搜索和代码执行这两个工具大多是隐形的：大多数用户察觉不到它们什么时候触发，所以分不清一个答案是来自记忆、来自一个新的网页，还是来自一次计算。一旦你开始留意，你的提示词就会变得更犀利，你可以问「你真的搜索过这个吗？」，或者告诉模型「把数算出来，别估」。
多模态不再是个边角功能。 你可以把一张照片、一份 PDF、一张表格、一段语音备忘录，或者一整文件夹的文件丢进一个提示词，然后就此提问。模型会在同一条流里处理所有这些。
桌面应用出现了。 一个新品类的产品（Cowork、OpenWork）能在获得许可后找到你的文件、起草邮件、更新表格。这已经不是聊天了，它更接近把一个小任务委派给一位同事。
面向开发者的命令行 agent 出现了。 像 Claude Code 和 OpenCode 这样的工具住在终端里，能通读一整个代码库，一次编辑很多文件、运行测试、再回来汇报。这和桌面应用是同一种转变，AI 直接对真实的产物动手，而不是去描述它们，只不过面向的是写代码的人。

如果你对这些工具的认知哪怕只落后了 18 个月，你用到的可能也只是它们今天能力的两成左右。这一页就是来补上这道差距的。

第 1 部分：AI 是怎么知道事情的

一旦你理解了向 AI 提问时实际发生了什么，你就不会再为那些失败感到意外了。

1. 新手 vs 高手

给在校学生：新手 vs 高手幻灯片

这套幻灯片专为第一次学习 AI 提示词的在校学生设计。 老师可以在课堂上用它来介绍概念 1，借助贴合学生年龄的例子（春游、写作业帮助、生日派对）和互动练习。下载 PPTX，供课堂离线使用。

注意看这两个提示词之间发生了什么变化。问题是同一个，简报却不一样。

并排对比：一个新手问「我该买哪辆车？」，得到一份泛泛的三款车型清单。一个高手附上了保险报价、经销商报价和一份养车成本表，并给出了具体的简报，说明自己每天通勤 30 分钟、带两个坐安全座椅的孩子，结果拿到一份结构化的五年成本对比、安全性分析，以及在哪些条件下会翻转的本田 CR-V 推荐。同一个 AI，不同的简报，不同的答案。

再来几组来自现实的真实对比：

买车。 新手：「哪辆车最好？」高手：上传两款车的参数表、经销商报价和保险方案，然后问「都有哪些取舍？把所有材料读一遍，好好想想。」
写工作自评。 新手：「给我老板写一份自评。」高手：上传自己项目跟踪器的截图、最近的项目文档，以及一段记着零散笔记的语音备忘录，然后让 AI 起草。
评判一个生意点子。 新手：「我有个很棒的生意点子，上门扎染，帮我评判一下。」这是在钓奉承，AI 大多会一通称赞。高手：「客观分析。用这套评分标准：有没有一个值得解决的问题，有没有市场，有没有竞争优势？」AI 给这个点子打了 100 分里的 8 分，并解释了原因。
写一篇博客。 新手：「写一篇关于黑莓手机的博客。」结果：AI 废话。「废话」是个行话，指那种表面流畅、内里空洞的 AI 输出，语法干净，隐隐有股维基百科味，满是「在当今快节奏的世界里」这类短语，说的东西读者一小时后一点都不会记得。当你不给它任何上下文和约束时，AI 默认产出的就是这种东西。高手：先列提纲，批评提纲，把每个标题展开成要点，批评要点，到这一步才让它写正文。

把这些串起来的心智模型是：AI 就像一个非常聪明的应届毕业生。干劲十足，但还不太了解你。 像对一位这样的人那样给它做简报。换作一位刚入职的同事，他有没有足够的信息把这件事做好？如果没有，就多给一些。

2. 预训练知识

给在校学生：AI 是怎么学会这一切的？

这套幻灯片专为在校学生设计。 它用孩子能懂的视角讲解预训练知识：AI 是靠阅读学会的，不是靠亲身经历。内容涵盖「大声、小声、秘密」框架（被大量谈论、被少量谈论，或从没人谈论的话题）、课堂互动游戏（信任度计、难倒机器人、当个事实核查员），以及那条关键的道理：「听起来有把握，并不等于真的对。」下载 PPTX，供课堂离线使用。

AI 不是通过亲历世界学会的。它没有身体，没有感官，没有在世界里走动过的时间。它是通过阅读关于世界的文字学会的，海量的互联网文字。Reddit 和 Quora 的帖子、维基百科、书籍、新闻报道、研究论文、博客、论坛。

在训练数据中出现的频率，大致等同于答案的可靠度。所以：

强：烹饪、明星八卦、常见医疗建议、排名前 1000 的电影、热门编程语言、旅行者 1 号唱片上有什么内容（NASA 在 20 世纪 70 年代发射的航天器，距地球约 250 亿英里，携带着 55 种语言的问候）、猫为什么盯着墙看（它们能察觉到人类错过的细微声响和动静）。
稀疏： 类星体（天空中由黑洞驱动、极其明亮的天体）、粤语（占互联网文字不到 0.1%）、地方史、小众的专业知识。
缺失： 你公司的机密数据、你的私人日程、任何发布在模型知识截止日期之后的内容、任何从没有人发到公开互联网上的东西。

两个实用的推论：

别浪费时间去改错别字。 AI 是在互联网文字上训练的，而那里满是错别字。它能从容应对拼错的提示词。把 definately 拼错并不会改变答案。

留意被吸收进去的错误。 AI 也从同样的来源里吸收了误解和过时的信息。一篇自信满满却错误的论坛帖子，会变成模型里自信满满却错误的内容。任何重要的东西都要对照一手来源核对。

这对思考为什么重要

识别破绽百出的推理本身就是一门修炼，AI 时代如何思考速成课会直接教它。第一个该去找它的地方，就是那些训练数据稀少或有争议的话题上、听起来自信满满的预训练答案。自信并不是正确的信号。

在你信任一个预训练答案之前，做一个快速的脑内测试：

问题类型	在训练数据中的代表性如何？	信任度
「怎么做面糊（roux）？」	烹饪是互联网上讨论最多的话题之一。	高。
「某部前 1000 名电影的剧情。」	被反复评论过成千上万次。	高。
「某个偏僻村庄的历史。」	可能只有维基百科上的一段，甚至一段都没有。	低；对照一手来源核实。
「我所在行业近期的某项监管变化。」	几乎可以肯定在知识截止日期之后。	不做网络搜索就别信任何东西。
「我们公司上季度决定了什么？」	根本不在训练数据里。	别信任何东西；模型在瞎猜。

这不是一条你非得背下来的规则。它和你对待任何其他来源时会用的直觉是同一回事：「这个人怎么会知道那件事？」对 AI 也照样用上。

一个非软件的例子。 一位读者曾让 AI 总结一个在他奶奶村里玩的地方民间游戏的规则。AI 自信满满地写出了三段规则。问起奶奶，她说那些规则几乎全错：AI 把其他地区类似游戏的描述混在了一起，因为那个具体的游戏在互联网上几乎没有。AI 没有撒谎，它是从稀疏的数据里做了泛化。读者的错不在于发问，而在于以为自信就等于准确。

好奇 AI 为什么能听起来无比自信却仍然出错？这背后有一个更深层的原因。Elan Barenholtz 的文章《LLMs show language does not describe reality》（IAI，2026）用平实的英语讲解了这些模型实际是怎么运作的。这篇文章还对人类语言提出了一些更大的哲学主张；你尽可以取其中对你有用的部分，其余的不必理会。

给在校学生：「大声、小声，还是秘密？」互动练习

一个专为在校学生设计的趣味互动练习。 学生把各种话题（披萨、狗、一种罕见的深海鱼、你的 WiFi 密码、你今天吃了什么、你家玩飞行棋的特殊规则）归入三个区域：大声（人人都谈，AI 很清楚）、小声（只有少数人谈，AI 可能会搞错），或者秘密（没人写下来，AI 无从知道）。在线玩这个练习 | 下载 PPTX，供课堂离线使用。

3. 三种检索模式：预训练、网络搜索、深度研究

当你提问时，现代 AI 工具会悄悄选择如何作答。要么它只凭预训练知识作答，要么它发起一次网络搜索、读上几页，要么它运行深度研究，花几分钟扫描几十个来源，写出一份结构化的报告。

你应该知道触发的是哪种模式，因为每一种都有不同的长处和不同的失效模式。

三种检索模式呈现为一道从左到右、成本和深度递增的阶梯。模式 1（预训练）最快，耗时几秒，只从训练数据中取材，最适合定义和常见事实，对过时或本地信息很弱。模式 2（网络搜索）速度中等，耗时几十秒、跨几个实时网页，最适合时事和快速查证，弱在它会优先引用热门来源。模式 3（深度研究）最深，耗时几分钟、跨几十个实时网页，最适合多维度的结构化报告，对简单问题来说又慢又过度。左边快而浅，右边慢而深。AI 通常会替你挑。你提示词的措辞就是方向盘。

举几个例子把这件事说具体：

预训练答得不错： 「猫为什么盯着墙看」、「旅行者 1 号唱片上有什么」、「总结《哈姆雷特》的剧情」。这些不会一周一变。
网络搜索救活一个过时的模型： 每个模型都有一个知识截止日期，凡是在那之后才走红的东西，对它都是隐形的。一个梗、一项法规、一次产品发布：没有网络搜索，AI 根本不知道你在说什么。有了网络搜索，它就能拉来一篇近期的文章，把答案答对。
网络搜索出错的时候： 一个朋友问「在内华达州亨德森哪里适合跑步」。AI 引用了一个 20 年前的网页，推荐了一所早已不对公众开放的学校。网络搜索并不会检查来源是不是当下有效的。
值得等的深度研究： 「在我们小区办一场万圣节鬼屋，包括许可证、消防安全和噪音条例。」AI 会提出一个研究计划，并行跑很多次搜索，做总结，决定接下来深挖什么，最后产出一份带清单的多段式报告。这不是聊天机器人的答案，它更接近把这份活儿交给一位初级研究员做一个小时。

网络搜索实际是怎么运作的（以及它为什么有时会读错网页）

在底层，具体机制因工具而异，但形状是一致的。一个搜索与检索层发起搜索，扫描结果列表，拉取最相关的网页，再把每一页缩成一段简短的文字或摘要。那一层往往是一个独立的、更小的模型。只有缩减后的版本才会流向跟你对话的面向用户的模型。

跟你对话的模型往往并不直接读原始网页，它读的是缩减版。这就是为什么它有时会曲解一页内容实际说了什么：信息在抵达模型之前先经过了一道翻译层，而翻译层会丢失细微之处。

实用对策：告诉 AI 该用哪类来源。与其问「疫苗安全吗」，不如试「用世界卫生组织、FDA、欧洲药品管理局和同行评议的研究。别用论坛或个人博客。」来源质量是个你能拧的旋钮。默认设置会优先引用热门来源（Reddit、维基百科、YouTube、谷歌自己、Yelp），它们往往可靠，但对于高风险问题并不总是可信。

第二个对策：让 AI 引用来源。「对每一条主张，引用支持它的来源页面上的那句原话。」这会逼检索层把原始措辞亮出来，能抓出很多摘要层造成的偏移。

一个非软件的例子。 一位小区业委会的志愿者用深度研究为一场关于本地水质的居民大会做准备。她的提示词是：「研究[她所在城市]过去 24 个月当前的水质问题。用 EPA、本市公用事业的公开报告和同行评议的研究。避开新闻社论和论坛。产出一份结构化报告，包含：（1）被引用最多的三个问题，（2）展示趋势的数据表，（3）居民该向公用事业部门提出的三个具体问题。」八分钟后，她就有了一份基于当前本地数据的简报。预训练模式做不到这件事；光靠网络搜索会得出一个更浅的答案；深度研究才是对的工具，因为这个问题既多维又时新。

在脑子里选一种模式。 你通常不是靠点一个按钮来选模式，而是 AI 根据你的提示词来选。但你可以引导：

措辞模式	通常会触发什么
「X 是什么」/「总结一下 Y」	只用预训练。
「X 的最新进展是什么」/「今天」/「本周」/某个具体城市	网络搜索。
「彻底研究一下 X」、「产出一份带引用的报告」、「用这些类型的来源」	深度研究（在具备此功能的工具里；否则是延长的网络搜索）。
附上文件	对文件保持预训练；如果提示词要求最新信息，可能会去搜索网络获取上下文。

AI vs 谷歌。 它们不是同一种工具。需要快速扫一眼、跳转到某个已知的具体网站，或者买东西（给一辆 2013 款本田思域买空气滤芯）时，用谷歌。需要综合时用 AI：利弊、多来源对比、一份写出来的分析。怎么选，取决于你想要的是一个链接还是一个答案。

一条并排的经验法则：

任务	用谷歌更好	用 AI 更好
「找到 1040 表格的 IRS 官方页面。」	是。你想直接落到某个已知的具体网站上。	否。
「对比三种糖尿病药物以及近期证据怎么说。」	更慢。你得读 8 个标签页。	更快。AI 把证据综合到一处。
「给一台 2018 款 ThinkPad 买一个替换充电器。」	是。你想要一个商品链接。	否。
「规划一趟 4 天的里斯本之行，带一个 6 岁孩子，不去博物馆。」	慢。你得在博客和评论之间来回折腾。	快。AI 会把各种约束整合起来。
「明天天气怎么样？」	都行。	都行。
「我的番茄叶子为什么发黄？」	还行。多个园艺网站。	附一张照片更好。

如果你的问题是「X 在哪儿」，去找谷歌。如果你的问题是「综合这一切，我该怎么想」，去找 AI。

如何用 AI 拿到更可靠的网络搜索结果

当你确实想要网络搜索时，三个小习惯能提升质量：

点名你信任的来源。 「用 WHO、FDA 和同行评议的研究，别用论坛。」
要求随文引用。 「在每条主张后面注明来源。」
让 AI 标出它无法核实的内容。 「如果某条主张得不到所引来源的支持，把它标为『未核实』。」

把这三行粘进任何一个网络搜索提示词，就能压住最常见的失效模式：AI 悄悄地把多个来源综合起来，写出一个自信的句子，而没有任何单一来源支持它。

第 2 部分：把话和 AI 说好

4. 上下文就是全部

人类在活跃的工作记忆里只能同时握住寥寥几样东西：经典的估计说大约七样，较新的估计接近四样。现代 AI 模型一次能握住几十万个词，有时一百万。打个比方：大约 75 万词，相当于头 4 到 5 本《哈利·波特》，或者好几天连续不断的讲话。模型能在作答前把这些全部读完。

但它只能读你给它的东西。上下文，就是对某一次回答而言最终进入模型窗口里的一切：产品设定的系统提示词、它能调用的任何工具的描述（网络搜索、代码、文件访问）、你的提示词、这次对话的聊天记录，以及你上传的任何文件。

上下文栈：五个竖向堆叠的层，合在一起构成模型对某一次回答所知道的一切。从上到下：上传的文件（PDF、表格、图片、语音备忘录）、聊天记录（之前的每一轮）、你的提示词（你每次都会编辑的那一层，高亮显示）、工具描述（网络搜索、代码执行、文件访问），最底下是 AI 工具设定的、看不见的系统提示词。模型只知道这个栈里的东西；容量大约是 75 万词、即 4 到 5 本《哈利·波特》；任何你没放进这个栈的东西，对这次回答而言都不存在。

继续之前先问一个问题。 当你打开 ChatGPT、Claude 或 Gemini，输入第一条消息时，AI 是不是完全从零开始，只处理你刚刚输入的内容？还是说，在你到来之前，已经有人给过它指令？

大多数人以为它是一片空白。并不是。

你到达时，窗口不是空的。 这里的“窗口”指上下文窗口，也就是 What AI Actually Is 里的阅读桌（Idea 5）。此刻桌面上有什么（你的提示词、目前为止的对话、你附上的文件，以及工具在你到来之前放上去的一些东西），模型就只知道这些；没有放在桌面上的东西，对这次回答来说就不存在。上面的图展示了会落到桌面上的五类东西。

现在看这张桌子的最底层：系统提示词。打开一个新聊天时，你可能以为自己面对的是一张空白桌面。并不是。在你输入一个字之前，构建这个工具的公司已经把一组指令放到了桌面上。你永远不会在聊天里看到它们，但模型会先读它们，然后才读你写的任何内容。

可以把它想成餐馆老板在第一位顾客坐下前给新服务员做培训：“态度友好。推荐今日特色。有人问过敏原时，一定去厨房确认，不要猜。” 服务员服务每一桌时都会遵守这些指令，而你从不会听到那段培训。AI 的工作方式也一样。工程师把这些看不见的指令叫作 系统提示词。

那份培训里通常有什么：

如何表现（有帮助、诚实、谨慎）。
拒绝什么（有害内容、危险指令）。
使用什么语气（正式、轻松、简洁）。
什么时候加免责声明（“我是 AI，不能提供医疗建议”）。
能调用哪些工具（网络搜索、代码执行、文件访问）。

这就是为什么 Claude、ChatGPT 和 Gemini 在你问完全相同的问题时，感觉也会不一样。 你感受到的“性格”并不是写死在模型本身里的。它写在公司预先加载的指令里。Claude 的指令强调谨慎推理和诚实。ChatGPT 的指令强调对话温度和广泛帮助。Gemini 的指令强调简洁和来源依据。同一个问题，三份不同的简报，三种不同的语气。

可以自己试试：分别问三个工具“用一段话解释为什么天空是蓝色的”。事实会差不多。语气、长度和风格会明显不同。这种差异主要来自系统提示词。

现在你知道为什么：

你很粗鲁时，AI 仍然礼貌（它被要求这样做）。
它拒绝某些请求（它被要求拒绝）。
它添加你没要求的安全免责声明（它被要求添加）。
它有时道歉得比必要的更多（它被要求偏向谨慎）。
不同工具用不同声音给出同样事实（简报不同）。

这些不是性格特征。它们是指令。

你也可以添加自己的层。 公司的系统提示词是固定的，但现在大多数工具都允许你写自己的指令，让它们在每次聊天里和系统提示词一起加载。当你在工具的指令设置里写下“I am a nurse, assume clinical vocabulary”或“always respond in formal English”时，你就是在系统提示词里写下自己的那一行。模型会在每次回答前读到它，就像读公司的简报一样，所以你不用重复，它也会一直生效。

在各个工具里可以这样找到：

工具	设置名称	直接链接
Claude	Personal preferences (Settings > General)	claude.ai/new#settings/general
ChatGPT	Personalization (under Settings)	chatgpt.com/#settings/Personalization
Gemini	Personalization settings	gemini.google.com/personalization-settings

这些设置页面在三个工具里大概长这样。每个页面都有一个文本区域，让你输入自己的指令；之后每一次新聊天，都会在模型桌面上预先放好这些指令。

Claude： 打开 Settings > General，向下滚动到“Instructions for Claude”。在文本区域输入你的指令。Claude 会在你的所有聊天里记住这些要求。

Claude 的 Settings > General 页面。“Instructions for Claude”部分有一个文本区域，占位文字是“e.g. I primarily code in Python (not a coding beginner).” 上方是 Profile 字段（Full name、Claude 应该怎么称呼你、什么描述你的工作）。你在这里写下的任何指令都会加入每次聊天的系统提示词。

ChatGPT： 打开 Settings > Personalization。你会看到风格控制项（Warm、Enthusiastic、Headers and Lists、Emoji），底部还有“Custom instructions”部分。向下滚动到 Custom instructions，在那里输入你的指令。

ChatGPT 的 Personalization 设置页。顶部：“Base style and tone”设为 Default。下方：Warm、Enthusiastic、Headers and Lists、Emoji 的特征开关，全都设为 Default。底部：“Custom instructions”部分，你可以在这里写下 ChatGPT 每次聊天都要遵守的指令。

Gemini： 打开 Personalization settings。打开开关，然后点击 Add 按钮写下你的指令。

Gemini 的 personalization settings 页面。标题是“Your instructions for Gemini”，旁边有一个蓝色开关用于启用。页面展示了示例指令：“Start responses with a TL;DR summary”和“Use bullet points for long paragraphs.” 蓝色 Add 按钮让你写下自己的指令。你添加的任何指令都会在每次聊天前加载进系统提示词。

三个工具里的步骤都一样：打开链接，写几句你是谁、希望 AI 如何回应，然后保存。从那一刻起，每个新聊天一开始就已经加载了你的简报。你不需要反复说明。

一个很小但真实的例子。一位老师把自己的指令设成：“I teach Grade 5 science. Explain everything at a 10-year-old's reading level. Never use jargon without defining it first.” 幕后发生的事是：这些句子会被加入系统提示词，放在公司自己的指令旁边。所以每次她打开新聊天时，在她输入任何字之前，模型桌面上已经有两份简报：公司的（“be helpful, be honest, refuse harmful requests”）和她自己的（“I teach Grade 5 science, keep it simple”）。她再也不用说“我是老师”。她也不用在每个提示词里重复“解释得简单一点”。AI 已经知道，就像服务员已经知道要去厨房确认一样，因为老板的简报在第一位顾客坐下前就交代过了。

现在再看一次完整的栈。系统提示词是基础，是最底层。你的提示词、聊天记录和上传的文件都叠在它上面。当你在这些设置里写下自己的指令时，你就是在公司的那一层旁边添加自己的层，所以每次聊天一开始就已经加载了你的上下文。这就是模型能看到的完整图景，而且这就是模型能看到的唯一东西。因为它自己没有记忆，这个栈之外的一切对这次回答都不存在。对这次回答来说，这个栈就是整个世界。

具体对比一下：

光秃秃的提示词： 「学物理和学动物学的利弊。」你会得到一通泛泛的高中辅导员式建议。
上下文丰富的提示词： 同一个问题，再加上你以 PDF 上传的职业测评结果，以及一张你高中课表的截图。现在 AI 就能谈你具体的能力画像、你具体的修课史，以及哪个选择适合哪种情况。

同一个模型，同一个问题，不同的答案。差别在上下文，不在提示词有多巧。

你要学的这门功夫是：在按下发送之前，问问自己，换作一位聪明的新同事，他眼前需要摆着什么才能把这件事答好。 然后把那些东西附上去。这位同事会把你摆在他面前的一切都仔细读一遍；他不会去猜你没告诉他的事，不会翻你的档案柜，不会推断你所在的行业、你团队的历史，或者昨天那串邮件。如果他得有一份文档或一个约束才能干这活儿，那你就得把它包含进去。

一个非软件的例子。 一位七年级老师让 AI「起草一份关于水循环的教案」。产出的是一份她在任何教科书里都能找到的泛泛计划：定义、一张图、三个讨论问题。第二天她再试了一次，附上了三样东西：她的课程大纲（这样 AI 就知道这节课之前讲了什么、之后要讲什么）、上周带着评分的学生作业纸（这样 AI 就知道哪些概念掌握了、哪些没有），以及她学校的标准化考试格式。新的教案以五分钟的复习开场，复习的正是上周作业纸显示掌握得弱的那两个概念，把新材料串进了学生五月份会见到的那种考试格式里，最后以一个与她大纲里下一个主题相匹配的理解检测问题收尾。同一个模型，同一位老师，同一个学科。唯一的差别在于，第二个提示词告诉了 AI 一位聪明的新同事本来需要知道什么。

把这门功夫重述成任何非琐碎提示词之前的一份清单：

问题	如果是，就附上或描述它
有没有一份文档，答案应该和它保持一致？	有：附上它。
有没有一个 AI 无法推断的约束（预算、时间、谁在团队里）？	有：说明它。
有没有先前的上下文（之前的某个决定、一套现有流程）？	有：用一段话总结。
你想要某种输出格式吗（表格、邮件、要点清单）？	想要：点名它。
有没有受众（一位老板、一个孩子、一个陌生人）？	有：点名他们。

五行选得当的上下文，胜过五段卖弄聪明的话。

上下文腐烂

现代上下文窗口很大，但不是无限的，而且窗口内部的回忆能力会衰减。人们在实践中犯的最大错误是：他们让同一场很长的对话跨越很多个不相关的话题一直进行下去。AI 刚帮你规划完一次锻炼，你又让它调试一份表格，接着又让你给姨妈写一封感谢信。锻炼的上下文还在那儿，分散着模型的注意力。

经验法则：话题一变，就开一场新对话。 做起来便宜，做起来免费，而且答案会明显变好。

告诉你一场对话已经变馊了的几个症状：

AI 开始引用聊天里早先那些和你刚问的事毫不相干的部分。
随着时间推移，它的答案变得越来越长、越来越含糊，铺垫也越来越多。
它和你五轮之前说过的一个约束自相矛盾。
它开始反复道歉，却毫无进展。

给正在发生的事起个名字：大多数现代聊天工具，一旦对话长到一定程度，就会悄悄压缩聊天里较早的部分，它们把早先那几轮总结成短短一段，再用这段总结替换掉原文以腾出空间。Claude 在这发生时会显示一条小小的「正在压缩」提示；ChatGPT 和 Gemini 则默默地做。叙事的脉络留了下来，但具体细节没了。你三小时前让它用的那个库、你们商定的那个命名约定、你在第四轮说过的那个约束，这些任何一条都可能悄悄消失进总结里，从此不再出现在模型的答案中。对策和上面那条规则一样，只是动机更明确了：聊天窗口是工作记忆，不是存储。 任何需要在一场漫长会话之后还留存下来的东西，都该放进一个项目、一个附上的文件，或者一条你能重新粘贴的笔记里，而不是聊天记录本身。

当你看到这些时，本能是再来一个澄清式提示词去修。忍住：那只会往一个已经一团乱的上下文里再添一团乱。改用上面那条规则。开一场新对话，把真正要紧的那一两个事实粘进去，从那里继续。重置几乎总是比抢救更快。

如果那场已死的对话产出了值得留的东西（一份计划、一份草稿、一个决定），重置前把它存进一个文件。这样你既不会丢掉成果，也不会把噪声拖进下一个任务。

项目：把上下文一次性前置，而不是每次都来一遍

上面概念 4 的那份清单引出一个明显的问题：如果 AI 每一次都得像对同事那样被做简报，那就是大量重复的输入。如今大多数现代工具给出的答案是一个叫项目的功能，一个你只配置一次的工作区，放进总是适用于某一类工作的文件、说明和受众，于是你在里面开的每一场对话都自动继承那套配置。

什么时候该建一个项目。 当你注意到自己已经把同样的文件、同样的受众描述，或者同样的约束，粘进了关于同一话题的两场及以上对话时。那就是信号：上下文该放进一个项目，而不是放进一个提示词。

一个项目能为你换来什么的几个例子：

一个「报税」项目，放进去年的报税表、你的 W-2 和 1099，再加一条说明，比如「假设我是一位有一名受抚养人的美国报税人。永远把你的计算过程展示出来。」你在里面问的每个问题，都从这个底子起步。
一个「孩子学校」项目，放进课程大纲和校历，再加一条说明，比如「作答前永远先对照校历核对日期。」当一年里「周一上学吗？」这个问题冒出来四次时，它就派上用场了。
一个「写作语气」项目，放进三份你自己写作的样本，再加一条说明，比如「贴合样本的节奏和用词。别加我没用过的铺垫或限定语。」现在每份草稿都从你的语气起步，而不是从泛泛的 AI 腔起步。

和上面那条上下文腐烂规则的联系。 在一个项目里，「开一场新对话」不再意味着丢掉 AI 对你情况的了解，它只意味着丢掉上一场对话的噪声。常驻的文件和说明会一路跟着走。于是那条重置规则就更省力了：你重置的是对话，不是上下文。

三款工具，三个名字，一个理念。 Claude 叫它 Projects（项目），ChatGPT 叫它 Projects（项目），Gemini 叫它 Notebooks（笔记本）（它和谷歌独立的研究工具 NotebookLM 同步，你在其中一个里加的东西会出现在另一个里）。三者都让你上传文件、保存说明，并运行许多场扎根于同一份持久上下文的对话。它们的侧重点各不相同：

Claude 和 ChatGPT 的 Projects 偏向说明和行为。你设定语气、角色、规则、受众，模型就能在项目里的每一场对话中可靠地维持那个人设。当AI 如何回应和它知道什么同等重要时最合适，用某种特定语气写作、在一个代码库上工作、维持某种品牌调性，任何讲究风格一致性的场合。
Gemini 的 Notebooks（以及 NotebookLM） 在来源那一侧走得更远。丢进 PDF、Google 文档、网址、YouTube 视频，甚至音频文件，每个答案都会扎根于那些来源回来，并带有可点击的随文引用。不寻常的地方在于：这个工作区是双向流动的。你放进 NotebookLM 的任何东西都会出现在 Gemini 应用里的同一个笔记本中，而你在 Gemini 笔记本里进行的任何对话，都会自动变成 NotebookLM 里的一个来源。于是这个工作区会随时间积累你自己的推理，上周的对话成了本周对话可以引用的又一个来源，这就以其他工具做不到的方式「把学习和练习连了起来」。NotebookLM 还会生成 Audio Overviews（你可以听的播客式摘要）、思维导图、闪卡和幻灯片，全都根据你的来源自动构建。当你在学习、研究，或者跨许多次会话啃一份材料、希望每一次会话都让下一次更聪明时，它最合适。

快速经验法则。 如果工作区会随时间增长，学习笔记、长期研究、任何你希望每一次会话都喂养下一次的东西，就用 Gemini Notebooks / NotebookLM。如果工作区是围绕一个你希望 AI 在各场对话中始终如一地维持的人设或一套说明来搭建的，就用 Claude 或 ChatGPT 的 Projects。

截至 2026 年中，各家分别有什么：

工具	它叫什么	有免费档吗？
Claude	Projects	有，免费方案最多 5 个项目；每个项目内的文件不限量
ChatGPT	Projects	有，免费方案每个项目支持最多 5 个文件；付费方案提升到 25 或 40
Google	Notebooks（在 Gemini 里）和 NotebookLM	有，两者都免费；付费档（NotebookLM Plus、Gemini AI Pro/Ultra）提升来源上限

注意各家免费档上限的不同形状：Claude 限制你能有多少个项目；ChatGPT 限制每个项目能装多少个文件。围绕哪个上限会先卡住你来规划你的项目结构。

5. 推理，或者说「好好想」

学生专属：「好好想」幻灯片

这些幻灯片专为在校学生设计。 它们通过一个简单的双速模型介绍推理模式的概念：快速回答 vs 慢速深入思考。教师可以在课堂上用它们讲解何时以及为何要求 AI 在回答前「好好想」，配有适龄的示例和互动练习。查看完整演示文稿

直到 2023 年左右，应对难题提示词的标准建议还是「一步一步想」。这条建议如今基本过时了。现代模型有了内置的推理模式，你可以直接调用。

如何调用：

用大白话要求它。 在提示词里写「好好想」或者「作答前仔细想想」。这是通用的招数：它在每一款现代聊天工具里都管用，不用记什么特殊语法。
用界面里的思考模式开关，凡是提供这个开关的地方。
在有些产品上你根本不用要求：工具会自己判断一个问题什么时候难到值得动用延长思考，然后替你打开它。

当延长思考开启时，模型可以思考很多秒。在难题上，有时超过十分钟。它不只是打字打得更慢，而是在内部探索多种思路、检查自己的成果，然后才写出你看到的答案。

2025 年的一项 METR 研究追踪了一个前沿模型能可靠完成的最长任务。2024 年中，一个领先的模型能搞定人类大约要花七分钟的任务。到 2025 年初，这个时长涨到了大约一个小时，而研究发现它所衡量的这个时长大约每七个月就翻一番。对你的含义是：把真实的、难的任务交给 AI，而不只是简单的。它能搞定的，比你 2023 年的直觉所暗示的要多。

一个用好了这一点的高手模式：

我在两辆车之间做选择。附件：两辆的参数表、
我对每辆的保险报价，以及一份我过去六个月
驾驶习惯的表格。

把所有东西读一遍。好好想。然后告诉我：
1. 对我的驾驶习惯而言真正要紧的三个取舍。
2. 你会选哪辆，以及为什么。
3. 在什么条件下你的推荐会翻转。

这个提示词做了三件事：它载入了相关的上下文，它明确调用了思考，它要的是结构化的输出而不是一大堵散文。这三件都是习惯。

什么时候不该用思考模式

快速查询、给一段话做总结、随意头脑风暴。思考模式更慢，也更耗你的用量额度。把它留给那些你本来会希望一个人慢慢来做的问题。

思考模式是为这个而生的：不是更快，而是能搞定那种多输入、多取舍的问题，那种你本来会交给一位深思熟虑的同事、再等上两天的问题。这笔交易是真实的。你花掉几分钟的算力和一小点用量额度，换回来一个你自己本来要花半天才能产出的东西。

上面提到的那条 METR 轨迹的含义是：两年前你在脑子里归为「对 AI 太复杂」的任务，如今大多已经是 AI 能搞定的任务了，只要你给它做好简报、打开思考模式。每隔六个月就重新检验一次你对 AI 能做什么的假设。它们会是错的。

6. 奉承，以及如何中和它

AI 模型是在人类反馈上训练的。具体说，是在哪些回应得了赞这件事上。在数百万用户中，赞同别人比反驳别人得到的赞更多。结果就是：模型偏向于告诉你你想听的话。

2025 年 11 月《华盛顿邮报》的一篇分析考察了 47000 段 ChatGPT 对话，发现模型以肯定（「是的」、「没错」之类）开头的频率，大约是以「不」或「错了」开头的 10 倍。报道中提到的开场白大多集中在「这没错」和「你的方向是对的」这类短语上。

你可以自己验证这一点。同一个模型，相反的框定：

「你不觉得远程办公比坐班更好吗？」→ AI 赞同，列出理由。
「坐班更高效，这是真的吗？」→ AI 赞同，列出理由。

对策不是什么魔法，就是中立的框定。这种模式出现在两个层面：表面的（「你不觉得 X 吗？」）和隐蔽的（「找证据证明 X 行得通」）。在你自己的提示词里两个都要留意：

你可能会写的隐蔽诱饵	它向 AI 发出的信号	中立改写
「找证据证明这个策略会奏效。」	结论已定；AI 来填补支持论据。	「评估这个策略。列出支持和反对它的最有力论据。」
「为什么方案 A 比方案 B 好？」	A 赢了；AI 来列理由。	「对比方案 A 和方案 B。从成本、风险和时间三方面分别打分。」
「帮我为我雇用 X 的决定辩护。」	决定已锁死；AI 来提供弹药。	「这是我的决定和背景。我该准备好应对的最有力的反驳是什么？」
「告诉我我的草稿可以发了。」	AI 告诉你它可以了。	「按这 4 条标准给这份草稿打 1 到 10 分。对每一条，告诉我哪个改动最能拉高分数。永远都有下一个台阶。」
「确认这段代码是正确的。」	AI 确认。	「找出这段代码里的任何 bug、边界情况或未言明的假设。如果一个都没有，就这么说。」

模式是这样的：任何含有 find（找）、defend（辩护）、confirm（确认）、prove（证明）、support（支持） 这类动词的措辞，都在问题之前就把一个结论塞给了 AI。换成 evaluate（评估）、compare（对比）、critique（批评）、find any（找出任何）、list both sides（列出正反两面） 这类动词。模型仍然会略微偏向赞同，但你已经移走了那个最响的信号。

总的规则：摆出两个选项，不暗示偏好，然后分别要它们的利弊。 如果你发现自己在写「X 难道不是真的吗」，停下来，改写成「X 在多大程度上为真，如果它确实为真的话？」

这是机械的，不是深层的

这个概念是一项深得多的技能的廉价版本。AI 时代如何思考速成课训练的是那个深层的版本：如何提出能揭示出你尚不知道的东西的问题。中立框定这个小窍门，在日常使用中能带你走到八成的路程。那门速成课带你走完剩下的。

一个非软件的例子。 一位创业者问 AI：「我有个很棒的生意点子，给孩子的生日派对做上门扎染，帮我评判一下。」AI 热情地夸了这个点子，列出了它可能成功的理由。这位创业者接着用一套评分标准再试了一次：「客观分析这个点子。对下面每一项打 1 到 10 分并说明理由：（1）这里有没有一个真实的问题，（2）有没有愿意付钱的市场，（3）有没有竞争优势，（4）单位经济模型如何，（5）这件事失败的三大原因是什么。」同一个 AI 给这个点子打了 100 分里的 8 分，并用具体的措辞解释了这位创业者为什么该重新想想。第一个提示词是在钓奉承，第二个是一套客观的评分标准。同一个模型，同一个点子，相反的结论。差别在于问题是怎么问的。

客观评分标准这个模式。 「评分标准」不过是一份要逐项检查的具体清单，每一项分别打分或回答。当你让 AI 评估某样东西（一份草稿、一份计划、一个点子）却不给它评分标准时，含糊的标准就坍缩成「干得好」。给了它评分标准，具体的标准就逼 AI 真的去看。对比一下：

为什么基于评分标准的提示词效果更好：具体的评估标准能减少奉承，产出更诚实的反馈。三个例子对比了含糊的提示词（给我的科幻小说打 100 分，这封邮件够不够专业，我的健身计划怎么样）和基于评分标准、用结构化的是/否检查和具体标准的提示词。

上图展示了这种对比：含糊的提示词坍缩成称赞；带打分和是/否检查的结构化提示词产出真实的反馈。

逼出一个数字。 给评分标准这个模式加一个小而有力的附件：对每一条标准，要求 AI 在一个固定的量表上给一个分数，1 到 5，或者 1 到 10，并附一句话的理由。这管用有两个原因。

第一个是数字对 AI 的作用：含糊的反馈很廉价，但一个具体的数字不廉价。一个想讨好你的模型可以把你的草稿说成「很强」，而不必对任何东西做出承诺。同一个模型，被要求在 10 分里的 6 和 7 之间做选择时，就不得不承诺，而承诺这个动作会逼它看得更仔细。你会立刻注意到差别：分数往往会比散文式的总结所暗示的要低，因为那段散文在奉承，而数字不会。

第二个是数字对你的作用。「很强」、「扎实」、「可以再紧凑些」这类形容词没给你任何可以下手的东西，你没法比较它们，没法给它们排优先级，也没法随时间追踪它们。分数三样都能做到。一个 4 分和一个 7 分告诉你先修哪一条标准。今天的 6 分对比上周的 5 分，告诉你你的第二稿是不是真的进步了。数字不只是一个更诚实的结论，它还是一个你能用来做决定的计量单位。

对每一条标准打 10 分制的分，附一句话的理由。然后告诉我怎么把每一条都带到下一个台阶，包括那些已经得了高分的。如果某项是 9 分，告诉我怎么到 9.5。如果它是 9.5，告诉我怎么到 9.8。永远都有下一个台阶。

最后这条指令，正是把评分标准从一个结论变成一个工具的关键。你不只是知道了分数，你还知道了能把它抬高的那个最小的动作，而关键在于，这个动作在每一个台阶上都存在。AI 没资格宣布你做完了。什么时候停，由你决定。

7. 头脑风暴迭代循环

给在校学生：神奇循环

这套幻灯片专为在校学生设计。 它把头脑风暴迭代循环讲成「神奇循环」，分四个孩子易懂的步骤：载入（把一切都告诉 AI）、选项（要很多点子）、反馈（当老板，说出你喜欢什么、不喜欢什么），以及重复（一直做到完美为止）。还包含一个隐藏的第 0 步（先做研究！）、两个学生能产生共鸣的实战例子（筹备一场生日派对、写一篇学校作文），以及一个动手挑战。下载 PPTX，供课堂离线使用。

▶ 亲自来玩一遍神奇循环（互动版）

上面的幻灯片讲的是这个循环的原理，而这一个让你真正跑一遍。挑一个任务，写下你的上下文，看着 Detail-O-Meter 因为具体的细节而给你加分，点选你喜欢的选项，给出有针对性的反馈，再看第 2 轮如何围绕它重新成型，最后把你用循环得到的答案和那个偷懒提示词的答案并排放在一起。它会在下方实时加载，你也可以在新标签页里打开它。

这是这一页上唯一一个杠杆最大的习惯。如果你跳过其他所有章节，别跳过这一节。

AI 是在互联网上训练的，而互联网上大多是寻常的点子，不是有创意的点子。所以 AI 对一个创意问题的平均回应，也是寻常的。「在家锻炼的方法」：深蹲、俯卧撑、平板支撑。没错，只是平平无奇。

绕过这一点的办法不是一个魔法提示词，而是一个循环。

头脑风暴迭代循环：跳过一步你就得到废话，跑完这个循环你就交付得出。第 1 步：载入上下文（把所有约束、文件、受众都前置）。第 2 步：要求 3 到 5 个选项（逼出备选，先别展开任何一个）。第 3 步：给出明确的反馈（驳回什么，认可什么、为什么）。迭代 2 到 3 次。到这一步才：展开选定的选项（现在才要完整的草稿）。最大的杠杆在循环里，不在最终的草稿里。

配方：

把所有相关的上下文前置。 不是光说「锻炼的方法」，而是「考虑到我家里有楼梯、有个坏膝盖，而且我坚持不了三天以上，给我锻炼的方法」。
要 3 到 5 个选项，而不是一个。 逼出备选会把模型推过它的第一反应。
给出明确的反馈。 「我不喜欢选项 1，太被动了。我确实喜欢爬楼梯那个点子，但想要短一些。我忘了说我膝盖一受冲击就更糟。」
要 3 到 5 个吸收了反馈的新选项。
一直迭代，直到你有一两个真心喜欢的。
到这一步，也只有到这一步，才让 AI 把选定的选项详细铺开。

实战示例，还债：

我有 8000 美元信用卡欠款，年利率 19%；4000 美元学生贷款，
利率 5%；还有 1200 美元的零售卡欠款，年利率 24%。我每月
开销之外有 700 美元闲钱。我刚得知会从退税里拿到 450 美元
现金。风险承受力：低。一看到大额余额我就睡不好。

给我 5 种不同的还款策略，每种附一句话的理由。
先别展开任何一个。

然后，读完这五个选项之后：

驳回选项 2（只按利率做雪崩法）：我想要早一点的心理胜利。
驳回选项 4：我不会开新账户。我喜欢选项 1（雪球法，先还
零售卡），但我想把那 450 美元折进去。给我 5 个把雪球式的
胜利和对这笔意外之财的聪明运用结合起来的新选项。

你不是在等 AI 读你的心。你是在展示你的品味；AI 围着它重塑选项空间。两三轮之后，你就有了一个感觉正合适的选项。然后再要完整的计划。

同一个循环也适用于写作，在那里它有自己的名字：先列提纲再起草。

- 第 1 轮：要 3 个关于 X 这个主题的博客提纲选项。
- 第 2 轮：选一个提纲，让 AI 批评它并打 10 分制的分。记下哪些低于 9 分。
- 第 3 轮：根据批评修订提纲，然后让 AI 把每个标题展开成 3 到 5 个要点。
- 第 4 轮：批评这些要点，打 10 分制的分，修掉低于 9 分的。
- 第 5 轮：到这一步才要完整的草稿。
- 第 6 轮：批评草稿，打 10 分制的分，要那些最能拉高分数的改动，按影响力排序，影响力最大的放最上面。一直重复，直到分数在 9.5 左右或更高处停滞，那就是你停下来的信号，而不是「AI 说它做完了」。

为什么这管用：改提纲里的一个词，能改变整篇文章的走向。改最终草稿里的一个词，只改一个词。写作里几乎所有的杠杆都发生在提纲层面。AI 从一开始就是逐字生成的，所以除非你先逼出结构，否则它看不到整体的形状。

别跳步

第一次就想要完整草稿，这个诱惑很大。忍住。AI 对任何东西的初稿都是废话：看着光鲜，说得很少。这个循环，任何起草之前先做十到十二分钟的结构工作，再在上面做几轮打分加修补，能把一篇转头就忘的博客变成一篇击中人的。对一篇 600 字的文章来说，总耗时很少超过 45 分钟。其中头十分钟，让剩下的 35 分钟免于白费。

一个写作的实战示例。 一位团队负责人想写一篇 600 字、标题为「为什么我们这个小 AI 团队比走廊对面的大团队交付得更快」的博客。循环的每一轮在实践中是这个样子：

第 1 轮，先做研究：

我要写一篇 600 字的博客，论证小型、AI 增强的团队比更大的、
不用 AI 的团队交付得更快。先别写。首先，给我 5 个最有力的、
有研究支撑的论据，以及 3 个最有力的反驳。各一句话。

第 2 轮，三个提纲：

现在为这篇博客产出 3 个不同的提纲选项。每个提纲应该有
4 到 6 个标题。它们在结构上应该各不相同：一个叙事式、
一个分析式、一个唱反调式。每个标题一行。

第 3 轮，选一个并加一个类比：

我选提纲 2（分析式）。我想穿插一个皮克斯的类比：当年最初的
《玩具总动员》团队很小，却因为有了新工具而比庞大的迪士尼工作室
更快。把这个作为一个反复出现的例子加进去，别单独成一节。
修订提纲 2。

第 4 轮，展开成要点：

现在把每个标题展开成 3 到 5 个要点。用电报式的简短风格，别用散文。

第 5 轮，给要点打分并修补：

批评每一个要点，打 10 分制的分，附一句话的理由。
列出低于 9 分的要点。对每一个，建议那个最能拉高
分数的改动。

到这一步，这位负责人才要完整的草稿，然后继续对草稿本身打分并反复迭代，直到分数在 9.5 左右或更高处停滞。整个过程大约花 45 分钟。产出读起来就像是这位负责人自己写的，因为每一个关键决定都是他做的。比起「给我写一篇博客」多花的那 35 分钟，正是一篇没人读得下去的草稿和一篇击中人的草稿之间的差别。

起草前先勘明地形。 那个示例里的第一轮（「先别写，给我最有力的、有研究支撑的论据和反驳」）看着不起眼，干的却是重活。大多数人跳过它，直接要草稿。跳过它，正是他们的草稿显得单薄的原因：它们搭建在模型最先冒出来的随便哪些点子上，而不是这个主题真实的全貌上。起草前来一轮「勘明地形」，正是一篇引用三项研究的博客和一篇罗列三个观点的博客之间的差别。这个模式远不止适用于写作。在任何重要的决定、计划或分析之前，先让 AI 勾画出已知的全貌，再让它 产出所需的东西。给产品起名前先看竞争格局。写战略备忘录前先看已有研究。设计新方案前先看已有的做法。这一轮研究花五分钟，却改变了循环里后续每一轮迭代所对照的东西。

这个循环与领域无关。 它对下面这些事的运作方式都一样：规划一趟旅行、组织一场销售演讲、挑大学专业、给产品起名、写婚礼致辞、定一项装修方案、选一个要支持的慈善机构。形状始终不变：载入上下文、要求选项、给出明确反馈、要求新选项、迭代、展开，然后打分并反复迭代，直到分数停滞。如果你发现自己接受了 AI 的第一个答案，或者一看到某样东西「够好了」就停手，那你就跳过了循环。无论你在做什么，它都值得这个循环。

一张简短的表，看看这个循环如何贴合日常生活：

决定或任务	「上下文」长什么样	「带反馈的选项」长什么样
规划一趟 4 天的旅行	约束（预算、日期、谁去、他们讨厌什么）	5 个行程骨架；驳回两个；其余继续迭代
给产品起名	它是干什么的、谁买它、它绝不能听起来像什么	10 个名字；挑 3 个你喜欢的，要那几个的变体
写一封难写的邮件	收件人、关系、想要的结果	3 种不同的语气；选一种，打磨它的细节
选一个承包商	三份报价、三份口碑记录、你的优先级	并排打分；要那个针对你最中意的一项的最有力反驳
挑一条学习路径	当前技能、可用时间、最终目标	3 种不同形状的课程；选一种，展开成每周的里程碑
设计一份 logo 简报（给设计师）	品牌价值、受众、你喜欢的例子	5 个情绪板方向；选一个，要那条路子上的 5 个变体

每一行里，一旦你有了一个具体的候选（一份选定的行程、一个入围的名字、一封草拟的邮件），循环里那个打分动作就以同样的方式适用：按对那个任务要紧的标准给它打 10 分制的分，然后迭代。从成本、节奏、是否合群三方面给行程打分。从是否好记、是否贴切、风险三方面给产品名打分。从清晰度、语气、可能的效果三方面给邮件打分。标准在变，动作不变。

第 3 部分：超越文字

AI 不只是一个文字框。它能看图像、双向处理音频、搭建能用的小应用，还能在你的数据上运行代码。大多数人从没试过其中任何一项。

8. 多模态：图像、音频，以及接下来的东西

现代 AI 双向处理图像和音频：它能读你上传的图像、听录音、根据文字提示词生成新图像，还能产出口语音频。这些技能跨模态各不相同，值得分开学。

图像输入。 AI 看图像看得粗。它在这些方面强：

整体场景和构图。
清晰、大块的物体轮廓（一台真人大小的巨型仓鼠轮跑步机）。
白板内容，包括图表。
手写体和草书文字（还行，高风险时要复核）。

它在这些方面弱：

精细的细节。「这些是什么健身器械？」往往会失败，因为隔着稍微模糊的镜头，健身器械看起来都差不多。AI 可能自信满满地答错。
在杂乱的场景里数清很多小东西。
读图像边缘的小字。

一个有用的现实测试：一位老师拍了一张白板照片，他的脑袋挡住了神经网络图里 convolutional 这个词。AI 从图的其余部分正确推断出了缺失的词。这正是 AI 擅长的：从大意去推断。它不擅长放大去看。

对于收据、分账单或者誊写手写笔记，AI 干得不错，但总要复核总数。对于多图输入（便利贴加一张白板照片加一场头脑风暴的手写笔记），AI 能把综合的想法总结出来；这是真正有用的，能省下实打实的时间。

图像输出。 现代 AI 能根据文字提示词生成图像。两个实用窍门：

用一个文字 AI 来写你的图像提示词。 「给我生成一个提示词，画一幅吉卜力工作室风格的奇幻森林插画，用作一本童书的封面。」把那个输出拿来，粘进图像工具。文字 AI 在写丰富的图像提示词上，比你第一次尝试时强得多。
建立视觉词汇。 cinematic（电影感）、watercolor（水彩）、cyberpunk（赛博朋克）、anime（动漫）、isometric（等距）、low-poly（低多边形）、art-deco（装饰艺术）、claymation（黏土定格）这类词都是杠杆。图像模型是在带字幕的图像上训练的，它按名字学会了这些风格。上传你喜欢的图像，问 AI 它会怎么描述它们。这能训练你的词汇。

图像生成是怎么运作的：它是一个扩散模型，被训练成一步步从随机的像素网格里去除噪声，直到一幅图像浮现。不像文字那样逐像素生成。整幅图像是一次性生成的。这就是为什么你没法像打断一个文字回应那样，提前停止图像生成来省时间。

老一代的扩散模型有几个出名的弱点：奇怪的手（六根手指）、招牌上乱码似的文字、漫画里逐格变样的角色。现代模型（比如谷歌的 Nano Banana 或 ChatGPT Images）能像样地处理文字、生成一致的角色，还能把研究论文转成信息图。

一张简短的表，列出即便在现代图像模型上也仍值得提防的失效模式：

失效模式	它长什么样	如何缓解
招牌上乱码似的文字	图中招牌写成了「HAPRY BIRTDAY」而不是「HAPPY BIRTHDAY」。	在提示词里用引号指定文字。生成三个变体。挑文字对的那个。
跨格不一致的角色	漫画第 1 格和第 2 格里同一个角色头发颜色不一样。	用明确支持角色一致性的模型；把第一张图作为参考回传给下一张。
手和手指出错	六根手指、手指粘连、手腕扭曲。	要那种手部分出框、或插在口袋里、或被清楚描述了的构图。
杂乱背景里出现不合理的物体	一家咖啡店里自行车和椅子糊在了一起。	指定一个简单的背景，或者明确描述背景。
长宽比不对	模型默认出正方形；你想要横向的。	永远明确指定长宽比：「1024x768 横向」或「16:9」。

一个图像输入的非软件例子。一位读者把已故奶奶留下的三张手写食谱卡拍下来上传给 AI。提示词：「誊写这三张卡。保留原始的措辞和任何缩写。如果某个词不清楚，把它标为 [unclear]，并给出你最有把握的两个猜测。」五分钟后，三份食谱都被干净地打了出来，AI 没把握读出的那四个词上标着 [unclear]。读者把那四个词对照原件核了一遍（两个一目了然，两个得给姨妈打个电话），这家人就有了一份原本险些丢失的食谱的干净数字档案。AI 做了无聊的那 90%，好让读者能专注于那需要细心的 10%。

一个高手配方：不用设计师也能做出设计师水准的图表。 如果你曾需要为一份文档、一张幻灯片，或者你自己的某一章做一张图表，有一套工作流能在大约十五分钟里产出设计师水准的输出，既不用 Figma，也不需要任何视觉设计技能。大多数非设计师没意识到这如今已经可能。这是不学设计工具就能产出设计师水准图表的最简单办法。这一节比这一页上的其他任何内容都更费工夫；如果你经常做图表，现在就读；否则就跳过，等你第一次需要做的时候再说。

这个配方，分四步：

让 Claude 把这个概念可视化成 SVG。 把底层的那段话或文字粘进去。要求：「把这个可视化成一张图表。以 SVG 输出。确保文字里的每个标签、每个箭头、每种关系都在。」这一步选 Claude 是个有力的选择，因为它的推理能力在各大模型里数一数二：给它一段话，它就能在极少的引导下想清楚该有哪些方框、哪些箭头、什么层级、什么标签。它返回的 SVG 在结构上是正确的，但视觉上很素（光秃秃的矩形、默认字体、没有任何设计上的打磨）。这没关系，下一步会加上打磨。
把 SVG 转成 PNG。 让 Claude 把这个 SVG 渲染成 PNG（Claude 能直接做），或者用任何在线的 SVG 转 PNG 工具（cloudconvert.com、svgtopng.com），或者干脆在浏览器里把 SVG 高倍放大渲染后截个图。以 2 倍分辨率渲染（宽 1600 到 2400 像素），好让下一步有足够的细节可用。
把 PNG 粘进 ChatGPT（或 Gemini）并让它重画。 ChatGPT 内置的图像生成往往在这一步很强，因为它在文字密集的图像上格外出色：它会保留标签、把排版做对、尊重源图里的结构关系。提示词：「以专业设计水准重画这张图表。保留每个标签、每个方框、每个箭头，以及完全相同的结构关系。改进排版、间距、配色和视觉层级。信息必须保持完全一致；只改变视觉的呈现效果。」
在结果上迭代。 ChatGPT/Gemini 有时会漏掉一个标签或挪动一个方框。把它的输出和原始 SVG 并排比较。如果有什么不对，直接把更正打出来：「第三个方框应该标『Iterate』，不是『Repeat』。从方框 2 出来的箭头应该指向方框 3，不是方框 4。」通常三四轮就能产出一个看起来像出自专业设计工作室的东西。把最终的 PNG 存下来。

为什么每一步用各自的工具。 Claude 往往赢在第 1 步，因为决定一张图表里该有什么（哪些方框、哪些箭头、什么层级）是一项推理任务，而在这类结构化思考的工作上，Claude 的推理在各大模型里数一数二。ChatGPT（或 Gemini）往往赢在第 3 步，因为把文字密集的图像渲染好（标签保持可读、箭头连到对的方框、布局看着像设计过）正是它的图像生成当下领先的那个品类。让任一款工具去干另一款的活儿，结果会明显比把它们串起来差。各做各最擅长的，按顺序来。

总耗时： 每张图表大约十到十五分钟，相比之下，在 Figma 里（假设你会用）要花一个小时甚至更久。

比工具活得更久的那个模式。 每个品类里的领头羊都会轮换。明年 Claude 也许不再是最强的推理模型。今天领先的图像模型会被接下来发布的东西取代。上面那个配方会在工具这一层过时。活下来的是：先用最强的推理模型搭结构，再用最强的文字密集型图像模型做打磨。 在你读到这段时，哪些工具领跑各自的品类，你就挑哪些。这个两步串联才是真正的招数。

一个关于图像生成的小故事。 一位父亲，他 7 岁的女儿爱猫，想给她做一个定制的生日蛋糕。他用 Nano Banana 头脑风暴蛋糕设计（生成了几十个变体：猫形的、多层的、各种糖霜风格、各种配色），挑了她喜欢的那个，再把选定的图片交给一位蛋糕师，做成了一个真实的立体蛋糕。设计上的总迭代时间：一个下午。总成本：几美分的图像生成费。

重点不在蛋糕。重点在于，花大约 0.30 美元和一小时由品味驱动的迭代，一个并非设计师的人，就产出了一份独一无二的简报，让一位专业人士照着去做。这是一种新的创意杠杆，而且广泛可得。

音频进，音频出。 当年发生在图像上的那种转变，如今正发生在音频上。你可以口述一个长提示词而不是打字；你可以丢进一段会议录音让它做总结；你可以让模型把它的答案念出来。大多数现代 AI 工具都支持这三样，往往在免费档上还不另收费。

那些不那么显而易见的用法，才是真正的杠杆所在：

长篇口述。 把一个问题说出来，能捕捉到打字提示词会跳过的细微之处。讨厌打字的人在说出提示词时，产出的提示词会好得多：提示词毫不费力地从一行长成好几段，而 AI 的答案也相应地更好。就像在咖啡桌旁给一位同事做简报那样说，然后让 AI 在作答前把得到的转录稿清理一下。
会议转录稿作为上下文。 丢进一段一小时的会议录音（或者来自 2026 年主流厂商如 Otter、Granola、Fireflies 的转录稿，或者你手机里的语音备忘录），然后问：「总结一下做出的决定、悬而未决的问题，以及按负责人分类的行动项。」对任何一份要开会的工作来说，这都是这一页上杠杆最大的工作流之一，而科技圈之外几乎还没人在用它。
音频用于无障碍和移动场景。 长途通勤、遛狗、开车：语音进/语音出把死时间变成了思考时间。比起打字，对话质量会略降，因为你没法像打字时那样干净地编辑你的输入，但你本来会损失掉的那段时间被完全找了回来。

2026 年，音频擅长什么、不擅长什么：

音频任务	效果如何	要当心什么
清晰语音的转录	极佳	浓重口音、技术行话、多人重叠说话
说话人识别（谁说了什么）	2 人时还行，4 人以上时弱	引用某人的话之前总要核对
语气、讽刺、情绪	在进步，但不可靠	让 AI 标出它的不确定，而不是想当然
音乐或非语音的音频分析	有限	用一个专门的工具，而不是通用 AI
实时语音对话	随意聊天还行，技术深度上弱	当精度要紧时切换到文字

一个非软件的例子。 一位医生录下了一段 45 分钟的问诊（经过同意），上传了音频，然后问 AI：「以 SOAP 格式产出一份结构化的临床记录。标出任何你无法有把握理解的内容。突出患者关于其症状史说的三件最重要的事。」八分钟后，这位医生就有了一份草稿记录，核对并定稿只花了她 5 分钟，而打字版本本来要花 25 分钟。AI 没有取代临床判断，它去掉的是打字。

成本说明：音频进/出是仅次于文字的第二便宜的档，每分钟几美分（概念 12）。对于会议总结、每日语音日记，或者散步时口述提示词，成本基本上是隐形的。尽管放开了迭代。

一个值得记在心里的模式：多模态的未来不是「AI 现在能处理语音了，是不是很酷」。而是各模态之间的边界消失了。 你会越来越多地丢进一个混合的包（一张图像、一段语音备忘录、一份 PDF、一张截图），把它当成一个提示词来对待。这门技能不是「我怎么用语音」，而是「对这件活儿来说，什么才是输入的正确组合？」

交互式视频化身正沿着同一条轨迹兴起。预录的化身视频（HeyGen、Synthesia、D-ID）在培训内容和多语种企业沟通上已经是生产级了。实时对话化身（Tavus 等）今天在低风险用途上勉强够用（客户 FAQ 分流、带一张脸的语言辅导、简单的入职流程），而且在快速进步。把它们当成 2022 年的图像生成来看待：令人印象深刻、新奇，对大多数知识工作还算不上日常习惯，但当一件活儿需要屏幕上有一张脸而非文字时，值得快速试一试。

9. 用一个提示词搭建小应用

现代 AI 能用一个提示词就搭出小游戏、网站和工具。还做不了大型软件，但对小而有用的东西，这对从没写过代码的人来说是真正可及的。

应用实际跑在哪里，之后你能拿它做什么。 一个合理的第一问题是：「如果 AI 给我搭了个应用，它实际住在哪里？」截至 2026 年中，三款主流工具都把单提示词搭出的小应用直接渲染在聊天里、一个你可以点击交互的侧边面板里，而那个面板里的东西不只是一个预览，它是一个产物：一个由对话产出的持久对象，你可以编辑它、在它上面迭代、把它发布成一个可分享的链接、嵌进别处，或者作为代码下载下来。这个功能在 Claude 里叫 Artifacts（名字就是从这儿来的），在 ChatGPT 里叫 Canvas，在 Gemini 里也叫 Canvas。一年前它们之间还有明显的差别；如今对大多数单提示词的搭建来说，差距已经很小。每个仍各有小长处，Claude 的 Artifacts 往往在可点击玩的交互式东西上领先，ChatGPT 的 Canvas 在写作和代码编辑上，Gemini 的 Canvas 在与谷歌生态紧密集成的输出上，但对于「给我搭个东西」，三个里的任何一个都行得通。两个值得知道的实用推论。第一，你可以把产物交给别人，而不用把整段对话发给他：大多数工具让你发布到一个公开链接，收件人不需要账号就能用。第二，产物是可迭代的，当你说「把按钮做大些」或「加一个深色模式开关」时，工具会就地编辑这个产物，而不是从头把整个东西重新生成一遍，这要快得多。对于任何超出单提示词搭建的需求，有三个相邻的品类值得知道它们存在：专门的 AI 应用搭建器，比如 v0、Bolt、Lovable（你用大白话描述一个应用，它们就产出一个完整的 Next.js 或 React 项目，对非开发者而言，这是概念 9 自然的下一步）；命令行 AI 编程 agent，比如 Claude Code 和 OpenCode（你给它们一个真实的代码库，它们一次编辑很多文件、运行测试，在这一页顶部那份「2022 年以来的变化」清单里讲过，面向已经在写代码的开发者）；以及能感知文件的桌面应用，比如 Cowork 和 OpenWork（它们在获得许可后找到你的文件并对其动手，在概念 11 里讲，面向知识工作者，而非搭软件的人）。该用哪个工具，取决于你在爬哪一道梯子。

这个配方只有三个槽位：

目标：这个东西应该做什么？
输入：用户提供什么？
输出：用户看到什么？

今天就能用的例子：

番茄钟计时器。 「搭一个黄色主题的番茄钟。25 分钟工作，5 分钟休息，每个周期结束时有一声让人满足的咔哒。」
分账单工具。 「搭一个应用，我输入账单总额、税额和几个朋友的名字。它把含税的账单分摊，显示每个人该付多少。」
穿搭推荐器。 「搭一个应用，输入今天的天气（温度和降水），从我描述的一柜子衣物里推荐一套穿搭。」
烟花模拟器。 「生成一个好玩的烟花模拟器。输入：我点屏幕。输出：在点击处绽放一团五彩烟花。」
放置障碍游戏。 「搭一个游戏，用户放置障碍物和一个目标，再跑一次试图到达目标的模拟。」

仍然难的：

互联网上的多人联机。 联网、账号和匹配，仍然超出单提示词搭建的范围。
不同语言的实时 AI 反馈。 一个能听、能纠正发音、能实时适应的法语会话辅导，是真的难。

你会建立起的直觉是：能塞进一个屏幕、没有账号、没有外部服务的小东西，行得通。超出这个范围的任何东西，都需要不止一个提示词，而且通常还需要一些真正的工程。

一个非软件的例子。 一位家长给女儿做了一个黄色猫咪主题的打字游戏，起因是她老师提到孩子们可以打字打得更快。他不是软件工程师。提示词是三句话：

给一个 7 岁孩子搭一个打字游戏。目标：练习打常见的短单词。
输入：单词出现，玩家在它们落到屏幕底部之前把它们打出来。
输出：黄色主题，一只可爱的猫吉祥物在玩家打对一个词时欢呼，
随关卡推进速度加快。

返回的东西能用。不完美，也不是第一次就成，但在一个小时内迭代到了「对一个孩子来说够好了」。这里建立起的技能不是编程，而是写一份清楚的简报并迭代它的能力。那项技能是通用的。

10. 数据分析（模型自己写代码并运行）

当你问 AI 一个需要计算或绘图的问题时，从「我家电费今年怎么变的」到「上季度哪些产品卖得最好」都算，现代工具会悄悄做一件了不起的事：模型写代码、运行它、再返回结果。代码执行不过是模型能调用的又一个工具，和网络搜索一样。你自己不用懂任何代码；你只管上传你的表格，用大白话提问。

这比让模型在脑子里算数可靠得多。模型算数的方式和你会用的一样：靠跑一个计算器。精确的是计算器；模型只是在选择计算什么。

在做别的之前：确保 AI 真的运行了代码，而不是在猜。 这是整一节里那个无声的失效模式，也是它被放在最前面的原因：AI 不会在每个问题上都自动运行代码，它选择是否运行，依据是问题怎么措辞。在较小的问题上，它有时会跳过代码、瞟一眼就答，产出一段听起来自信、背后却没有真实计算的文字。从外面看，它和一次真实的分析一模一样。三个小习惯能防住这件事。第一，明确要求。 「写代码并运行来回答这个。把你运行的代码给我看。」你这么要求时，大多数模型会照办。把这一行粘进任何一个数据提示词，就是一次真实分析和一次貌似合理的猜测之间的差别。第二，检查代码确实在那儿。 如果回应里没有一段运行过的代码块，那模型多半没运行代码。第三，在分析之前，索要一个可验证的具体信息。 「在你分析任何东西之前，告诉我这个文件确切的行数、列名和日期范围。」如果模型真的在读这个文件，那些答案会是对的。如果它在编，行数会是一个可疑的整数，列名则会貌似合理却是错的。这个动作最强的版本，是让模型预先声明它的方法：「你是在文件上运行代码，还是在估算？如果是估算，停下来，改成运行代码。」大多数模型要么会调用那个工具，要么会承认它本来打算跳过。

一旦你有了这个习惯，这一节剩下的就是数据分析在实践中实际的样子。

奶茶店的例子。 一家小店有一年的销售数据：饮品、日期、数量。店主问：「哪些饮品全年销量变化最大？把它们画出来。写代码并运行来回答这个，把你运行的代码给我看。」

在幕后，AI 写一小段程序，在表格上运行它，看到结果，再把它们变成一个答案。在实践中那看起来是这样：AI 算出每种饮品逐月的变化，观察到大多数饮品持平、有四种突出，生成那四种的彩色折线图，并指出其中的规律。「草莓抹茶在春季猛涨；考虑明年再跑一次那个促销。」这不是一个泛泛的答案，这是一个扎根于实际数据的答案。

然后来一个更大的提示词：「为这家店做一张单页的年度回顾图。仔细分析数据，找出值得突出的洞见。」这是一个更重的任务，所以 AI 会花更长时间，有时几分钟，来啃它。它写代码、跑分析、挑洞见、设计标注，最后产出一张完工的仪表盘。

这适合做什么，配上初学者真正手头会有的例子：

家庭开支。 上传一年的银行或信用卡流水；问哪些类别涨了、哪些月份反常、你忘了哪些订阅。
个人追踪。 跑步、走路、睡眠、体重、屏幕时间，任何能导出 CSV 的应用，都能给你一年份的自己来看一看。
小生意记录。 销售表、库存清单、客户名单、开支文件。
任何别人扔给你、你又不想打开的表格，学校成绩单、水电用量账单、科学数据、问卷结果。

即便代码确实跑了，仍要复核的东西：

最终的总数。 代码很精确，但 AI 可能加错了列。
图上的标签。 数字通常是对的；标题有时自信满满却错了。
任何依赖于某个 AI 可能误解了的列的分析。 如果 AI 以为「TXN_AMT」指的是交易金额，而它实际指的是交易账户号，那整个分析就建在沙子上。

可靠性比基于记忆的算数高得多，但它并非万无一失。把 AI 的数据分析当成一位敏锐的初级分析师的成果来对待：有用、快、几乎总是对的，偶尔会以发人深省的方式出错。

一个非软件的例子。 一位跑者上传了六个月的跑步追踪数据（一个健身应用导出的 CSV），然后问：「我的配速和距离进展如何？有没有什么我该知道的规律？写代码并运行，把你运行的东西给我看。」AI 写了代码，画出每周的平均值，注意到了跑者没注意到的两件事：配速在每个长跑周末之后都稳定下降（很可能是疲劳），距离在第三个月停滞，之后又重新爬升。建议是：每第四周安排一个减量周，以及放慢长跑配速。这位跑者在应用的仪表盘上盯着这同一份数据看了好几个月，都没看出那些规律。AI 不是凭空造出洞见，它算出了跑者没时间去算的东西。

一个有用的模式：要它会画的那张图

当你上传数据时，你的第一个提示词不必是那个问题。它可以是：「描述这个数据集。这里有哪些列、它们代表什么，哪 3 张图最能展示出正在发生的事？」读读答案，挑你想要的那张图，再要它。这能在被误解的列变成错误的分析之前就抓住它们。

第 4 部分：安全地工作并挑选工具

最后三个概念：如何安全地把文件和权限的访问交给 AI、如何为一件活儿挑对工具，以及当房间里没有人类专家时，如何拿到一个关于质量的客观信号。

11. AI 桌面应用与权限

如今有一整个品类的产品叫 AI 桌面应用：跑在你电脑上、并能在获得许可后找到、读取你的文件并对其动手的应用。Claude 的 Cowork 和 OpenWork 是两个例子，这个品类还在壮大。

这些应用能做聊天做不到的事：

翻查一个乱糟糟、装满 PDF 的文件夹，提出一套新的整理方案（重命名文件、移动它们、建子文件夹），并在你批准后执行这个方案。
为一个项目把相关文件汇拢到一起（你说「我在这些日期拍摄，涉及这些人」），并自己注意到一些事（某个剧组成员的生日正好落在拍摄期间，你想不想顺便安排个庆祝）。
通读一个文件夹并做总结：「根据这个 projects/ 文件夹的内容，我上季度做了什么？」

让这件事变安全的工作流：

告诉它任务。 （「按客户重新整理这个文件夹。」）
要一个计划，而不是动作。 应用提出一份文件操作清单。
审阅并编辑这个计划。 在那个你不想要的重命名发生之前就把它抓住。
到这一步才批准执行。

在你把任何文件访问权交给任何 AI 应用之前读这个

两个大多数人都是吃了亏才学会的事实：

AI 应用删掉文件时，删掉的文件往往不会进回收站。 它们没了。
被编辑的文件不会保留编辑历史，除非你用了版本控制。AI 的改动会覆盖掉之前的版本。

在你安全地做过几次之前，把每一个权限请求都限定到这件活儿所需的最小文件夹。别给一个你才用过两次的应用批准「完全磁盘访问」。

这是一种真正新的工具形态。就这么对待它：就像你第一次把一个真实账户的钥匙交给一位初级员工。有用、快，也值得小心对待。

一个非软件的例子。 一位顾问有个叫 clients/ 的文件夹，四年里长到了 240 个 PDF：合同、发票、立项文档、手扫的收据、会议记录。她告诉一个 AI 桌面应用：「翻一遍 clients/。提出一套整理方案。先别移动任何文件。把提议的方案以树状结构给我看。」应用产出了一棵清爽的树：每个客户一个文件夹，下设合同、发票、记录的子文件夹，并附上一份它无法有把握归类的 18 个文件的标记清单。她编辑了这个提议（重命名了两个客户，合并了两个文件夹），然后批准了执行。总耗时：大约十五分钟。同一件活儿在她的「将来再说」清单上躺了三年。解锁它的不是 AI 替她思考，而是 AI 干了那些琐碎活儿，让思考变得廉价。

权限阶梯。 一个让你逐渐自在的有用顺序：

自在程度	允许什么	继续对什么说不
最初几次会话	对一个单独的小文件夹的只读访问。	任何会写入、删除或重命名的操作。
2 到 3 次成功运行后	在一个特定文件夹内读和写。	对桌面或文档根目录这类更宽目录的访问。
一个干净的星期后	通读一个项目树，在一个限定的子文件夹内写入。	那个项目之外的任何东西。
已信任	工具特定的权限（「重命名这个文件夹里的 PDF」、「编辑这个文件夹里的 Word 文档」）。	开放式的「需要做什么就做什么」。

原则是：访问范围随业绩记录增长，而不是随你对造这个工具的公司有多信任增长。信任是靠在你具体的工作流里的行为挣来的。

12. 成本、速度，以及什么时候该用哪个模型

一个值得记在脑子里的简单层级：

按模态划分的成本和速度，呈现为一张竖向堆叠四个档位的横向条形图。文字迭代耗时几秒、成本不到一美分，所以你可以在一个下午里迭代 50 次。语音每分钟几美分。图像耗时几十秒、每次生成几美分，且不能提前停止。视频每段耗时几分钟、成本从许多美分到数美元，迭代很痛苦。视频迭代的成本大约是文字的 16 倍。成本逐年下降，所以条的长度会缩短，但顺序不会变。

用文字说：

文字： 几秒，每次回应不到一美分。
语音： 几秒，每分钟音频几美分。
图像： 几十秒，每次生成几美分。不能提前停止，整幅图像一次性生成。
视频： 每次生成几分钟，从许多美分到几美元。迭代很痛苦，因为每一轮都又慢又贵。
深度研究： 几分钟，从几美分到二十几美分，但它替你综合几十个来源。

在入门级，成本几乎算不上约束。 主流聊天机器人，ChatGPT、Claude、Gemini、Meta AI、DeepSeek，全都提供免费访问，能从容应对这一页上这类提示词。只有当你要跑重度的深度研究、上传非常大的文件、生成视频，或者要无限制的每日用量时，你才会撞上付费方案。对结尾部分的练习来说，它们任一个的免费档都够用。

两个推论：

迭代成本塑造你的做法。 你能在一个下午里对文字迭代 50 次。你没法在一个下午里对视频迭代 50 次。所以当你生成图像或视频时，要在提示词上预先多投入（并用一个文字 AI 来写它）。
成本在下降。 今天花你 10 美分的那张图，明年只要其中的一小部分。为你的家、一张生日卡或一份婚礼请柬生成美术作品，正在迅速变成免费的事。

哪个模型用于哪件活儿？ AI 是参差不齐的：不同模型擅长不同的事，而且领头羊每隔几个月就变。不存在唯一最好的模型。两个习惯有帮助：

例行地把同一个提示词在 2 到 3 个模型里试。 同一个问题，多款工具。读它们的答案。差别会让你吃惊，也会更新你对哪款工具最适合哪类问题的直觉。
别和一款工具绑死。 一个只用一款 AI 的工作者，是一个对自己三分之二的任务该用哪款工具判断错误的工作者。切换是免费的；你只管把提示词粘进另一个标签页。

今天最适合你这件活儿的 AI，不是三个月后最适合你这件活儿的 AI。保持灵活。

各大模型当下大致各自擅长什么的一张快照（这会变；把它当成一个起点，而不是定论）：

工具	往往强在	往往弱在
Claude	难题提示词上的推理、长文档理解、SVG 和图表生成、代码和 Web 开发、用心的写作语气、结构化分析。当前在大多数 Arena 品类里领先。	内置的照片级图像生成不如 ChatGPT 和 Gemini 那么核心。
ChatGPT	内置图像生成排名第一（GPT Image-2 在 Arena 的文生图和图像编辑品类领先）、语音模式、对话广度、任务覆盖面广。	有时啰嗦；可能过度用清单和标题来排版。
Gemini	快速的网络搜索和来源综合、带丰富输出（图表、表格）的深度研究、强劲的图像生成（Nano Banana 系列在 Arena 前 5）、与 Google Workspace 紧密集成。	语气可能显得更生硬；有些回应偏短于理想。
Meta AI	嵌入在 WhatsApp、Instagram、Messenger 和 Facebook 里（已经在超过十亿人的设备上）；免费、无订阅费；Muse Spark（2026 年 4 月）带来了有竞争力的多模态推理，以及一个并行运行多个 agent 的「沉思模式」。当前位列 Arena 文字榜前 5。最适合交互式视觉产物（网页仪表盘、小游戏、测验）和健康或科学数据。	编程工作流和长程 agent 落后于三巨头；Projects、Canvas、Artifacts 这类集成的生态较小；尚无公开 API（只有一个私有预览）；如果你用得猛，用量会被限速。
DeepSeek	开源权重，你可以自托管，或以低成本通过 API 运行；默认 1M token 上下文；V4-Pro 在 STEM 和编程基准上比肩顶级闭源模型；V4-Flash 是又快又便宜的日常之选。	聊天界面的精致度落后于三巨头；消费级生态（移动应用、深度集成）较小；Arena 排名在大多数品类上低于 Claude、ChatGPT、Gemini 和 Meta。

关于较新的那两行的一点说明。Meta AI 的价值过去是「无处不在 + 免费，而非深度」，但 Muse Spark 在推理任务上补上了大部分深度差距，同时保留了无处不在和免费的优势。如果你有 WhatsApp 或 Instagram，你现在就能在那个你本来就要打开的应用里做认真的思考了。不过，在你拿它做正经工作之前，有两条边界值得知道。第一，免费不等于无限：Meta 在幕后施加限速，所以重度使用沉思模式或快速的自动化工作流，最终会被限流。第二，你的输入可能被用于训练未来的 Meta 模型。 Meta 的条款允许这一点，而消费版产品默认并未配置为退出。这让 Muse Spark 不适合处理敏感材料，公司内部文档、私有代码、医疗信息，任何你不想喂进训练管线的东西。对非敏感的日常工作，它很出色。DeepSeek 的价值是开源且便宜，当你对价格敏感、想要自托管的选项，或者需要那个 1M token 的上下文窗口来做免费档的工作时，它是对的选择。在这一页教的那些更深的工作流（Projects、Canvas、Artifacts、深度研究）上，三巨头仍然领先，所以它们仍是实战示例里用的工具。

值得收藏的排行榜。 当你想看一眼当下哪个模型领先哪件活儿时，最有用的资源是 Arena。用户在两个匿名模型的盲测对决里投票，所以排名反映的是真实的偏好，而非厂商的营销说辞。这个站点为文字、代码、视觉、文档、图像生成、图像编辑、搜索和视频分别维护排行榜。一个月看一次。 领头羊轮换很快，五月在某个品类登顶的模型，八月可能就不在那儿了，而一个新来者能在几周内跃入前五（Muse Spark 在 2026 年 4 月就这么干过）。两个值得知道的注意点：排行榜奖励对话上的魅力，多于在长文档上用心的工作；而且它们采样的是投票者觉得有意思的任务，那不总是你的任务。把它当成众多信号之一来用；概念 13 会更多讲到如何把排行榜信号和你自己在真正会跑的那类提示词上做的 A/B 测试结合起来。

三个会复利的习惯：

至少开两个标签页。 一个主力工具，一个备用。当主力给你的东西感觉不对劲时，把同一个提示词粘进备用。第二个答案往往就是那个打破平局的。
留一个提示词草稿本。 一个笔记文件（任何文本文件都行），收集那些产出了格外好结果的提示词。复用并改编它们。这是你个人的库。
留意模型什么时候错了。 不是当成训斥，而是当成数据。出错是一个关于这款工具边界在哪的免费信号。每周记一次「工具 X 在 Y 上自信地错了」，比读任何一篇 2000 字的 AI 通讯都有用。

一个会有回报的小仪式

每个月做两件事：（1）瞄一眼 Arena 的排行榜里你在意的任何品类，以及（2）挑一件你经常做的活儿（写每周状态更新、规划餐食、总结一份周期性文档），把它放进三款不同的 AI 工具里跑一遍。记下哪一款在你真实的工作上做得最好。在那件活儿上用那一款，直到下个月再测。你的工具组合毫不费力地保持着最新，而排行榜会告诉你，是不是该去测一测一个原本不在你雷达上的新来者。

13. 模型检查模型

当没有标准答案时（没有答案卡、身边没有专家、也没有一个会标红失败的测试），你仍然能拿到一个关于质量的客观信号。你拿到它的办法，是让模型彼此打分。

从轻量版开始。如果你今天只开了一款 AI 工具，单模型自我批评循环（紧接着就讲）能给你大部分好处，而且它是大多数日常任务所需要的那个版本。它后面那个完整的多模型配方是高风险版本：它假设你在另一个浏览器标签页里开了第二个免费账号，约一分钟的配置，而且只有当出错代价高昂时，那点配置才值得。现在就读完整的配方把握脉络，但先伸手去拿轻量版；当你桌上真有什么东西配得上时，再升级到那个更重的。

不同的模型有不同的盲点。它们是在重叠但不相同的数据上、用不同的奖励信号、由强调不同东西的团队训练出来的。一个模型漏掉的一点，第二个模型往往能抓住。它们之间的分歧，正是你从任何单一模型那里都拿不到的信号。这只有在模型来自真正不同的家族时才管用，Anthropic（Claude）、OpenAI（ChatGPT）、Google（Gemini）、Meta（Meta AI / Muse Spark）和 DeepSeek 是可供取材的五个不同家族。两个 Claude 模型互相核对，不算跨模型核对；它们的先验太相似了。

这是完整的多模型配方，在许多文档上打磨过，写自真实的实践。这是高风险版本；更轻量的单模型循环在下一小节：

从你能用到的最好的模型开始。 「最好」指的是在你这类任务上推理最强、长输出最连贯的那个。用多个信号：把 Arena 的排行榜当起点（概念 12 介绍过它们），再加上你自己在一个代表你实际工作的样本上做的快速 A/B 测试。这里的「A/B 测试」不过是指：把同一个提示词发给两三个模型，并排读它们的答案，让你的眼睛告诉你哪一个在你这类任务上更好。别只锚定在一个排行榜上；它们衡量的东西不同，而且基于偏好的排名奖励对话上的魅力多于在长文档上用心的工作。
用充足的上下文生成第一稿。 像对同事那样给它做简报（概念 1），难题就打开思考模式（概念 5），结构上用头脑风暴迭代循环（概念 7）。
让它给自己的输出打分，1 到 10，对照点名的标准。 不是「这个好吗？」，而是「按清晰度、准确性、结构，以及缺了什么，各打 1 到 10 分，每个分数附一句话的理由。」第一个分数通常是 7 或 8。
让它落实它自己的建议。 重复，直到分数不再往上爬，通常在 9 左右停滞。
把这份草稿交给来自不同家族的第二个模型。要它用同一套评分标准。 不同的模型，不同的先验，不同的盲点。第二个模型会抓住第一个模型给自己打分时漏掉的东西，而这正是你需要逃出去的那个闭环。
把第二个模型的批评带回给第一个模型。 诚实地框定它：「另一个模型给出了这份批评。评估哪些点值得采纳，以及为什么。驳回任何你不认同的，并解释。」第一个模型来裁决。你看着它裁决。
对于高风险的工作，再用来自第三个家族的第三个模型重复一遍。 等三个不同家族的模型为你的草稿争论过一遍，你就拿到了这项技术所能提供的、最接近三角验证的真相的东西。
当分数在两个独立的模型上都越过你的目标时，停下。 只来自你主力模型的一个 9.5，跟你的主力给的 9 加上一个不同家族的模型给的 9 不是一回事。后一个数字才是有意义的那个。

单模型自我批评循环，单用

上面的第 3 步和第 4 步本身就能单用，根本不必引入第二个模型。许多任务不值得多模型的额外开销，但仍能从一轮「按这套评分标准打 1 到 10 分，然后落实你自己的建议」中受益。一份每周状态更新、一封有点棘手的邮件、一份单页备忘录：所有这些都能从一轮自我批评中明显变好。

一个杠杆更大的变体：设一个数值目标，让模型自主地朝它迭代。 与其说「给这个打分并告诉我缺了什么」，不如试「对照你自己的评分标准迭代，直到所有标准都达到 9.5，然后把最终版本给我看。」模型会打分、修订、再打分、再修订，一直进行下去（在一个回应里就五六轮），只有当它撞到目标或停滞时才回到你这里。这比手动驱动每一轮快得多，而且它对长篇产物（一份 5000 字的备忘录、一章、一份全面的计划）尤其管用，因为手动来回会很烦人。目标本身就是一个引导机制：9 逼出的天花板和 9.5 不同，而 10 逼着模型不停地找可以改进的地方，直到它真的找不出任何一处。

这听起来可能跟概念 6 矛盾，那一节警告过，一个给自己的成果打分的模型会偏向奉承。差别在评分标准。没有它，「这个好吗？」返回的是「干得好！」，那正是概念 6 讲的那个闭环。有了点名的、打 1 到 10 分的标准，模型就不得不指出其他几点里缺了什么，而那个指向正是你拿来照着改的东西。评分标准，正是把自我打分从奉承变成一个倒逼机制的东西。

这一页现在提供了同一段 DNA 的三个嵌套版本。挑那个最适合这件活儿的、最轻的：

同一套跨模型技巧的三个嵌套版本，从左到右复杂度递增。第 1 层：概念 6 的评分标准批评，一遍，到此为止，用于快速的明智检查。第 2 层：单模型自我批评循环，打分、落实、重复、在 9 左右停滞，用于草稿和邮件。第 3 层：多模型循环，自我批评循环再加第二个和第三个模型交叉核对，用于高风险的工作。当出错代价变高时，从轻量版毕业到重量版。

当出错代价变高时，或者当单模型的分数在 9 左右停滞、你又想知道这个 9 是不是真的 9 时，从轻量版毕业到重量版。

为什么分数要紧。 逼模型给出一个数字，重点不在数字。重点在于产出这个数字需要什么。一个不得不给你的草稿打 7/10 的模型，就不得不点名另外那 3 分里缺了什么。没有分数，「这个挺好的」就能蒙混过审。有了分数，「挺好的」就不得不变成「结构上扣 1 分，因为第三节重复了第二节；证据上扣 2 分，因为有三处主张没有来源」。分数是一个倒逼具体的机制，而具体正是你能下手的东西。它也是你能用来比较第 N 次迭代和第 N+1 次迭代的、唯一可读的信号。

高风险工作的一条隐私提醒。 跨模型核对，按定义就意味着把你的草稿粘进多款工具。在你拿敏感材料这么做之前，留意每款工具的数据政策。有些工具（消费版上的 Claude、开启了训练退出的 ChatGPT、付费的 Gemini 档）不会拿你的输入去训练。另一些（默认状态下的 Meta AI 消费版产品）可能会。一份 40 页的战略备忘录、一份内部财务分析，或者任何受保密协议约束的东西，都只应经过那些你确实核查过其数据政策的工具。多模型循环的意义在于抓住你的盲点；这个循环相反的意义，是把你的机密工作喂进一个训练集里。

一条诚实的告诫。 三个模型仍然可能在同一件事上全错。它们共享的训练数据比你以为的要多，而在有争议或数据稀疏的话题上（概念 2），它们往往共享着同样的误解。分数是一个 进展信号，不是一个 真相信号。对于高风险内容（任何法律、医疗、财务，或关于一个真实的人的内容），再多次跨模型核对也替代不了一位人类专家审阅那些起支撑作用的关键主张。模型互相核对手艺。人类核对那些要紧的事实。

什么时候跳过这个循环。

不是每件活儿都配得上它。一封简短的邮件、一次快速查询、一场随意的头脑风暴：单模型就够了。把多模型交叉核对省给那些出错代价高昂的工作：一份你老板会读的备忘录、一章会出版的内容、一个会影响到他人的决定、一份你会签字的合同。经验法则：如果一位深思熟虑的同事本来会花两个小时审阅这个，那它就配得上这个循环。

一个非软件的例子。 一位顾问在为一个客户董事会准备一份 40 页的战略备忘录，她用最强的模型起草，并对照它自己的分数迭代，直到它们在 9 处停滞。然后她把整份备忘录粘进了来自不同家族的第二个模型，要它用同一套评分标准。第二个模型给了 7.5 分，列出了十一个具体问题，其中三个是她的主力模型在自己历次自我打分里都没提过的。她把那些反馈给第一个模型去裁决；它采纳了七个，并带理由驳回了四个。来自又一个家族的第三个模型，又浮现出两个。重点不在最终的分数。重点在于，那些她靠自己永远不会看到的反驳，因为她的主力模型和她共享着盲点，在董事会开会之前就进了这份备忘录。

在你去试那些提示词之前的简短回顾

13 个概念是很多。这一页的脉络，每个概念一行：

概念 1。 新手提示词和高手提示词之间的差距，就是几个习惯：像对一位聪明的新同事那样给 AI 做简报，带上上下文、约束和一个明确的请求。
概念 2。 AI 是从互联网的一个快照里知道事情的，它是通过阅读关于世界的文字学会的，不是通过亲历世界，所以它在常见话题上强，在偏僻或新近的话题上弱。
概念 3。 三种检索模式：预训练、网络搜索、深度研究。你的措辞引导触发哪一个。
概念 4。 模型自己没有记忆；上下文窗口是它对这一次回答的工作记忆。答案质量最大的决定因素，就是你往那个窗口里放了什么，而项目让你一次性前置它，而不是每次都来一遍。
概念 5。 现代模型在你要求时，能为几秒或几分钟好好思考。
概念 6。 模型偏向赞同。中立的框定和评分标准能中和大部分这种偏向；逼出每条标准 1 到 10 的分数，连同那个能拉高每个分数的改动，能中和其余的。
概念 7。 带明确反馈的迭代循环是这一页上杠杆最大的习惯。每个阶段打 10 分制的分并反复迭代，直到分数停滞，AI 没资格宣布你做完了。
概念 8–9。 AI 能看图像、双向处理音频、搭建小应用，那个运行中的应用是一个你能在上面迭代、分享和嵌入的产物。
概念 10。 AI 也能写代码并在你的数据上运行它，但它并不总是自动这么做。明确要求，并核实代码确实运行了。
概念 11。 有一个能感知文件的桌面应用新品类（Cowork、OpenWork）。在你安全地用过它们之前，把权限限定得紧紧的。
概念 12。 一件活儿该用哪个工具，每隔几个月就变。要知道五个家族（Claude、ChatGPT、Gemini、Meta AI、DeepSeek），全都有免费档，而 Arena 是每月该看一次的排行榜。
概念 13。 当房间里没有人类专家时，让模型彼此打分，跨不同家族，是最接近一个客观质量信号的东西。

这一切的底下是一个动作，以十几种伪装反复出现：把对的上下文放进去，把错的上下文挡在外面。 哪怕你从这一页上别的什么都记不住，只记住这一句，你也仍会处在用户中的前四分之一。

现在就试：在深入思考修炼之前的十二个提示词

阅读是动手的替代品。在另一个标签页里打开 Claude、ChatGPT 或 Gemini。按顺序跑这十二个提示词。它们总共大约花二十八分钟，把这一页上你能从一个聊天标签页里练到的每一个概念都练一遍。

1. 网络搜索触发。 逼 AI 离开它的训练数据去查最新信息。

今天[你的国家]发生了哪些重大新闻？每条主张都附上一个
来源链接。任何你无法用引用支持的主张，标为「未核实」。

2. 只用预训练的问题。 常识，不需要查。应该又快又自信。

猫为什么盯着墙看？两段话回答。

3. 上下文丰富的个人提示词。 练习把约束前置。

给我规划一次 15 分钟的居家锻炼。约束：我家里有楼梯、有个
坏膝盖（不能深蹲）、我坚持不了三天以上，而且我想在做的时候
觉得自己有点傻。给我 3 个选项，不要评论。

4. 中立框定改写。 练习在提示词里发现你自己的偏向。

我想问的问题是：「你不觉得四天工作制对每个人显然都更好吗？」
把它改写成一个不暗示我想要什么答案的中立问题。
然后回答改写后的版本。

5. 带迭代的三选项头脑风暴。 核心的高手循环。

第 1 轮：我想启动一个每周大约花 3 小时、一年内或许能赚钱的
小副业。我是一名[你的职业]，喜欢[你的爱好]。给我 5 个不同的
点子，各一行。别展开任何一个。

（读那 5 个。挑你喜欢和不喜欢的。然后，在同一场对话里：）

第 2 轮：我驳回选项[N]和[N]，因为[原因]。我喜欢[关键词]那个
点子，但想让它少用一点[某样东西]。给我 5 个吸收了这个反馈的
新选项。

6. 先列提纲再写作。 在散文之前逼出结构。

我想写一篇 600 字、关于[一个你在意的主题]的博客。
先别写。给我 3 个不同的提纲选项，每个有 4 到 6 个标题。
每个标题一行。

7. 好好想的推理提示词。 用一个真实的个人决定。

我在为[你生活里一个真实的个人决定]，在[选项 A]和[选项 B]
之间做选择。这是相关的上下文：[一段上下文]。作答前好好想。
告诉我：
1. 真正要紧的 3 个取舍。
2. 你会选哪个，以及为什么。
3. 在什么条件下你的推荐会翻转。

8. 打分加改进的批评。 避免对你自己的成果奉承。

我粘进一段我写的东西：[粘进任何 100 到 300 字的内容]。

用这 4 条标准批评它，每条打 1 到 10 分并附一句话的理由：
- 它有没有一个清楚的核心主张？
- 每一段的顺序对不对？
- 有没有任何能删掉而不造成损失的句子？
- 结尾配不配得上读者读到那里所花的时间？

然后，对每一条标准，告诉我那个最能拉高它分数的改动。
永远都有下一个台阶，哪怕是 9 分，也有通往 9.5 的路。

9. 图像输入任务。 练习给 AI 一张照片去读。

[上传任何手写笔记、收据或白板照片]

誊写上面写的内容。然后用 3 个要点总结它讲的是什么。
标出任何你没把握读出的内容。

10. 小应用提示词。 练习目标/输入/输出的形状。返回的会是一个产物，你可以就在聊天里点击它、在它上面迭代。

给我搭一个番茄钟计时器。
目标：25 分钟工作，5 分钟休息。
输入：我按开始。
输出：一个可见的、倒计时的计时器，每个周期结束时
有一声让人满足的咔哒，黄色主题。把能用的版本给我看。

11. 数据分析：揭露那个无声的失效模式。 练习「明确要求代码，再核实它运行了」这门功夫。这个练习分两轮。

第 1 轮，陷阱：在一场全新的对话里，原封不动地粘进这个
提示词。不要提代码。

  「这里有 18 个数字：47, 52, 89, 91, 23, 67, 78, 12, 95,
  44, 88, 71, 33, 56, 99, 18, 64, 82。中位数、平均数分别
  是多少，哪些数字是异常值？要具体。」

仔细看回应。AI 有没有给你看一段它运行过的代码块？
还是它写了一段带着数字、却没有可见计算的文字？记下你的答案。

第 2 轮，修正：在同一场对话里，粘进这个：

  「现在再算一次那个计算，但这次写代码并运行来做，
  把你运行的代码给我看。」

对比这两个答案。如果第一个答案中位数算错了、把数字凑成了
可疑的整数，或者就是感觉含糊，你刚刚看到了概念 10 那个
无声的失效模式在实际发生。正确答案是：中位数 65.5，
平均数约 61.6，没有明显的异常值（这些数字大致均匀分布）。

12. 跨模型审阅。 在一份真实的草稿上练习多模型的习惯。需要同时开两款 AI 工具，来自不同家族（见概念 13）。

拿任何一段你最近写的 200 到 300 字的草稿（一封邮件、一份
备忘录，或者这些练习里的某一段）。

第 1 步：在你的主力 AI 工具里，粘进草稿并问：「按清晰度、
结构、证据，以及缺了什么，给这个打 1 到 10 分。每个分数
附一句话的理由。」

第 2 步：打开来自不同家族的第二款 AI 工具（如果你的主力是
Claude，就用 ChatGPT 或 Gemini 或 Meta AI，别用另一个
Anthropic 模型）。粘进同一份草稿，问同一个问题。

第 3 步：把两个分数和两份批评并排比较。记下任何只有其中
一个抓住的点。那些就是跨模型循环为之买单的点。

🚀 项目

那十二个提示词，每个都演练了一个概念。下面前三个项目把它们串成一条线，而且它们的终点是聊天窗口带不了你去的地方：一件你做出来、活在公开互联网上的东西，挂在一个你能发短信分享给朋友的网址上。

每个项目在免费账号上花 30 到 60 分钟，等你准备好了再展开它。今天就做项目 1，其余的留到这一周慢慢做。它们是有顺序的：每一个都教一个下一个会用到的招数。如果项目做到一半出了岔子，本节最后一个下拉框里有修复办法。前三个项目的形状是一样的：

 the chat builds it         you download it          the internet serves it
┌──────────────────┐       ┌──────────────┐  drag   ┌───────────────────────┐
│ a working app in │ ────→ │  index.html  │ ──────→ │ your-app.netlify.app  │
│  the side panel  │       │  (one file)  │         │ (a real, public URL)  │
└──────────────────┘       └──────────────┘         └───────────────────────┘

概念 9 说过，侧边栏里的那个东西是一个产物：一个你能下载的真实对象，不是预览。前三个项目把这个承诺兑现。项目 4 是综合项目，它交付的是另一类东西：不是一个网址，而是一件你和 AI 一起搭建的知识产物，外加一份成文的凭证，证明你能指挥它、质疑它、纠正它。

Project 130-60 min贪吃蛇对战通过玩来做一个游戏，然后把它发布到一个真实的网址。

打开 ChatGPT、Claude 或 Gemini，说：

我们来做一个游戏并玩玩：一条蛇吃水果球来变长。

一个能玩的贪吃蛇游戏出现在侧边栏里。完成标志： 你能用方向键操纵蛇，吃到东西。如果你用的是手机，那就是你的第一个愿望：「加上触摸控制。」玩一分钟，留意你第一个希望它不一样的地方。然后别去写一份仔细的简报。把愿望说出来就行：

游戏开始前，我能选我的蛇的颜色吗？

产物就地更新：现在有了一个带选色器的开始画面。继续玩，继续许愿。然后改变游戏本身的规则：

现在把它变成一场对战：加入电脑控制的蛇，当一条蛇
死掉时，它的身体变成水果，让其他蛇可以吃。

「贪吃蛇对战」的开始画面运行在 ChatGPT 的 canvas 面板里：一个给你的蛇选颜色的选色器、一个给水果选颜色的选色器、一个选择跟多少个电脑玩家对战的下拉框、一个速度设置，以及一个绿色的「开始对战」按钮，下面印着发明出来的规则：当一条蛇死掉时，它的身体变成水果，吃掉它来变长。三句对话就产生了这个画面。

▶ 玩一个成品版本（你正在朝它努力的那种东西）

这是一位读者的「贪吃蛇对战」，用和你即将采用的完全一样的方式发布到了一个真实的 .netlify.app 网址上。选个颜色，按「开始对战」，用方向键操纵。它在下面实时加载；你也可以在单独的标签页里打开它。

你的不会长得像这个，而这正是关键。它会长成你玩的时候注意到的任何样子。

三句话下来，你就有了一个开始画面、选色器、机器人对手，以及一条你发明的规则。现在注意两件事。第一，你从没提过的东西：HTML、JavaScript、碰撞检测、游戏循环。你描述了一种体验，模型做了工程，正如概念 9 所承诺的。第二，每一句话从哪儿来。不是从规划来。是从玩来。这就是概念 7 的循环，只不过反馈这一步换成了能找到的最诚实的批评者：玩到一半的你，注意到自己希望哪里不一样。一直做下去，直到这个游戏成了你的。更快的蛇、计分、音效，一条消息一个愿望。

上线前最后过一遍。这一路你都在凭感觉打分；每个愿望都是一次小小的裁决。把它明确化一次：让游戏给自己打分，并修好它自己最弱的地方。

从三个方面给这个游戏打 1 到 10 分：好不好玩、
该做什么清不清楚，以及感觉是完成了还是粗糙。
各用一句话说明。然后做那一个最能拉高最低分的
改动，并把它做出来。

这就是整个招数的缩影。一个数字逼出诚实的答案，而「它好吗？」永远只会得到一个「好」（概念 6）。在这里做一轮。下一个项目会把这一次发问变成一个循环，直到分数停下来它才停。

现在把它发布出去。 这是每个项目都会复用的招数，所以仔细做一次：

下载游戏。 ChatGPT 的 canvas 在面板顶部有一个下载图标；Claude 和 Gemini 也有相应的下载或导出控件。你会得到一个 .html 文件。那个文件就是整个游戏。
把文件重命名为 index.html。 这个名字是网页世界里「网站首页」的约定，下一步的托管服务会找它。
在 netlify.com 注册一个免费账号。 一个邮箱地址就够了。Netlify 是一个托管服务：它接收文件并把它们提供到互联网上，免费档绰绰有余，这个项目用不完。
把你的文件拖进拖放区。 注册后，Netlify 会显示一个「Let's create your new project」页面，它的拖放区按它自己的说法接受「a single HTML file」（一个 HTML 文件）。（在手机上，点「browse files to upload」上传，而不是拖动。）
打开它给你的地址。 拖放几秒钟后，你的游戏就在一个以 .netlify.app 结尾的地址上线了。完成标志： 游戏能在你手机的浏览器里加载，而不只是在你电脑上。把链接发给一个人。

一个合理的问题：概念 9 说过聊天工具能把产物发布成一个可分享的链接，那何必费事去下载？因为那个发布的链接住在 AI 产品里，挂在你的对话上。下载下来的文件是你的：它在任何托管服务上、在一个 U 盘上、在十年后都能用。Netlify 恰好是把一个你拥有的文件放上开放网络的最快的免费办法，而你刚才做的那个拖放，真的就是专业人士用来快速搭个站的同一个招数。

要更新一个已发布的游戏：在聊天里继续迭代，再下载一次、再重命名一次，把新文件拖到 Netlify 里你项目的 deploys（部署）页面上。同一个地址，新的版本。

Project 245-60 min打地鼠做一个游戏，然后给它打分，越过「够好了」，直到它真正好玩。

贪吃蛇游戏变好，是因为你玩了它，然后在发布前给它打了一次分。在这里，那一次打分变成了整个引擎：你把这一页上的每个招数一次全用上，头脑风暴出选项、带结构地做简报、测试、对照评分标准打分，不到分数变高绝不停手。这是「给我搭个东西」的有纪律的版本，也是能产出你乐意分享的东西的那个版本。

Critter Bonk 游戏进行中：绿色渐变背景上的 3×3 棕色洞穴网格，一只青蛙和一只兔子从两个洞中冒出来。顶部的分数、最佳和时间计数器显示游戏正在第 1 关进行。标题写着 Critter Bonk，配有可爱的动物表情和暂停、音量控制按钮。

▶ 试玩一个完成版（你正在朝这个方向做）

这是一位读者的打地鼠游戏，已发布到一个真实的 .netlify.app 地址，和你即将发布你的游戏的方式完全相同。点击冒出来的地鼠，试着打破你的最高分。游戏在下方实时加载；你也可以在新标签页中打开。

你的游戏不会和这个一样，这正是重点。它会是你选择的主题和你给出的反馈的样子。

先要选项，而不是直接搭建（概念 7）：

我想做一个打地鼠游戏。在搭建任何东西之前，
给我 3 个不同的视觉主题选项。每个一行。

在配色、地鼠的样子（动物、怪物、外星人）和
整体氛围（俏皮、阴森、优雅）上做出区别。
先别搭建其中任何一个。

选一个你喜欢的，把模型搭建它所需的一切都交给它。这就是概念 9 的「目标／输入／输出」，一个不留任何东西靠猜的结构：

我选黄昏花园主题：深蓝色的夜空配上闪烁的星星、
发光的金色点缀、浓郁深沉的祖母绿草地，
以及当地鼠的可爱动物 emoji。

现在按这些规格搭建游戏：

目标：地鼠从 3x3 网格的洞里随机冒出来。玩家
点击它们来得分。它们过一小段时间后消失。

输入：玩家点击冒出来的地鼠。

输出：
- 3x3 网格，洞口清晰可见，深色洞心、棕色泥土
  边缘，从草地里凸显出来
- 地鼠用这些 emoji：仓鼠、熊、青蛙、猴子、
  兔子、狐狸，冒出来时又大又清晰
- 顶部有计分器
- 30 秒倒计时，配一个颜色分级的进度条
- 地鼠从洞里面升起来，而不是浮在洞口上方

一个能玩的游戏出现在侧边栏里。完成标志： 地鼠会冒出来，点中一只就加一分。它会感觉很平淡，这是意料之中的：你有了骨架，还没有手感。一次性把手感加上（概念 4，你漏掉的每个细节，模型都得去猜）：

给游戏加上这些功能：

1. 速度：地鼠一开始很慢，可见约 2.5 秒。速度
   只在玩家得分上升时才提高，而不是随时间推移。
   显示一个速度标签：简单、快速、狂热。

2. 即时开始：玩家点击「开始」时，第一只地鼠
   立刻出现。不用等。

3. 命中特效：地鼠被打中时，下面这些全都显示：
   - 命中点处的彩色粒子迸发
   - 一个向上飘动并淡出的「加一」文字
   - 短促的屏幕震动以示冲击
   - 用 Web Audio API 做一个短促的音效

4. 游戏结束画面：把最终得分又大又带动画地显示
   出来、总命中数、每分钟命中数统计、彩带动画、
   如果达成就显示「新高分」徽章，还有一个
   「再玩一次」按钮。

现在玩它，做概念 7 教的事：准确地说出哪里不对，以及你想要什么来代替。含糊的抱怨换来含糊的修复：

我玩了这个游戏，发现了这些问题：

1. 地鼠大部分藏在洞里。它们应该清晰地冒到泥土
   上方，让我能看到完整的 emoji 脸。修好图层，
   让地鼠渲染在泥土前面。

2. 洞和深色背景融成一片。给每个洞口加一圈
   可见的、更浅的棕色边缘，让它们从草地里
   清晰地凸显出来。

3. 点击「开始」后，游戏要过 2 秒第一只地鼠
   才出现。让它零延迟立刻出现。

把这三个问题都修好。

下面这个招数把玩具和成品游戏区分开。别问「它好吗？」，模型总会说好（概念 6）。给它一份评分标准，逼它诚实地给自己打分：

按每条标准给这个游戏打 1 到 10 分。每个分数
给一句话的理由。然后对每一条标准，告诉我那一个
最能拉高分数的改动。

1. 视觉清晰度：我能一眼看清每个洞和每只地鼠吗？
2. 趣味度：打地鼠的手感让人满足吗？
3. 难度曲线：它是不是从简单开始、公平地越来越难？
4. 精致度：它看起来像一个完成的游戏还是一份草稿？
5. 游戏手感：动画和音效让我想一直玩下去吗？

永远都有下一个台阶。哪怕是 9 分，也有通往 9.5 的路。

然后循环，直到它挣到那个分数，而且什么时候算挣到由你决定，不是模型（概念 13）：

实现你建议的影响力最大的 3 个改动。然后按同样的
5 条标准再给游戏打一次分。一直做下去，直到所有
分数都到 9 分或以上。什么时候停由我决定，不是你。

那个循环就是整个项目。跑两遍，你的游戏就跨过了那条线，从「一件 AI 做的东西」变成「一件我愿意署上自己名字的东西」。

两个高手招数，等基础部分跑通之后

当你想要一个需要真正的设计、而不只是更多细节的功能时，让模型在搭建之前先思考（概念 5）。「好好想」这个说法会打开延长推理：

好好想想这个：我想要一个更聪明的难度系统。

现在速度只是随得分提高。但一个 10 秒就拿到
10 分的玩家很厉害，而一个 25 秒才拿到 10 分的
玩家慢一些。他们应该面对不同的难度等级。

设计一个自适应难度系统，同时考虑玩家的得分
和他们得分的快慢。先解释你的思路，再实现它。

而一旦你有了一个喜欢的版本，去看看换一个工具会不会做得更好（概念 12）。把前面那个主题加搭建的提示词和那个游戏手感的提示词合起来，粘进一个你没用过的工具：

把你的提示词 2 和提示词 3 合起来，粘进另一个
AI 工具。如果你用的是 Claude，就试试 ChatGPT 或 Gemini。

把两个版本并排玩，做对比：
- 哪个版本的视觉和配色更好？
- 哪个版本的地鼠和洞更清晰？
- 哪个版本更好玩？
- 哪个版本的动画和音效更好？

从两边各取最好的点子，让你的主力 AI 工具
加上另一个版本做得更好的那些功能。

一个只用一个 AI 的人，对哪个最好只能靠猜。现在，对这一类搭建，你会亲眼知道。

像贪吃蛇游戏一样发布它：下载、重命名为 index.html、拖进 Netlify（一个新项目）。完成标志： 一个朋友能从链接在他自己手机上玩你的游戏。

Project 330-60 min一个就是你的页面一个陌生人在五秒内就能看懂的单页个人网站。

这个项目的第一次尝试，通常长这样。就管它叫「新手做法」吧（活生生的概念 1）：

今年六月我在夏令营学 AI。现在我在想做一个
个人网站，展示关于我的一切，还有我在这个
夏令营里学到的东西。说说个人网站里都该放些什么

现在用上面的想法搭一个个人网站，并展示出来

一个完全说得过去的页面回来了，而这正是陷阱。问「个人网站里都该放些什么」是个好直觉，但这个问题里没有一个具体的人，所以答案是通用的，而第二条提示词把这一切照单全收。「关于我的一切」送到的时候，身上没带任何关于真实的我的东西，于是模型用它唯一会的方式去填这个空缺（概念 2）：用它训练数据里那个平均水准的学生页面。千篇一律的版块、「对学习充满热情」、放在谁身上都说得通的成就。礼貌、干净、不属于任何人。这个页面变好的方式，和这一页上每个答案变好的方式一样：当上下文变得真实的时候。

下面是同一个项目，由一位读者，一个夏令营学生，按这一页教的方式跑出来的。三条提示词，从开始到发布。先是简报：一个带着受众的目标，加上一张他想在任何设计存在之前就有发言权的决定清单：

现在你要做一个专业的个人网站

我的目标：把我自己专业地展示给所有人
（朋友、亲戚、企业）

在设计它之前，有几点我们要先处理好：
1. 网站配色
2. 背景和设计
3. 字号、写作风格
4. 上面会放哪些信息
5. 我们怎么把它展示得专业

搭出来给我看

这里面没有一句是设计师的词汇。「字号、写作风格」不是任何人的官方行话，但它照样管用，因为它告诉了模型哪些决定要由他来拍板。一个还不错的页面回来了：干净的版块，他的名字在最顶上。它看起来完成了。他像一个访客那样把它读了一遍，抓住了缺的东西。然后他把自己的夏令营证书文件附进对话（文件也是上下文，概念 4），发出了只有他能提供的证据：

看起来不错，但它缺了最重要的信息

1. 我会在网页上设计游戏。这里有一个可以
   展示的例子：https://snake-game-by-junaid.netlify.app/
2. 我知道怎么专业地使用 ChatGPT 和类似的
   AI 助手，比如 Claude 和 Gemini
3. 这里的所有内容我都掌握了
   https://agentfactory.panaversity.org/docs/ai-prompting-2026
4. 关于上面链接里的东西，我可以专业地指导
   任何人
5. 夏令营结束时有一场考试，我拿到了认证。
   证书我已经附上了

现在先规划，再更新它

每一条都是陌生人能核实的真东西：一个他按项目 1 那套方式原样发布出去的游戏、他学过的课程（第 3 条就是你此刻正在读的这一页）、一份模型自己就能读的文件。忘掉的东西只花了一条消息，而不是推倒重来。而「现在先规划，再更新它」是概念 7 那个先有选项、再做承诺的直觉，缩成了短短一句：先规划，再碰页面。回来的版本里，原先放形容词的地方放上了证据。再看一眼之后，是最后一招：一个设计愿望，贪吃蛇游戏那种风格，具体到自带修法：

顶部放着我的全名 Muhammad Junaid Shaukat，
下一个版块里又是同一个名字。这样很难看。
现在顶部应该放 MJS 和我的游戏链接
https://snake-game-by-junaid.netlify.app/

▶ 看看那三条提示词产出的页面（实时）

这就是真实发布出去的成果，挂在一个他在 Netlify 设置里改成了自己名字的地址上，和下面发布步骤描述的做法一模一样。它在下面实时加载；你也可以在单独的标签页里打开它。

你的不应该长得像这一个。它应该长得像你。

现在跑你自己的。偷他的招数，别偷他的事实：开头放上你的目标和这个页面必须对谁管用，列出你想有发言权的决定，然后「搭出来给我看」。如果你得到的是对页面的描述，而不是页面本身，就说：「做出来。」这三个字你会用得比这一节里任何别的提示词都多。当第一版看起来完成了，像一个访客那样去读它，回答他回答过的那个问题：这个页面缺的最重要的信息是什么？用真实、可核实的东西发过去：你发布过的东西的链接（项目 1 的那个游戏就该放在这里）、一份模型能读的文件、你学过的东西的名字。然后是设计愿望，一条消息一个。「标题在喊叫。」「少点紫色。」「各部分之间多留点空。」

当它看起来完成了，它还没完成。而且在这里，打分的人不能是你：你已经知道自己是谁，所以你感觉不到这个页面有没有真的把它说出来。这是唯一一个你必须借别人眼睛的项目。跑你在地鼠游戏上跑过的那个打分加修复循环（概念 6 的诚实评分标准招数），改动一处：给 AI 一个具体的陌生人去扮演。

扮成一个第一次打开这个页面的具体的陌生人。选一个
并待在他的脑子里：一个只扫八秒的招聘官、一个从没
见过我的同学，或者一个我的作品对他真的重要的人。
从三个方面给页面打 1 到 10 分：你能在五秒内知道
我是谁吗、我想让你做什么明不明显，以及有没有哪里
读起来像你会跳过的填充内容？各用一句话，以他的
口吻说。然后做那一个拉高最低分的改动，并把它应用
到页面上，别只是描述。

跑两遍，每次换一个不同的陌生人。当两个永远不会见面的人都在五秒内看懂了你，这个页面就完成了。那份一致，是你从自己眼睛里得不到的信号。

像那个游戏一样发布它：下载、重命名为 index.html、拖进 Netlify（这次是一个新项目）。在你项目的设置里，你可以把随机的站点名改成更接近你自己的名字，只要它没被占用。完成标志： 你的名字指向一个你做的页面，而这个地址就放在你的个人简介里。

Project 42-4 hrsAI 迷你教科书用 AI 搭建一个关于某个主题的简短学习章节，然后证明你能指挥并检查它。

前三个项目各自的终点都是一个公开网址。这一个故意不是。在这里，你用 AI 搭建一个你正在学的某个主题的简短迷你教科书章节，而真正的交付物是两样东西：这一章（产品）和一本过程笔记，它证明你能指挥、质疑并纠正 AI（凭证）。下面的设定是为一个从课堂上选主题的在校学生写的，但它对任何人都适用：选任何一个你真的想学的主题，让「老师」指任何会检查你成果的人，并把提交当作可选项。

这是综合项目，因为它一次演练这一页上的所有东西：给 AI 强有力的上下文（概念 4）、选对检索模式（概念 3）、先选项后反馈的循环和评分标准打分（概念 7），以及核实主张而不是轻信它们（概念 2 和 13）。迷你教科书是产品。你的提示词记录、你的事实核查和你的反思，是你能负责任地使用 AI 的凭证。

这是怎么运作的，先读。 你在另一个浏览器标签页的 ChatGPT、Claude 或 Gemini 里做真正的工作。这张卡片按顺序给你要跑的提示词，以及下面（在第 6 步）一个实时工作簿，你在那里手动记录你做了什么，也就是你如何和 AI 一起推理的凭证。现在就打开那个工作簿，随着你走完各步骤一边填，而不是把它全留到最后。你需要的一切都在这一页上，外加一个免费 AI 账号。

第 1 步：选一个小主题，打开你的 AI

选一个小主题，而不是一整门学科，因为一个小主题你真的能用几页讲好。别选光合作用；下面的实战示例用的就是它。然后就打开 ChatGPT、Claude 或 Gemini，为这个项目开一场新对话。如果你正好有这个主题的笔记或课本，把它们放手边，稍后粘进去；如果没有，AI 自己的知识也绰绰有余。

一整门学科	一个你真的能讲好的小主题
生物	食物链以及能量如何流动
数学	分数和百分比
物理	电路
英语	写一个有力的作文开头
历史	1857 年独立战争的起因

想要本地化的点子的话：停电时的电路、用购物折扣讲百分比、用一则学校通知讲英语语法，或者用比例给一次班级活动做预算。

完成标志： 你选好了一个小主题，并开着一场全新的 AI 对话，准备就绪。

第 2 步：给 AI 做好简报（概念 4）

跑两个提示词。先来一个故意很弱的，把答案存下来，这样稍后你能并排看到一份好简报能让事情改善多少。然后来一个真正的，把你的上下文交给 AI：你是谁、你在学什么。那第二个提示词，就是概念 4 整堂课浓缩成的一个动作。

解释一下 ___。

为什么： 先跑这个，只是为了看到基线，看清一个偷懒的提示词和一个好提示词之间的差别。

我是 ___ 年级的学生。我在学 ___。给我讲清楚，
然后告诉我还有什么没讲明白、我可能会误解什么。

为什么： 这把你的真实处境交给了模型，于是答案贴合你，而不是一个泛泛的读者。

可选，仅当你真的有笔记、一张课本照片或一份练习题时：把它们粘进去，告诉 AI 倚重它们。大多数读者可以跳过这一步，用 AI 自己的知识。

这是我的笔记／一张课本照片：___。优先用这些。如果你加了
里面没有的任何东西，就清楚地标注为额外内容。

完成标志： AI 已经用上你的真实上下文（你的水平和你在学什么）作答了。随着你往下走，把每个提示词，以及它给回什么的一行说明，粘进下面的工作簿。

第 3 步：拿到选项，然后回推（概念 7）

要三种不同的方式来解释你的主题，但先别让 AI 把其中任何一个展开成完整的章节。然后选一个，带着理由驳回其余的，再要修订后的提纲。带着理由驳回，正是证明你在指挥 AI、而不只是接受它第一个点子的那个动作。

给我 3 种不同的方式，向 ___ 年级的学生解释 ___。先别
展开成完整的章节。对每个选项，给出标题、结构、优点和缺点。

为什么： 这逼出起草前的头脑风暴。

我选选项 ___，因为 ___。我驳回选项 ___，因为 ___。
把提纲修订成 3 个改进的版本，让它们更贴合我的班级情境。

为什么： 这表明你在指挥 AI，而不只是接受第一个答案。

完成标志： 你已经带着理由至少驳回了一个选项，并有了一份你真心喜欢的修订提纲。

第 4 步：搭建章节（A 部分）

既然规划的循环已经完成，就让 AI 好好想，从你的笔记和选定的提纲起草完整的章节。这一章必须包含 A 部分的全部十个小节，列在下面的折叠框里。

仔细读我的笔记和选定的提纲。好好想想清晰度、准确性
和年龄适配。现在为 ___ 年级的学生搭建完整的迷你教科书
章节。用简单的语言、短段落、例子、常见错误、闪卡、
小测验，以及一份 7 天复习计划。

为什么： 这只在规划循环完成之后才要求用心的工作。

完成标志： 你有了一份覆盖 A 部分全部十个小节的草稿。

第 5 步：给它打分，然后核实它（概念 2、7、13）

先让 AI 对照一份评分标准给自己的草稿打分，并做出它建议的那些最小改动。然后让它列出它的重要主张，再自己核查其中几条大的，对照你的笔记、一本课本，或者一次快速的网络搜索，把每一条标为接受、驳回、修改，或需要核查。分数告诉你该在哪里改进；核实告诉你什么是真的。

按四条标准给这一章打 1 到 10 分：清晰度、准确性、
年龄适配，以及对复习的有用程度。每个分数用一句话
说明理由。然后告诉我那个最能拉高每个分数的最小改动。

为什么： 这把批评变成可衡量的改进。

列出这一章里 6 到 10 条重要的事实性主张。把每条
标注为：有我的笔记支持、有具名来源支持、需要核查，
或无支持。如果你没核实过某样东西，就别假装核实过。

为什么： 这支持诚实的核查，而不是盲目的信任。

完成标志： 你已经应用了评分标准给出的改动，并核查了至少几条重要主张。随着你往下走，把评分标准提示词和你核查过的主张记进下面的工作簿。

第 6 步：组装你的过程笔记，收尾

把凭证汇总起来：你的主题简报、来源、提示词记录、事实核查和反思。一边工作一边填下面这个实时工作簿；它会自动保存到你的浏览器，并导出成一个 Markdown 文件，你可以留着当凭证、复制或打印。B 部分的完整规格，每张表配一个示例行，在它下面的折叠框里。

Your live workbookloading your saved work…

完成标志： 你的章节完成了，你的工作簿里装着凭证：你跑过的主要提示词、你核查过的几个事实，以及一段你用自己的话写的简短反思。是为某门课做这个吗？更完整的版本，更多提示词、具名来源、评分标准和完整清单，在下面的折叠框里。

你的章节必须包含什么（A 部分的十个小节）

为第一次接触这个主题的人写这一章。包含全部十个小节：

#	小节	里面放什么	篇幅
1	标题与受众	主题、学科、年级、给谁看	半页
2	学习目标	读者应该理解的 3 到 5 件事	简短列表
3	简单讲解	易懂的语言、小标题、短段落	1 到 2 页
4	关键术语	至少 5 个词，配简单定义	表格
5	例子	至少 2 个做过的或现实生活的例子	半页到 1 页
6	常见错误	至少 5 个错误以及如何避免	列表或表格
7	图示或视觉点子	一张简单的图、流程图或带标注的视觉	1 个视觉
8	闪卡	10 张卡，一面问题，一面答案	表格
9	小测验	5 道题，配答案	简短测验
10	7 天复习计划	一份简单的一周学习计划	表格

你的过程笔记必须包含什么（B 部分）

这是凭证。它有六个部分。两个是简短的文字；四个是表格，你在自己的笔记本或文档里一次一行地填。

B1，主题简报。 一小段：什么主题、你为什么选它、它难在哪里、给谁看，以及读者读完后应该理解什么。

B2，来源清单。 每个来源一行，至少两个：

来源名称	类型	我怎么用它
我主题相关的八年级课本页	课本／课堂来源	取了主要定义和关键术语

检索模式（概念 3）。 说出至少两个来源，如果可能至少一个来自你的课堂材料，并说明你用了哪种模式：

预训练（模型凭记忆）：用于简单的讲解、类比和练习题。示例：「用简单的话给八年级讲这个主题。」
基于来源（你上传的材料）：当你想让 AI 用你的笔记或课本页时。示例：「优先用我上传的笔记。除非你标注为额外内容，否则别加额外的事实。」
网络／搜索（如果你的工具有）：当你需要当前的或外部的事实时。示例：「用网络搜索，对比两个具名来源。列出你用过的来源。」
深度研究：仅当你必须就一个问题对比好几个来源时。它很慢，在免费账号上可能用不了，所以少用，绝不用于简单的讲解。

来源类型算作两类之一：课堂来源（课本页、老师笔记、练习题、一段文字的照片）或可信学习来源（可汗学院、大英百科，或一个老师认可的网站）。如果你的工具没有网络搜索，就用你的课本和老师笔记，并把这一点写下来。别编造来源。如果 AI 给你一个来源，能打开核查时就打开核查；如果你无法核实它，就把它标为「需要核查」。

搭建你的上下文包。 模型只知道当前对话或项目里的东西，所以喂给它：一段打出来的课本文字、一张课本页或练习题的清晰照片、一张图或课堂笔记的照片、你老师的指示、你老师要的词汇，以及你用自己的话说出的、你已经感到困惑的地方。隐私规则：绝不上传密码、你的家庭住址、电话号码、私人家庭细节或私人照片。

B3，提示词记录。 至少 8 个提示词，展示整个过程，而不只是最终答案。每个提示词一行，覆盖上面那些起步提示词里的八种类型：

#	我的提示词	AI 给了我什么	我接下来改了什么
1	「解释一下 ___。」	一个带高级词汇的泛泛答案	看出它太弱，加上了我的年级和笔记

B4，评分标准打分表。 给草稿打分，然后改进它。别盲目接受一个分数。每条标准一行（清晰度、准确性、年龄适配、有用程度）：

标准	AI 分数（1 到 10）	AI 的理由	改进它的最小改动	我的决定
清晰度	8	清楚，但难记住	加一张简单的图	接受，我加了一张

B5，核查表。 选 6 到 10 条重要的 AI 陈述并核查它们。每条一行：

AI 陈述	我的决定（接受／驳回／修改／需要核查）	证据或理由	如有需要的更正
「我的主题大多发生在 X。」	驳回	我的课本说它发生在 Y	更正为 Y

B6，反思。 150 到 250 字：AI 帮你理解了什么、它哪里弄错了或没讲清楚、哪个提示词最管用以及为什么、你在最终章节里改了什么，以及下次你会有什么不一样的做法。

一条完成的路径长什么样（一个例子）

下面是一条完成路径的形状，好让你看清你要去哪儿：

阶段	在这个例子里
选定的主题	停电时的电路，八年级物理
课堂上下文	关于电池、开关、灯泡、电流、完整电路、短路的老师笔记
具名来源	一张课本页照片，加一篇可汗学院关于电路的文章或视频
选项提示词	要了 3 种解释电路的方式（水流、家用照明、基于画图）
选定的选项	家用照明类比，因为 Kharian 的学生都熟悉停电
最终产品	一章，包含讲解、关键术语、一个电路图点子、常见错误、闪卡、小测验和一份 7 天计划

看一个完整的实战示例（光合作用，八年级）：不要照抄它

这个样例展示了期望的结构和质量。你绝不能照抄它：选你自己的主题、来源、提示词、核查和反思。

标题： AI 迷你教科书：写给八年级的光合作用。绿色植物如何利用阳光、水、二氧化碳和叶绿素制造自己的食物。

A 部分：章节

1. 标题与受众。 写给八年级的光合作用。为八年级学生而写。讲解绿色植物如何利用阳光、水、二氧化碳和叶绿素制造自己的食物。

2. 学习目标。 解释光合作用是什么意思；识别植物需要的主要东西；解释阳光、叶绿素、水和二氧化碳的作用；描述植物产出什么；避免关于植物如何制造食物的常见错误。

3. 简单讲解。 光合作用是绿色植物制造自己食物的过程。植物不像人和动物那样进食；绿色植物利用阳光在叶子里制造食物。这种食物是一种叫葡萄糖的糖。要制造葡萄糖，植物需要阳光、水、二氧化碳和叶绿素。叶绿素是叶子里的绿色物质；它帮助植物吸收来自阳光的能量。植物通过叶子上微小的开口从空气中吸入二氧化碳，并通过根从土壤里吸收水。利用阳光和叶绿素，植物把水和二氧化碳变成葡萄糖和氧气。葡萄糖被植物用于能量和生长；氧气被释放到空气中。一个简单的记忆方法：阳光 + 水 + 二氧化碳 → 葡萄糖 + 氧气。光合作用之所以重要，是因为它给植物提供食物，并产生氧气，而人和动物呼吸需要氧气。

4. 关键术语。

术语	含义
光合作用	绿色植物利用阳光制造食物的过程
叶绿素	叶子里吸收阳光的绿色物质
葡萄糖	植物作为食物制造的一种糖
二氧化碳	空气中的一种气体，植物在光合作用中使用
氧气	植物在光合作用中释放的一种气体
根	植物从土壤吸收水的部分
叶子	植物进行光合作用的主要部分

5. 例子。 例 1，窗边一株向阳的植物：放在阳光充足的窗边、正常浇水，它就能通过光合作用制造食物；叶子吸收阳光、根吸收水、叶子吸入二氧化碳，植物用这些制造葡萄糖，帮助它生长。例 2，养在黑暗里的一株植物：长时间放在黑暗中，它无法正常进行光合作用，因为它缺光；没有足够的光，它造不出足够的葡萄糖，时间一长可能会变弱。这说明阳光很重要。

6. 常见错误。

错误	更正
「植物所有的食物都从土壤里得到。」	植物从土壤得到水和矿物质，但在叶子里制造葡萄糖
「光合作用发生在根里。」	它大多发生在叶子里
「叶绿素是植物的食物。」	叶绿素不是食物；它帮助吸收阳光
「氧气被用来制造食物。」	氧气是在光合作用中产生的，不是用来制造食物的
「植物不需要空气。」	植物需要空气中的二氧化碳

7. 图示或视觉点子。 画一株绿色植物，配上箭头：阳光进入叶子、水从土壤进入根、二氧化碳从空气进入叶子、氧气从叶子出来，葡萄糖标在植物体内、作为它制造的食物。在底部写：阳光 + 水 + 二氧化碳 → 葡萄糖 + 氧气。

8. 闪卡。

问题	答案
什么是光合作用？	绿色植物利用阳光制造食物的过程
植物制造什么食物？	葡萄糖
植物吸入什么气体？	二氧化碳
释放什么气体？	氧气
哪个部分吸收水？	根
它大多发生在哪里？	在叶子里
什么是叶绿素？	吸收阳光的绿色物质
为什么需要阳光？	它为光合作用提供能量
植物所有的食物都从土壤得到吗？	不，它们通过光合作用制造葡萄糖
它为什么对人类重要？	它产生氧气并支撑食物链

9. 小测验。 Q1 什么是光合作用？Q2 说出植物进行光合作用需要的三样东西。Q3 叶绿素的作用是什么？Q4 光合作用中制造出什么食物？Q5 光合作用为什么对人和动物重要？答案：1）绿色植物利用阳光制造自己食物的过程；2）阳光、水和二氧化碳，外加吸收阳光的叶绿素；3）叶绿素吸收阳光；4）葡萄糖；5）它产生氧气并帮助植物制造食物，从而支撑地球上的生命。

10. 7 天复习计划。

天	任务
第 1 天	读简单讲解，把关键词划出来
第 2 天	学习光合作用、叶绿素、葡萄糖、二氧化碳、氧气
第 3 天	画出光合作用的图并标注
第 4 天	复习常见错误表
第 5 天	用闪卡自测
第 6 天	不看答案做小测验
第 7 天	用自己的话向朋友或家人解释光合作用

B 部分：过程笔记

B1，主题简报。 我选了光合作用，因为它是八年级生物里一个重要的主题。很多学生觉得它难，因为他们把阳光、水、二氧化碳、氧气、葡萄糖和叶绿素的作用搞混了。有些人以为植物所有的食物都从土壤里得到。我的章节是为八年级学生写的。读完后，他们应该理解绿色植物如何制造自己的食物，以及为什么这对生命重要。

B2，来源清单。

来源名称	类型	我怎么用它
八年级科学课本章节	课本／课堂来源	主要定义和关键术语
关于光合作用的老师笔记	老师指导	用来识别重要的词汇
可汗学院或大英百科的讲解	可信学习来源	用来核对基本讲解、避免错误主张

B3，提示词记录。

#	我的提示词	AI 给了我什么	我接下来改了什么
1	「解释光合作用。」	一个带些高级词汇的泛泛答案	看出它太弱，而且不是为八年级写的
2	「我是八年级学生。用关键术语、用简单的话解释光合作用。」	一个用对了关键词的更清楚的讲解	决定加上我的课本和老师笔记
3	「优先用我的八年级课本和老师笔记。把任何额外信息标注为额外。」	聚焦课本词汇，避开了额外内容	在写之前要了提纲选项
4	「给我 3 种向八年级学生解释光合作用的方式。先别写章节。」	三个选项：食谱类比、工厂类比、图示优先	选了食谱类比
5	「我选食谱类比。我驳回工厂类比，太复杂。修订成 3 个提纲。」	三个更好的提纲，带术语、错误、闪卡、小测验	选了带图和错误的那个提纲
6	「读我的笔记和提纲。好好想清晰度和年龄适配。搭建完整的章节。」	章节的完整初稿	让 AI 用评分标准给草稿打分
7	「按清晰度、准确性、年龄适配、有用程度给章节打 1 到 10 分。说明理由并建议改动。」	分数：清晰度 8、准确性 8、年龄适配 9、有用程度 8	改进了图和错误那一节
8	「列出 6 到 10 条事实性主张，把每条标为有支持、需要核查或无支持。」	一份关于阳光、叶绿素、葡萄糖、氧气的主张清单	对照我的课本核查它们，并修正了措辞

B4，评分标准打分表。

标准	AI 分数	AI 的理由	最小改动	我的决定
清晰度	8	清楚，但过程难记住	加一个简单的方程式和图示点子	接受，两个我都加了
准确性	8	事实正确，但土壤的作用没讲清	说明土壤提供水，叶子制造葡萄糖	接受，加进了常见错误
年龄适配	9	语言适合八年级	段落保持简短，避开高深的化学	接受
对复习的有用程度	8	有用，但复习工具会更好	加闪卡和一份 7 天计划	接受，两个我都加了

B5，核查表。

AI 陈述	我的决定	证据或理由	如有需要的更正
「光合作用是绿色植物制造食物的方式。」	接受	与课本和老师笔记一致	无
「植物进行光合作用需要阳光。」	接受	与课本一致	无
「叶绿素帮助吸收阳光。」	接受	与老师笔记一致	无
「植物吸入二氧化碳。」	接受	与课本和可信来源一致	无
「植物在光合作用中释放氧气。」	接受	与课本一致	无
「葡萄糖是植物制造的食物。」	接受	与课堂笔记一致	无
「植物所有的食物都从土壤得到。」	驳回	老师笔记说植物在叶子里制造葡萄糖	植物从土壤得到水和矿物质，但在光合作用中制造葡萄糖
「光合作用大多发生在根里。」	驳回	课本说它主要发生在叶子里	光合作用大多发生在叶子里

B6，反思。 AI 帮我理解了光合作用，它用简单的语言讲解，并把这个主题组织成关键术语、例子、常见错误、闪卡和小测验。我的第一个提示词太弱，因为它只问了「解释光合作用」，所以答案很泛、不是为我的年级水平做的。最好的提示词是我把年级水平、课本上下文和老师词汇给了 AI、并要一整章的那个。AI 给了我清楚的结构，但我仍然得核查事实。一个重要的更正是：植物并非所有食物都从土壤得到，它们从土壤得到水和矿物质，但在叶子里制造葡萄糖。下次我会先把课堂笔记给 AI，要不同的提纲选项，并在使用最终答案之前核查重要主张。

这只是一个样例。选你自己的主题、用你自己的来源、展示你自己的提示词、核查事实，并写你自己的反思。

它是怎么评分的

类别	优秀的成果展现什么	分数
主题与学习目标	清晰的主题、受众、难度和学习目标	8
上下文包	给 AI 的有用的课堂笔记、课本文字或照片、词汇，或老师指示	12
AI 工作区纪律	用了项目，或清楚地组织了分开的对话，以避免上下文混乱	5
具名来源与检索模式	至少两个具名来源，以及用了哪种模式（预训练、基于来源，或网络／搜索）	10
提示词记录与迭代	至少 8 个提示词：弱、上下文、点名来源、3 选项循环、反馈、草稿、评分标准、核实	20
迷你教科书质量	清楚、有条理、适合年龄、完整、便于复习	20
核查表	重要的 AI 主张被核查、更正，或诚实地标为「需要核查」	15
反思	诚实地说明 AI 帮了什么、什么需要更正，以及学到了什么	10

安全与诚实规则

不要分享私人信息：不写家庭住址、电话号码、密码、私人照片或家庭细节。
不要盲目照抄：AI 会犯错，所以要核查重要事实。
不要用 AI 作弊：重点是学会提示词，并搭建一份经过核查的学习资源。
不要寻求不安全的帮助：不涉及霸凌、黑客攻击、有害指示或冒充他人。
诚实对待 AI 的使用：展示你用过的提示词和你做过的改动。
不要编造来源：把任何你无法核实的东西标为「需要核查」。

提交之前的清单

你的目标不是证明 AI 聪明。而是证明你能引导 AI、质疑 AI、纠正 AI，并用 AI 学得更好。

完成标志： 你的章节完整（A 部分全部十个小节），你的过程笔记证明了这份工作：一份至少 8 个提示词的提示词记录、至少两个具名来源、你的评分标准分数、一张你核实过的 6 到 10 条陈述的核查表，以及一段用自己的话写的反思。

前三个项目里你发布的每一个地址之所以存在，是因为你用平实的句子向一个会搭建的模型描述了你想要什么。它们都跑在同一个引擎上：贪吃蛇变好，是因为你玩的时候注意到的东西；地鼠游戏，是因为你拿来要求它的那份评分标准；那个页面，是因为你是谁。不同的上下文来源，同一个招数。把对的上下文放进去。综合项目是那个证明规则的例外。它根本不发布任何地址，因为它的产品是一件你理解的东西，外加一份凭证，证明在掌控的是你，不是模型。

前三个项目每个都是单个 HTML 文件，因为那是一个提示词能承载的点子的大小。概念 9 诚实地点明了边界：账号、通过互联网的实时多人对战、必须留存的数据，这些都需要真正的工程。综合项目点明了另一条边界：模型能在几秒钟里起草一整章，但只有你能判断它是不是真的。当你的点子大过一个文件，或者你对一份草稿的信任大过一眼之时，本书余下的部分就从那里接手。

当一个项目出岔子时（这些总有一个会发生；都很正常）

症状	修复办法
侧边栏里的应用是空白的或卡住了	用大白话说出来：「是一片黑屏」或者「开始按钮没反应」。模型能看到它自己的代码，通常会修好。最坏情况：「从头重搭，简单点。」
下载的文件打开后是一大堵文字	它在文本编辑器里打开了。右键点文件，选「打开方式」，挑你的浏览器。文件没问题。
Netlify 显示「Page not found」	文件多半没命名为 `index.html`。重命名后再拖进去一次。
地址很难看	默认是一个随机名字。你项目的设置里可以重命名站点，只要那个名字没被占用，地址就会变成 `yourname.netlify.app`。
更新后朋友看到的还是旧版本	把最新的文件拖到项目的 deploys（部署）页面上，然后让他们刷新页面。

你现在知道了这些工具能做什么。你能不能想得足够清楚去指挥它们，是另一个问题，而那正是 AI 时代如何思考速成课所围绕构建的问题。

开始前的常见问题

我做这里或思考速成课里的练习，需要付费方案吗？ ChatGPT、Claude 和 Gemini 的免费档，足够应付这一页上的练习和思考速成课对你的大部分要求。如果你做大量深度研究，或者在一场会话里附很多文件，付费方案会有帮助。先免费用；只有当用量上限开始挡住你时再升级。

我该用一款工具还是三款？ 挑一款作为你日常使用的默认，但至少装上来自不同家族的另一款用于对比（见概念 13）。有第二款工具的意义不在于做两倍的活儿，而在于当第一款给你的东西感觉不对劲时，有一个打破平局的。

我公司屏蔽了 ChatGPT。练习我该怎么做？ 用任何你公司允许的现代 AI 工具。这里的技能可以迁移到任何文字进、文字出的 AI。如果什么都不允许，就在个人设备上用你的个人账号做练习，它们关乎思考，不关乎公司数据。

如果我忘了这一页上的配方怎么办？ 把这一页收藏起来。这些配方（迭代加打分循环、评分标准模式、中立改写小窍门、项目配置、「那个能抬高分数的最小改动」这个动作）就是设计来供查阅的，不是供背诵的。唯一值得背的，是这一句话：把对的上下文放进去，把错的上下文挡在外面。

AI 这么能干，为什么还要深入思考修炼？ 因为没有方向的能力会成倍地放大浪费。2026 年工作的瓶颈，已经从生产（AI 让它变廉价了）转移到了评估（AI 没有）。一份来自 AI 的、自信却错误的分析，比根本没有分析更危险，因为它看起来已经完工了。思考速成课训练的，是决定拿 AI 产出的东西去做什么的那份判断力。在一个被 AI 浸透的职场里，那份判断力是最有价值的技能，而大多数课程把它整个跳过了。

头一周要提防的常见错误

错误	症状	修正
把 AI 当成搜索引擎	提示词短、答案浅、反复受挫	像对同事那样给 AI 做简报：上下文、文件、约束、请求。
让一场对话永远累积下去	随着旧上下文被压缩掉，答案越来越含糊	话题一变就开新对话。把常驻上下文（文件、说明）移进一个项目。
第一次就要最终草稿	输出光鲜，内容空洞	先列提纲，每个阶段打分加修补，展开成要点，再起草。
不自觉地用了诱饵式措辞	AI 赞同你暗示的任何东西	发送前改写成中立的问题。
满足于含糊的批评	「干得好！」却没有具体内容	索要每条标准 1 到 10 的分数，附一句话的理由。要那个最能拉高每个分数的改动。
AI 说你做完了就停手	「看着不错！」却没有前路	AI 没资格宣布你做完了。一直迭代到分数停滞，而不是到它听起来光鲜。
把自信当成准确	在偏僻话题上出现意外的错误	问「你怎么会知道这个？」对照一手来源核实高风险的主张。
第一天就批准宽泛的权限	文件丢失、编辑被覆盖	限定到紧凑的文件夹。只随业绩记录增长访问范围。

这些不是性格缺陷。它们是第一代用户（包括你自己）从零开始养成的习惯。逮住它们一次，往往就改过来了。

这一页教的是用这些工具的机制。AI 时代如何思考速成课 教的是让机制真正发挥作用的那份修炼。它那一句话的规则是：「交付物从来不是答案；交付物是思考过程的书面证据。」这门课围绕六个思考习惯组织，分成三个部分：

第 1 部分：基础，你在打开 AI 之前采取的姿态。预测锁定（在 AI 告诉你之前，先写下你认为答案是什么，这样 AI 自信的答案就不会悄悄变成你的）和推理回执（把每一条重要的 AI 主张标为采纳／驳回／修改／浮现／漏掉，附一句话的为什么）。这两个合在一起，让思考留在你这边、打字留在 AI 那边，正是概念 6 指向、却没有干完的那个地方。
第 2 部分：检测，抓住 AI 弄错的东西。错误分类法（六种具体的失效模式，事实错误、逻辑漏洞、虚假自信、缺失上下文、捏造来源、过时事实，你按名字去扫，而不是靠感觉）是概念 2 那句「自信的答案不是正确的答案」的深层版本。用系统思考（追踪任何 AI 建议的决定在它所触及的人和群体之间的连锁后果，包括那些副作用绕回来、抵消掉原决定的地方）是这一页完全没有涉及的新地盘。
第 3 部分：原创，做那些 AI 替不了你的事。第一性原理（质疑每个人都在重复的那个常见建议；把一个问题拆到基本事实，并追问那个标准答案在你的情况里是不是真的成立）是概念 6 那个中立框定动作的深层版本。与 AI 协作（这种协作模型里，思考和决定由你做，研究和起草由 AI 做；把这个比例翻转过来，你就变得多余了）是概念 7 那个带反馈的迭代循环的深层版本。

当你准备好了，去 AI 时代如何思考速成课。没有判断力的强力工具只会更快地犯下自信的错误，而刻意练习是唯一诚实地查明你的判断力是否在进步的办法。

闪卡学习辅助

检验你的理解

Checking access...

📚 教学辅助​

关于上次你看它以来发生了什么的简短说明​

第 1 部分：AI 是怎么知道事情的​

1. 新手 vs 高手​

2. 预训练知识​

3. 三种检索模式：预训练、网络搜索、深度研究​

第 2 部分：把话和 AI 说好​

4. 上下文就是全部​

5. 推理，或者说「好好想」​

6. 奉承，以及如何中和它​

7. 头脑风暴迭代循环​

第 3 部分：超越文字​

8. 多模态：图像、音频，以及接下来的东西​

9. 用一个提示词搭建小应用​

10. 数据分析（模型自己写代码并运行）​

第 4 部分：安全地工作并挑选工具​

11. AI 桌面应用与权限​

12. 成本、速度，以及什么时候该用哪个模型​

13. 模型检查模型​

单模型自我批评循环，单用​

在你去试那些提示词之前的简短回顾​

现在就试：在深入思考修炼之前的十二个提示词​

🚀 项目​

闪卡学习辅助​

检验你的理解​