2026 年的 AI 提示词:90 分钟速成课
13 个概念,覆盖 80% 的真实用途
大多数人把 AI 当成谷歌搜索来用。他们输入一个简短的问题,扫一眼答案,然后就走开了。这套做法应付琐碎的小事还行,但对你生活和工作中真正重要的一切,它都行不通。
高手的做法不一样。他们给 AI 做简报,就像给一位聪明但刚入职的同事做简报一样:附上文件、上下文、约束条件,再加一个明确的请求。他们期待拿到三个选项而不是一个。他们会争论,会反复迭代,会检查成果。新手提示词和高手提示词之间的差距,靠的不是聪明,而是一把任何人花一个下午就能学会的习惯。
这一页就是那个下午。13 个概念,分成四个简短的部分。不涉及代码,不用配置,没有靠上下文就猜不出来的行话。
📚 教学辅助
查看完整演示文稿:2026 年的 AI 提示词
有一个事实是这一页其他一切的基础:模型自己没有记忆。 每次你按下发送,它都是从头开始作答,只能用上那一刻它的上下文窗口里有的东西,你的提示词、目前为止的对话、你附上的任何文件,以及工具加进去的那些看不见的脚手架。它不会把昨天的对话带到今天,它不会在两次会话之间记得你。工程师把这叫作无状态。(有些产品在上层加了一个「记忆」功能,悄悄地在每一轮往上下文里重新注入几条关于你的事实,但那些事实仍然只是上下文,并不是人类意义上的记忆。)
这就是为什么有一条洞见贯穿下面每一节:这一页上几乎每一项「高级技巧」都是两个动作之一,把对的上下文放进去,或者把错的上下文挡在外面。 对于这一次的回答,模型只能看到它上下文窗口里的东西。你的任务就是控制进去的是什么。请带着这个视角去读每一节。
关于工具的一点说明:示例会提到 ChatGPT、Claude 和 Gemini,因为大多数读者手上至少有其中一个。这些技能可以迁移到任何现代聊天式 AI。当某个功能为某一款产品独有时,会明确点名。
现在就在另一个浏览器标签页里,用 Claude、ChatGPT 或 Gemini 中的一个开一个免费账号,然后再往下读。每个都有免费档,注册大概只要一分钟。你暂时不用在里面做任何事,开着就行。然后先通读一遍把握整体脉络,回头再到结尾的部分去试那些提示词。光读不试,你得到的是说法;动手去试,你得到的才是技能。(结尾的一个练习会让你把两款工具并排比较,所以等你读到那里时,你可能想再开一个免费账号。)
关于上次你看它以来发生了什么的简短说明
如果你在 2022 或 2023 年用过 ChatGPT,认定它是个聪明的玩具,那么你记忆中的那个工具已经不是你现在手上的这个了。有几处变化是悄悄发生的:
-
上下文窗口增长了大约 1000 倍。 2022 年的模型能容纳几千个词,2026 年的模型能容纳几十万个,有时达到一百万。这改变了你能塞进一个提示词里的东西:一整本书、好几天的讲话、一整文件夹的合同。
-
推理变成真的了。 「一步一步想」过去是一句魔法咒语,现在模型有了明确的思考模式,能运行几秒钟、有时几分钟,先探索多种思路,再作答。有一种衡量方式:一年前,AI 能可靠完成的最难任务,是一个人花几分钟就能做完的事;今天则是一个人要花一个小时甚至更久才能做完的事。概念 5 有实测的数字。
-
网络搜索变成了内置工具。 模型自己决定一个问题什么时候需要最新信息,发起一次搜索,读上几页,再把找到的内容用在答案里。2022 年的模型只能凭训练时记下的东西作答;2026 年的模型可以在作答途中去查一查。这对一切会变化的东西最重要,新闻、价格、新近的法规、本周的体育比分。
-
代码执行也变成了内置工具。 模型可以写一小段程序、运行它、看到结果,再把结果用在答案里。这对一切它本来只能在脑子里估算的东西最重要,真实数字的算术、解析一份表格、跑一次快速模拟。搜索和代码执行这两个工具大多是隐形的:大多数用户察觉不到它们什么时候触发,所以分不清一个答案是来自记忆、来自一个新的网页,还是来自一次计算。一旦你开始留意,你的提示词就会变得更犀利,你可以问「你真的搜索过这个吗?」,或者告诉模型「把数算出来,别估」。
-
多模态不再是个边角功能。 你可以把一张照片、一份 PDF、一张表格、一段语音备忘录,或者一整文件夹的文件丢进一个提示词,然后就此提问。模型会在同一条流里处理所有这些。
-
桌面应用出现了。 一个新品类的产品(Cowork、OpenWork)能在获得许可后找到你的文件、起草邮件、更新表格。这已经不是聊天了,它更接近把一个小任务委派给一位同事。
-
面向开发者的命令行 agent 出现了。 像 Claude Code 和 OpenCode 这样的工具住在终端里,能通读一整个代码库,一次编辑很多文件、运行测试、再回来汇报。这和桌面应用是同一种转变,AI 直接对真实的产物动手,而不是去描述它们,只不过面向的是写代码的人。
如果你对这些工具的认知哪怕只落后了 18 个月,你用到的可能也只是它们今天能力的两成左右。这一页就是来补上这道差距的。
第 1 部分:AI 是怎么知道事情的
一旦你理解了向 AI 提问时实际发生了什么,你就不会再为那些失败感到意外了。
1. 新手 vs 高手
注意看这两个提示词之间发生了什么变化。问题是同一个,简报却不一样。

再来几组来自现实的真实对比:
- 买车。 新手:「哪辆车最好?」高手:上传两款车的参数表、经销商报价和保险方案,然后问「都有哪些取舍?把所有材料读一遍,好好想想。」
- 写工作自评。 新手:「给我老板写一份自评。」高手:上传自己项目跟踪器的截图、最近的项目文档,以及一段记着零散笔记的语音备忘录,然后让 AI 起草。
- 评判一个生意点子。 新手:「我有个很棒的生意点子,上门扎染,帮我评判一下。」这是在钓奉承,AI 大多会一通称赞。高手:「客观分析。用这套评分标准:有没有一个值得解决的问题,有没有市场,有没有竞争优势?」AI 给这个点子打了 100 分里的 8 分,并解释了原因。
- 写一篇博客。 新手:「写一篇关于黑莓手机的博客。」结果:AI 废话。废话是个行话,指那种表面流畅、内里空洞的 AI 输出,语法干净,隐隐有股维基百科味,满是「在当今快节奏的世界里」这类短语,说的东西读者一小时后一点都不会记得。当你不给它任何上下文和约束时,AI 默认产出的就是这种东西。高手:先列提纲,批评提纲,把每个标题展开成要点,批评要点,到这一步才让它写正文。
把这些串起来的心智模型是:AI 就像一个非常聪明的应届毕业生。干劲十足,但还不太了解你。 像对一位这样的人那样给它做简报。换作一位刚入职的同事,他有没有足够的信息把这件事做好?如果没有,就多给一些。
2. 预训练知识
AI 不是通过亲历世界学会的。它没有身体,没有感官,没有在世界里走动过的时间。它是通过阅读关于世界的文字学会的,海量的互联网文字。Reddit 和 Quora 的帖子、维基百科、书籍、新闻报道、研究论文、博客、论坛。
在训练数据中出现的频率,大致等同于答案的可靠度。所以:
- 强: 烹饪、明星八卦、常见医疗建议、排名前 1000 的电影、热门编程语言、旅行者 1 号唱片上有什么内容(NASA 在 20 世纪 70 年代发射的航天器,距地球约 250 亿英里,携带着 55 种语言的问候)、猫为什么盯着墙看(它们能察觉到人类错过的细微声响和动静)。
- 稀疏: 类星体(天空中由黑洞驱动、极其明亮的天体)、粤语(占互联网文字不到 0.1%)、地方史、小众的专业知识。
- 缺失: 你公司的机密数据、你的私人日程、任何发布在模型知识截止日期之后的内容、任何从没有人发到公开互联网上的东西。
两个实用的推论:
别浪费时间去改错别字。 AI 是在互联网文字上训练的,而那里满是错别字。它能从容应对拼错的提示词。把 definately 拼错并不会改变答案。
留意被吸收进去的错误。 AI 也从同样的来源里吸收了误解和过时的信息。一篇自信满满却错误的论坛帖子,会变成模型里自信满满却错误的内容。任何重要的东西都要对照一手来源核对。
本速成课会教你识别破绽百出的推理。第一个该去找它的地方,就是那些训练数据稀少或有争议的话题上、听起来自信满满的预训练答案。自信并不是正确的信号。
在你信任一个预训练答案之前,做一个快速的脑内测试:
| 问题类型 | 在训练数据中的代表性如何? | 信任度 |
|---|---|---|
| 「怎么做面糊(roux)?」 | 烹饪是互联网上讨论最多的话题之一。 | 高。 |
| 「某部前 1000 名电影的剧情。」 | 被反复评论过成千上万次。 | 高。 |
| 「某个偏僻村庄的历史。」 | 可能只有维基百科上的一段,甚至一段都没有。 | 低;对照一手来源核实。 |
| 「我所在行业近期的某项监管变化。」 | 几乎可以肯定在知识截止日期之后。 | 不做网络搜索就别信任何东西。 |
| 「我们公司上季度决定了什么?」 | 根本不在训练数据里。 | 别信任何东西;模型在瞎猜。 |
这不是一条你非得背下来的规则。它和你对待任何其他来源时会用的直觉是同一回事:「这个人怎么会知道那件事?」对 AI 也照样用上。
一个非软件的例子。 一位读者曾让 AI 总结一个在他奶奶村里玩的地方民间游戏的规则。AI 自信满满地写出了三段规则。问起奶奶,她说那些规则几乎全错:AI 把其他地区类似游戏的描述混在了一起,因为那个具体的游戏在互联网上几乎没有。AI 没有撒谎,它是从稀疏的数据里做了泛化。读者的错不在于发问,而在于以为自信就等于准确。
好奇 AI 为什么能听起来无比自信却仍然出错?这背后有一个更深层的原因。Elan Barenholtz 的文章《LLMs show language does not describe reality》(IAI,2026)用平实的英语讲解了这些模型实际是怎么运作的。这篇文章还对人类语言提出了一些更大的哲学主张;你尽可以取其中对你有用的部分,其余的不必理会。
3. 三种检索模式:预训练、网络搜索、深度研究
当你提问时,现代 AI 工具会悄悄选择如何作答。要么它只凭预训练知识作答,要么它发起一次网络搜索、读上几页,要么它运行深度研究,花几分钟扫描几十个来源,写出一份结构化的报告。
你应该知道触发的是哪种模式,因为每一种都有不同的长处和不同的失效模式。

举几个例子把这件事说具体:
- 预训练答得不错: 「猫为什么盯着墙看」、「旅行者 1 号唱片上有什么」、「总结《哈姆雷特》的剧情」。这些不会一周一变。
- 网络搜索救活一个过时的模型: 每个模型都有一个知识截止日期,凡是在那之后才走红的东西,对它都是隐形的。一个梗、一项法规、一次产品发布:没有网络搜索,AI 根本不知道你在说什么。有了网络搜索,它就能拉来一篇近期的文章,把答案答对。
- 网络搜索出错的时候: 一个朋友问「在内华达州亨德森哪里适合跑步」。AI 引用了一个 20 年前的网页,推荐了一所早已不对公众开放的学校。网络搜索并不会检查来源是不是当下有效的。
- 值得等的深度研究: 「在我们小区办一场万圣节鬼屋,包括许可证、消防安全和噪音条例。」AI 会提出一个研究计划,并行跑很多次搜索,做总结,决定接下来深挖什么,最后产出一份带清单的多段式报告。这不是聊天机器人的答案,它更接近把这份活儿交给一位初级研究员做一个小时。
在底层,具体机制因工具而异,但形状是一致的。一个搜索与检索层发起搜索,扫描结果列表,拉取最相关的网页,再把每一页缩成一段简短的文字或摘要。那一层往往是一个独立的、更小的模型。只有缩减后的版本才会流向跟你对话的面向用户的模型。
跟你对话的模型往往并不直接读原始网页,它读的是缩减版。这就是为什么它有时会曲解一页内容实际说了什么:信息在抵达模型之前先经过了一道翻译层,而翻译层会丢失细微之处。
实用对策:告诉 AI 该用哪类来源。与其问「疫苗安全吗」,不如试「用世界卫生组织、FDA、欧洲药品管理局和同行评议的研究。别用论坛或个人博客。」来源质量是个你能拧的旋钮。默认设置会优先引用热门来源(Reddit、维基百科、YouTube、谷歌自己、Yelp),它们往往可靠,但对于高风险问题并不总是可信。
第二个对策:让 AI 引用来源。「对每一条主张,引用支持它的来源页面上的那句原话。」这会逼检索层把原始措辞亮出来,能抓出很多摘要层造成的偏移。
一个非软件的例子。 一位小区业委会的志愿者用深度研究为一场关于本地水质的居民大会做准备。她的提示词是:「研究[她所在城市]过去 24 个月当前的水质问题。用 EPA、本市公用事业的公开报告和同行评议的研究。避开新闻社论和论坛。产出一份结构化报告,包含:(1)被引用最多的三个问题,(2)展示趋势的数据表,(3)居民该向公用事业部门提出的三个具体问题。」八分钟后,她就有了一份基于当前本地数据的简报。预训练模式做不到这件事;光靠网络搜索会得出一个更浅的答案;深度研究才是对的工具,因为这个问题既多维又时新。
在脑子里选一种模式。 你通常不是靠点一个按钮来选模式,而是 AI 根据你的提示词来选。但你可以引导:
| 措辞模式 | 通常会触发什么 |
|---|---|
| 「X 是什么」/「总结一下 Y」 | 只用预训练。 |
| 「X 的最新进展是什么」/「今天」/「本周」/某个具体城市 | 网络搜索。 |
| 「彻底研究一下 X」、「产出一份带引用的报告」、「用这些类型的来源」 | 深度研究(在具备此功能的工具里;否则是延长的网络搜索)。 |
| 附上文件 | 对文件保持预训练;如果提示词要求最新信息,可能会去搜索网络获取上下文。 |
AI vs 谷歌。 它们不是同一种工具。需要快速扫一眼、跳转到某个已知的具体网站,或者买东西(给一辆 2013 款本田思域买空气滤芯)时,用谷歌。需要综合时用 AI:利弊、多来源对比、一份写出来的分析。怎么选,取决于你想要的是一个链接还是一个答案。
一条并排的经验法则:
| 任务 | 用谷歌更好 | 用 AI 更好 |
|---|---|---|
| 「找到 1040 表格的 IRS 官方页面。」 | 是。你想直接落到某个已知的具体网站上。 | 否。 |
| 「对比三种糖尿病药物以及近期证据怎么说。」 | 更慢。你得读 8 个标签页。 | 更快。AI 把证据综合到一处。 |
| 「给一台 2018 款 ThinkPad 买一个替换充电器。」 | 是。你想要一个商品链接。 | 否。 |
| 「规划一趟 4 天的里斯本之行,带一个 6 岁孩子,不去博物馆。」 | 慢。你得在博客和评论之间来回折腾。 | 快。AI 会把各种约束整合起来。 |
| 「明天天气怎么样?」 | 都行。 | 都行。 |
| 「我的番茄叶子为什么发黄?」 | 还行。多个园艺网站。 | 附一张照片更好。 |
如果你的问题是「X 在哪儿」,去找谷歌。如果你的问题是「综合这一切,我该怎么想」,去找 AI。
如何用 AI 拿到更可靠的网络搜索结果
当你确实想要网络搜索时,三个小习惯能提升质量:
- 点名你信任的来源。 「用 WHO、FDA 和同行评议的研究,别用论坛。」
- 要求随文引用。 「在每条主张后面注明来源。」
- 让 AI 标出它无法核实的内容。 「如果某条主张得不到所引来源的支持,把它标为『未核实』。」
把这三行粘进任何一个网络搜索提示词,就能压住最常见的失效模式:AI 悄悄地把多个来源综合起来,写出一个自信的句子,而没有任何单一来源支持它。
第 2 部分:把话和 AI 说好
4. 上下文就是全部
人类在活跃的工作记忆里只能同时握住寥寥几样东西:经典的估计说大约七样,较新的估计接近四样。现代 AI 模型一次能握住几十万个词,有时一百万。打个比方:大约 75 万词,相当于头 4 到 5 本《哈利·波特》,或者好几天连续不断的讲话。模型能在作答前把这些全部读完。
但它只能读你给它的东西。上下文,就是对某一次回答而言最终进入模型窗口里的一切:产品设定的系统提示词、它能调用的任何工具的描述(网络搜索、代码、文件访问)、你的提示词、这次对话的聊天记录,以及你上传的任何文件。

这是模型能看到的唯一的东西。因为它自己没有记忆,这个栈之外的一切对这次回答都不存在,不是你上次的对话,不是一个你本想附上却没附的文件,也不是一个你以为它会记住的约束。对这次回答来说,这个栈就是整个世界。
具体对比一下:
- 光秃秃的提示词: 「学物理和学动物学的利弊。」你会得到一通泛泛的高中辅导员式建议。
- 上下文丰富的提示词: 同一个问题,再加上你以 PDF 上传的职业测评结果,以及一张你高中课表的截图。现在 AI 就能谈你具体的能力画像、你具体的修课史,以及哪个选择适合哪种情况。
同一个模型,同一个问题,不同的答案。差别在上下文,不在提示词有多巧。
你要学的这门功夫是:在按下发送之前,问问自己,换作一位聪明的新同事,他眼前需要摆着什么才能把这件事答好。 然后把那些东西附上去。这位同事会把你摆在他面前的一切都仔细读一遍;他不会去猜你没告诉他的事,不会翻你的档案柜,不会推断你所在的行业、你团队的历史,或者昨天那串邮件。如果他得有一份文档或一个约束才能干这活儿,那你就得把它包含进去。
一个非软件的例子。 一位七年级老师让 AI「起草一份关于水循环的教案」。产出的是一份她在任何教科书里都能找到的泛泛计划:定义、一张图、三个讨论问题。第二天她再试了一次,附上了三样东西:她的课程大纲(这样 AI 就知道这节课之前讲了什么、之后要讲什么)、上周带着评分的学生作业纸(这样 AI 就知道哪些概念掌握了、哪些没有),以及她学校的标准化考试格式。新的教案以五分钟的复习开场,复习的正是上周作业纸显示掌握得弱的那两个概念,把新材料串进了学生五月份会见到的那种考试格式里,最后以一个与她大纲里下一个主题相匹配的理解检测问题收尾。同一个模型,同一位老师,同一个学科。唯一的差别在于,第二个提示词告诉了 AI 一位聪明的新同事本来需要知道什么。
把这门功夫重述成任何非琐碎提示词之前的一份清单:
| 问题 | 如果是,就附上或描述它 |
|---|---|
| 有没有一份文档,答案应该和它保持一致? | 有:附上它。 |
| 有没有一个 AI 无法推断的约束(预算、时间、谁在团队里)? | 有:说明它。 |
| 有没有先前的上下文(之前的某个决定、一套现有流程)? | 有:用一段话总结。 |
| 你想要某种输出格式吗(表格、邮件、要点清单)? | 想要:点名它。 |
| 有没有受众(一位老板、一个孩子、一个陌生人)? | 有:点名他们。 |
五行选得当的上下文,胜过五段卖弄聪明的话。
现代上下文窗口很大,但不是无限的,而且窗口内部的回忆能力会衰减。人们在实践中犯的最大错误是:他们让同一场很长的对话跨越很多个不相关的话题一直进行下去。AI 刚帮你规划完一次锻炼,你又让它调试一份表格,接着又让你给姨妈写一封感谢信。锻炼的上下文还在那儿,分散着模型的注意力。
经验法则:话题一变,就开一场新对话。 做起来便宜,做起来免费,而且答案会明显变好。
告诉你一场对话已经变馊了的几个症状:
- AI 开始引用聊天里早先那些和你刚问的事毫不相干的部分。
- 随着时间推移,它的答案变得越来越长、越来越含糊,铺垫也越来越多。
- 它和你五轮之前说过的一个约束自相矛盾。
- 它开始反复道歉,却毫无进展。
给正在发生的事起个名字:大多数现代聊天工具,一旦对话长到一定程度,就会悄悄压缩聊天里较早的部分,它们把早先那几轮总结成短短一段,再用这段总结替换掉原文以腾出空间。Claude 在这发生时会显示一条小小的「正在压缩」提示;ChatGPT 和 Gemini 则默默地做。叙事的脉络留了下来,但具体细节没了。你三小时前让它用的那个库、你们商定的那个命名约定、你在第四轮说过的那个约束,这些任何一条都可能悄悄消失进总结里,从此不再出现在模型的答案中。对策和上面那条规则一样,只是动机更明确了:聊天窗口是工作记忆,不是存储。 任何需要在一场漫长会话之后还留存下来的东西,都该放进一个项目、一个附上的文件,或者一条你能重新粘贴的笔记里,而不是聊天记录本身。
当你看到这些时,本能是再来一个澄清式提示词去修。忍住:那只会往一个已经一团乱的上下文里再添一团乱。改用上面那条规则。开一场新对话,把真正要紧的那一两个事实粘进去,从那里继续。重置几乎总是比抢救更快。
如果那场已死的对话产出了值得留的东西(一份计划、一份草稿、一个决定),重置前把它存进一个文件。这样你既不会丢掉成果,也不会把噪声拖进下一个任务。
上面概念 4 的那份清单引出一个明显的问题:如果 AI 每一次都得像对同事那样被做简报,那就是大量重复的输入。如今大多数现代工具给出的答案是一个叫项目的功能,一个你只配置一次的工作区,放进总是适用于某一类工作的文件、说明和受众,于是你在里面开的每一场对话都自动继承那套配置。
什么时候该建一个项目。 当你注意到自己已经把同样的文件、同样的受众描述,或者同样的约束,粘进了关于同一话题的两场及以上对话时。那就是信号:上下文该放进一个项目,而不是放进一个提示词。
一个项目能为你换来什么的几个例子:
- 一个「报税」项目,放进去年的报税表、你的 W-2 和 1099,再加一条说明,比如*「假设我是一位有一名受抚养人的美国报税人。永远把你的计算过程展示出来。」*你在里面问的每个问题,都从这个底子起步。
- 一个「孩子学校」项目,放进课程大纲和校历,再加一条说明,比如*「作答前永远先对照校历核对日期。」*当一年里「周一上学吗?」这个问题冒出来四次时,它就派上用场了。
- 一个「写作语气」项目,放进三份你自己写作的样本,再加一条说明,比如*「贴合样本的节奏和用词。别加我没用过的铺垫或限定语。」*现在每份草稿都从你的语气起步,而不是从泛泛的 AI 腔起步。
和上面那条上下文腐烂规则的联系。 在一个项目里,「开一场新对话」不再意味着丢掉 AI 对你情况的了解,它只意味着丢掉上一场对话的噪声。常驻的文件和说明会一路跟着走。于是那条重置规则就更省力了:你重置的是对话,不是上下文。
三款工具,三个名字,一个理念。 Claude 叫它 Projects(项目),ChatGPT 叫它 Projects(项目),Gemini 叫它 Notebooks(笔记本)(它和谷歌独立的研究工具 NotebookLM 同步,你在其中一个里加的东西会出现在另一个里)。三者都让你上传文件、保存说明,并运行许多场扎根于同一份持久上下文的对话。它们的侧重点各不相同:
- Claude 和 ChatGPT 的 Projects 偏向说明和行为。你设定语气、角色、规则、受众,模型就能在项目里的每一场对话中可靠地维持那个人设。当AI 如何回应和它知道什么同等重要时最合适,用某种特定语气写作、在一个代码库上工作、维持某种品牌调性,任何讲究风格一致性的场合。
- Gemini 的 Notebooks(以及 NotebookLM) 在来源那一侧走得更远。丢进 PDF、Google 文档、网址、YouTube 视频,甚至音频文件,每个答案都会扎根于那些来源回来,并带有可点击的随文引用。不寻常的地方在于:这个工作区是双向流动的。你放进 NotebookLM 的任何东西都会出现在 Gemini 应用里的同一个笔记本中,而你在 Gemini 笔记本里进行的任何对话,都会自动变成 NotebookLM 里的一个来源。于是这个工作区会随时间积累你自己的推理,上周的对话成了本周对话可以引用的又一个来源,这就以其他工具做不到的方式「把学习和练习连了起来」。NotebookLM 还会生成 Audio Overviews(你可以听的播客式摘要)、思维导图、闪卡和幻灯片,全都根据你的来源自动构建。当你在学习、研究,或者跨许多次会话啃一份材料、希望每一次会话都让下一次更聪明时,它最合适。
快速经验法则。 如果工作区会随时间增长,学习笔记、长期研究、任何你希望每一次会话都喂养下一次的东西,就用 Gemini Notebooks / NotebookLM。如果工作区是围绕一个你希望 AI 在各场对话中始终如一地维持的人设或一套说明来搭建的,就用 Claude 或 ChatGPT 的 Projects。
截至 2026 年中,各家分别有什么:
| 工具 | 它叫什么 | 有免费档吗? |
|---|---|---|
| Claude | Projects | 有,免费方案最多 5 个项目;每个项目内的文件不限量 |
| ChatGPT | Projects | 有,免费方案每个项目支持最多 5 个文件;付费方案提升到 25 或 40 |
| Notebooks(在 Gemini 里)和 NotebookLM | 有,两者都免费;付费档(NotebookLM Plus、Gemini AI Pro/Ultra)提升来源上限 |
注意各家免费档上限的不同形状:Claude 限制你能有多少个项目;ChatGPT 限制每个项目能装多少个文件。围绕哪个上限会先卡住你来规划你的项目结构。
5. 推理,或者说「好好想」
直到 2023 年左右,应对难题提示词的标准建议还是「一步一步想」。这条建议如今基本过时了。现代模型有了内置的推理模式,你可以直接调用。
如何调用:
- 用大白话要求它。 在提示词里写「好好想」或者「作答前仔细想想」。这是通用的招数:它在每一款现代聊天工具里都管用,不用记什么特殊语法。
- 用界面里的思考模式开关,凡是提供这个开关的地方。
- 在有些产品上你根本不用要求:工具会自己判断一个问题什么时候难到值得动用延长思考,然后替你打开它。
当延长思考开启时,模型可以思考很多秒。在难题上,有时超过十分钟。它不只是打字打得更慢,而是在内部探索多种思路、检查自己的成果,然后才写出你看到的答案。
2025 年的一项 METR 研究追踪了一个前沿模型能可靠完成的最长任务。2024 年中,一个领先的模型能搞定人类大约要花七分钟的任务。到 2025 年初,这个时长涨到了大约一个小时,而研究发现它所衡量的这个时长大约每七个月就翻一番。对你的含义是:把真实的、难的任务交给 AI,而不只是简单的。它能搞定的,比你 2023 年的直觉所暗示的要多。
一个用好了这一点的高手模式:
我在两辆车之间做选择。附件:两辆的参数表、
我对每辆的保险报价,以及一份我过去六个月
驾驶习惯的表格。
把所有东西读一遍。好好想。然后告诉我:
1. 对我的驾驶习惯而言真正要紧的三个取舍。
2. 你会选哪辆,以及为什么。
3. 在什么条件下你的推荐会翻转。
这个提示词做了三件事:它载入了相关的上下文,它明确调用了思考,它要的是结构化的输出而不是一大堵散文。这三件都是习惯。
快速查询、给一段话做总结、随意头脑风暴。思考模式更慢,也更耗你的用量额度。把它留给那些你本来会希望一个人慢慢来做的问题。
思考模式是为这个而生的:不是更快,而是能搞定那种多输入、多取舍的问题,那种你本来会交给一位深思熟虑的同事、再等上两天的问题。这笔交易是真实的。你花掉几分钟的算力和一小点用量额度,换回来一个你自己本来要花半天才能产出的东西。
上面提到的那条 METR 轨迹的含义是:两年前你在脑子里归为「对 AI 太复杂」的任务,如今大多已经是 AI 能搞定的任务了,只要你给它做好简报、打开思考模式。每隔六个月就重新检验一次你对 AI 能做什么的假设。它们会是错的。
6. 奉承,以及如何中和它
AI 模型是在人类反馈上训练的。具体说,是在哪些回应得了赞这件事上。在数百万用户中,赞同别人比反驳别人得到的赞更多。结果就是:模型偏向于告诉你你想听的话。
2025 年 11 月《华盛顿邮报》的一篇分析考察了 47000 段 ChatGPT 对话,发现模型以肯定(「是的」、「没错」之类)开头的频率,大约是以「不」或「错了」开头的 10 倍。报道中提到的开场白大多集中在「这没错」和「你的方向是对的」这类短语上。
你可以自己验证这一点。同一个模型,相反的框定:
- 「你不觉得远程办公比坐班更好吗?」→ AI 赞同,列出理由。
- 「坐班更高效,这是真的吗?」→ AI 赞同,列出理由。
对策不是什么魔法,就是中立的框定。这种模式出现在两个层面:表面的(「你不觉得 X 吗?」)和隐蔽的(「找证据证明 X 行得通」)。在你自己的提示词里两个都要留意:
| 你可能会写的隐蔽诱饵 | 它向 AI 发出的信号 | 中立改写 |
|---|---|---|
| 「找证据证明这个策略会奏效。」 | 结论已定;AI 来填补支持论据。 | 「评估这个策略。列出支持和反对它的最有力论据。」 |
| 「为什么方案 A 比方案 B 好?」 | A 赢了;AI 来列理由。 | 「对比方案 A 和方案 B。从成本、风险和时间三方面分别打分。」 |
| 「帮我为我雇用 X 的决定辩护。」 | 决定已锁死;AI 来提供弹药。 | 「这是我的决定和背景。我该准备好应对的最有力的反驳是什么?」 |
| 「告诉我我的草稿可以发了。」 | AI 告诉你它可以了。 | 「按这 4 条标准给这份草稿打 1 到 10 分。对每一条,告诉我哪个改动最能拉高分数。永远都有下一个台阶。」 |
| 「确认这段代码是正确的。」 | AI 确认。 | 「找出这段代码里的任何 bug、边界情况或未言明的假设。如果一个都没有,就这么说。」 |
模式是这样的:任何含有 find(找)、defend(辩护)、confirm(确认)、prove(证明)、support(支持) 这类动词的措辞,都在问题之前就把一个结论塞给了 AI。换成 evaluate(评估)、compare(对比)、critique(批评)、find any(找出任何)、list both sides(列出正反两面) 这类动词。模型仍然会略微偏向赞同,但你已经移走了那个最响的信号。
总的规则:摆出两个选项,不暗示偏好,然后分别要它们的利弊。 如果你发现自己在写「X 难道不是真的吗」,停下来,改写成「X 在多大程度上为真,如果它确实为真的话?」
这个概念是一项深得多的技能的廉价版本。AI 时代如何思考速成课训练的是那个深层的版本:如何提出能揭示出你尚不知道的东西的问题。中立框定这个小窍门,在日常使用中能带你走到八成的路程。那门速成课带你走完剩下的。
一个非软件的例子。 一位创业者问 AI:「我有个很棒的生意点子,给孩子的生日派对做上门扎染,帮我评判一下。」AI 热情地夸了这个点子,列出了它可能成功的理由。这位创业者接着用一套评分标准再试了一次:「客观分析这个点子。对下面每一项打 1 到 10 分并说明理由:(1)这里有没有一个真实的问题,(2)有没有愿意付钱的市场,(3)有没有竞争优势,(4)单位经济模型如何,(5)这件事失败的三大原因是什么。」同一个 AI 给这个点子打了 100 分里的 8 分,并用具体的措辞解释了这位创业者为什么该重新想想。第一个提示词是在钓奉承,第二个是一套客观的评分标准。同一个模型,同一个点子,相反的结论。差别在于问题是怎么问的。
客观评分标准这个模式。 评分标准不过是一份要逐项检查的具体清单,每一项分别打分或回答。当你让 AI 评估某样东西(一份草稿、一份计划、一个点子)却不给它评分标准时,含糊的标准就坍缩成「干得好」。给了它评分标准,具体的标准就逼 AI 真的去看。对比一下:

上图展示了这种对比:含糊的提示词坍缩成称赞;带打分和是/否检查的结构化提示词产出真实的反馈。
逼出一个数字。 给评分标准这个模式加一个小而有力的附件:对每一条标准,要求 AI 在一个固定的量表上给一个分数,1 到 5,或者 1 到 10,并附一句话的理由。这管用有两个原因。
第一个是数字对 AI 的作用:含糊的反馈很廉价,但一个具体的数字不廉价。一个想讨好你的模型可以把你的草稿说成「很强」,而不必对任何东西做出承诺。同一个模型,被要求在 10 分里的 6 和 7 之间做选择时,就不得不承诺,而承诺这个动作会逼它看得更仔细。你会立刻注意到差别:分数往往会比散文式的总结所暗示的要低,因为那段散文在奉承,而数字不会。
第二个是数字对你的作用。「很强」、「扎实」、「可以再紧凑些」这类形容词没给你任何可以下手的东西,你没法比较它们,没法给它们排优先级,也没法随时间追踪它们。分数三样都能做到。一个 4 分和一个 7 分告诉你先修哪一条标准。今天的 6 分对比上周的 5 分,告诉你你的第二稿是不是真的进步了。数字不只是一个更诚实的结论,它还是一个你能用来做决定的计量单位。
对每一条标准打 10 分制的分,附一句话的理由。然后告诉我怎么把每一条都带到下一个台阶,包括那些已经得了高分的。如果某项是 9 分,告诉我怎么到 9.5。如果它是 9.5,告诉我怎么到 9.8。永远都有下一个台阶。
最后这条指令,正是把评分标准从一个结论变成一个工具的关键。你不只是知道了分数,你还知道了能把它抬高的那个最小的动作,而关键在于,这个动作在每一个台阶上都存在。AI 没资格宣布你做完了。什么时候停,由你决定。
7. 头脑风暴迭代循环
这是这一页上唯一一个杠杆最大的习惯。如果你跳过其他所有章节,别跳过这一节。
AI 是在互联网上训练的,而互联网上大多是寻常的点子,不是有创意的点子。所以 AI 对一个创意问题的平均回应,也是寻常的。「在家锻炼的方法」:深蹲、俯卧撑、平板支撑。没错,只是平平无奇。
绕过这一点的办法不是一个魔法提示词,而是一个循环。

配方:
- 把所有相关的上下文前置。 不是光说「锻炼的方法」,而是「考虑到我家里有楼梯、有个坏膝盖,而且我坚持不了三天以上,给我锻炼的方法」。
- 要 3 到 5 个选项,而不是一个。 逼出备选会把模型推过它的第一反应。
- 给出明确的反馈。 「我不喜欢选项 1,太被动了。我确实喜欢爬楼梯那个点子,但想要短一些。我忘了说我膝盖一受冲击就更糟。」
- 要 3 到 5 个吸收了反馈的新选项。
- 一直迭代,直到你有一两个真心喜欢的。
- 到这一步,也只有到这一步,才让 AI 把选定的选项详细铺开。
实战示例,还债:
我有 8000 美元信用卡欠款,年利率 19%;4000 美元学生贷款,
利率 5%;还有 1200 美元的零售卡欠款,年利率 24%。我每月
开销之外有 700 美元闲钱。我刚得知会从退税里拿到 450 美元
现金。风险承受力:低。一看到大额余额我就睡不好。
给我 5 种不同的还款策略,每种附一句话的理由。
先别展开任何一个。
然后,读完这五个选项之后:
驳回选项 2(只按利率做雪崩法):我想要早一点的心理胜利。
驳回选项 4:我不会开新账户。我喜欢选项 1(雪球法,先还
零售卡),但我想把那 450 美元折进去。给我 5 个把雪球式的
胜利和对这笔意外之财的聪明运用结合起来的新选项。
你不是在等 AI 读你的心。你是在展示你的品味;AI 围着它重塑选项空间。两三轮之后,你就有了一个感觉正合适的选项。然后再要完整的计划。
同一个循环也适用于写作,在那里它有自己的名字:先列提纲再起草。
- 第 1 轮:要 3 个关于 X 这个主题的博客提纲选项。
- 第 2 轮:选一个提纲,让 AI 批评它并打 10 分制的分。记下哪些低于 9 分。
- 第 3 轮:根据批评修订提纲,然后让 AI 把每个标题展开成 3 到 5 个要点。
- 第 4 轮:批评这些要点,打 10 分制的分,修掉低于 9 分的。
- 第 5 轮:到这一步才要完整的草稿。
- 第 6 轮:批评草稿,打 10 分制的分,要那些最能拉高分数的改动,按影响力排序,影响力最大的放最上面。一直重复,直到分数在 9.5 左右或更高处停滞,那就是你停下来的信号,而不是「AI 说它做完了」。
为什么这管用:改提纲里的一个词,能改变整篇文章的走向。改最终草稿里的一个词,只改一个词。写作里几乎所有的杠杆都发生在提纲层面。AI 从一开始就是逐字生成的,所以除非你先逼出结构,否则它看不到整体的形状。
第一次就想要完整草稿,这个诱惑很大。忍住。AI 对任何东西的初稿都是废话:看着光鲜,说得很少。这个循环,任何起草之前先做十到十二分钟的结构工作,再在上面做几轮打分加修补,能把一篇转头就忘的博客变成一篇击中人的。对一篇 600 字的文章来说,总耗时很少超过 45 分钟。其中头十分钟,让剩下的 35 分钟免于白费。
一个写作的实战示例。 一位团队负责人想写一篇 600 字、标题为「为什么我们这个小 AI 团队比走廊对面的大团队交付得更快」的博客。循环的每一轮在实践中是这个样子:
第 1 轮,先做研究:
我要写一篇 600 字的博客,论证小型、AI 增强的团队比更大的、
不用 AI 的团队交付得更快。先别写。首先,给我 5 个最有力的、
有研究支撑的论据,以及 3 个最有力的反驳。各一句话。
第 2 轮,三个提纲:
现在为这篇博客产出 3 个不同的提纲选项。每个提纲应该有
4 到 6 个标题。它们在结构上应该各不相同:一个叙事式、
一个分析式、一个唱反调式。每个标题一行。
第 3 轮,选一个并加一个类比:
我选提纲 2(分析式)。我想穿插一个皮克斯的类比:当年最初的
《玩具总动员》团队很小,却因为有了新工具而比庞大的迪士尼工作室
更快。把这个作为一个反复出现的例子加进去,别单独成一节。
修订提纲 2。
第 4 轮,展开成要点:
现在把每个标题展开成 3 到 5 个要点。用电报式的简短风格,别用散文。
第 5 轮,给要点打分并修补:
批评每一个要点,打 10 分制的分,附一句话的理由。
列出低于 9 分的要点。对每一个,建议那个最能拉高
分数的改动。
到这一步,这位负责人才要完整的草稿,然后继续对草稿本身打分并反复迭代,直到分数在 9.5 左右或更高处停滞。整个过程大约花 45 分钟。产出读起来就像是这位负责人自己写的,因为每一个承重的决定都是他做的。比起「给我写一篇博客」多花的那 35 分钟,正是一篇没人读得下去的草稿和一篇击中人的草稿之间的差别。
起草前先勘明地形。 那个示例里的第一轮(「先别写,给我最有力的、有研究支撑的论据和反驳」)看着不起眼,干的却是重活。大多数人跳过它,直接要草稿。跳过它,正是他们的草稿显得单薄的原因:它们搭建在模型最先冒出来的随便哪些点子上,而不是这个主题真实的全貌上。起草前来一轮「勘明地形」,正是一篇引用三项研究的博客和一篇罗列三个观点的博客之间的差别。这个模式远不止适用于写作。在任何重要的决定、计划或分析之前,先让 AI 勾画出已知的全貌,再让它 产出所需的东西。给产品起名前先看竞争格局。写战略备忘录前先看已有研究。设计新方案前先看已有的做法。这一轮研究花五分钟,却改变了循环里后续每一轮迭代所对照的东西。
这个循环与领域无关。 它对下面这些事的运作方式都一样:规划一趟旅行、组织一场销售演讲、挑大学专业、给产品起名、写婚礼致辞、定一项装修方案、选一个要支持的慈善机构。形状始终不变:载入上下文、要求选项、给出明确反馈、要求新选项、迭代、展开,然后打分并反复迭代,直到分数停滞。如果你发现自己接受了 AI 的第一个答案,或者一看到某样东西「够好了」就停手,那你就跳过了循环。无论你在做什么,它都值得这个循环。
一张简短的表,看看这个循环如何贴合日常生活:
| 决定或任务 | 「上下文」长什么样 | 「带反馈的选项」长什么样 |
|---|---|---|
| 规划一趟 4 天的旅行 | 约束(预算、日期、谁去、他们讨厌什么) | 5 个行程骨架;驳回两个;其余继续迭代 |
| 给产品起名 | 它是干什么的、谁买它、它绝不能听起来像什么 | 10 个名字;挑 3 个你喜欢的,要那几个的变体 |
| 写一封难写的邮件 | 收件人、关系、想要的结果 | 3 种不同的语气;选一种,打磨它的细节 |
| 选一个承包商 | 三份报价、三份口碑记录、你的优先级 | 并排打分;要那个针对你最中意的一项的最有力反驳 |
| 挑一条学习路径 | 当前技能、可用时间、最终目标 | 3 种不同形状的课程;选一种,展开成每周的里程碑 |
| 设计一份 logo 简报(给设计师) | 品牌价值、受众、你喜欢的例子 | 5 个情绪板方向;选一个,要那条路子上的 5 个变体 |
每一行里,一旦你有了一个具体的候选(一份选定的行程、一个入围的名字、一封草拟的邮件),循环里那个打分动作就以同样的方式适用:按对那个任务要紧的标准给它打 10 分制的分,然后迭代。从成本、节奏、是否合群三方面给行程打分。从是否好记、是否贴切、风险三方面给产品名打分。从清晰度、语气、可能的效果三方面给邮件打分。标准在变,动作不变。
第 3 部分:超越文字
AI 不只是一个文字框。它能看图像、双向处理音频、搭建能用的小应用,还能在你的数据上运行代码。大多数人从没试过其中任何一项。
8. 多模态:图像、音频,以及接下来的东西
现代 AI 双向处理图像和音频:它能读你上传的图像、听录音、根据文字提示词生成新图像,还能产出口语音频。这些技能跨模态各不相同,值得分开学。
图像输入。 AI 看图像看得粗。它在这些方面强:
- 整体场景和构图。
- 清晰、大块的物体轮廓(一台真人大小的巨型仓鼠轮跑步机)。
- 白板内容,包括图表。
- 手写体和草书文字(还行,高风险时要复核)。
它在这些方面弱:
- 精细的细节。「这些是什么健身器械?」往往会失败,因为隔着稍微模糊的镜头,健身器械看起来都差不多。AI 可能自信满满地答错。
- 在杂乱的场景里数清很多小东西。
- 读图像边缘的小字。
一个有用的现实测试:一位老师拍了一张白板照片,他的脑袋挡住了神经网络图里 convolutional 这个词。AI 从图的其余部分正确推断出了缺失的词。这正是 AI 擅长的:从大意去推断。它不擅长放大去看。
对于收据、分账单或者誊写手写笔记,AI 干得不错,但总要复核总数。对于多图输入(便利贴加一张白板照片加一场头脑风暴的手写笔记),AI 能把综合的想法总结出来;这是真正有用的,能省下实打实的时间。
图像输出。 现代 AI 能根据文字提示词生成图像。两个实用窍门:
- 用一个文字 AI 来写你的图像提示词。 「给我生成一个提示词,画一幅吉卜力工作室风格的奇幻森林插画,用作一本童书的封面。」把那个输出拿来,粘进图像工具。文字 AI 在写丰富的图像提示词上,比你第一次尝试时强得多。
- 建立视觉词汇。 cinematic(电影感)、watercolor(水彩)、cyberpunk(赛博朋克)、anime(动漫)、isometric(等距)、low-poly(低多边形)、art-deco(装饰艺术)、claymation(黏土定格)这类词都是杠杆。图像模型是在带字幕的图像上训练的,它按名字学会了这些风格。上传你喜欢的图像,问 AI 它会怎么描述它们。这能训练你的词汇。
图像生成是怎么运作的:它是一个扩散模型,被训练成一步步从随机的像素网格里去除噪声,直到一幅图像浮现。不像文字那样逐像素生成。整幅图像是一次性生成的。这就是为什么你没法像打断一个文字回应那样,提前停止图像生成来省时间。
老一代的扩散模型有几个出名的弱点:奇怪的手(六根手指)、招牌上乱码似的文字、漫画里逐格变样的角色。现代模型(比如谷歌的 Nano Banana 或 ChatGPT Images)能像样地处理文字、生成一致的角色,还能把研究论文转成信息图。
一张简短的表,列出即便在现代图像模型上也仍值得提防的失效模式:
| 失效模式 | 它长什么样 | 如何缓解 |
|---|---|---|
| 招牌上乱码似的文字 | 图中招牌写成了「HAPRY BIRTDAY」而不是「HAPPY BIRTHDAY」。 | 在提示词里用引号指定文字。生成三个变体。挑文字对的那个。 |
| 跨格不一致的角色 | 漫画第 1 格和第 2 格里同一个角色头发颜色不一样。 | 用明确支持角色一致性的模型;把第一张图作为参考回传给下一张。 |
| 手和手指出错 | 六根手指、手指粘连、手腕扭曲。 | 要那种手部分出框、或插在口袋里、或被清楚描述了的构图。 |
| 杂乱背景里出现不合理的物体 | 一家咖啡店里自行车和椅子糊在了一起。 | 指定一个简单的背景,或者明确描述背景。 |
| 长宽比不对 | 模型默认出正方形;你想要横向的。 | 永远明确指定长宽比:「1024x768 横向」或「16:9」。 |
一个图像输入的非软件例子。一位读者把已故奶奶留下的三张手写食谱卡拍下来上传给 AI。提示词:「誊写这三张卡。保留原始的措辞和任何缩写。如果某个词不清楚,把它标为 [unclear],并给出你最有把握的两个猜测。」五分钟后,三份食谱都被干净地打了出来,AI 没把握读出的那四个词上标着 [unclear]。读者把那四个词对照原件核了一遍(两个一目了然,两个得给姨妈打个电话),这家人就有了一份原本险些丢失的食谱的干净数字档案。AI 做了无聊的那 90%,好让读者能专注于那需要细心的 10%。
一个高手配方:不用设计师也能做出设计师水准的图表。 如果你曾需要为一份文档、一张幻灯片,或者你自己的某一章做一张图表,有一套工作流能在大约十五分钟里产出设计师水准的输出,既不用 Figma,也不需要任何视觉设计技能。大多数非设计师没意识到这如今已经可能。这是不学设计工具就能产出设计师水准图表的最简单办法。这一节比这一页上的其他任何内容都更费工夫;如果你经常做图表,现在就读;否则就跳过,等你第一次需要做的时候再说。
这个配方,分四步:
- 让 Claude 把这个概念可视化成 SVG。 把底层的那段话或文字粘进去。要求:「把这个可视化成一张图表。以 SVG 输出。确保文字里的每个标签、每个箭头、每种关系都在。」 这一步选 Claude 是个有力的选择,因为它的推理能力在各大模型里数一数二:给它一段话,它就能在极少的引导下想清楚该有哪些方框、哪些箭头、什么层级、什么标签。它返回的 SVG 在结构上是正确的,但视觉上很素(光秃秃的矩形、默认字体、没有任何设计上的打磨)。这没关系,下一步会加上打磨。
- 把 SVG 转成 PNG。 让 Claude 把这个 SVG 渲染成 PNG(Claude 能直接做),或者用任何在线的 SVG 转 PNG 工具(cloudconvert.com、svgtopng.com),或者干脆在浏览器里把 SVG 高倍放大渲染后截个图。以 2 倍分辨率渲染(宽 1600 到 2400 像素),好让下一步有足够的细节可用。
- 把 PNG 粘进 ChatGPT(或 Gemini)并让它重画。 ChatGPT 内置的图像生成往往在这一步很强,因为它在文字密集的图像上格外出色:它会保留标签、把排版做对、尊重源图里的结构关系。提示词:「以专业设计水准重画这张图表。保留每个标签、每个方框、每个箭头,以及完全相同的结构关系。改进排版、间距、配色和视觉层级。信息必须保持完全一致;只改变视觉的呈现效果。」
- 在结果上迭代。 ChatGPT/Gemini 有时会漏掉一个标签或挪动一个方框。把它的输出和原始 SVG 并排比较。如果有什么不对,直接把更正打出来:「第三个方框应该标『Iterate』,不是『Repeat』。从方框 2 出来的箭头应该指向方框 3,不是方框 4。」 通常三四轮就能产出一个看起来像出自专业设计工作室的东西。把最终的 PNG 存下来。
为什么每一步用各自的工具。 Claude 往往赢在第 1 步,因为决定一张图表里该有什么(哪些方框、哪些箭头、什么层级)是一项推理任务,而在这类结构化思考的工作上,Claude 的推理在各大模型里数一数二。ChatGPT(或 Gemini)往往赢在第 3 步,因为把文字密集的图像渲染好(标签保持可读、箭头连到对的方框、布局看着像设计过)正是它的图像生成当下领先的那个品类。让任一款工具去干另一款的活儿,结果会明显比把它们串起来差。各做各最擅长的,按顺序来。
总耗时: 每张图表大约十到十五分钟,相比之下,在 Figma 里(假设你会用)要花一个小时甚至更久。
比工具活得更久的那个模式。 每个品类里的领头羊都会轮换。明年 Claude 也许不再是最强的推理模型。今天领先的图像模型会被接下来发布的东西取代。上面那个配方会在工具这一层过时。活下来的是:先用最强的推理模型搭结构,再用最强的文字密集型图像模型做打磨。 在你读到这段时,哪些工具领跑各自的品类,你就挑哪些。这个两步串联才是真正的招数。
一个关于图像生成的小故事。 一位父亲,他 7 岁的女儿爱猫,想给她做一个定制的生日蛋糕。他用 Nano Banana 头脑风暴蛋糕设计(生成了几十个变体:猫形的、多层的、各种糖霜风格、各种配色),挑了她喜欢的那个,再把选定的图片交给一位蛋糕师,做成了一个真实的立体蛋糕。设计上的总迭代时间:一个下午。总成本:几美分的图像生成费。
重点不在蛋糕。重点在于,花大约 0.30 美元和一小时由品味驱动的迭代,一个并非设计师的人,就产出了一份独一无二的简报,让一位专业人士照着去做。这是一种新的创意杠杆,而且广泛可得。
音频进,音频出。 当年发生在图像上的那种转变,如今正发生在音频上。你可以口述一个长提示词而不是打字;你可以丢进一段会议录音让它做总结;你可以让模型把它的答案念出来。大多数现代 AI 工具都支持这三样,往往在免费档上还不另收费。
那些不那么显而易见的用法,才是真正的杠杆所在:
- 长篇口述。 把一个问题说出来,能捕捉到打字提示词会跳过的细微之处。讨厌打字的人在说出提示词时,产出的提示词会好得多:提示词毫不费力地从一行长成好几段,而 AI 的答案也相应地更好。就像在咖啡桌旁给一位同事做简报那样说,然后让 AI 在作答前把得到的转录稿清理一下。
- 会议转录稿作为上下文。 丢进一段一小时的会议录音(或者来自 2026 年主流厂商如 Otter、Granola、Fireflies 的转录稿,或者你手机里的语音备忘录),然后问:「总结一下做出的决定、悬而未决的问题,以及按负责人分类的行动项。」对任何一份要开会的工作来说,这都是这一页上杠杆最大的工作流之一,而科技圈之外几乎还没人在用它。
- 音频用于无障碍和移动场景。 长途通勤、遛狗、开车:语音进/语音出把死时间变成了思考时间。比起打字,对话质量会略降,因为你没法像打字时那样干净地编辑你的输入,但你本来会损失掉的那段时间被完全找了回来。
2026 年,音频擅长什么、不擅长什么:
| 音频任务 | 效果如何 | 要当心什么 |
|---|---|---|
| 清晰语音的转录 | 极佳 | 浓重口音、技术行话、多人重叠说话 |
| 说话人识别(谁说了什么) | 2 人时还行,4 人以上时弱 | 引用某人的话之前总要核对 |
| 语气、讽刺、情绪 | 在进步,但不可靠 | 让 AI 标出它的不确定,而不是想当然 |
| 音乐或非语音的音频分析 | 有限 | 用一个专门的工具,而不是通用 AI |
| 实时语音对话 | 随意聊天还行,技术深度上弱 | 当精度要紧时切换到文字 |
一个非软件的例子。 一位医生录下了一段 45 分钟的问诊(经过同意),上传了音频,然后问 AI:「以 SOAP 格式产出一份结构化的临床记录。标出任何你无法有把握理解的内容。突出患者关于其症状史说的三件最重要的事。」八分钟后,这位医生就有了一份草稿记录,核对并定稿只花了她 5 分钟,而打字版本本来要花 25 分钟。AI 没有取代临床判断,它去掉的是打字。
成本说明:音频进/出是仅次于文字的第二便宜的档,每分钟几美分(概念 12)。对于会议总结、每日语音日记,或者散步时口述提示词,成本基本上是隐形的。尽管放开了迭代。
一个值得记在心里的模式:多模态的未来不是「AI 现在能处理语音了,是不是很酷」。而是各模态之间的边界消失了。 你会越来越多地丢进一个混合的包(一张图像、一段语音备忘录、一份 PDF、一张截图),把它当成一个提示词来对待。这门技能不是「我怎么用语音」,而是「对这件活儿来说,什么才是输入的正确组合?」
交互式视频化身正沿着同一条轨迹兴起。预录的化身视频(HeyGen、Synthesia、D-ID)在培训内容和多语种企业沟通上已经是生产级了。实时对话化身(Tavus 等)今天在低风险用途上勉强够用(客户 FAQ 分流、带一张脸的语言辅导、简单的入职流程),而且在快速进步。把它们当成 2022 年的图像生成来看待:令人印象深刻、新奇,对大多数知识工作还算不上日常习惯,但当一件活儿需要屏幕上有一张脸而非文字时,值得快速试一试。
9. 用一个提示词搭建小应用
现代 AI 能用一个提示词就搭出小游戏、网站和工具。还做不了大型软件,但对小而有用的东西,这对从没写过代码的人来说是真正可及的。
应用实际跑在哪里,之后你能拿它做什么。 一个合理的第一问题是:「如果 AI 给我搭了个应用,它实际住在哪里?」截至 2026 年中,三款主流工具都把单提示词搭出的小应用直接渲染在聊天里、一个你可以点击交互的侧边面板里,而那个面板里的东西不只是一个预览,它是一个产物:一个由对话产出的持久对象,你可以编辑它、在它上面迭代、把它发布成一个可分享的链接、嵌进别处,或者作为代码下载下来。这个功能在 Claude 里叫 Artifacts(名字就是从这儿来的),在 ChatGPT 里叫 Canvas,在 Gemini 里也叫 Canvas。一年前它们之间还有明显的差别;如今对大多数单提示词的搭建来说,差距已经很小。每个仍各有小长处,Claude 的 Artifacts 往往在可点击玩的交互式东西上领先,ChatGPT 的 Canvas 在写作和代码编辑上,Gemini 的 Canvas 在与谷歌生态紧密集成的输出上,但对于「给我搭个东西」,三个里的任何一个都行得通。两个值得知道的实用推论。第一,你可以把产物交给别人,而不用把整段对话发给他:大多数工具让你发布到一个公开链接,收件人不需要账号就能用。第二,产物是可迭代的,当你说「把按钮做大些」或「加一个深色模式开关」时,工具会就地编辑这个产物,而不是从头把整个东西重新生成一遍,这要快得多。对于任何超出单提示词搭建的需求,有三个相邻的品类值得知道它们存在:专门的 AI 应用搭建器,比如 v0、Bolt、Lovable(你用大白话描述一个应用,它们就产出一个完整的 Next.js 或 React 项目,对非开发者而言,这是概念 9 自然的下一步);命令行 AI 编程 agent,比如 Claude Code 和 OpenCode(你给它们一个真实的代码库,它们一次编辑很多文件、运行测试,在这一页顶部那份「2022 年以来的变化」清单里讲过,面向已经在写代码的开发者);以及能感知文件的桌面应用,比如 Cowork 和 OpenWork(它们在获得许可后找到你的文件并对其动手,在概念 11 里讲,面向知识工作者,而非搭软件的人)。该用哪个工具,取决于你在爬哪一道梯子。
这个配方只有三个槽位:
目标:这个东西应该做什么?
输入:用户提供什么?
输出:用户看到什么?
今天就能用的例子:
- 番茄钟计时器。 「搭一个黄色主题的番茄钟。25 分钟工作,5 分钟休息,每个周期结束时有一声让人满足的咔哒。」
- 分账单工具。 「搭一个应用,我输入账单总额、税额和几个朋友的名字。它把含税的账单分摊,显示每个人该付多少。」
- 穿搭推荐器。 「搭一个应用,输入今天的天气(温度和降水),从我描述的一柜子衣物里推荐一套穿搭。」
- 烟花模拟器。 「生成一个好玩的烟花模拟器。输入:我点屏幕。输出:在点击处绽放一团五彩烟花。」
- 放置障碍游戏。 「搭一个游戏,用户放置障碍物和一个目标,再跑一次试图到达目标的模拟。」
仍然难的:
- 互联网上的多人联机。 联网、账号和匹配,仍然超出单提示词搭建的范围。
- 不同语言的实时 AI 反馈。 一个能听、能纠正发音、能实时适应的法语会话辅导,是真的难。
你会建立起的直觉是:能塞进一个屏幕、没有账号、没有外部服务的小东西,行得通。超出这个范围的任何东西,都需要不止一个提示词,而且通常还需要一些真正的工程。
一个非软件的例子。 一位家长给女儿做了一个黄色猫咪主题的打字游戏,起因是她老师提到孩子们可以打字打得更快。他不是软件工程师。提示词是三句话:
给一个 7 岁孩子搭一个打字游戏。目标:练习打常见的短单词。
输入:单词出现,玩家在它们落到屏幕底部之前把它们打出来。
输出:黄色主题,一只可爱的猫吉祥物在玩家打对一个词时欢呼,
随关卡推进速度加快。
返回的东西能用。不完美,也不是第一次就成,但在一个小时内迭代到了「对一个孩子来说够好了」。这里建立起的技能不是编程,而是写一份清楚的简报并迭代它的能力。那项技能是通用的。
10. 数据分析(模型自己写代码并运行)
当你问 AI 一个需要计算或绘图的问题时,从「我家电费今年怎么变的」到「上季度哪些产品卖得最好」都算,现代工具会悄悄做一件了不起的事:模型写代码、运行它、再返回结果。代码执行不过是模型能调用的又一个工具,和网络搜索一样。你自己不用懂任何代码;你只管上传你的表格,用大白话提问。
这比让模型在脑子里算数可靠得多。模型算数的方式和你会用的一样:靠跑一个计算器。精确的是计算器;模型只是在选择计算什么。
在做别的之前:确保 AI 真的运行了代码,而不是在猜。 这是整一节里那个无声的失效模式,也是它被放在最前面的原因:AI 不会在每个问题上都自动运行代码,它选择是否运行,依据是问题怎么措辞。在较小的问题上,它有时会跳过代码、瞟一眼就答,产出一段听起来自信、背后却没有真实计算的文字。从外面看,它和一次真实的分析一模一样。三个小习惯能防住这件事。第一,明确要求。 「写代码并运行来回答这个。把你运行的代码给我看。」 你这么要求时,大多数模型会照办。把这一行粘进任何一个数据提示词,就是一次真实分析和一次貌似合理的猜测之间的差别。第二,检查代码确实在那儿。 如果回应里没有一段运行过的代码块,那模型多半没运行代码。第三,在分析之前,索要一个可验证的具体信息。 「在你分析任何东西之前,告诉我这个文件确切的行数、列名和日期范围。」 如果模型真的在读这个文件,那些答案会是对的。如果它在编,行数会是一个可疑的整数,列名则会貌似合理却是错的。这个动作最强的版本,是让模型预先声明它的方法:「你是在文件上运行代码,还是在估算?如果是估算,停下来,改成运行代码。」 大多数模型要么会调用那个工具,要么会承认它本来打算跳过。
一旦你有了这个习惯,这一节剩下的就是数据分析在实践中实际的样子。
奶茶店的例子。 一家小店有一年的销售数据:饮品、日期、数量。店主问:「哪些饮品全年销量变化最大?把它们画出来。写代码并运行来回答这个,把你运行的代码给我看。」
在幕后,AI 写一小段程序,在表格上运行它,看到结果,再把它们变成一个答案。在实践中那看起来是这样:AI 算出每种饮品逐月的变化,观察到大多数饮品持平、有四种突出,生成那四种的彩色折线图,并指出其中的规律。「草莓抹茶在春季猛涨;考虑明年再跑一次那个促销。」这不是一个泛泛的答案,这是一个扎根于实际数据的答案。
然后来一个更大的提示词:「为这家店做一张单页的年度回顾图。仔细分析数据,找出值得突出的洞见。」这是一个更重的任务,所以 AI 会花更长时间,有时几分钟,来啃它。它写代码、跑分析、挑洞见、设计标注,最后产出一张完工的仪表盘。
这适合做什么,配上初学者真正手头会有的例子:
- 家庭开支。 上传一年的银行或信用卡流水;问哪些类别涨了、哪些月份反常、你忘了哪些订阅。
- 个人追踪。 跑步、走路、睡眠、体重、屏幕时间,任何能导出 CSV 的应用,都能给你一年份的自己来看一看。
- 小生意记录。 销售表、库存清单、客户名单、开支文件。
- 任何别人扔给你、你又不想打开的表格,学校成绩单、水电用量账单、科学数据、问卷结果。
即便代码确实跑了,仍要复核的东西:
- 最终的总数。 代码很精确,但 AI 可能加错了列。
- 图上的标签。 数字通常是对的;标题有时自信满满却错了。
- 任何依赖于某个 AI 可能误解了的列的分析。 如果 AI 以为「TXN_AMT」指的是交易金额,而它实际指的是交易账户号,那整个分析就建在沙子上。
可靠性比基于记忆的算数高得多,但它并非万无一失。把 AI 的数据分析当成一位敏锐的初级分析师的成果来对待:有用、快、几乎总是对的,偶尔会以发人深省的方式出错。
一个非软件的例子。 一位跑者上传了六个月的跑步追踪数据(一个健身应用导出的 CSV),然后问:「我的配速和距离进展如何?有没有什么我该知道的规律?写代码并运行,把你运行的东西给我看。」AI 写了代码,画出每周的平均值,注意到了跑者没注意到的两件事:配速在每个长跑周末之后都稳定下降(很可能是疲劳),距离在第三个月停滞,之后又重新爬升。建议是:每第四周安排一个减量周,以及放慢长跑配速。这位跑者在应用的仪表盘上盯着这同一份数据看了好几个月,都没看出那些规律。AI 不是凭空造出洞见,它算出了跑者没时间去算的东西。
当你上传数据时,你的第一个提示词不必是那个问题。它可以是:「描述这个数据集。这里有哪些列、它们代表什么,哪 3 张图最能展示出正在发生的事?」读读答案,挑你想要的那张图,再要它。这能在被误解的列变成错误的分析之前就抓住它们。
第 4 部分:安全地工作并挑选工具
最后三个概念:如何安全地把文件和权限的访问交给 AI、如何为一件活儿挑对工具,以及当房间里没有人类专家时,如何拿到一个关于质量的客观信号。
11. AI 桌面应用与权限
如今有一整个品类的产品叫 AI 桌面应用:跑在你电脑上、并能在获得许可后找到、读取你的文件并对其动手的应用。Claude 的 Cowork 和 OpenWork 是两个例子,这个品类还在壮大。
这些应用能做聊天做不到的事:
- 翻查一个乱糟糟、装满 PDF 的文件夹,提出一套新的整理方案(重命名文件、移动它们、建子文件夹),并在你批准后执行这个方案。
- 为一个项目把相关文件汇拢到一起(你说「我在这些日期拍摄,涉及这些人」),并自己注意到一些事(某个剧组成员的生日正好落在拍摄期间,你想不想顺便安排个庆祝)。
- 通读一个文件夹并做总结:「根据这个 projects/ 文件夹的内容,我上季度做了什么?」
让这件事变安全的工作流:
- 告诉它任务。 (「按客户重新整理这个文件夹。」)
- 要一个计划,而不是动作。 应用提出一份文件操作清单。
- 审阅并编辑这个计划。 在那个你不想要的重命名发生之前就把它抓住。
- 到这一步才批准执行。
两个大多数人都是吃了亏才学会的事实:
- AI 应用删掉文件时,删掉的文件往往不会进回收站。 它们没了。
- 被编辑的文件不会保留编辑历史,除非你用了版本控制。AI 的改动会覆盖掉之前的版本。
在你安全地做过几次之前,把每一个权限请求都限定到这件活儿所需的最小文件夹。别给一个你才用过两次的应用批准「完全磁盘访问」。
这是一种真正新的工具形态。就这么对待它:就像你第一次把一个真实账户的钥匙交给一位初级员工。有用、快,也值得小心对待。
一个非软件的例子。 一位顾问有个叫 clients/ 的文件夹,四年里长到了 240 个 PDF:合同、发票、立项文档、手扫的收据、会议记录。她告诉一个 AI 桌面应用:「翻一遍 clients/。提出一套整理方案。先别移动任何文件。把提议的方案以树状结构给我看。」应用产出了一棵清爽的树:每个客户一个文件夹,下设合同、发票、记录的子文件夹,并附上一份它无法有把握归类的 18 个文件的标记清单。她编辑了这个提议(重命名了两个客户,合并了两个文件夹),然后批准了执行。总耗时:大约十五分钟。同一件活儿在她的「将来再说」清单上躺了三年。解锁它的不是 AI 替她思考,而是 AI 干了那些琐碎活儿,让思考变得廉价。
权限阶梯。 一个让你逐渐自在的有用顺序:
| 自在程度 | 允许什么 | 继续对什么说不 |
|---|---|---|
| 最初几次会话 | 对一个单独的小文件夹的只读访问。 | 任何会写入、删除或重命名的操作。 |
| 2 到 3 次成功运行后 | 在一个特定文件夹内读和写。 | 对桌面或文档根目录这类更宽目录的访问。 |
| 一个干净的星期后 | 通读一个项目树,在一个限定的子文件夹内写入。 | 那个项目之外的任何东西。 |
| 已信任 | 工具特定的权限(「重命名这个文件夹里的 PDF」、「编辑这个文件夹里的 Word 文档」)。 | 开放式的「需要做什么就做什么」。 |
原则是:访问范围随业绩记录增长,而不是随你对造这个工具的公司有多信任增长。信任是靠在你具体的工作流里的行为挣来的。
12. 成本、速度,以及什么时候该用哪个模型
一个值得记在脑子里的简单层级:

用文字说:
- 文字: 几秒,每次回应不到一美分。
- 语音: 几秒,每分钟音频几美分。
- 图像: 几十秒,每次生成几美分。不能提前停止,整幅图像一次性生成。
- 视频: 每次生成几分钟,从许多美分到几美元。迭代很痛苦,因为每一轮都又慢又贵。
- 深度研究: 几分钟,从几美分到二十几美分,但它替你综合几十个来源。
在入门级,成本几乎算不上约束。 主流聊天机器人,ChatGPT、Claude、Gemini、Meta AI、DeepSeek,全都提供免费访问,能从容应对这一页上这类提示词。只有当你要跑重度的深度研究、上传非常大的文件、生成视频,或者要无限制的每日用量时,你才会撞上付费方案。对结尾部分的练习来说,它们任一个的免费档都够用。
两个推论:
- 迭代成本塑造你的做法。 你能在一个下午里对文字迭代 50 次。你没法在一个下午里对视频迭代 50 次。所以当你生成图像或视频时,要在提示词上预先多投入(并用一个文字 AI 来写它)。
- 成本在下降。 今天花你 10 美分的那张图,明年只要其中的一小部分。为你的家、一张生日卡或一份婚礼请柬生成美术作品,正在迅速变成免费的事。
哪个模型用于哪件活儿? AI 是参差不齐的:不同模型擅长不同的事,而且领头羊每隔几个月就变。不存在唯一最好的模型。两个习惯有帮助:
- 例行地把同一个提示词在 2 到 3 个模型里试。 同一个问题,多款工具。读它们的答案。差别会让你吃惊,也会更新你对哪款工具最适合哪类问题的直觉。
- 别和一款工具绑死。 一个只用一款 AI 的工作者,是一个对自己三分之二的任务该用哪款工具判断错误的工作者。切换是免费的;你只管把提示词粘进另一个标签页。
今天最适合你这件活儿的 AI,不是三个月后最适合你这件活儿的 AI。保持灵活。
各大模型当下大致各自擅长什么的一张快照(这会变;把它当成一个起点,而不是定论):
| 工具 | 往往强在 | 往往弱在 |
|---|---|---|
| Claude | 难题提示词上的推理、长文档理解、SVG 和图表生成、代码和 Web 开发、用心的写作语气、结构化分析。当前在大多数 Arena 品类里领先。 | 内置的照片级图像生成不如 ChatGPT 和 Gemini 那么核心。 |
| ChatGPT | 内置图像生成排名第一(GPT Image-2 在 Arena 的文生图和图像编辑品类领先)、语音模式、对话广度、任务覆盖面广。 | 有时啰嗦;可能过度用清单和标题来排版。 |
| Gemini | 快速的网络搜索和来源综合、带丰富输出(图表、表格)的深度研究、强劲的图像生成(Nano Banana 系列在 Arena 前 5)、与 Google Workspace 紧密集成。 | 语气可能显得更生硬;有些回应偏短于理想。 |
| Meta AI | 嵌入在 WhatsApp、Instagram、Messenger 和 Facebook 里(已经在超过十亿人的设备上);免费、无订阅费;Muse Spark(2026 年 4 月)带来了有竞争力的多模态推理,以及一个并行运行多个 agent 的「沉思模式」。当前位列 Arena 文字榜前 5。最适合交互式视觉产物(网页仪表盘、小游戏、测验)和健康或科学数据。 | 编程工作流和长程 agent 落后于三巨头;Projects、Canvas、Artifacts 这类集成的生态较小;尚无公开 API(只有一个私有预览);如果你用得猛,用量会被限速。 |
| DeepSeek | 开源权重,你可以自托管,或以低成本通过 API 运行;默认 1M token 上下文;V4-Pro 在 STEM 和编程基准上比肩顶级闭源模型;V4-Flash 是又快又便宜的日常之选。 | 聊天界面的精致度落后于三巨头;消费级生态(移动应用、深度集成)较小;Arena 排名在大多数品类上低于 Claude、ChatGPT、Gemini 和 Meta。 |
关于较新的那两行的一点说明。Meta AI 的价值过去是「无处不在 + 免费,而非深度」,但 Muse Spark 在推理任务上补上了大部分深度差距,同时保留了无处不在和免费的优势。如果你有 WhatsApp 或 Instagram,你现在就能在那个你本来就要打开的应用里做认真的思考了。不过,在你拿它做正经工作之前,有两条边界值得知道。第一,免费不等于无限:Meta 在幕后施加限速,所以重度使用沉思模式或快速的自动化工作流,最终会被限流。第二,你的输入可能被用于训练未来的 Meta 模型。 Meta 的条款允许这一点,而消费版产品默认并未配置为退出。这让 Muse Spark 不适合处理敏感材料,公司内部文档、私有代码、医疗信息,任何你不想喂进训练管线的东西。对非敏感的日常工作,它很出色。DeepSeek 的价值是开源且便宜,当你对价格敏感、想要自托管的选项,或者需要那个 1M token 的上下文窗口来做免费档的工作时,它是对的选择。在这一页教的那些更深的工作流(Projects、Canvas、Artifacts、深度研究)上,三巨头仍然领先,所以它们仍是实战示例里用的工具。
值得收藏的排行榜。 当你想看一眼当下哪个模型领先哪件活儿时,最有用的资源是 Arena。用户在两个匿名模型的盲测对决里投票,所以排名反映的是真实的偏好,而非厂商的营销说辞。这个站点为文字、代码、视觉、文档、图像生成、图像编辑、搜索和视频分别维护排行榜。一个月看一次。 领头羊轮换很快,五月在某个品类登顶的模型,八月可能就不在那儿了,而一个新来者能在几周内跃入前五(Muse Spark 在 2026 年 4 月就这么干过)。两个值得知道的注意点:排行榜奖励对话上的魅力,多于在长文档上用心的工作;而且它们采样的是投票者觉得有意思的任务,那不总是你的任务。把它当成众多信号之一来用;概念 13 会更多讲到如何把排行榜信号和你自己在真正会跑的那类提示词上做的 A/B 测试结合起来。
三个会复利的习惯:
- 至少开两个标签页。 一个主力工具,一个备用。当主力给你的东西感觉不对劲时,把同一个提示词粘进备用。第二个答案往往就是那个打破平局的。
- 留一个提示词草稿本。 一个笔记文件(任何文本文件都行),收集那些产出了格外好结果的提示词。复用并改编它们。这是你个人的库。
- 留意模型什么时候错了。 不是当成训斥,而是当成数据。出错是一个关于这款工具边界在哪的免费信号。每周记一次「工具 X 在 Y 上自信地错了」,比读任何一篇 2000 字的 AI 通讯都有用。
每个月做两件事:(1)瞄一眼 Arena 的排行榜里你在意的任何品类,以及(2)挑一件你经常做的活儿(写每周状态更新、规划餐食、总结一份周期性文档),把它放进三款不同的 AI 工具里跑一遍。记下哪一款在你真实的工作上做得最好。在那件活儿上用那一款,直到下个月再测。你的工具组合毫不费力地保持着最新,而排行榜会告诉你,是不是该去测一测一个原本不在你雷达上的新来者。
13. 模型检查模型
当没有标准答案时(没有答案卡、身边没有专家、也没有一个会标红失败的测试),你仍然能拿到一个关于质量的客观信号。你拿到它的办法,是让模型彼此打分。
从轻量版开始。如果你今天只开了一款 AI 工具,单模型自我批评循环(紧接着就讲)能给你大部分好处,而且它是大多数日常任务所需要的那个版本。它后面那个完整的多模型配方是高风险版本:它假设你在另一个浏览器标签页里开了第二个免费账号,约一分钟的配置,而且只有当出错代价高昂时,那点配置才值得。现在就读完整的配方把握脉络,但先伸手去拿轻量版;当你桌上真有什么东西配得上时,再升级到那个更重的。
不同的模型有不同的盲点。它们是在重叠但不相同的数据上、用不同的奖励信号、由强调不同东西的团队训练出来的。一个模型漏掉的一点,第二个模型往往能抓住。它们之间的分歧,正是你从任何单一模型那里都拿不到的信号。这只有在模型来自真正不同的家族时才管用,Anthropic(Claude)、OpenAI(ChatGPT)、Google(Gemini)、Meta(Meta AI / Muse Spark)和 DeepSeek 是可供取材的五个不同家族。两个 Claude 模型互相核对,不算跨模型核对;它们的先验太相似了。
这是完整的多模型配方,在许多文档上打磨过,写自真实的实践。这是高风险版本;更轻量的单模型循环在下一小节:
- 从你能用到的最好的模型开始。 「最好」指的是在你这类任务上推理最强、长输出最连贯的那个。用多个信号:把 Arena 的排行榜当起点(概念 12 介绍过它们),再加上你自己在一个代表你实际工作的样本上做的快速 A/B 测试。这里的 A/B 测试不过是指:把同一个提示词发给两三个模型,并排读它们的答案,让你的眼睛告诉你哪一个在你这类任务上更好。别只锚定在一个排行榜上;它们衡量的东西不同,而且基于偏好的排名奖励对话上的魅力多于在长文档上用心的工作。
- 用充足的上下文生成第一稿。 像对同事那样给它做简报(概念 1),难题就打开思考模式(概念 5),结构上用头脑风暴迭代循环(概念 7)。
- 让它给自己的输出打分,1 到 10,对照点名的标准。 不是「这个好吗?」,而是「按清晰度、准确性、结构,以及缺了什么,各打 1 到 10 分,每个分数附一句话的理由。」第一个分数通常是 7 或 8。
- 让它落实它自己的建议。 重复,直到分数不再往上爬,通常在 9 左右停滞。
- 把这份草稿交给来自不同家族的第二个模型。要它用同一套评分标准。 不同的模型,不同的先验,不同的盲点。第二个模型会抓住第一个模型给自己打分时漏掉的东西,而这正是你需要逃出去的那个闭环。
- 把第二个模型的批评带回给第一个模型。 诚实地框定它:「另一个模型给出了这份批评。评估哪些点值得采纳,以及为什么。驳回任何你不认同的,并解释。」第一个模型来裁决。你看着它裁决。
- 对于高风险的工作,再用来自第三个家族的第三个模型重复一遍。 等三个不同家族的模型为你的草稿争论过一遍,你就拿到了这项技术所能提供的、最接近三角验证的真相的东西。
- 当分数在两个独立的模型上都越过你的目标时,停下。 只来自你主力模型的一个 9.5,跟你的主力给的 9 加上一个不同家族的模型给的 9 不是一回事。后一个数字才是有意义的那个。
单模型自我批评循环,单用
上面的第 3 步和第 4 步本身就能单用,根本不必引入第二个模型。许多任务不值得多模型的额外开销,但仍能从一轮「按这套评分标准打 1 到 10 分,然后落实你自己的建议」中受益。一份每周状态更新、一封有点棘手的邮件、一份单页备忘录:所有这些都能从一轮自我批评中明显变好。
一个杠杆更大的变体:设一个数值目标,让模型自主地朝它迭代。 与其说「给这个打分并告诉我缺了什么」,不如试「对照你自己的评分标准迭代,直到所有标准都达到 9.5,然后把最终版本给我看。」模型会打分、修订、再打分、再修订,一直进行下去(在一个回应里就五六轮),只有当它撞到目标或停滞时才回到你这里。这比手动驱动每一轮快得多,而且它对长篇产物(一份 5000 字的备忘录、一章、一份全面的计划)尤其管用,因为手动来回会很烦人。目标本身就是一个引导机制:9 逼出的天花板和 9.5 不同,而 10 逼着模型不停地找可以改进的地方,直到它真的找不出任何一处。
这听起来可能跟概念 6 矛盾,那一节警告过,一个给自己的成果打分的模型会偏向奉承。差别在评分标准。没有它,「这个好吗?」返回的是「干得好!」,那正是概念 6 讲的那个闭环。有了点名的、打 1 到 10 分的标准,模型就不得不指出 其他几点里缺了什么,而那个指向正是你拿来照着改的东西。评分标准,正是把自我打分从奉承变成一个倒逼机制的东西。
这一页现在提供了同一段 DNA 的三个嵌套版本。挑那个最适合这件活儿的、最轻的:

当出错代价变高时,或者当单模型的分数在 9 左右停滞、你又想知道这个 9 是不是真的 9 时,从轻量版毕业到重量版。
为什么分数要紧。 逼模型给出一个数字,重点不在数字。重点在于产出这个数字需要什么。一个不得不给你的草稿打 7/10 的模型,就不得不点名 另外那 3 分里缺了什么。没有分数,「这个挺好的」就能蒙混过审。有了分数,「挺好的」就不得不变成「结构上扣 1 分,因为第三节重复了第二节;证据上扣 2 分,因为有三处主张没有来源」。分数是一个倒逼具体的机制,而具体正是你能下手的东西。它也是你能用来比较第 N 次迭代和第 N+1 次迭代的、唯一可读的信号。
高风险工作的一条隐私提醒。 跨模型核对,按定义就意味着把你的草稿粘进多款工具。在你拿敏感材料这么做之前,留意每款工具的数据政策。有些工具(消费版上的 Claude、开启了训练退出的 ChatGPT、付费的 Gemini 档)不会拿你的输入去训练。另一些(默认状态下的 Meta AI 消费版产品)可能会。一份 40 页的战略备忘录、一份内部财务分析,或者任何受保密协议约束的东西,都只应经过那些你确实核查过其数据政策的工具。多模型循环的意义在于抓住你的盲点;这个循环相反的意义,是把你的机密工作喂进一个训练集里。
一条诚实的告诫。 三个模型仍然可能在同一件事上全错。它们共享的训练数据比你以为的要多,而在有争议或数据稀疏的话题上(概念 2),它们往往共享着同样的误解。分数是一个 进展信号,不是一个 真相信号。对于高风险内容(任何法律、医疗、财务,或关于一个真实的人的内容),再多次跨模型核对也替代不了一位人类专家审阅那些承重的主张。模型互相核对手艺。人类核对那些要紧的事实。
什么时候跳过这个循环。
不是每件活儿都配得上它。一封简短的邮件、一次快速查询、一场随意的头脑风暴:单模型就够了。把多模型交叉核对省给那些出错代价高昂的工作:一份你老板会读的备忘录、一章会出版的内容、一个会影响到他人的决定、一份你会签字的合同。经验法则:如果一位深思熟虑的同事本来会花两个小时审阅这个,那它就配得上这个循环。
一个非软件的例子。 一位顾问在为一个客户董事会准备一份 40 页的战略备忘录,她用最强的模型起草,并对照它自己的分数迭代,直到它们在 9 处停滞。然后她把整份备忘录粘进了来自不同家族的第二个模型,要它用同一套评分标准。第二个模型给了 7.5 分,列出了十一个具体问题,其中三个是她的主力模型在自己历次自我打分里都没提过的。她把那些反馈给第一个模型去裁决;它采纳了七个,并带理由驳回了四个。来自又一个家族的第三个模型,又浮现出两个。重点不在最终的分数。重点在于,那些她靠自己永远不会看到的反驳,因为她的主力模型和她共享着盲点,在董事会开会之前就进了这份备忘录。
在你去试那些提示词之前的简短回顾
13 个概念是很多。这一页的脉络,每个概念一行:
- 概念 1。 新手提示词和高手提示词之间的差距是一把习惯:像对一位聪明的新同事那样给 AI 做简报,带上上下文、约束和一个明确的请求。
- 概念 2。 AI 是从互联网的一个快照里知道事情的,它是通过阅读关于世界的文字学会的,不是通过亲历世界,所以它在常见话题上强,在偏僻或新近的话题上弱。
- 概念 3。 三种检索模式:预训练、网络搜索、深度研究。你的措辞引导触发哪一个。
- 概念 4。 模型自己没有记忆;上下文窗口是它对这一次回答的工作记忆。答案质量最大的决定因素,就是你往那个窗口里放了什么,而项目让你一次性前置它,而不是每次都来一遍。
- 概念 5。 现代模型在你要求时,能为几秒或几分钟好好思考。
- 概念 6。 模型偏向赞同。中立的框定和评分标准能中和大部分这种偏向;逼出每条标准 1 到 10 的分数,连同那个能拉高每个分数的改动,能中和其余的。
- 概念 7。 带明确反馈的迭代循环是这一页上杠杆最大的习惯。每个阶段打 10 分制的分并反复迭代,直到分数停滞,AI 没资格宣布你做完了。
- 概念 8–9。 AI 能看图像、双向处理音频、搭建小应用,那个运行中的应用是一个你能在上面迭代、分享和嵌入的产物。
- 概念 10。 AI 也能写代码并在你的数据上运行它,但它并不总是自动这么做。明确要求,并核实代码确实运行了。
- 概念 11。 有一个能感知文件的桌面应用新品类(Cowork、OpenWork)。在你安全地用过它们之前,把权限限定得紧紧的。
- 概念 12。 一件活儿该用哪个工具,每隔几个月就变。要知道五个家族(Claude、ChatGPT、Gemini、Meta AI、DeepSeek),全都有免费档,而 Arena 是每月该看一次的排行榜。
- 概念 13。 当房间里没有人类专家时,让模型彼此打分,跨不同家族,是最接近一个客观质量信号的东西。
这一切的底下是一个动作,以十几种伪装反复出现:把对的上下文放进去,把错的上下文挡在外面。 哪怕你从这一页上别的什么都记不住,只记住这一句,你也仍会处在用户中的前四分之一。
现在就试:在深入思考修炼之前的十二个提示词
阅读是动手的替代品。在另一个标签页里打开 Claude、ChatGPT 或 Gemini。按顺序跑这十二个提示词。它们总共大约花二十八分钟,把这一页上你能从一个聊天标签页里练到的每一个概念都练一遍。
1. 网络搜索触发。 逼 AI 离开它的训练数据去查最新信息。
今天[你的国家]发生了哪些重大新闻?每条主张都附上一个
来源链接。任何你无法用引用支持的主张,标为「未核实」。
2. 只用预训练的问题。 常识,不需要查。应该又快又自信。
猫为什么盯着墙看?两段话回答。
3. 上下文丰富的个人提示词。 练习把约束前置。
给我规划一次 15 分钟的居家锻炼。约束:我家里有楼梯、有个
坏膝盖(不能深蹲)、我坚持不了三天以上,而且我想在做的时候
觉得自己有点傻。给我 3 个选项,不要评论。
4. 中立框定改写。 练习在提示词里发现你自己的偏向。
我想问的问题是:「你不觉得四天工作制对每个人显然都更好吗?」
把它改写成一个不暗示我想要什么答案的中立问题。
然后回答改写后的版本。
5. 带迭代的三选项头脑风暴。 核心的高手循环。
第 1 轮:我想启动一个每周大约花 3 小时、一年内或许能赚钱的
小副业。我是一名[你的职业],喜欢[你的爱好]。给我 5 个不同的
点子,各一行。别展开任何一个。
(读那 5 个。挑你喜欢和不喜欢的。然后,在同一场对话里:)
第 2 轮:我驳回选项[N]和[N],因为[原因]。我喜欢[关键词]那个
点子,但想让它少用一点[某样东西]。给我 5 个吸收了这个反馈的
新选项。
6. 先列提纲再写作。 在散文之前逼出结构。
我想写一篇 600 字、关于[一个你在意的主题]的博客。
先别写。给我 3 个不同的提纲选项,每个有 4 到 6 个标题。
每个标题一行。
7. 好好想的推理提示词。 用一个真实的个人决定。
我在为[你生活里一个真实的个人决定],在[选项 A]和[选项 B]
之间做选择。这是相关的上下文:[一段上下文]。作答前好好想。
告诉我:
1. 真正要紧的 3 个取舍。
2. 你会选哪个,以及为什么。
3. 在什么条件下你的推荐会翻转。
8. 打分加改进的批评。 避免对你自己的成果奉承。
我粘进一段我写的东西:[粘进任何 100 到 300 字的内容]。
用这 4 条标准批评它,每条打 1 到 10 分并附一句话的理由:
- 它有没有一个清楚的核心主张?
- 每一段的顺序对不对?
- 有没有任何能删掉而不造成损失的句子?
- 结尾配不配得上读者读到那里所花的时间?
然后,对每一条标准,告诉我那个最能拉高它分数的改动。
永远都有下一个台阶,哪怕是 9 分,也有通往 9.5 的路。
9. 图像输入任务。 练习给 AI 一张照片去读。
[上传任何手写笔记、收据或白板照片]
誊写上面写的内容。然后用 3 个要点总结它讲的是什么。
标出任何你没把握读出的内容。
10. 小应用提示词。 练习目标/输入/输出的形状。返回的会是一个产物,你可以就在聊天里点击它、在它上面迭代。
给我搭一个番茄钟计时器。
目标:25 分钟工作,5 分钟休息。
输入:我按开始。
输出:一个可见的、倒计时的计时器,每个周期结束时
有一声让人满足的咔哒,黄色主题。把能用的版本给我看。
11. 数据分析:揭露那个无声的失效模式。 练习「明确要求代码,再核实它运行了」这门功夫。这个练习分两轮。
第 1 轮,陷阱:在一场全新的对话里,原封不动地粘进这个
提示词。不要提代码。
「这里有 18 个数字:47, 52, 89, 91, 23, 67, 78, 12, 95,
44, 88, 71, 33, 56, 99, 18, 64, 82。中位数、平均数分别
是多少,哪些数字是异常值?要具体。」
仔细看回应。AI 有没有给你看一段它运行过的代码块?
还是它写了一段带着数字、却没有可见计算的文字?记下你的答案。
第 2 轮,修正:在同一场对话里,粘进这个:
「现在再算一次那个计算,但这次写代码并运行来做,
把你运行的代码给我看。」
对比这两个答案。如果第一个答案中位数算错了、把数字凑成了
可疑的整数,或者就是感觉含糊,你刚刚看到了概念 10 那个
无声的失效模式在实际发生。正确答案是:中位数 65.5,
平均数约 61.6,没有明显的异常值(这些数字大致均匀分布)。
12. 跨模型审阅。 在一份真实的草稿上练习多模型的习惯。需要同时开两款 AI 工具,来自不同家族(见概念 13)。
拿任何一段你最近写的 200 到 300 字的草稿(一封邮件、一份
备忘录,或者这些练习里的某一段)。
第 1 步:在你的主力 AI 工具里,粘进草稿并问:「按清晰度、
结构、证据,以及缺了什么,给这个打 1 到 10 分。每个分数
附一句话的理由。」
第 2 步:打开来自不同家族的第二款 AI 工具(如果你的主力是
Claude,就用 ChatGPT 或 Gemini 或 Meta AI,别用另一个
Anthropic 模型)。粘进同一份草稿,问同一个问题。
第 3 步:把两个分数和两份批评并排比较。记下任何只有其中
一个抓住的点。那些就是跨模型循环为之买单的点。
你现在知道了这些工具能做什么。你能不能想得足够清楚去指挥它们,是另一个问题,而那正是 AI 时代如何思考速成课所围绕构建的问题。
开始前的常见问题
我做这里或思考速成课里的练习,需要付费方案吗? ChatGPT、Claude 和 Gemini 的免费档,足够应付这一页上的练习和思考速成课对你的大部分要求。如果你做大量深度研究,或者在一场会话里附很多文件,付费方案会有帮助。先免费用;只有当用量上限开始挡住你时再升级。
我该用一款工具还是三款? 挑一款作为你日常使用的默认,但至少装上来自不同家族的另一款用于对比(见概念 13)。有第二款工具的意义不在于做两倍的活儿,而在于当第一款给你的东西感觉不对劲时,有一个打破平局的。
我公司屏蔽了 ChatGPT。练习我该怎么做? 用任何你公司允许的现代 AI 工具。这里的技能可以迁移到任何文字进、文字出的 AI。如果什么都不允许,就在个人设备上用你的个人账号做练习,它们关乎思考,不关乎公司数据。
如果我忘了这一页上的配方怎么办? 把这一页收藏起来。这些配方(迭代加打分循环、评分标准模式、中立改写小窍门、项目配置、「那个能抬高分数的最小改动」这个动作)就是设计来供查阅的,不是供背诵的。唯一值得背的,是这一句话:把对的上下文放进去,把错的上下文挡在外面。
AI 这么能干,为什么还要深入思考修炼? 因为没有方向的能力会成倍地放大浪费。2026 年工作的瓶颈,已经从生产(AI 让它变廉价了)转移到了评估(AI 没有)。一份来自 AI 的、自信却错误的分析,比根本没有分析更危险,因为它看起来已经完工了。思考速成课训练的,是决定拿 AI 产出的东西去做什么的那份判断力。在一个被 AI 浸透的职场里,那份判断力是最有价值的技能,而大多数课程把它整个跳过了。
头一周要提防的常见错误
| 错误 | 症状 | 修正 |
|---|---|---|
| 把 AI 当成搜索引擎 | 提示词短、答案浅、反复受挫 | 像对同事那样给 AI 做简报:上下文、文件、约束、请求。 |
| 让一场对话永远累积下去 | 随着旧上下文被压缩掉,答案越来越含糊 | 话题一变就开新对话。把常驻上下文(文件、说明)移进一个项目。 |
| 第一次就要最终草稿 | 输出光鲜,内容空洞 | 先列提纲,每个阶段打分加修补,展开成要点,再起草。 |
| 不自觉地用了诱饵式措辞 | AI 赞同你暗示的任何东西 | 发送前改写成中立的问题。 |
| 满足于含糊的批评 | 「干得好!」却没有具体内容 | 索要每条标准 1 到 10 的分数,附一句话的理由。要那个最能拉高每个分数的改动。 |
| AI 说你做完了就停手 | 「看着不错!」却没有前路 | AI 没资格宣布你做完了。一直迭代到分数停滞,而不是到它听起来光鲜。 |
| 把自信当成准确 | 在偏僻话题上出现意外的错误 | 问「你怎么会知道这个?」对照一手来源核实高风险的主张。 |
| 第一天就批准宽泛的权限 | 文件丢失、编辑被覆盖 | 限定到紧凑的文件夹。只随业绩记录增长访问范围。 |
这些不是性格缺陷。它们是第一代用户(包括你自己)从零开始养成的习惯。逮住它们一次,往往就改过来了。
这一页教的是用这些工具的机制。AI 时代如何思考速成课 教的是让机制真正发挥作用的那份修炼。它那一句话的规则是:交付物从来不是答案;交付物是思考过程的书面证据。 这门课围绕六个思考习惯组织,分成三个部分:
-
第 1 部分:基础,你在打开 AI 之前采取的姿态。预测锁定(在 AI 告诉你之前,先写下你认为答案是什么,这样 AI 自信的答案就不会悄悄变成你的)和推理回执(把每一条重要的 AI 主张标为采纳/驳回/修改/浮现/漏掉,附一句话的为什么)。这两个合在一起,让思考留在你这边、打字留在 AI 那边,正是概念 6 指向、却没有干完的那个地方。
-
第 2 部分:检测,抓住 AI 弄错的东西。错误分类法(六种具体的失效模式,事实错误、逻辑漏洞、虚假自信、缺失上下文、捏造来源、过时事实,你按名字去扫,而不是靠感觉)是概念 2 那句「自信的答案不是正确的答案」的深层版本。用系统思考(追踪任何 AI 建议的决定在它所触及的人和群体之间的连锁后果,包括那些副作用绕回来、抵消掉原决定的地方)是这一页完全没有涉及的新地盘。
-
第 3 部分:原创,做那些 AI 替不了你的事。第一性原理(质疑每个人都在重复的那个常见建议;把一个问题拆到基本事实,并追问那个标准答案在你的情况里是不是真的成立)是概念 6 那个中立框定动作的深层版本。与 AI 协作(这种协作模型里,思考和决定由你做,研究和起草由 AI 做;把这个比例翻转过来,你就变得多余了)是概念 7 那个带反馈的迭代循环的深层版本。
当你准备好了,去 AI 时代如何思考速成课。没有判断力的强力工具只会更快地犯下自信的错误,而刻意练习是唯一诚实地查明你的判断力是否在进步的办法。