AI Agent Factory:Agent 时代的权威书籍与生态系统
The AI Agent Factory
AI 工具第三时代的 canonical source,通过四个渠道交付:本书、AI 导师、AI 构建伙伴,以及不断增长的专业衍生书籍家族。
一种规范驱动、人在监督的方法,用于构建 AI-Native Company。它写给正在构建 Agent 时代劳动力的工程师、领域专家和企业领导者。
从这里开始:读完本书的最短路径
如果你已经知道这本书是什么,只想最快进入正题,请按下面 4 步走。如果你想先理解它为什么存在,请继续往下读。
本书有意写得很大。它不是线性文本,而是一个记录系统。但对只想先抓住核心信号的读者来说,有一条最短路径:4 步。
1. 阅读论纲。 论纲建立本书其余部分所依赖的词汇:Digital FTE(也叫 AI Worker 或 AI Employee)、AI-Native Company、双层模型、10-80-10 规则。没有论纲,后面的每章都会更难读;有了论纲,每章都会找到自己的位置。
2. 选择你的模式。 论纲中的通用 agent 使用的两种模式说明读者在实践中使用通用 agent 的两种方式。模式 1:问题解决,适合你想让 AI 帮助你更快完成工作。模式 2:制造,适合你想构建替你完成工作的 AI Worker。选择与你的背景和意图匹配的模式。你选择的模式会决定下一条学习路径。
3. 先完成基础,再进入对应速成课。 快速开始:速成课把课程组织成两条路径。入门页面会给出更多细节。
4. 开始构建,按需使用本书。 完成基础和起步课程后,就开始工作。遇到规范、SKILL.md、MCP connector、升级规则或治理问题时,打开相关章节。本书设计成按需阅读:当工作本身提出问题时,它就是你回来的 canonical source。
为什么这个顺序有效。 论纲是前 10%,负责意图和词汇。基础课程和你所选模式的起步课程让你进入可操作状态。章节是执行时调取的 80%。你的专业判断负责收尾。这正是本书教你用于 AI 劳动力的 10-80-10 节奏。学习本书的最短路径,就是把本书的方法论用于学习本书。
“我们很快就会看到 10 人规模的十亿美元公司,也就是十亿美元估值。在我和科技 CEO 朋友的小群里,大家甚至在打赌第一家一人十亿美元公司会在哪一年出现。如果没有 AI,这在过去不可想象,而现在它会发生。”
— Sam Altman,OpenAI,与 Alexis Ohanian 对话,2024 年 1 月(video · analysis)
Anthropic CEO Dario Amodei 后来把时间线收得更紧:他认为第一家单人十亿美元公司很快出现的概率有 70% 到 80%,并点名开发者工具、自动化客户服务和自营交易是最可能的类别。几个月内,第一批具体案例已经出现:一位独立创始人用租用基础设施和 AI agent 替代员工,把一家远程医疗业务在第一年做到 4 亿美元收入。每个季度还会出现更多例子。
这个预测不再只是愿景。产生它的架构已经开始显形。在真实组织里,它通常这样开始:
早上 8:07,项目经理已经落后于报告进度。财务负责人正在多个互不连接的系统之间对账。运营团队还在等待昨天就该到达的答案。过去他们会打开 10 个 dashboard,追着 5 个人问,手工拼接决策。现在,他们把工作交给一个 Digital FTE:一个遵守规范、使用获批工具、在人的监督下工作,并生成组织真正可以信任输出的 AI employee。
这就是本书的承诺。
本书不是关于聊天机器人技巧、惊艳演示,或披着战略外衣的短命原型。它讲的是如何构建可靠的 AI worker,让它们参与真实业务运营。这些系统不会取代人类判断,而是扩展它、放大它,并让它可重复。
在本书中,我们引入 Digital FTE(Full-Time Equivalent employee)这个概念:能够像人类员工一样在组织内部执行真实工作的 AI agent。在传统组织中,FTE 表示一名全职人类员工的工作容量。Digital FTE 是它的 AI 等价物:一种智能 agent 或数字 worker,能够执行任务、运行工作流、分析信息,并在真实组织系统中协助团队。与人类员工不同,Digital FTE 可以持续运行、瞬时扩展,并大规模部署。随着 AI 系统成熟,组织会越来越多地组建由人类员工和 Digital FTE 共同组成的团队,形成把人类判断和机器智能结合起来的混合劳动力。这支劳动力构成 AI-Native Company。
术语说明。 本书中,Digital FTE、Digital Worker 和 AI Worker 交替使用。它们指同一件事:在人的监督下,在组织内部执行结构化工作的、基于角色的 AI agent。论纲使用 AI Worker 作为技术术语;本书使用 Digital FTE 作为面向业务的术语。

现代 AI 像一座高高的五层蛋糕,这是 NVIDIA CEO Jensen Huang 推广开的一个比喻。底层是能源,为全球巨型数据中心供电。其上是芯片,专用处理器每秒执行数万亿次计算。再往上是基础设施,也就是把这些计算规模化运行起来的超级计算机和云平台网络。基础设施之上是模型,神经网络在这里学习、推理并生成智能。最上层是第五层:应用,AI 在这里不再只是技术,而开始变得有用。
数十亿美元被投入下面 4 层,目的就是让第 5 层能够存在。本书讲的正是第 5 层。 它教你如何构建应用、agent 和数字 worker,把 AI 能力转化为人们使用的产品、组织依赖的工作流,以及企业能够捕获的价值。
下面几层重要,因为它们让顶层成为可能。模型、基础设施和硬件必不可少,但它们本身不会创造业务价值。只有当智能被塑造成工作流、产品、服务和人们真正能使用的运营系统时,价值才会出现。
组织之间的下一个竞争差距,不只来自谁拥有最好的模型、最大的 GPU 集群或最华丽的原型。差距会来自谁能把智能变成可重复执行。就像软件把手工流程转化成数字系统一样,Digital FTE 会把结构化知识工作转化成可扩展的运营能力。学会把它们构建好的一方,会移动得更快,更好地保存专业能力,并创造全新的杠杆。
The Agent Factory 的使命,就是帮助你设计和构建这些系统,让 AI 不只是强大,而且有用、可治理,并具备经济意义。
核心思想
本书中心有一个简单想法:
Digital FTE,也叫 Digital Worker,是可靠的 AI agent,设计用来在真实组织环境中持续执行结构化知识工作。
Digital FTE 不只是带 prompt 的模型。它是一个系统。它把领域专业能力、明确规范、工程架构和人的监督结合起来,让工作能够一致、可审计、可规模化地完成。
AI Agent Factory 提供了一套系统方法,用于设计和部署 Digital FTE,也就是把人类专业能力转化为可扩展数字 worker 的 AI agent。它们共同组成 AI-Native Company。
本书不只关注大语言模型,而是解释可靠 agent 系统如何从 4 个关键元素的组合中出现:
- 结构化规范:清楚定义 agent 必须做什么。
- 领域专业能力:指导推理和决策的“知识引擎”。
- 工程架构:保证可靠性和可扩展性的基础设施。
- 人的监督:保持问责和治理的反馈循环。
这些元素共同让组织能够创建可以信任、部署和扩展的 agent 系统。
Digital FTE 不只是技术构造,也是经济构造。它们让 AI-Native 组织能够封装专业能力、减少执行瓶颈、提高一致性,并创造新的服务模型、内部能力和收入流。构建得好,它们不只是自动化任务,而会成为可扩展资产。
本书写给谁
本书写给正在构建 Agentic Enterprise 的跨职能团队,包括:
- AI 开发者与架构师:构建生产级、可靠的 agent 系统。
- 领域专家:把细分专业能力转化为可复用 AI skill。
- 企业高管:引导负责任、可扩展的 AI 采用。
- 产品经理:把复杂业务工作流翻译成 agent 能力。
- 运营团队:用 AI agent 解决真实组织瓶颈。
这些群体共同构成构建 Digital FTE 所需的协作基础。Digital FTE 是一种新的数字 worker,旨在扩展人类专业能力并释放新的经济价值。
这些群体往往说着不同的专业语言,追逐不同优先级,用不同方式衡量成功,像一场没有笑声提示的会议室喜剧。但 Digital FTE 只有在这些群体协作时,才可能构建得好。
本书给他们一个共同框架。
本书为什么存在
今天,世界各地大多数组织使用 AI 的方式仍是孤立实验:这里一个原型,那里一个聊天机器人,一个看起来有前途但始终进不了日常运营的工作流 demo。
缺的不是热情。缺的是方法。
很少有组织已经形成可重复的方法,来构建能够真正作为劳动力一部分运行的可靠 AI agent。它们也许拥有强模型、有能力的人和业务需求,却仍缺少把这些要素转化为可靠数字 worker 所需的设计纪律。
本书引入的就是这套方法。
它解释如何识别有价值的 AI employee 机会,如何把专家知识转成结构化规范,如何设计有边界的 agent 工作流,如何把它们部署在可靠的云原生基础设施上,并用人的监督治理它们。换句话说,本书教你运营一个 Agent Factory:一个规范驱动、人在监督、由 agent 工具提供动力的过程,用来在 AI-Native Company 内设计、制造并部署 Digital FTE(也叫 AI Worker)。我们用两个体现这套方法的工具演示这个过程:Anthropic 的 frontier coding agent Claude Code,以及开源、模型无关的替代方案 OpenCode。为其中一个编写的 skill、spec 和架构模式,可以在另一个中工作。方法是常量,工具是变量。
读完本书后,你理解的不只是 agentic AI 这个想法。你会理解如何把可靠 Digital FTE 制造成一种组织能力。这类组织会默认成为 AI-Native。
本书是基础设施,不只是文本:三种交付模式
大多数书是为了阅读而写。本书是为了阅读、通过 AI 导师教学,并指导 AI 构建伙伴而写,而且三者都来自同一个知识库。它不只是一本书,而是一个学习与开发生态系统的基础,设计用于 3 种交付模式。
人类阅读
TutorClaw
Agent Factory Skillpack
为什么这很重要。 同一个知识库驱动三种模式。当某章更新,例如银行合规的新 jurisdiction overlay、法律运营的精细升级协议,更新会同时传递到 TutorClaw 的教学和 Agent Factory Skillpack 的指导。本书不是静态产物。它是一个生态系统的单一事实来源:人类学习、AI 教学和 AI 辅助构建,全都从同一个权威基础中读取。
这就是把 10-80-10 模式用于教育本身。本书设定意图(前 10%:领域知识、框架、专业标准)。TutorClaw 和 Agent Factory Skillpack 处理执行(中间 80%:个性化教学、逐步构建指导)。你验证结果(最后 10%:专业判断,确认 agent 正确、部署安全、知识可靠)。
两个工具,一门纪律
Claude Code 和 OpenCode 在本书中不是竞争者。它们是同一门纪律的两种表达。
为什么是两个工具,而不是一个?因为本书教授的纪律必须比任何具体工具活得更久。Agent Factory 方法,也就是规范驱动设计、基于 skill 的架构、人的监督,天生就是可移植的。把它绑定到单一供应商产品,会违背这套方法的前提。它还会继承读者无法控制的风险:价格变化、访问限制、战略转向。并且,它会悄悄排除那些由于经济、监管或架构约束而无法使用主流工具的读者。
Frontier-first
开放且模型无关
二者都实现本书教授的同一套模式。skill、subagent、hook、MCP server 和规范驱动工作流在两者中工作方式一致。 为 Claude Code 编写的 SKILL.md 可以放进 .opencode/skills/ 并原样运行。这门纪律是可移植的。
Agent 时代的记录系统
NVIDIA CEO Jensen Huang 曾指出,AI agent 并不会消除对 system of record 的需求,反而会强化它。agent 需要 ground truth。它们需要权威位置来读取、写入,并验证。没有这个基础,agent 会幻觉;有了它们,agent 才会执行。
Huang 正在为企业解决这个问题。公司几十年建起来的数据库、工作流和运营平台,在 agent 时代会更重要,而不是更不重要。agent 不会取代 SAP 或 ServiceNow。它们会以机器规模使用这些系统。
但 Huang 没有解决一层:人这一层。
数百万开发者、架构师和领域专业人士即将构建 AI agent。大多数人没有可学习的 canonical source。没有一个为验证而设计的结构化知识体系,而不仅仅是为消费而设计。他们从零散教程、过时博客文章和模型输出中学习,而这些输出未必反映生产级 agent 系统真正如何工作。
当这些开发者从学习进入构建时,同一个问题会以另一种形式出现。他们的 AI coding partner 会使用模型碰巧浮现的任何模式,这些模式可能从未被验证、限定边界,或被设计用来生产可靠 Digital FTE。没有 canonical source,人类学习和 AI 辅助构建都会继承同样的脆弱性。
AI Agent Factory Book 是 agentic AI 教育与构建的记录系统。

这不是比喻。本书的架构遵循 Huang 为企业系统描述的同一模式:
- 本书是 canonical source of truth:权威知识库,定义 agent 是什么、如何构建、如何治理。
- TutorClaw 是教学 agent:它从本书读取,而不是从开放互联网读取,并基于已验证知识教学,而不是概率式生成。
- Claude Code 和 OpenCode 是构建 agent:配备 Agent Factory Skillpack 后,它们从本书读取,而不是从 Stack Overflow 或零散教程读取,并根据已验证规范、
SKILL.md模板和架构模式来构建 Digital FTE 与 AI-Native Company。 - 人类判断是验证层:学生、教师、开发者和领域专家确认 TutorClaw 教授的内容,以及配备 Skillpack 的 harness 构建的内容,是否符合本书意图。这就是 10-80-10 模式的最后 10%。
但教育只是故事的一半。同一模式也延伸到构建。一旦把两条 pipeline 并排画出来,对称性本身就成了架构。

但这个模式不止于教育和构建。同一个 canonical source 还会进入第三条路径:不断增长的衍生书籍家族。每本书都沿着两个轴之一做专业化:主题 或 受众,但继承同一套词汇、架构和标准。

主题轴。 有些衍生书会把范围缩小到 Agent 时代正在重塑的单一学科。Learning Python in the AI Era 用今天需要的方式教授 Python:同时配合 agentic coding 工具、规范驱动工作流,以及运行在 Claude Code 和 OpenCode 中的 SKILL.md 格式。Critical Thinking in the AI Era 帮助读者获得判断能力,因为当 AI worker 处理例行推理时,这种能力变得必需。Learning Agentic Primitives 把基础概念压缩成一个聚焦 primer:agent、skill、subagent、hook、MCP、监督循环。随着方法成熟,还会有更多标题。
受众轴。 其他衍生书保持方法论不变,但为读者重写内容。面向小学、初中和高中学生的版本,会以适合年龄的方式介绍同一套架构思想,让高中生可以用与十年后职业版读者相同的词汇,构建自己的第一个 SKILL.md。面向职业的版本会为工程师、医生、建筑师、律师、会计师、银行家,以及其他正在围绕 Digital FTE 重塑劳动力的领域改写材料。框架不变,例子、先验和深度会随读者而变。
一本书通常是目的地。Agent Factory book 是源头。当 canonical methodology 更新,例如新的升级协议、改进的 Skillpack pattern、更清晰的定义,更新会传播到整个家族。每本衍生书都继承修正。方法论是常量,主题和受众是变量。
这里还有更深的对称。本书不只是使用记录系统,它还教你如何构建使用记录系统的 agent,并且为帮助你构建这些 agent 的构建 agent(配备 Agent Factory Skillpack 的 Claude Code 和 OpenCode)提供动力。学习系统的架构、构建系统的架构、课程内容本身,彼此镜像。你通过体验这个模式来学习它。你通过使用它来构建它。
AI 工具第三时代,以及位于其上的、面向全球劳动力的层
AI 工具的第一时代把模型变成产品。第二时代把 harness 变成产品:Claude Code、OpenCode、Cursor,以及让模型工作的 agentic coding environment。现在有些人把 harness platform,也就是 SDK、plugin、供应商专属扩展层,定位成第三时代。我们位于它上一层。我们所说的第三时代,是跨 harness、跨 platform 运行的纪律本身成为产品的时代。模型会商品化。harness 会商品化。harness platform 也会商品化。能穿过这三层留存下来的,是 canonical source:方法论、词汇、验证标准,以及任何尊重 SKILL.md 格式的 harness 都能加载和运行的 skill library。
这就是 Agent Factory 生态系统所在的层。本书是 canonical source。TutorClaw 是 canonical source 在任何语言、任何手机上 24/7 教自己。Agent Factory Skillpack 是 canonical source 运行在开发者选择的任何 harness 内。衍生书籍家族是 canonical source 为每类受众和每个领域重写。四个交付渠道,一个源头。
这种架构形状,和 Altman 与 Amodei 描述的商业形态是同一种形状。 创始人拥有 canonical source。AI agent 执行过去需要团队完成的工作。租用基础设施:harness、消息平台、模型 provider,承载创始人不拥有的部分。一本书单独不会成为十亿美元公司。一个 live tutor 单独不会成为十亿美元公司。一个构建工具单独不会成为十亿美元公司。组合起来,也就是 book、tutor 和 build tool 全都从同一个 canonical source 读取,在结构上就是未来十年会出现的商业形态。
这场竞争天然是全球性的。 下一个十年不会由谁拥有最大模型或最深 GPU stack 来决定,而会由谁能在劳动力层把 AI 能力转化为可靠、可治理、可重复执行来决定。赢下它的团队不会全部坐在同几个城市。只要有互联网、有雄心、有 agentic engineering 的工作知识,他们可以在任何地方构建。Agent Factory book 存在,就是为了让这些团队有 canonical source 可用。
四个渠道触达竞争正在发生的每个地方。 衍生书籍家族跨语言、年龄组和专业学科传播:适合小学、初中、高中学生深度的版本,面向工程师、医生、建筑师、律师、会计师和银行家的职业版,以及面向 Agent 时代正在重塑的学科的主题版。Agent Factory Skillpack 运行在全球数百万开发者已经使用的 harness 中。TutorClaw 通过 WhatsApp、Telegram 和 Web 与学习者见面,这些渠道触达超过 40 亿人,并使用 canonical source 已翻译成的语言。方法论可移植,因为交付它的每个渠道都可移植。
常量是 canonical source。变量是渠道。 当方法论更新时,每个渠道都会随之更新:本书、每本衍生书、每个配备 Skillpack 的 harness、每次 TutorClaw 对话。这里只有一个事实来源和多个交付表面。驱动 TutorClaw 的模型明天可以更换。Skillpack 运行的 harness 明年可以更换。衍生书籍翻译的语言会持续增加。canonical source 保持不变。架构是常量,其余都是变量。
📘 本书
💬 TutorClaw
🛠️ Skillpack
📚 衍生书籍
Altman 和 Amodei 描述的是,当 AI agent 完成过去需要团队完成的工作时,什么会变得可能。Agent Factory 生态系统就是这种形态的一个实践例子。本书是事实来源。AI agent,也就是负责教学的 TutorClaw 和负责构建的 Skillpack,完成通常需要团队完成的工作。其他一切:消息应用、coding tool、AI 模型本身,都从其他公司租用,而不是从零构建。这正是 Altman 和 Amodei 预测的小团队十亿美元公司的形状。本书教读者如何构建这种形状的公司。读者正在阅读的这个生态系统本身,就是这种形状之一。
读者指南
本书写给来自不同学科的读者,但所有人都参与同一个更大的项目:构建 Agentic Enterprise。
构建这些系统需要多个学科协作。本书写给负责构建 Agentic Enterprise 的跨职能团队。
| 读者类型 | 在 Agentic Enterprise 中的角色 | 你将获得什么 |
|---|---|---|
| AI 开发者与工程师 | 构建基础设施和系统 | 架构模式、规范驱动开发和云原生部署。 |
| 领域专家与专业人士 | 提供指导行为的知识 | 把专业能力转化为可复用 AI skill 和 Digital FTE 的方法,从而驱动 AI-Native Company。 |
| 企业高管 | 领导组织采用 | 企业 AI 的治理模型、风险控制和部署策略。 |
| 产品经理与架构师 | 把业务需求翻译成系统 | 把工作流拆解为 skill 和可验证输出的框架。 |
| 部门负责人和运营团队 | 把 AI 应用于运营流程 | 把内部 playbook 转化为可扩展 Digital FTE 工作流的技术。 |
AI 开发者、软件工程师与平台架构师
构建者
开发者和架构师负责把 agentic AI 的承诺转化为生产级系统。虽然很多 AI 应用仍是脆弱原型,本书引入一种系统化工程方法,用于:
- 用规范驱动开发设计 agent。
- 用云原生架构构建可扩展系统(Docker、Kubernetes、Dapr)。
- 实现安全、可审计的工具接口。
- 组织封装领域专业能力的可复用 skill library。
主题专家与领域专业人士
知识持有者
最有价值的 AI 系统依赖深厚领域知识。会计、法律、金融和供应链专业人士拥有判断力,这种判断力会成为 AI 行为的指导结构。你会学习如何把专业能力编码进结构化产物,尤其是 SKILL.md 规范,以确保:
AI 执行例行推理,而专业人士提供判断、监督和问责。
企业高管与技术领导者
决策者
高级领导者必须从孤立实验走向可靠企业部署。本书提供一张战略路线图,用于:
- 建立治理模型和风险控制。
- 实施人在回路中的监督。
- 从试点项目逐步扩展到全企业规模。
AI 产品经理与解决方案架构师
翻译者
你在把复杂业务流程拆解为自动化任务方面发挥关键作用。本书提供实用指导,用于:
- 把工作流映射成 agent skill。
- 定义自动化推理和人类决策之间的边界。
- 设计可验证输出和评估流程。
部门负责人和运营团队
运营者
部门负责人通常管理高度结构化但耗时的工作流。本书展示如何把内部 playbook 转化为可重复 agent 工作流,以便:
- 减少重复性分析工作,提高一致性。
- 把专业能力扩展到整个组织。
- 构建持续运行的数字能力。
构建 Agentic Enterprise
Agentic AI 不是一个功能,而是一支劳动力。下一代公司会围绕它构建,就像上一代公司围绕软件构建一样。这支劳动力被设计、制造、部署和治理的纪律,会决定谁赢下下一个十年。
这门纪律就是本书存在的理由。本书是它的 canonical source。TutorClaw 在任何语言、任何手机上 24/7 教授它。Agent Factory Skillpack 在 Claude Code、OpenCode 和任何尊重 SKILL.md 格式的 harness 内运行它。衍生书籍家族会为 Agent 时代正在重塑的每类受众和每个领域重写它。一个 canonical source,四个交付渠道,一套能穿过底层每一层商品化而继续存在的方法论。
读完本书的人,理解的不只是 agentic AI 这个想法。他们会理解如何识别可以成为 Digital FTE 的工作,如何规范执行这项工作的 agent,如何部署运行它的架构,以及如何治理由此出现的劳动力。他们会理解如何构建 Altman 和 Amodei 一直在描述的那类公司:创始人拥有 canonical source,AI agent 执行过去需要团队完成的工作,租用基础设施承载其余部分。
目标很简单:走出 AI 好奇心,进入 AI 执行。专业能力变成运营能力。工作流变成可重复流程。能力变成产品。组织获得一种新的劳动力:数字化、可靠、按设计构建。学会构建这支劳动力的人,会获得前几代知识 worker 从未拥有过的杠杆。
Agent Factory 生态系统存在,就是为了把这种杠杆交到他们手里。