Skip to main content

Human-Agent Teams: آپ کی workforce کا operating model

یہ course AI workers کی ایسی team کا operating model ہے جو انسانوں کے ساتھ چلتی ہے۔ اس کا unit ایک trustworthy worker ہے، ایک Digital FTE: وہ loop run کرتا ہے، searchable memory سے کام کرتا ہے، اپنی identity سے sign in کرتا ہے، اور edges پر escalate کرتا ہے۔ آپ اس track میں وہ worker build کرتے ہیں؛ یہ operating model پہلے paper پر لکھ سکتے ہیں، پھر live workers online آتے جائیں تو اسے ان سے wire کر سکتے ہیں۔ ایک trustworthy worker unit ہے۔ ان کی team چلانا، ایک worker build کرنے سے different skill ہے، اور یہ course اسی کے بارے میں ہے: one کو many میں کیسے بدلنا ہے۔

Many کی team، one کا bigger version نہیں۔ یہ different thing ہے، اور اسے different skill چاہیے: worker build کرنا نہیں، بلکہ people کے ساتھ workers کی team run کرنا۔

یہ course وہ operating model ہے۔ اس کے بعد آنے والے چار courses machinery ہیں: lead agent جو board hire کرتا ہے (Workforce with Paperclip)، workforce جو خود grow ہوتی ہے (Self-Expanding Workforce)، delegated approval (Identic AI)، earn کرنے والے workers (Payment-Enabled Agents)۔ یہ machinery ایسی team پر کام نہیں کرتی جسے آپ run کرنا نہیں سیکھے۔ اس لیے workforce automate کرنے سے پہلے آپ set کرتے ہیں کہ humans اور workers ایک roster، ایک workspace، اور ایک goal کیسے share کرتے ہیں۔

ایک diagram جو اس course کے shift کو دکھاتا ہے۔ بائیں طرف "single-player": ایک human، ایک chat window، ایک agent، ایک task۔ دائیں طرف "multiplayer": کئی humans اور کئی agents ایک shared workspace، one roster، اور one north-star goal share کرتے ہیں، ہر member سے shared goal کی طرف arrows ہیں۔ Caption کہتا ہے: unit one worker تھا؛ team humans اور Digital FTEs ہیں جو together pull کرتے ہیں۔

اس course کی type پر ایک note۔ دوسرے workforce courses build-along ہیں۔ یہ نہیں۔ یہاں آپ کم code لکھیں گے۔ آپ operating documents لکھیں گے (roster، role cards، north star، verification rubric) جیسے manager لکھتا ہے، فرق یہ ہے کہ agent draft کرتا ہے اور decision آپ کرتے ہیں۔ Deliverables وہ agreements ہیں جن پر team چلتی ہے۔ یہ code سے کم glamorous مگر زیادہ decisive ہیں: اکثر human-agent teams technology نہیں، practices پر fail ہوتی ہیں۔

یہ section کا سب سے accessible course بھی ہے۔ Roles، goals، trust، اور who-owns-what ایسی چیزیں ہیں جو آپ people کے ساتھ کام کرتے ہوئے پہلے ہی سمجھتے ہیں۔ Agents ان fundamentals کو نہیں بدلتے؛ بس انہیں right کرنے کا stakes بڑھا دیتے ہیں۔

یہ practices کہاں سے آتی ہیں

یہ patterns Anthropic کے human-agent teams internally چلانے کے account سے لیے گئے ہیں، اور اس book کے already-built frameworks پر map کیے گئے ہیں (full links آخر میں Sources میں ہیں)۔ جہاں Anthropic کوئی specific result report کرتا ہے، وہ انہی کا ہے اور named ہے۔ جن features پر یہ lean کرتا ہے (shared team tools میں کام کرنے والے agents، اپنی credentials اور memory والے agents) وہی capabilities ہیں جو آپ اس track میں build کرتے ہیں۔

📚 Teaching Aid

Full Slideshow کھولیں

Full Presentation دیکھیں — Human-Agent Teams

آپ کیا build کریں گے (artifact set)

App نہیں: operating documents کا set جس پر آپ کی team چلتی ہے۔ Starter ہر document کو template کے طور پر دیتا ہے؛ آپ agent کی help سے انہیں fill کرتے ہیں۔

  • Team roster: ہر member، human اور agent، role، owner، tools، اور autonomy level کے ساتھ۔
  • ہر agent کے لیے role card: یہ کیا own کرتا ہے، کیا نہیں own کرتا، اس کے tools، اس کا work کیسے check ہوتا ہے، کب escalate کرتا ہے۔
  • Working agreement: default public کیا ہے، چند security boundaries، کیا private رہتا ہے۔
  • North-star doc: team کا one ambitious goal، اور کون سے agents اس پر unprompted act کر سکتے ہیں۔
  • Verification rubric: work product کیسے grade ہوتا ہے تاکہ human ہر line پڑھے بغیر trust کر سکے۔
  • Doer-verifier setup: second agent جس کا only job first کو check کرنا ہے۔
  • Weekly report: "lessons and missteps" log جو team کو improve کرواتا ہے۔
  • Attention budget: آپ کیا review کرتے ہیں، کیا batched ہے، اور آپ تک پہنچنے والی چیزوں کی cap۔

Setup

  1. Starter download کریں (human-agent-teams-starter.zip) اور unzip کریں۔ یہ templates کا folder ہے، code نہیں۔ انہیں کسی editor میں open کریں۔
  2. Ideally، ایک Digital FTE (Building a Digital FTE) ہو جس کے around real team run ہو۔ Worker ابھی نہیں؟ کوئی مسئلہ نہیں: یہ course planning mode میں کریں (نیچے note)، پھر manual کو live worker سے wire کریں جب وہ exist کرے۔
  3. ایسی جگہ رکھیں جہاں work team کو visible ہو: shared channel، doc library، repository۔ Agents اسی written record سے read کرتے ہیں۔
  4. Draft کرنے کے لیے agent ready رکھیں (claude.ai، Cowork، یا آپ کا worker)۔ Starter کا ہر artifact اسی rhythm سے fill ہوتا ہے: آپ direct کرتے ہیں، agent draft کرتا ہے، آپ decide کرتے ہیں۔

یہاں سے ہر Part ایک practice سکھاتا ہے، پھر آپ سے وہ document لکھواتا ہے جو اسے place پر رکھتا ہے۔ آپ theory پر quiz نہیں ہوں گے؛ آپ team کا operating manual لے کر نکلیں گے۔

Readiness check (Part 2 سے پہلے کریں)

یہ course assume کرتا ہے کہ آپ کا worker already آپ کی team کا written record پڑھ سکتا ہے۔ ابھی test کریں: agent سے کہیں last week کا کوئی decision یا document ایسے channel میں find کرے جسے وہ own نہیں کرتا۔ اگر وہ کر لے تو آپ ready ہیں۔ اگر empty واپس آئے تو آپ نے AI Searchable Context کا searchable system of record finish نہیں کیا۔ پہلے وہ کریں۔ اس کے بغیر، یہاں ہر practice کے پاس read کرنے کو کچھ نہیں۔

ابھی وہاں نہیں پہنچے؟ Planning mode میں run کریں

آپ technical stack سے پہلے بھی یہ پورا course کر سکتے ہیں: claude.ai یا Cowork کو drafting agent کے طور پر use کریں، تمام operating documents لکھیں، اور ہر agent role کو "planned" mark کریں بجائے "active" کے۔ آپ paper پر complete operating manual لے کر نکلیں گے۔ جب first workers build ہو جائیں تو planned roles کو live roles سے swap کر دیں۔


حصہ 1: ایک worker سے team تک

Concept 1: Single-player ختم ہو چکا

AI کے ساتھ کام پہلے single-player تھا: ایک person، ایک chat window، ایک task۔ Digital FTE already اس سے زیادہ کرتا ہے۔ اس course کا shift multiplayer ہے: many people اور many agents ایک workspace میں، shared goals کی طرف pulling۔ Humans strategy set کرتے ہیں؛ agents execute کرتے ہیں۔

Multiplayer agent وہ ہے جو ایک وقت میں many humans کے ساتھ کام کرتا ہے۔ Digital FTE کی طرح، اس کی اپنی memory اور skills ہیں۔ Chat window کے برعکس، اس کی اپنی credentials ہیں (person سے borrowed نہیں) اور یہ وہاں رہتا ہے جہاں work ہوتا ہے: team کے channels اور docs میں، private session میں نہیں۔

Unit Digital FTE ہے۔ Team humans اور Digital FTEs ہیں جو one roster share کرتے ہیں۔ Team ہی business ہے۔

Concept 2: Worker کو کن parts کی ضرورت ہے

Team تب تک work نہیں کرتی جب تک ہر agent کے پاس تین چیزیں نہ ہوں، اور یہ track تینوں build کرتا ہے:

  • Persistent memory: تاکہ goal days across hold رہے، صرف one prompt میں نہیں (AI Searchable Context
  • اپنی identity: credentials human سے tied نہ ہوں، تاکہ یہ کسی کے logins borrow کرنے کے بجائے آپ کے set کیے guardrails کے اندر act کرے (AI Identity
  • Broad, searchable access: تاکہ یہ written record سے سیکھے کہ organisation کیسے کام کرتی ہے (آپ کا Postgres system of record اور RAG: retrieval، وہ searchable memory جو آپ نے دی

ان کے بغیر "agent کو team میں add کرنا" کا مطلب person کا password script کے ساتھ share کرنا ہے۔ ان کے ساتھ، اس کا مطلب roster پر belong کرنے والا worker ہے۔ آپ operating model ابھی design کر سکتے ہیں اور جیسے ہی یہ تین parts online آئیں اسے live workers سے wire کر سکتے ہیں؛ human practices دونوں cases میں top پر بیٹھتی ہیں۔

Checkpoint: آپ unit جانتے ہیں۔ Memory، identity، اور access والا worker وہ thing ہے جس سے team بنتی ہے۔ اب آپ many کو people کے ساتھ work کرواتے ہیں۔

Concept 3: Scarce resource human judgment ہے

Whole operating model ایک چیز protect کرتا ہے: human attention اور judgment۔ Agents fast اور many ہیں؛ people bottleneck اور authority ہیں۔ اس course کی ہر practice اسی لیے ہے کہ humans صرف وہ decisions کریں جو humans ہی کو کرنے چاہییں، اور باقی سے باہر رہیں۔

Failure mode پہلے name کریں، کیونکہ یہی common ہے۔ Operating model کے بغیر، لوگ side پر personal AIs کی fleets چلاتے ہیں۔ Work duplicate ہوتا ہے۔ Team کا context private windows میں shatter ہو جاتا ہے جنہیں کوئی اور (human یا agent) نہیں دیکھ سکتا۔ جو metric سب کو چاہیے وہ five different ways compute ہوتا ہے۔ Fix more agents نہیں؛ one team in the open run کرنا ہے۔

باقی course چار practices ہے جو یہی کرتی ہیں۔

Operating model کو چار practices کے طور پر دکھایا گیا ہے، چار cards کی شکل میں۔ Card 1, "Work in the open": context چند clear boundaries کے اندر ہر teammate تک flow کرتا ہے۔ Card 2, "One roster, clear roles": ہر member، human اور agent، right tools کے ساتھ named job own کرتا ہے۔ Card 3, "A north star": humans کا set کیا one ambitious goal، جو agents کو بتاتا ہے کون سا work worth doing ہے۔ Card 4, "Trust, earned": autonomy proven reliability کے ساتھ grow ہوتی ہے، اور all work checkable ہے۔ نیچے band کہتا ہے: every practice protects one thing — human judgment.

Checkpoint: آپ shape جانتے ہیں۔ Four practices، one purpose۔ Next، first one۔


حصہ 2: Open میں work

Concept 4: اگر لکھا نہیں، تو exist نہیں کرتا

Agent اپنی understanding مکمل طور پر اس سے بناتا ہے جو team searchable بناتی ہے: channels، code، docs، notes۔ Private messages، hallway conversations، اور restricted files اس تک نہیں پہنچتے۔ Agent کے لیے unwritten invisible ہے۔

اس لیے first practice technical ہونے سے پہلے cultural ہے: public میں work کریں۔ Decisions channels اور docs میں land کریں، direct messages اور notes-less meetings میں نہیں۔ Artifacts ایسے لکھیں کہ agent انہیں find کر سکے: agent اب آپ کی documentation کا primary reader ہے، afterthought نہیں۔

Payoff real ہے، اور Anthropic اسے plainly report کرتا ہے۔ جو agent team کے decisions پڑھ سکتا ہے وہ وہ work pitch نہیں کرے گا جسے آپ already kill کر چکے ہیں۔ جو agent دوسری team کے specs پڑھ سکتا ہے وہ worked pattern reuse کرے گا۔ اور چونکہ agent کسی بھی human سے بہت fast read کرتا ہے، وہ routinely relevant work surface کرتا ہے جو people miss کر دیتے۔ Transparency virtue سے leverage بن جاتی ہے۔

Concept 5: Boundaries workspace پر، document پر نہیں

یہ decide کرنے کا غلط طریقہ ہے کہ agent کیا دیکھ سکتا ہے: ایک document، ایک channel at a time۔ یہ humans اور agents دونوں کے لیے decision fatigue ہے: کیا یہ private ہونا چاہیے؟ کیا میں یہ doc share کر سکتا ہوں؟ کیا یہ agent اس thread میں allowed ہے؟ Soft, per-item lines exhausting ہیں اور غلط ہونا easy۔

Right way: workspace level پر چند clear security boundaries: security boundary بس information کے set کے around wall ہے، اس rule کے ساتھ کہ کون اندر ہے۔ Boundary کے اندر context ہر teammate، human یا AI، تک flow کرتا ہے۔ چند clear lines، بہت سی soft lines سے بہتر ہیں، اور daily "can I share this?" tax ختم کرتی ہیں۔

یہاں آپ کا system of record اپنی place earn کرتا ہے۔ Boundary wall ہے؛ AI Searchable Context کا searchable store وہ چیز ہے جو اس wall کے اندر freely flow کرتی ہے۔ Wall ایک بار draw کریں؛ باقی retrieval کو کرنے دیں۔

Exception plainly کہیں، کیونکہ public-by-default کا مطلب everything-is-public نہیں۔ کچھ work sensitive ہوتا ہے اور one human + one agent کے درمیان belong کرتا ہے۔ یہ agent کو direct message ہے، یا private apps (claude.ai، Cowork) over your personal connectors، جہاں conversation private رہتی ہے۔ Default open رکھیں؛ جو must-not ہو اس کے لیے clear, narrow lane رکھیں۔

Draft it. 01-working-agreement.md open کریں اور agent میں paste کریں:

Draft a working agreement for my team. State what is public by default. List the few security boundaries we need (no more than a handful) and who is inside each. List what stays private (one human, one agent). For each boundary, write one sentence a new teammate could follow.

Check it. کیا آپ ہر boundary کو single sentence میں state کر سکتے ہیں؟ اگر نہیں، boundaries بہت زیادہ ہیں۔ Few and clear، ورنہ hold نہیں کرے گا۔

Checkpoint: context flows. آپ کی team وہاں work کرتی ہے جہاں agents read کر سکتے ہیں، چند walls کے پیچھے جنہیں کوئی بھی name کر سکے۔ اب work کو names دیں۔


حصہ 3: One roster، clear roles

Concept 6: Team کا roster ہوتا ہے

Human-agent team one roster، one set of artifacts، one working space share کرتی ہے۔ اس لیے roster لکھیں: ہر member، human اور agent، اور ہر ایک کیا own کرتا ہے۔

Agents different roles hold کرتے ہیں۔ ایک data analysis own کرتا ہے؛ ایک design standard hold اور enforce کرتا ہے؛ ایک research synthesis run کرتا ہے۔ Project start ہو تو humans agents سے chat کرتے ہیں کہ کون سے roles assign ہوں اور وہ together کیسے work کریں گے: roster اس conversation کا output ہے، advance guess نہیں۔

یہ آپ کی Roles Taxonomy اور Digital FTE taxonomy ہے، one team کے لیے concrete۔ Catalog بتاتا ہے کون سی types کے workers exist کر سکتے ہیں؛ roster بتاتا ہے this team میں کون ہیں اور کون کیا own کرتا ہے۔

Concept 7: Role ایک card بھی ہے، اور skill file بھی

ہر agent کو role card ملتا ہے: یہ کیا own کرتا ہے، کیا نہیں own کرتا، کون سے tools/access چاہیے، اس کا work کیسے check ہوتا ہے، اور کب human کو escalate کرتا ہے۔ Scope "does not own" کے بارے میں بھی اتنا ہی ہے جتنا "owns" کے بارے میں: fuzzy edges والا agent دوسرے لوگوں کے work میں drift کرتا ہے۔

Tools name کریں، کیونکہ tools کے بغیر role title ہے، hands نہیں۔ Analyst کو database چاہیے۔ QA agent کو browser tool چاہیے۔ ہر role کی required access list کریں، اور only that grant کریں (least privilege وہی rule ہے جو delegated approval میں دوبارہ ملے گا)۔

پھر role کو skill file کے طور پر لکھیں۔ یہی move book کے frameworks کو click کرواتا ہے: agent کا role skill میں define کریں، اور role portable بن جاتا ہے: org میں کوئی بھی same type کا دوسرا agent stand up کر سکتا ہے۔ Roles org chart کے boxes نہیں رہتے؛ copyable skills بن جاتے ہیں۔ (Skills اس whole book کا portable lever ہیں؛ role ایک اور چیز ہے جو skill carry کر سکتی ہے۔)

Human-only roles explicit رکھیں۔ Humans اسی threads میں work کرتے ہیں جہاں agents کرتے ہیں، مگر وہ roles hold کرتے ہیں جو only humans hold کر سکتے ہیں: consequential calls، costly judgment۔ Roster human judgment کو ان decisions پر رکھتا ہے جہاں یہ چاہیے، اور وہاں سے ہٹاتا ہے جہاں نہیں۔

جب agent کو another agent چاہیے

کبھی job one worker کے لیے بہت بڑا ہوتا ہے، اور lead agent sub-task کے لیے right context والے teammates spawn کرتا ہے: یہاں researcher، وہاں reviewer۔ یہ instinct correct ہے، اور یہی next course automate کرتا ہے: Workforce with Paperclip "lead hires a board" کو budgets اور approvals کے تحت managed workforce بناتا ہے۔ آپ کا roster اور role cards اس کے inputs ہیں۔ یہاں آپ roles ہاتھ سے لکھتے ہیں تاکہ سمجھ سکیں Paperclip بعد میں آپ کے لیے کیا کرے گا۔

Underlying feature پر دو honest notes، mid-2026 تک: Claude Code agent teams experimental ہیں اور default disabled ہیں (setting سے on ہوتے ہیں)، اور صرف lead teammates spawn کرتا ہے؛ teammates اپنے nested نہیں بنا سکتے۔ اس لیے "agents spinning up agents" اصل میں "lead spawns a flat team" ہے۔ اسے early سمجھیں، اور production میں lean کرنے سے پہلے current docs پڑھیں۔

Draft it. 02-roster.md اور 03-role-cards/role-card.template.md کی copy open کریں اور paste کریں:

Draft a team roster for [team]. List every member, human and agent. For each: role, who owns it, the tools and access it needs, and its autonomy level. Mark the roles only a human should hold. Then write a full role card for [my worker]: owns, does NOT own, tools/access, how its work is verified, and what triggers an escalation to a human.

Check it. ہر member کا owner اور "does not own" ہے۔ ہر agent کے tools اور one clear escalation trigger ہیں۔ اگر two members same task claim کر سکتے ہیں تو scopes ابھی sharp enough نہیں۔

Checkpoint: everyone has a lane. Humans اور agents one roster پر ہیں، ہر ایک named job اور tools کے ساتھ۔ اب team کو direction دیں۔


حصہ 4: North star

Concept 8: Goal جو agent کو proactive بناتا ہے

Context اور roles agent کو assigned work کرواتے ہیں۔ North star اسے right work propose کرواتا ہے۔ North star ambitious، wide-reaching goal ہے جو team کو بتاتا ہے کون سے tasks اور workstreams worth doing ہیں: وہ one sentence جس سے باقی سب measure ہوتا ہے۔ Humans ہمیشہ اسے business mission میں grounded کر کے set کرتے ہیں۔

جب یہ written ہو جائے تو آپ اسے team کے agents سے share کرتے ہیں۔ پھر (اور یہی part لوگ skip کرتے ہیں) آپ name کرتے ہیں کہ کون سے agents اس پر unprompted act کر سکتے ہیں۔ ہر agent کو work propose نہیں کرنا چاہیے۔ صرف وہ agents جن کے پاس skills اور earned trust ہے کہ اسے well کر سکیں۔

Anthropic کی example small اور exact ہے: ایسی team جس کا north star تھا "make product onboarding more helpful"، اس کے agent نے onboarding error messages کی rewrites proactively recommend کیں: ایسی changes جنہوں نے اگلے week onboarding success measurably raise کی۔ Agent نے پوچھے جانے کا wait نہیں کیا۔ North star نے اسے بتایا کہ rewrite on-mission ہے۔

یہ آپ کی AI-Native Company mission ہے، one team تک pushed down۔ Company کے پاس mission ہے؛ team کے پاس north star ہے جو اسے serve کرتا ہے؛ agent کے پاس work ہے جو north star serve کرتا ہے۔ Line goal سے task تک straight چلتی ہے۔

Concept 9: Proactivity وہ privilege ہے جو آپ grant کرتے ہیں

Proactive agent کا risk یہ ہے کہ agent ایسا work propose کرے جسے اسے touch نہیں کرنا چاہیے۔ اس لیے proactivity named ہے، assumed نہیں۔ آپ کہتے ہیں کون سے agents workstreams suggest کر سکتے ہیں، اور north star ہر proposal کا test ہے۔ جس agent کو یہ grant نہیں ملا وہ اپنا assigned job پھر بھی کرتا ہے؛ بس freelance نہیں کرتا۔

Draft it. 04-north-star.md open کریں اور paste کریں:

Help me write a north star for [team]. It should be one ambitious goal, grounded in our mission. State why it matters. Name which agents on the roster may propose new work against it, and the guardrails on those proposals. Write it so an agent, given only this doc, could judge whether a new idea is on-mission.

Check it. اسے named agent کی طرح read کریں۔ صرف یہ doc given ہو تو کیا یہ on-mission idea کو off-mission idea سے الگ کر سکتا ہے؟ اگر نہیں، star steer کرنے کے لیے too vague ہے۔

Checkpoint: team کے پاس direction ہے۔ One goal، humans کے set کرنے کے لیے، named few کو allowed chase کرنے کے لیے۔ اب decide کریں انہیں کتنا run کرنے دینا ہے۔


حصہ 5: Trust، earned

Concept 10: Autonomy reliability کے ساتھ grow ہوتی ہے

آپ new colleague کو first day keys نہیں دیتے۔ آپ agent کو بھی first day 500 bug fixes نہیں دیتے۔ Anthropic کے engineers وہاں پہنچے (agents کو hundreds of fixes خود handle کرنے کے لیے dispatched کیا گیا) مگر start وہاں سے نہیں ہوا۔ Autonomy demonstrated reliability کے proportion میں grant کریں، پھر deliberately widen کریں، per task type۔

Task well کرنے کی tacit knowledge externalise کرنے کے لیے feedback cycles چاہیے: new human کے لیے بھی، agent کے لیے بھی۔ اور models change ہوں تو retest کریں: weak model کو help کرنے والا guardrail stronger model کو shackle کر سکتا ہے، اور model improve ہونے پر prompt reword کرنا پڑ سکتا ہے۔ Trust once set نہیں؛ tuned ہے۔

Trust ladder، چار rising steps autonomy level سے labelled۔ L1 "Review everything": human agent کے ہر decision کو check کرتا ہے۔ L2 "Verify the work": rubric یا second agent output کو human سے پہلے check کرتا ہے۔ L3 "Batch the escalations": agent صرف consequential calls، batched، surface کرتا ہے۔ L4 "Earned autonomy": agent approved scope کے اندر task type خود run کرتا ہے، repeated wins کے بعد scope widened۔ Steps کے نیچے L0 means draft only — human work کرتا ہے۔ Steps پر arrow "demonstrated reliability" labelled ہے؛ side note کہتا ہے "widen per task type, not all at once."

Ladder کو operational بنانے کے لیے fixed rungs دیں۔ Roster میں autonomy level per agent per task type set کریں، whole agent کے لیے one level نہیں:

LevelWhat the agent doesWhere the human is
L0Drafts only; the human does the workhuman does everything
L1Acts, but a human reviews every outputhuman reviews all
L2Acts; a verifier checks; human reviews only exceptionshuman reviews exceptions
L3Acts within limits; batches escalations to the humanhuman reviews batched escalations
L4Runs the task type on its own, within approved scopehuman reviews the weekly report

New agent task type پر L1 سے start کرتا ہے اور repeated, verified wins کے بعد اوپر earn کرتا ہے۔ Same agent ایک task type پر L4 اور دوسرے پر L1 ہو سکتا ہے: autonomy worker-on-a-job کو grant ہوتی ہے، worker in general کو کبھی نہیں۔

Concept 11: Work کو checkable بنائیں

Autonomy safely grow کرنے والی چیز یہ ہے: work کو human کے دیکھنے سے پہلے verify کیا جا سکتا ہے۔ Code کے tests ہیں، ظاہر ہے۔ مگر اکثر other work بھی grade ہو سکتا ہے: document کو rubric اور style guide کے against، report کو checklist کے against۔ جب آپ bar set کرتے ہیں اور ہر assignment vettable بناتے ہیں، quality high رہتی ہے اور intended سے drift نہیں کرتی۔

یہ team level پر Eval-Driven Development ہے (Eval-Driven Development)۔ وہاں eval worker کو automatically grade کرتا ہے۔ یہاں rubric وہی eval ہے جو one worker's output پر apply ہوتا ہے: same idea، checklist کی صورت میں جسے teammate run کر سکے۔

پھر doer-verifier: ایک agent task کرتا ہے، second agent کا only job اسے check کرنا ہے۔ (Anthropic اسے doer-verifier harness کہتا ہے۔) یہ cheap insurance ہے، اور human time save کرنے کے لیے agent time spend کرتا ہے: verifier drift catch کرتا ہے اس سے پہلے کہ آپ کی scarce attention اس پر spend ہو۔

Draft it. 05-verification-rubric.md اور 06-doer-verifier.md open کریں اور paste کریں:

Write a verification rubric for [my worker]'s main output: the concrete checks that decide whether the work is good enough to ship, in plain pass/fail terms. Then describe a doer-verifier setup: a second agent whose only job is to grade the first's output against this rubric and return pass/fail with reasons.

Check it. کیا second agent صرف اس rubric سے first agent کا work grade کر سکتا ہے، اور کیا آپ pass trust کریں گے؟ اگر "pass" کے بعد بھی آپ ہر line read کرنا چاہتے ہیں تو rubric specific enough نہیں۔

Concept 12: Human attention کو money کی طرح spend کریں

Agents independent ہوں تو نیا failure mode آتا ہے: humans output میں drown ہوتے ہیں۔ اس لیے human attention کو وہی scarce resource سمجھیں جو یہ ہے۔ Best teams اپنے agents سے questions batch کرواتی ہیں ایک pass میں، key context repeat کرواتی ہیں تاکہ human fast up to speed آئے، اور limit کرتی ہیں کہ human کو ایک بار میں کتنی items دکھیں۔

کچھ teams ایک agent کو sole job دیتی ہیں کہ humans تک کیا elevate ہو۔ کچھ cap لگاتی ہیں کہ agent per day کتنا کرے: slow کرنے کے لیے نہیں، بلکہ تاکہ humans work سے meaningfully engage کر سکیں، اور وہ skills hold رکھیں جو matter کرتی ہیں۔

Reflection کو cycle میں build کریں۔ Team سے weekly "lessons and missteps" report مانگیں، تاکہ mistakes track ہوں اور repeat ہونا بند کریں۔ Track کریں ہر agent نے کن task types پر autonomy earn کی، اور scope صرف repeated wins کے بعد widen کریں۔ Report وہ way ہے جس سے team luck کے بجائے purpose سے better ہوتی ہے۔

Draft it. 07-weekly-report.md اور 08-attention-budget.md open کریں اور paste کریں:

Draft a weekly team report template that captures, for each agent: what it shipped, its lessons and missteps this week, and which task types it has earned more autonomy on. Then propose an attention budget for me: what I will review, what gets batched, and the cap on how much reaches me at once.

Check it. Busy week میں کیا یہ human سے important things decide کرواتا ہے، اور nothing else؟ اگر human کو still everything read کرنا پڑتا ہے تو budget scarce resource protect نہیں کر رہا۔

Checkpoint: trust dial ہے، switch نہیں۔ Work checkable ہے، autonomy proof کے ساتھ widen ہوتی ہے، اور human attention وہاں spend ہوتی ہے جہاں count کرتی ہے۔ آپ کے پاس whole operating model ہے۔


حصہ 6: اپنی team stand up کریں

آپ نے چار practices سیکھیں اور ہر ایک کے لیے document draft کیا۔ اب انہیں one team's operating manual میں assemble کریں۔

Operating manual: one folder، eight files

Manual ایک folder ہے، numbered in the order you fill it۔ Starter exactly یہ ship کرتا ہے:

human-agent-team/
01-working-agreement.md few clear boundaries · what's public · what's private
02-roster.md every member · owner · tools · autonomy level (L0–L4)
03-role-cards/ one card per agent (copy the template)
role-card.template.md
reconciler.md (filled example)
04-north-star.md the one goal · which agents may act on it unprompted
05-verification-rubric.md the pass/fail checks a verifier can apply
06-doer-verifier.md which agent checks which, and what happens on fail
07-weekly-report.md shipped · lessons & missteps · autonomy changes
08-attention-budget.md what you review · what's batched · the cap

ہر file میں short required checklist ہے (template میں، اور ہر Part کے end پر "Check it" کے طور پر repeated)۔ File تب done ہے جب checklist all yes ہو۔ Manual تب done ہے جب all eight done ہوں۔

Order میں fill کریں

Order dependency order ہے۔ Four practices five fill-steps میں map ہوتی ہیں (trust practice verification اور attention میں split ہوتی ہے)، اور وہ eight files produce کرتی ہیں: one manual، تین zoom levels پر seen۔

  1. Working agreement: public کیا ہے، few boundaries، کیا private رہتا ہے۔ (Context first؛ اس کے بغیر کچھ work نہیں کرتا۔)
  2. Roster + role cards: ہر member، وہ کیا own کرتا ہے، tools، escalation triggers۔
  3. North star: goal، اور کون اسے unprompted chase کر سکتا ہے۔
  4. Verification rubric + doer-verifier: آپ کے دیکھنے سے پہلے work کیسے check ہوتا ہے۔
  5. Weekly report + attention budget: team کیسے improve ہوتی ہے اور آپ کا time کیسے protect ہوتا ہے۔

Five operating documents dependency order میں، ہر ایک next کو feed کرتا ہے: working agreement، پھر roster and role cards، پھر north star، پھر verification rubric and doer-verifier، پھر weekly report and attention budget۔ ان میں سے دو Phase 3 کے rest کو hand off کرتے ہیں: roster Workforce with Paperclip کو feed کرتا ہے (جو اس سے hire کرتا ہے)، اور attention budget Identic AI کو feed کرتا ہے (جو اسے automate کرتا ہے)۔ Caption کہتا ہے: fill each with your agent; decide each yourself; the starter ships these five as templates.

ہر ایک کو same rhythm سے run کریں: Part کا prompt paste کریں، agent کا draft read کریں، اور decide کریں: cut، sharpen، approve۔ Authority آپ ہیں؛ agent drafter ہے۔

Anthropic کے five questions کو done-test کے طور پر use کریں۔ Team ready ہے جب ہر answer yes ہو:

  1. کیا agents اور humans کو required information اور access public اور broadly searchable ہیں؟
  2. کیا آپ اپنی team کا roster، humans اور agents، لکھ سکتے ہیں اور کہہ سکتے ہیں ہر member کیا own کرتا ہے؟
  3. کیا ہر human اور agent کے پاس اپنا job کرنے کے right tools ہیں؟
  4. کیا key work products verify کرنے کے لیے rubrics یا tests ہیں؟
  5. کیا team کے پاس clear north star ہے جسے everyone reference کر سکے؟

Worked example: finance close team

Templates abstract رہتے ہیں جب تک filled one نہ دیکھیں۔ یہ small finance team ہے جو monthly close run کرتی ہے (human controller اور تین agents) اور important parts concrete ہیں۔ (Starter اسے examples/finance-close-team.md کے طور پر ship کرتا ہے۔)

North star: building سے باہر جانے والا ہر number right ہو اور اپنے source تک traceable ہو۔

MemberHuman/AgentOwnsTools / accessAutonomy
ControllerHumanSign-off on anything that leaves the companynonehuman-only
PullerAgentPulling figures from the source systemsERP / GL read-onlyL2 (verified)
ReconcilerAgentMatching figures across sources, flagging variancesthe ledger, the system of recordL3 on routine ties; L1 on new accounts
CheckerAgentGrading the reconciliation against the rubricthe rubricdoer-verifier only

Safe بنانے والی detail escalation trigger ہے، جو Reconciler کے role card پر plainly written ہے۔

Example: Reconciler کا escalation trigger

Controller کو escalate کریں جب: کوئی variance account balance کے 1% یا $10,000 سے exceed کرے، whichever is smaller (deliberately conservative، تاکہ small accounts بھی small swings پر escalate ہوں)، یا کوئی figure system of record میں source کے بغیر ہو۔ Otherwise، tie کریں اور log کریں۔

اور verification rubric جسے Checker apply کرتا ہے۔ Reconciliation صرف تب pass ہے اگر:

Example: Checker کا rubric
  1. every balance ties to its source within threshold; 2. every variance has a reason code; 3. every source document is linked in the system of record; 4. every exception is listed in the escalation queue.

یہ escalation line miniature میں whole operating model ہے۔ Reconciler routine ties خود run کرتا ہے (L3)، Checker human کے دیکھنے سے پہلے rubric کے against verify کرتا ہے (doer-verifier)، unsourced یا material numbers stop ہو کر human تک پہنچتے ہیں (attention only where it counts)، اور Controller only role hold کرتا ہے جو outside world کو number ship کرتا ہے۔ Note کریں Reconciler routine ties پر L3 مگر new accounts پر L1 ہے: autonomy per task type، per agent نہیں۔ Thresholds اور sources swap کریں، یہی shape accounts payable، payroll، یا board reporting run کرتی ہے۔

Checkpoint: آپ team run کر سکتے ہیں۔ Working agreement، clear roles والا roster، north star، work verify کرنے کا way، اور اپنی attention کے لیے budget۔ یہی operating model ہے، اور یہی وہ چیز ہے جس پر باقی workforce courses run کرتے ہیں۔


حصہ 7: Ceiling، جہاں یہ grow ہوتا ہے

Operating model بذات خود team scale نہیں کرتا۔ یہ rules set کرتا ہے؛ next four courses وہ machinery ہیں جو ان پر run کرتی ہے، اور ہر ایک آپ کے ابھی لکھے artifact کو input بناتا ہے:

  • Workforce with Paperclip roster automate کرتا ہے: lead agent budgets، approvals، اور full audit trail کے تحت board of workers hire اور run کرتا ہے۔ آپ کا roster اور role cards وہ ہیں جن سے یہ hire کرتا ہے۔
  • Self-Expanding Workforce work grow ہونے پر team grow کرتی ہے، بجائے اس کے کہ ہر worker آپ hand-add کریں۔
  • Identic AI آپ کا attention budget automate کرتا ہے: signed identity جو آپ کے set limits کے اندر routine approvals clear کرتی ہے اور صرف consequential ones surface کرتی ہے۔
  • Payment-Enabled Agents worker کو transact کرنے دیتا ہے: cost save کرنے والی team سے earn کرنے والی team تک step۔

Operating model پہلے build کریں، پھر اس machinery کے پاس run کرنے کے لیے sound چیز ہوتی ہے۔ اسے skip کریں تو آپ ایسی team automate کر رہے ہیں جو start سے coherent نہیں تھی۔

اور practices themselves کا ceiling: humans کے لیے ان میں کچھ new نہیں۔ Clear north star، defined roles، open میں work، quality کے لیے shared bar، mistakes سے learn کرنے کی جگہ: healthy team habits decades سے known ہیں۔ Agents انہیں introduce نہیں کرتے۔ یہ skip کرنا fatal بنا دیتے ہیں، کیونکہ agent bad practice کو good practice جتنی fast scale کرے گا۔ Agents سے most value لینے والی teams وہ ہیں جو fundamentals پر most disciplined ہیں۔

یہ وہ line ہے جس کی طرف book چل رہی تھی: Digital FTEs کی workforce، اس operating model پر run ہوتی ہوئی، ایک AI-native company کے اندر۔ آپ اس operating model پر one worker سوچتے ہوئے آتے ہیں۔ آپ leave کرتے ہیں اس قابل ہو کر کہ ان کی team people کے ساتھ run کریں، اور جو team produce کرے اسے scale، govern، اور sell کریں۔

وہی manual، دوسری teams

Artifact set ایک shape ہے؛ team بدلتی ہے، documents نہیں:

  • Research team: analyst، synthesiser، اور fact-checker agents under "answer the question, with sources" north star۔
  • Delivery team: planner، doer، اور doer-verifier under quality rubric، human ship decision hold کرتا ہے۔
  • Finance team: data-pull agent، reconciliation agent، اور human جو building سے باہر جانے والے ہر number کو own کرتا ہے۔

Same five documents۔ Different roster، different north star، different rubric۔

Capstone: real team stand up کریں

اپنی organisation میں real goal pick کریں اور اس کے لیے full artifact set produce کریں: working agreement، roster، role cards، north star، verification rubric، doer-verifier، weekly report، attention budget۔

1Your Work
2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

Starter ایک graded example (examples/finance-close-team-graded.md) ship کرتا ہے، complete finance manual جو ان eight checks کے against 15/16 scored ہے، one weak check named ہے اور fix shown ہے۔ اپنے manual کو grade کرنے سے پہلے اسے پڑھیں: یہ دکھاتا ہے rubric کیا catch کرتا ہے اور strong manual کیسا لگتا ہے۔

Sources

یہ course Anthropic کے human-agent teams چلانے کے account سے سکھاتا ہے، اس book کے already-built frameworks پر mapped۔ Primary source اور وہ Anthropic material جس پر یہ draw کرتا ہے:

Flashcards Study Aid


Test Your Understanding

Checking access...