Skip to main content

اے آئی کے دور میں سوچنے کا طریقہ: ایک working day crash course

6 Disciplines · 6 AI Failure Modes · ایک قاعدہ


پیر کی صبح دو لوگ ایک ہی AI tool کھولتے ہیں۔ کام بھی ایک ہی ہے: کیا اپنا budget ایک experienced person hire کرنے پر لگائیں، یا وہی رقم ایسے AI tools خریدنے میں لگائیں جو پوری team کو تیزی سے کام کرنے میں مدد دیں؟ دونوں کے پاس Claude، ChatGPT، اور Gemini تک access ہے۔ دونوں کے پاس فیصلہ کرنے کے لیے ایک week ہے۔

Person A جمعہ کو ایسی recommendation کے ساتھ finish کرتی ہے جسے وہ explain کر سکتی ہے۔ اس نے لکھا کہ AI کی کن claims سے وہ agree ہوئی، کن پر اس نے push back کیا، اور کیا چیز اس کا mind change کرے گی۔ Person B جمعہ کو ایک polished document کے ساتھ finish کرتی ہے جو زیادہ تر وہی repeat کرتا ہے جو AI نے پیر کو کہا تھا۔ جب boss پوچھتا ہے، "آپ نے یہ recommend کیوں کیا؟"، تو وہ اپنی reasoning explain نہیں کر پاتی۔ اس نے بس وہ forward کر دیا جو اچھا لگ رہا تھا۔

Same tools. Same problem. مختلف outcomes.

Two paths, same AI tool. Person A thinks first: forms own opinion before opening AI, reads AI's answer and compares, pushes back on 3 claims, writes down what would make her change her mind, Friday can explain every decision. Person B accepts first: opens AI and asks immediately, accepts the answer, polishes the wording, forwards the document, Friday cannot explain why she recommended this.

فرق thinking ہے۔ Person A نے AI سے پوچھنے سے پہلے اپنی رائے بنائی۔ Person B نے AI کے پہلے answer کو اپنی رائے بننے دیا۔

یہی gap یہ crash course بند کرتا ہے۔ 6 thinking habits، 3 مختصر parts، no code۔ ہر habit اس specific طریقے کو address کرتی ہے جس سے AI آپ کو mislead کرتا ہے جب آپ اسے اپنی جگہ سوچنے دیتے ہیں۔ ساتھ مل کر یہ AI کو magic answer machine سے thinking partner بناتے ہیں: آپ پہلے predict کرتے ہیں، AI answer دیتا ہے، آپ compare کرتے ہیں، پھر decide کرتے ہیں۔

Prerequisites۔ یہ page فرض کرتا ہے کہ آپ 2026 میں AI Prompting مکمل کر چکے ہیں۔ اس course نے mechanics سکھائے تھے: AI کو context کیسے دیں، web search اور deep research کیسے use کریں، images اور audio کے ساتھ کیسے کام کریں، اور AI desktop apps کیسے use کریں۔ یہ course وہ thinking discipline سکھاتا ہے جس سے mechanics کا payoff ملتا ہے۔ ابھی کسی دوسرے tab میں Claude، ChatGPT، یا Gemini کا free account کھولیں۔ Practice sections میں آپ اسے use کریں گے۔

AI models پر note۔ Practice exercises میں AI-graded feedback ہے۔ یہ strong، current AI model کے ساتھ best کام کرتے ہیں (Claude، ChatGPT، یا Gemini اپنے best reasoning level پر)۔ Older یا weaker models vague یا overly positive feedback دیتے ہیں، چاہے آپ نے کیا submit کیا ہو۔ آپ کے پاس جو best model ہو اسے use کریں۔ Brand matter نہیں کرتا؛ model کا carefully reason کر پانا matter کرتا ہے۔


📚 Teaching Aid

پوری Slideshow کھولیں

پوری Presentation دیکھیں، AI کے ساتھ سوچنا


ایک line میں rule

Deliverable کبھی answer نہیں ہوتا۔ Deliverable سوچ کا documented evidence ہوتا ہے۔

اسے 2 claims کی طرح پڑھیں۔ پہلا، deliverable، یعنی وہ چیز جو آپ اپنے boss، professor، یا client کو دیتے ہیں، اب صرف answer نہیں ہے۔ AI seconds میں polished answer produce کر سکتا ہے؛ اب مشکل part polished answer بنانا نہیں رہا۔ دوسرا، deliverable کو trustworthy بناتی ہے آپ نے کیسے سوچا اس کا written record: AI سے پوچھنے سے پہلے lock کی ہوئی prediction، وہ row جہاں آپ نے AI کی claim کو REJECT mark کیا اور reason لکھا، اور cascade map جس میں آپ نے side effects trace کیے (ایک page diagram جس میں ہر affected group کے لیے چھوٹا column ہوتا ہے، جیسے students، professors، parents، sponsors، اور ہر column کے نیچے 3 arrows دکھاتے ہیں کہ پہلے کیا ہوتا ہے، پھر اس سے کیا ہوتا ہے، پھر اس کے بعد کیا ہوتا ہے؛ Discipline 4 اسے مکمل explain کرتا ہے)۔ اگر کوئی پوچھے "آپ نے یہ decide کیوں کیا؟"، تو آپ evidence پر point کرتے ہیں۔

Practice میں evidence اکثر deliverable کے اندر رہتا ہے: footnote، "considered and rejected" paragraph، figure کے طور پر cascade map، یا آخر میں "what would change my mind" sentence۔ کبھی یہ deliverable کے ساتھ working doc میں رہتا ہے۔ دونوں cases میں، جب کوئی پوچھے کیوں، آپ point کر سکتے ہیں۔ اگر آپ کسی چیز پر point نہیں کر سکتے، تو آپ کے پاس ایسا answer ہے جسے آپ defend نہیں کر سکتے، اور 2026 میں وہ deliverable نہیں ہے۔

کیا chat link خود evidence ہے؟

کبھی کبھی۔ Chat session AI نے کیا کہا اور آپ نے کیا پوچھا، سب capture کرتا ہے، اس لیے یہ کسی بھی reasoning receipt سے زیادہ complete ہو سکتا ہے۔ Low-stakes work کے لیے، جیسے code debug کرنا، quick research، exploratory brainstorm، chat link اکیلا اکثر کافی ہے۔ لیکن serious deliverables کے لیے chat link کی 3 limits ہیں: وہ دکھاتا ہے AI نے کیا کہا، مگر یہ نہیں کہ آپ نے کیا decide کیا؛ وہ busy reader کے لیے بہت لمبا ہوتا ہے؛ اور وہ نہیں دکھاتا کہ AI کہاں غلط تھا، کیونکہ catches آپ کے head میں رہتے ہیں، transcript میں نہیں۔ Chat link کو raw material کی طرح treat کریں، جیسے academic paper raw data کو treat کرتا ہے۔ Reasoning receipt یا memo وہ deliverable ہے جو آپ audience کو دیتے ہیں؛ chat link appendix یا footnote میں جاتا ہے۔

Practice میں یہ کیسا دکھتا ہے۔ Opening والے Person A اور Person B یاد کریں: same problem، same AI، different outcomes۔ جمعہ صبح boss دونوں سے پوچھتا ہے: "آپ نے یہ recommend کیوں کیا؟" Person B کے پاس point کرنے کے لیے کچھ نہیں۔ وہ AI کی مدد سے بنا document forward کرتی ہے اور کہتی ہے کہ یہ صحیح لگا۔ Boss اسے پڑھتا ہے، 2 claims سے disagree کرتا ہے، اور اب جاننے کا کوئی طریقہ نہیں کہ Person B نے ان claims کو examine کیا تھا یا بس accept کر لیا تھا۔ Person A اپنا working doc کھولتی ہے اور کہتی ہے: "Monday کو میں نے predict کیا تھا کہ experienced hire better choice ہو گا۔ AI analysis نے وہ prediction flip کر دی، اور یہاں ہے why I changed my mind: 3 claims جو میں نے check کیں، 1 جسے میں نے reject کیا، اور وہ assumption جو میری recommendation واپس بدل دے گی۔" Same problem. دو بالکل مختلف conversations۔

Evidence آپ کو اسی deliverable میں کیا دیتا ہے؟ 2 چیزیں۔ ایک: writing کرنے کا act thinking کو force کرتا ہے۔ آپ specific prediction تب تک نہیں لکھ سکتے جب تک آپ decide نہ کر لیں کہ آپ واقعی کیا believe کرتے ہیں، اور آپ کسی claim کو REJECT تب تک mark نہیں کر سکتے جب تک explain نہ کریں why۔ Writing کے بغیر thinking skip کرنا آسان ہے: آپ AI کا polished answer پڑھتے ہیں، وہ صحیح لگتا ہے، اور آپ اسے اپنی رائے بنا لیتے ہیں۔ Writing وہ part ہے جسے fake نہیں کیا جا سکتا۔ دو: written record صرف audit trail نہیں، working tool ہے۔ جس bank manager نے لکھا تھا "my guess is 70% of these customers are app-only" اور AI سے 45% answer دیکھا، اس نے صرف disagreement document نہیں کیا۔ 25-point gap اس کی report کی opening line اور recommendation کی spine بن گیا۔ Record وہ surface ہے جہاں thinking کا second pass ہوتا ہے، اور deliverable اصل میں second pass میں improve ہوتا ہے۔

بدلا یہ نہیں کہ چیزیں لکھنی چاہییں۔ بدلی skip کرنے کی cost ہے۔ جب polished output expensive تھا، مشکل part چیز بنانا تھا۔ AI نے polished output free کر دیا۔ Bottleneck producing work سے evaluating work پر shift ہو گیا، اور written evidence evaluation کرنے کا طریقہ ہے۔ Tools ہر 6 months میں بدلتے ہیں؛ یہ نہیں۔

بنیادی نکات (5 bullets)

Five AI failure modes paired with the five habits that answer them. Row 1: AI takes over your thinking، think before you ask, write your own answer first. Row 2: AI sounds equally good whether right or wrong، keep a written record, mark each claim accept, reject, or revise. Row 3: AI sounds confident even when wrong، scan for errors by name, check each of the six types before you act. Row 4: AI gives the first-order answer and ignores side effects، trace what happens next across every group affected. Row 5: AI wants to be your oracle and your judgment quietly fades، work WITH AI not for it, you decide and think while AI researches and drafts. A sixth habit, testing where common advice breaks, appears in the full sections below.

آپ نے ابھی rule سیکھا۔ باقی page جن 6 habits کو سکھائے گا، ان میں سے 5 یہاں short version میں ہیں۔ Bullets بتاتی ہیں کہ کیا کرنا ہے؛ sections دکھاتے ہیں کیسے۔ (چھٹی habit، یعنی common advice کہاں ٹوٹتی ہے، bullet سے زیادہ setup چاہتی ہے اور نیچے اپنا section رکھتی ہے۔)

  1. AI سے پوچھنے سے پہلے سوچیں۔ کوئی بھی AI tool کھولنے سے پہلے لکھیں کہ آپ کو answer کیا لگتا ہے۔ کیوں؟ کیونکہ AI کا answer پڑھتے ہی وہ آپ کی thinking پر قبضہ کر لیتا ہے۔ اگر AI کچھ reasonable کہتا ہے، تو آپ بغیر realize کیے اسے اپنا answer بنا لیتے ہیں۔ اپنا answer پہلے لکھنا independent judgment بچاتا ہے۔

  2. جو آپ نے accept کیا اور جو reject کیا، اس کا written record رکھیں۔ جب AI claims یا recommendations دے، ہر claim پر لکھیں: کیا میں agree کرتا ہوں؟ کیا disagree کرتا ہوں؟ کیا AI نے کچھ important miss کیا؟ ہر ایک کے لیے 1 sentence reason لکھیں۔ اگر آپ AI کی ہر بات سے agree کرتے ہیں اور کہیں push back نہیں کرتے، تو شاید آپ نے hard enough think نہیں کیا۔

  3. Polished writing، correct writing نہیں ہوتی۔ AI ہمیشہ confident اور professional لگتا ہے، even when wrong۔ Smooth AI output میں 6 specific error types چھپتے ہیں۔ AI نے جو لکھا اسے send، publish، یا act کرنے سے پہلے ہر error type کو name سے check کریں۔

  4. Obvious answer کبھی complete answer نہیں ہوتا۔ جب AI decision analyze کرتا ہے، تو وہ آپ کی پوچھی ہوئی چیز پر focus کرتا ہے اور side effects ignore کرتا ہے۔ کسی بھی important decision سے پہلے، affected people اور groups میں آگے کیا ہوتا ہے trace کریں۔ ایسی جگہیں تلاش کریں جہاں side effects واپس آ کر original decision کو undo کرتے ہیں۔

  5. Best results AI کے ساتھ کام کرنے سے آتے ہیں، اسے wheel دینے سے نہیں۔ Alone کام کرنا slow ہے۔ AI کو سب کچھ دے دینا generic output دیتا ہے۔ Winning approach: thinking اور deciding آپ کرتے ہیں، research اور drafting AI کرتا ہے۔ اگر آپ اسے الٹ دیتے ہیں (AI thinks, you just edit)، تو آپ unnecessary ہو جاتے ہیں۔ جو لوگ صرف AI کے answers pass along کرتے ہیں، eventually AI ہی انہیں replace کر دیتا ہے۔

مکمل framework: 6 disciplines

اوپر کی 5 bullets working summary ہیں۔ یہاں پوری architecture ہے: 6 disciplines، ہر ایک اپنی answer کرنے والی AI failure mode سے one-to-one paired، 3 parts میں grouped۔

6 disciplines کو 6 AI failure modes سے pair کیا گیا ہے، 3 parts میں arranged۔ Part 1 Foundations posture set کرتا ہے: Prediction Lock، Reasoning Receipt۔ Part 2 Detection وہ پکڑتا ہے جو AI miss کرتا ہے: Error Taxonomy، Thinking in Systems۔ Part 3 Origination وہ کرتا ہے جو AI نہیں کر سکتا: First Principles، Working WITH AI۔ ہر part اگلے کو enable کرتا ہے۔ Banner: "ان 6 کے نیچے، deliverable سوچ کا documented evidence ہے۔" Figure 1: 6 disciplines، 6 AI failure modes سے map ہوتی ہیں، 3 parts میں arranged۔

3 parts order میں چلتے ہیں۔ Part 1، Foundations، AI سے پوچھنے سے پہلے سوچنے کے بارے میں ہے، یعنی پہلے اپنا position لیں، پھر ہر answer پر آپ کیا decide کرتے ہیں اسے track کریں۔ Part 2، Detection، AI جو غلط کرتا ہے اسے پکڑنے کے بارے میں ہے، یعنی confident prose میں دفن mistakes، اور وہ side effects جو وہ کبھی trace نہیں کرتا۔ Part 3، Origination، اس thinking کے بارے میں ہے جو AI آپ کے لیے نہیں کر سکتا، یعنی یہ تلاش کرنا کہ common advice کہاں ٹوٹتی ہے، اور جب AI قبضہ کرنے کی کوشش کرے تو اپنا judgment in charge رکھنا۔ ہر part اس سے پہلے والے پر depend کرتا ہے۔

اس page پر 4 terms بار بار آئیں گے۔ Discipline وہ thinking habit ہے جسے آپ practice کرتے ہیں، یعنی کچھ جو آپ کرتے ہیں۔ Failure mode وہ specific طریقہ ہے جس سے AI آپ کو mislead کرتا ہے، یعنی کچھ جو AI کرتا ہے۔ ہر discipline اپنی failure mode سے one-to-one paired ہے (figure میں ہر discipline name کے نیچے italic line میں)۔ Course کا part ایسے disciplines group کرتا ہے جن کا job shared ہے؛ 3 parts ہیں (Foundations، Detection، Origination)، ہر part میں 2 disciplines، اور ہر part اگلے کو enable کرتا ہے۔ Deliverable وہ چیز ہے جو آپ boss، professor، یا client کو دیتے ہیں؛ 2026 میں یہ answer plus وہ documented evidence of thinking ہے جس نے answer produce کیا۔

Figure میں ہر numbered box ایک discipline ہے۔ نیچے small caps line move ہے: وہ specific action جو discipline آپ سے کرواتی ہے، sticky note پر fit ہونے جتنا چھوٹا۔ Discipline name بتاتا ہے habit کو کیا کہتے ہیں؛ move بتاتا ہے actually کرنا کیا ہے۔


یہاں سے شروع کریں۔ Part 1 کی 2 disciplines AI کو آپ کی جگہ thinking کرنے سے روکتی ہیں۔ انہیں skip کریں گے تو باقی 4 اپنا کام نہیں کر سکتیں۔


یہ page کیسے پڑھیں

آپ کے پاس وقتکیا پڑھیںکیا skip کریں
45 minutesHabits 1، 2، 3، اور 6 (صرف read، no exercises)Habits 4 اور 5 (بعد میں واپس آئیں)
90 minutesتمام 6 habits + worked examples، read-onlyAICheck submissions
A working day (recommended)سب کچھ، ہر exercise اپنے week کے real decision پر چلائیںکچھ نہیں

یہ habits تب stick ہوتی ہیں جب آپ انہیں اپنے week کے real problems پر try کرتے ہیں۔ 90 minutes میں page پڑھنا moves دکھاتا ہے۔ Real decisions پر exercises کرنا انہیں آپ کا بناتا ہے۔


حصہ 1: بنیادیں (posture، یعنی شروع کرنے سے پہلے آپ کا stance)

اگر باقی سب skip کریں تو بھی یہ 2 habits نہ skip کریں۔ یہ AI کے ساتھ لوگوں کی 2 سب سے بڑی mistakes fix کرتی ہیں:

  1. Mistake 1: AI آپ کی جگہ سوچتا ہے۔ آپ سوال پوچھتے ہیں، AI smooth answer دیتا ہے، اور آپ اپنی رائے بنانے سے پہلے اسے accept کر لیتے ہیں۔ Habit 1 (Prediction Lock) اسے fix کرتی ہے: آپ AI کھولنے سے پہلے لکھتے ہیں کہ آپ کیا سوچتے ہیں۔

  2. Mistake 2: AI کا پہلا draft finished لگتا ہے۔ Writing اتنی polished ہوتی ہے کہ آپ check کیے بغیر send کر دیتے ہیں کہ وہ واقعی correct ہے یا نہیں۔ Habit 2 (Reasoning Receipt) اسے fix کرتی ہے: آپ ہر claim سے گزرتے ہیں اور لکھتے ہیں کہ آپ agree کرتے ہیں، disagree کرتے ہیں، یا verify کرنا ہے۔

مل کر یہ 2 habits thinking آپ کے پاس رکھتی ہیں اور typing AI کے پاس۔ Parts 2 اور 3 میں ہر چیز ان پر build کرتی ہے۔

اصول 1: پیش گوئی لاک

آپ AI سے ایک ایسا سوال پوچھتے ہیں جو matter کرتا ہے۔ جواب تیز اور smooth واپس آتا ہے۔ آپ سر ہلا دیتے ہیں۔ آپ اسے forward کر دیتے ہیں، یا اس پر act کر لیتے ہیں۔ دو دن بعد کوئی پوچھتا ہے کیوں آپ اس direction میں گئے، اور آپ کو پتا چلتا ہے کہ جواب AI کا تھا۔ نیچے آپ کا اپنا جواب نہیں تھا۔

یہ sticky note پر چار lines ہیں۔ تین منٹ۔ AI کھولنے سے پہلے۔ سمجھانا مشکل، کرنا آسان؛ اس لیے پہلے کسی اور کے decision پر ساتھ چلتے ہیں۔

مایا تیرہ سال کی ہے۔ اس کے school نے email کی: ایک summer track choose کرو۔ Debate camp (دو ہفتے، سب دوست جا رہے ہیں) یا coding bootcamp (ایک ہفتہ، curiosity ہے مگر تھوڑی nervous ہے)۔ اس کے dad اس کے کندھے کے اوپر email پڑھتے ہیں۔ "بس ChatGPT سے پوچھ لو، اسے پتا ہو گا۔"

مایا کی جگہ خود کو رکھیں۔ Question بھیجنے سے پہلے اس کے لیے چار lines لکھیں۔

Prediction Lock کی چار lines، Maya کے filled-in answers کے ساتھ: اصل decision، فیصلہ settle کرنے والا fact، AI سے پہلے اپنا decision، confidence، اور وہ شرط جو decision flip کرے گی۔ قدم 1۔ ایک sentence میں، یہ decision اصل میں کس بارے میں ہے؟

اگر آپ نے لکھا "debate یا coding کرنی ہے"، دوبارہ کوشش کریں۔ یہ label ہے، decision نہیں۔ Decision وہ ہے جو label چھپا رہا ہے۔ شاید یہ اس بارے میں ہے کہ وہ دوستوں کے ساتھ جائے گی یا وہ choose کرے گی جو وہ اکیلی ہوتی تو کرتی۔ یا کیا coding miss کرنے کا regret debate miss کرنے سے زیادہ ہو گا۔ یا کیا وہ nervous ہونے کے باوجود curiosity follow کرنے کے لیے ready ہے۔ جو closest لگے، ایک sentence میں لکھیں۔ cause، topic نہیں۔

قدم 2۔ وہ ایک question جس کا answer سب سے بڑا حصہ settle کرے۔

مایا ChatGPT سے سب کچھ نہیں پوچھ سکتی۔ وہ ایک question کیا ہے جس کا answer اس کے لیے decision narrow کرے گا؟

اگر آپ نے general سوال لکھا ("which is better?")، دوبارہ کوشش کریں۔ Question کو specific چیز پر point کرنا چاہیے: number، name، measurement، یا particular fact۔ "کیا bootcamp Python use کرے گا؟" specific ہے۔ اس کا school already 9th grade میں Python پڑھاتا ہے، اس لیے answer decision change کرتا ہے۔ Maya کے لیے اپنا ایک question لکھیں۔

قدم 3۔ Answer کے بارے میں آپ کا guess۔

جواب specific ہو۔ "It depends" نہیں۔ اگر question ہے "کیا bootcamp Python use کرے گا؟"، آپ کا guess yes یا no ہے۔ اگر question ہے "September میں اس کے کتنے دوست اب بھی close ہوں گے؟"، آپ کا guess number ہے ("تقریباً آدھے")۔

اگر آپ guess نہیں کر سکتے، question بہت vague تھا۔ اسے narrow کریں یا دوسرا choose کریں۔ اپنا guess لکھیں۔

قدم 4۔ کتنے sure ہیں، اور کیا چیز Maya کا mind change کرے گی۔

اس پر percentage لگائیں۔ 60%، 75%، number matter نہیں کرتا۔ Number attach کرنا matter کرتا ہے۔ پھر ایک specific چیز name کریں جو اسے flip کرے گی۔ "70%۔ اگر bootcamp وہ چیز use کرتا ہے جو school already پڑھاتا ہے، debate wins کیونکہ debate اسے کہیں اور نہیں ملے گی۔"

اگر آپ flip-condition name نہیں کر سکتے، آپ کے پاس position نہیں۔ آپ کے پاس hope ہے۔ Step 3 دوبارہ لکھیں جب تک Step 4 میں کچھ real نہ آ جائے۔

آپ کو کیسے پتا چلے گا کہ lock نے کام کیا؟

ایک test ہے، اور وہ lines گننے سے متعلق نہیں:

کیا آپ اونچی آواز میں کہہ سکتے ہیں کہ AI کھولنے سے پہلے آپ کی position کیا تھی، اور کون سی چیز آپ کا mind change کرتی؟

اگر ہاں، lock نے کام کیا۔ line count matter نہیں کرتا۔

اگر نہیں، یعنی آپ خود کو یہ کہتے پائیں کہ "AI نے X کہا تو میں نے X کر لیا" یا "میں نے سوچا اور جو AI suggest کرے گا وہی decide کیا"، تو lock نے کام نہیں کیا۔ line count پھر بھی matter نہیں کرتا۔

چار lines training wheels ہیں۔ مقصد skip کرنا مشکل بناتی ہیں۔ چند ہفتوں کی practice کے بعد آپ چاروں کو ایک paragraph یا چند mental notes میں compress کر سکتے ہیں، اور lock پھر بھی کام کرے گا۔ لیکن پہلے 10 times یہ چار lines explicit لکھیں۔ یہی جاننے کا واحد طریقہ ہے کہ آپ نے واقعی position commit کی، صرف یہ نہیں سوچا کہ commit کی ہے۔


چار lines اصل میں کیا کر رہی ہیں

Maya کے لیے چار lines اس لیے کام کرتی ہیں کہ اس کا decision simple ہے: ایک binary choice، ایک fact جو اسے settle کر دے۔ ہر decision ایسا نہیں ہوتا۔ اس لیے template copy کرنے سے پہلے دیکھیں کہ ہر line اندر سے کیا کر رہی ہے۔ Maya کی lines ایک process کی مثال ہیں؛ decisions بدلتے ہیں، process نہیں۔

Prediction Lock کے چار parts ہیں، اور ہر decision میں یہی چار parts رہتے ہیں:

  1. اصل decision کو surface کریں۔ label ہٹائیں۔ Maya کا surface decision "debate یا coding" تھا۔ اصل decision تھا "دوستوں کو follow کرنا یا اپنی choice کرنا"۔ bank manager کا surface decision "دو branches close کرنا" تھا۔ اصل decision تھا "ایسے customer base کے ساتھ کیا کرنا جو app پر shift ہو چکا ہے"۔ label اصل question چھپاتا ہے۔ actual question name کریں۔
  2. وہ چیز identify کریں جو اسے settle کرے گی۔ کون سی information مل جائے تو decision obvious ہو جائے گا؟ Maya کے لیے ایک fact تھا: کیا bootcamp Python پڑھاتا ہے؟ hiring decision میں شاید 3 facts ہوں: کیا ہر candidate میں وہ specific skill ہے جو سب سے زیادہ چاہیے؟ budget allocation میں comparison ہو سکتا ہے: marginal dollar پر کس category کا return سب سے کم ہے؟ facts اتنے specific لکھیں کہ verify ہو سکیں۔
  3. position commit کریں۔ جو آپ پہلے سے جانتے ہیں، AI سے check کرنے سے پہلے، اس بنیاد پر آپ کیا کریں گے؟ اسے reasoning کے ساتھ لکھیں۔ Maya کے لیے: debate، کیونکہ school already Python پڑھاتا ہے۔ hiring میں: specific candidate کا نام اور وجہ۔ budget cut میں: line items اور وجہ۔ position صرف what نہیں؛ what plus why ہے۔
  4. reversal condition name کریں۔ کون سی specific finding position بدل دے گی؟ Maya: اگر bootcamp school سے باہر کچھ پڑھاتا ہے، coding wins۔ hiring میں: اگر second candidate کا reference top candidate سے significantly stronger ہو تو switch کریں۔ budget cut میں: اگر Category X کا projected revenue 30% سے زیادہ off ہو، تو دوسری category cut کریں۔ اگر آپ flip condition name نہیں کر سکتے، آپ کے پاس commitment نہیں؛ صرف preference ہے۔

Maya کی sticky note چار lines میں fit ہو جاتی ہے کیونکہ decision چھوٹا ہے۔ بڑا decision، جیسے hiring round، strategic pivot، یا major purchase، ہر part کے لیے ایک paragraph لے سکتا ہے۔ چھوٹا decision، جیسے lunch order جب واقعی care کرتے ہوں، ایک index card پر fit ہو سکتا ہے۔

ایک different shape والا worked example: فرض کریں آپ 3 software engineers میں سے ایک hire کر رہے ہیں اور decide کرنے کے لیے ایک week ہے۔

  • Real decision: "paper پر کون best ہے" نہیں، بلکہ "ان تینوں میں سے کون 12 months بعد بھی productive ہو گا جب codebase دو بار بدل چکا ہو گا"۔
  • What would settle it: ایک نہیں، 3 things۔ ہر candidate کا long projects پر track record، unfamiliar tools سیکھنے کی willingness، اور previous manager کا reference جس نے tough quarter میں اسے دیکھا۔
  • Your position: Candidate B، کیونکہ previous job پر 2-year stint durability suggest کرتا ہے، اور side project دکھاتا ہے کہ وہ بغیر کہے new tools pick کر لیتی ہے۔
  • What flips you: اگر Candidate A کا reference کہے کہ اس نے past year کا hardest project ship کیا، A پر switch کریں۔ اگر Candidate C کا reference communication issues flag کرے، B stays۔

یہ Maya والا ہی Prediction Lock ہے۔ decision different، ہر part میں written amount different، چار parts same۔


چار lines کیوں؟ صرف ایک کیوں نہیں؟

یہ سوال تقریباً ہر reader پوچھتا ہے، عموماً Line 3 پر: "کیا میں صرف decision نہیں لکھ سکتا؟" جواب no ہے، اور یہ سمجھنا useful ہے کہ کیوں۔

ہر line ایک failure mode پکڑتی ہے جو باقی نہیں پکڑ سکتیں۔ انہیں ایک line میں compress کریں گے تو specific چیزیں کھو دیں گے:

  • Line 1 skip کریں گے تو wrong question کا answer دیں گے۔ Maya کا surface decision "debate یا coding" ہے۔ اصل decision "دوستوں کو follow کرنا یا اپنی choice کرنا" ہے۔ دونوں کے answers different ہو سکتے ہیں۔ Line 1 اسے surface کرتی ہے۔
  • Line 2 skip کریں گے تو AI prompt lock کو collapse کر دے گا۔ specific question کے بغیر reader default طور پر "which should I pick?" پوچھتا ہے۔ یہ AI کو decision دے دیتا ہے۔ Line 2 closed, verifiable question force کرتی ہے: "کیا bootcamp Python پڑھاتا ہے؟" checkable ہے۔ "کون سا camp بہتر ہے؟" نہیں۔
  • Line 3 skip کریں گے تو AI answer کے مقابلے کے لیے کچھ نہیں ہو گا۔ یہی lock ہے۔ Lines 1 اور 2 setup ہیں؛ Line 4 اسے specific بناتی ہے۔ Line 3 وہ position دیتی ہے جسے آپ AI کے confident answer کے سامنے defend کرتے ہیں۔
  • Line 4 skip کریں گے تو commitment نہیں، hope ہو گی۔ "میں debate pick کرتا ہوں" decision لگتا ہے۔ لیکن جب تک آپ specific AI answer name نہیں کرتے جو اسے flip کرے گا، آپ نہیں جان سکتے کہ آپ نے واقعی commit کیا یا AI کی first suggestion پر abandon کر دیں گے۔ Line 4 commitment کو specific بناتی ہے۔ یہی line months later calibration بھی دکھاتی ہے: "میں نے 70% کہا تھا اور opposite نکلا"۔ judgment اسی طرح improve ہوتی ہے۔

one-line version try کریں: "میرے خیال میں Maya کو debate pick کرنا چاہیے" casual preference ہے، Prediction Lock نہیں۔ یہ نہیں بتاتا کہ اصل stake کیا ہے، AI سے کون سا question پوچھنا ہے، یا mind change کیا کرے گا۔ ایسی single line لکھنے والا reader AI کا دو paragraph answer پڑھے گا اور اسے adopt کر لے گا، کیونکہ resist کرنے کے لیے line میں کچھ ہے ہی نہیں۔

چار lines surface پر similar لگتی ہیں، مگر different چیزیں پکڑتی ہیں۔ discipline چار اس لیے مانگتی ہے کہ experience بتاتا ہے: جو بھی ایک line skip کرتا ہے، اسی line کا failure mode آتا ہے۔

pedagogical وجہ بھی ہے۔ چار lines اتنی short ہیں کہ reader واقعی کرے، تین minutes، sticky note پر fit۔ مگر اتنی long ہیں کہ writing کا act thinking force کرے۔ ایک line بہت short ہے؛ آپ اسے سوچے بغیر لکھ سکتے ہیں۔ 10 lines بہت long ہیں؛ آپ exercise skip کر دیں گے۔ چار وہ floor ہے جہاں thinking کو happen کرنا پڑتا ہے، اور وہ ceiling ہے جہاں busy reader Tuesday morning meeting سے پہلے بھی کرے گا۔

اس لیے: appearance چاہیے تو ایک line۔ actual Prediction Lock چاہیے تو چار lines۔


مایا کی sticky اب یہ کہتی ہے:

کیا ہو رہا ہے: کیا وہ دوستوں والی چیز کرے گی یا وہ جو اکیلی ہوتی تو choose کرتی۔ Question: کیا bootcamp Python use کرے گا (جو اس کا school already 9th grade میں پڑھاتا ہے)؟ Guess: Yes۔ کتنی sure، کیا flip کرے گا: 70%۔ اگر bootcamp وہ چیز use کرتا ہے جو school نہیں پڑھاتا، debate wins۔

اب وہ اپنا ایک question ChatGPT میں type کرتی ہے۔ یہ actual prompt ہے جو وہ paste کرتی ہے:

My school's summer program runs a one-week coding bootcamp. I'm trying
to figure out one thing: will it teach Python? My school already teaches
Python in 9th grade, so I want to know if there's overlap. Just answer
the question. Don't recommend which camp I should pick.

یہ نوٹ کریں کہ اس نے "which should I pick" نہیں پوچھا۔ اس نے اپنا specific Step 2 question پوچھا، اور ایک line add کی کہ AI اس کے لیے decision نہ کرے۔ یہی move ہے۔

جواب ChatGPT سے آتا ہے: "Most one-week coding bootcamps for middle schoolers cover Python basics in the first two to three days." مایا اسے اپنی sticky کے ساتھ compare کرتی ہے۔ اس کا guess (yes) AI کے answer (yes) سے match کرتا ہے۔ Lock کام آ گیا: bootcamp زیادہ تر وہی repeat کرے گا جو اسے 9th grade میں ملنا ہے۔ وہ debate choose کرتی ہے۔ Dinner پر dad پوچھتا ہے کیوں، اور اس کے پاس اپنی وجہ ready ہے، ChatGPT کا hedge نہیں۔

یہ چار lines Prediction Lock ہیں۔ AI کا confident answer آپ کے دماغ میں آپ کے اپنے answer کی جگہ لے، اس سے پہلے تین minutes کی writing۔ ایک بار AI کا answer اس جگہ پر پڑھ لیا تو آپ اسے un-read نہیں کر سکتے۔ آپ یہ بھی نہیں بتا سکتے کہ اس کے بغیر آپ کیا سوچتے۔ بس دو دن بعد notice ہوتا ہے کہ آپ explain نہیں کر پا رہے کہ آپ نے جو decide کیا، کیوں کیا۔ آپ نے AI کا answer absorb کیا۔ اپنا answer earn نہیں کیا۔

دو flows کا موازنہ۔ lock کے بغیر: problem سے AI کا answer، پھر "Makes sense" agreement، پھر inherited position۔ lock کے ساتھ: problem سے sealed prediction، پھر AI کا answer، پھر compare، پھر decide۔ پہلے اپنی prediction لکھیں، ورنہ لکھنا ہی چھوڑ دیں۔

یہی move higher stakes پر بھی کام کرتا ہے۔ ایک bank manager، دو losing branches close کرنے کا decision لیتے ہوئے، اپنی چار lines لکھتی ہے: "Branches پیسہ اس لیے lose کر رہی ہیں کیونکہ customers mobile پر shift ہو گئے۔ ان branches کے deposits کا کتنا fraction mobile-only customers کا ہے؟ Guess: 70%+۔ 60% sure؛ 50% سے نیچے ہوا تو closure case collapse۔" پھر اس نے AI سے اپنا ایک question پوچھا۔ AI 45% کے ساتھ واپس آیا۔ اس کا guess غلط تھا، لیکن سوال صحیح تھا۔ اس کے number اور AI کے number کے درمیان gap اس memo کی opening line بن گیا جو وہ boardroom میں لے گئی۔

اس نے Claude سے یہ closed question پوچھا:

I have transaction data for two branches we're considering closing.
For each customer who used these branches in the last 12 months,
I need to know what percentage NEVER walked into a branch and
only used the mobile app. Just give me the percentage. Don't
recommend whether to close the branches.

مایا کی چار lines اور bank manager کی چار lines surface پر different لگتی ہیں۔ Move وہی ہے۔

خود آزمائیں

یہ submit کرنے کے لیے ضروری نہیں کہ آپ کا اپنا decision ہو۔ Maya کے لیے جو چار lines آپ نے ابھی لکھی ہیں وہ real practice ہیں؛ اگر کچھ اور یاد نہیں آ رہا تو وہی paste کر دیں۔ اگر اپنی life میں کسی decision پر یہ move چلانا چاہتے ہیں، common examples یہ ہیں: $50 سے اوپر کوئی purchase جس پر آپ سوچ رہے ہیں، دو activities جن میں سے صرف ایک choose کر سکتے ہیں، ایک conversation جسے آپ avoid کر رہے ہیں، یا class/commitment جس کے بارے میں unsure ہیں۔

ہر صورت میں: چار lines لکھیں۔ پھر اگر آپ واقعی AI سے پوچھنا چاہتے ہیں، یہ template ہے (Maya والی shape):

I'm trying to decide [your situation in 1-2 sentences].

My specific question is: [your Step 2 question].

Just answer that one question. Don't make the decision for me.

یہی prompt Maya کی sticky note سے filled version میں:

I'm trying to decide between two summer camps. One is a one-week
coding bootcamp; the other is a two-week debate camp where all my
friends are going.

My question is: does the bootcamp teach Python? My school already
teaches Python in 9th grade, so I want to know if there's overlap.

Just answer that one question. Don't make the decision for me.

ChatGPT کا response:

Most one-week coding bootcamps for middle schoolers cover Python
basics in the first two to three days, then move on to a small
project using those basics. Some bootcamps add light JavaScript or
web concepts later in the week, but Python is almost always the
core language.

Maya اسے اپنی Line 4 کے ساتھ رکھتی ہے۔ Line 4 کہتی تھی coding صرف تب win کرے گی جب bootcamp وہ چیز پڑھائے جو school cover نہیں کرتا۔ AI نے confirm کیا کہ Python core ہے، یعنی وہی چیز جو school already 9th grade میں پڑھاتا ہے۔ یہ flipping condition نہیں۔ decision stays: debate۔

Prompt میں صرف Lines 1 اور 2 جائیں۔ Line 3، یعنی آپ کا decision، اور Line 4، یعنی what would change your mind، AI کو نہ دکھائیں۔ اگر AI کو پتا ہو کہ آپ نے کیا commit کیا ہے تو وہ اکثر آپ سے agree کرے گا، اور comparison ختم ہو جائے گا۔

پھر AI کا answer اپنی Line 4 سے compare کریں۔ آپ نے وہ specific finding لکھ رکھی ہے جو mind change کرے گی۔ کیا AI نے وہ finding دی یا نہیں؟

  • اگر AI کا answer وہ نہیں جو آپ کو flip کرتا، Line 3 decision hold کرتا ہے۔ آپ اسے اپنی لکھی ہوئی وجہ سے defend کر سکتے ہیں۔
  • اگر AI کا answer exactly وہ ہے جو آپ کو flip کرتا، decision بدلتا ہے، مگر اس وجہ سے جو آپ نے پہلے سے set کی تھی، AI کے confident tone کی وجہ سے نہیں۔
  • اگر AI کا answer بیچ میں ہے، Line 3 reasoning پر واپس جائیں۔ کیا new information اسے واقعی weak کرتی ہے؟ اگر ہاں، decision بدلیں اور why لکھیں۔ اگر نہیں، decision hold کرتا ہے۔

اگر AI hedge کرے بجائے answer دینے کے، ایک sentence کے ساتھ دوبارہ پوچھیں: "Just give me the specific information; don't qualify it." اگر AI clarifying question پوچھے تو answer دیں، مگر add کریں: "Then answer the original question." مقصد concrete answer ہے جسے Line 4 کے ساتھ رکھا جا سکے، "it depends" paragraph نہیں۔

اب AI کا answer پہلے نہ دیکھیں۔ نیچے دیا گیا AI آپ کی چار lines کی FORM grade کرتا ہے (کیا "what's going on" cause name کرتا ہے، label نہیں؛ کیا question options کو narrow کرتا ہے؛ کیا guess اتنا specific ہے کہ غلط ہو سکے؛ کیا flip-condition real way out دیتی ہے)، یہ نہیں کہ آپ کا decision صحیح ہے یا نہیں۔ آپ کی پہلی attempt Maya کے لیے لکھی ہوئی lines سے messy ہو گی۔ یہ assignment ہے، failure mode نہیں۔

1Your Work

یہ AI check کرے گا:

  1. کیا آپ کا "what's going on" cause name کرتا ہے، یا صرف label؟ 1-10 rate کرے۔ میرے work کا وہ حصہ quote کرے جو decision کرتا ہے۔
  2. کیا آپ کا question، اگر answer ہو جائے، آپ کے real options narrow کرے گا؟ 1-10 rate کرے۔ ایک اور cause name کرے جو same situation fit کرتا ہو لیکن آپ کا question میری cause سے distinguish نہ کرتا ہو۔

میرا کام rewrite نہ کریں۔ اگر field empty یا vague ہو، صاف کہہ دیں۔ Messy first attempt کے بارے میں honest رہیں؛ نہ flatter کریں، نہ crush کریں۔

آپ کا "what's going on" (cause، label نہیں):

آپ کا ایک question (جس کا answer سب سے بڑا حصہ settle کرے گا):

آپ کا guess (specific، hedge نہیں):

کتنے sure، اور کیا آپ کو flip کرے گا:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

پہلی بار 8 minutes plan کریں۔ AI کے feedback کے ساتھ سب سے useful move: ایک جگہ ڈھونڈیں جہاں آپ disagree کرتے ہیں۔ آپ کا judgment وہیں رہتا ہے۔

یہ اصول کا پہلا نصف ہے۔ دوسرا نصف (conversation کے دوران AI کے کون سے claims accept، reject، یا modify کرتے ہیں، اسے log کرنا) Discipline 2 ہے۔

یہ کیوں کام کرتا ہے (short version)

کسی outside source کو consult کرنے سے پہلے اپنا guess لکھنا AI سے decades پرانا ہے۔ Gary Klein نے workplace version کو "project premortem" کہا (Harvard Business Review، 2007): imagine کریں project fail ہو چکا ہے، اور start سے پہلے reasons لکھیں۔ Same idea۔ Phil Tetlock کی forecasting research (Good Judgment Project، Superforecasting، 2015) نے دکھایا کہ calibration تب improve ہوتی ہے جب آپ answer آنے سے پہلے prediction record کرتے ہیں، بعد میں نہیں۔ اور Tversky اور Kahneman کے anchoring work (1974) نے دکھایا کہ ایک confident answer جب اس جگہ occupy کر لیتا ہے جہاں آپ کا اپنا answer آنا تھا، تو آپ بتا نہیں سکتے کہ اس کے بغیر آپ کیا سوچتے۔

یہ Prediction Lock ان تینوں کا AI version ہے۔

اس exercise کا full version (10 ranked questions plus Reasoning Receipt template؛ 45-60 minutes) Part 0 Chapter 1, Lesson 1 میں ہے۔ یہ page move سکھاتا ہے۔ وہ page اسے system بناتا ہے۔

Prediction Lock: Four Lines

اصول 2: استدلالی رسید

آپ نے صبح کلاڈ کے ساتھ ایک حقیقی document پر iterate کرتے ہوئے گزاری۔ output صاف ہے۔ آپ نے اسے slides میں ڈال دیا، meeting چلا لی، آگے بڑھ گئے۔ دو ہفتے بعد post-mortem میں boss پوچھتا ہے: "تم نے کن حصوں پر واقعی push back کیا تھا؟" اور آپ کو احساس ہوتا ہے کہ آپ یاد نہیں کر سکتے۔ آپ نے skim کیا، accept کیا، ship کیا۔ نتیجہ pass ہو گیا۔ thinking pass نہیں ہوئی۔

حل یہ ہے۔ اے آئی کے ساتھ کام کرتے ہوئے اس کے ہر load-bearing claim کو پانچ verdicts میں سے ایک کے ساتھ log کریں۔ Load-bearing کا مطلب: اگر یہ claim غلط نکلے تو recommendation بدل جائے۔

Verdictاس کا مطلبایک جملے کی وجہ
ACCEPTآپ نے claim جوں کا توں لے لیا۔آپ نے اسے کیوں trust کیا (source، prior experience)۔
REJECTآپ نے claim discard کر دیا۔کس evidence نے اسے beat کیا۔
MODIFYآپ نے بدل کر version استعمال کیا۔آپ نے کیا بدلا اور کیوں۔
SURFACEDاے آئی نے وہ point اٹھایا جو آپ نے نہیں سوچا تھا۔ آپ نے اسے رکھا۔یہ کیوں اہم ہے۔
MISSEDآپ نے وہ point اٹھایا جو اے آئی نے نہیں پکڑا۔ آپ نے اسے add کیا۔اے آئی نے کیا miss کیا اور کیوں اہم ہے۔

اس log کو Reasoning Receipt کہتے ہیں۔ real document میں receipt conversation کے ساتھ ساتھ row-by-row بڑھتی ہے۔ نیچے exercise میں آپ ایک ساتھ پانچ claims receipt کریں گے۔

استدلالی رسید کی ساخت: پانچ columns جو ہر load-bearing decision کو annotate کرتے ہیں۔ Decision، AI claim، Verdict، Why، اور Confidence change۔ ہر row وہ فیصلہ document کرتی ہے جو انسان نے AI output کے ایک حصے کے بارے میں کیا۔ اس Receipt کی ہر row ایک decision ہے۔ verdict بتاتا ہے کہ آپ نے کیا کیا۔ why بتاتا ہے کہ future reader، حتیٰ کہ future you، اسے کیوں trust کرے۔

حقیقی زندگی میں یہ کیسا لگتا ہے۔

ایک product lead نے Claude سے new feature کا launch plan draft کروایا۔ Claude نے صاف تین page plan واپس کیا۔ doc میں drop کرنے کے بجائے product lead نے side-by-side کھولا اور ہر load-bearing claim پڑھتے ہوئے receipt بنائی:

AI's claimVerdictWhy
"single primary CTA کے ساتھ launch کریں تاکہ conversion maximize ہو۔"ACCEPTہماری آخری تین launches سے match کرتا ہے؛ one-CTA tests ہر بار two-CTA tests سے بہتر رہے۔
"10% rollout cohort سے شروع کریں جس میں paid users شامل ہوں۔"REJECTPaid users ہماری least churn-tolerant cohort ہیں؛ اگر rollout buggy ہوا تو trust burn ہو جائے گا۔
"launch announcement Tuesday morning بھیجیں۔"MODIFYTuesday yes؛ morning no۔ اس segment کے لیے engagement window Tuesday 6–8pm ہے۔
"feature کا overlap [competitor] کی March release سے ہے؛ differentiation سے lead کریں۔"SURFACEDcompetitor release timing compare نہیں کیا تھا۔ differentiation framing جیتتی ہے۔
(AI نے new feature کے paid-tier pricing implications کا ذکر نہیں کیا۔)MISSEDمیں نے note add کیا: launch سے پہلے pricing review ضروری ہے، ورنہ legacy users کو discounts hand کر دیں گے۔

اس نے launch plan کے ساتھ receipt بھی بھیجی۔ دو ہفتے بعد CEO نے پوچھا کہ paid cohort rollout میں کیوں skip کیا۔ اس نے row 2 دکھا دی۔ conversation نوے seconds میں ختم ہوئی۔ receipt کے بغیر یہ ایک 30-minute defend-yourself meeting ہوتی جس میں وہ reconstruct نہ کر پاتی کہ اس نے actually کیا decide کیا تھا۔

بغیر receipt کے وہی product lead یہ بناتی ہے:

AI's claimVerdictWhy
"single primary CTA کے ساتھ launch کریں۔"ACCEPTدرست لگتا ہے۔
"10% rollout cohort میں paid users شامل کریں۔"ACCEPTدرست لگتا ہے۔
"Tuesday morning launch announcement بھیجیں۔"ACCEPTدرست لگتا ہے۔
"[competitor] کے خلاف differentiation سے lead کریں۔"ACCEPTدرست لگتا ہے۔
(کچھ log نہیں ہوا۔)

مسلسل پانچ ACCEPTs کا مطلب دو میں سے ایک ہے: یا تو اے آئی ہر چیز پر درست ہے (rare)، یا receipt واقعی کام نہیں کر رہی۔ all-ACCEPT receipt no receipt کے برابر ہے۔ ہر "why" لکھنے کی friction ہی discipline ہے۔ اگر آپ real "why" نہیں لکھ سکتے تو آپ نے claim واقعی accept نہیں کیا؛ اسے inherit کیا۔

"لیکن کوئی میرے کام کا audit نہیں کرتا، تو bother کیوں؟"

یہ discipline پر سب سے reasonable objection ہے، اور اس کا real answer چاہیے۔ زیادہ تر readers، زیادہ تر وقت، audit نہیں ہوتے۔ boss نہیں پوچھتا۔ professor آگے بڑھ جاتا ہے۔ client sign off کر دیتا ہے۔ اگر Reasoning Receipt کا payoff صرف "اگر کوئی پوچھے" ہوتا تو receipt trouble کے قابل نہیں تھی۔

receipt رکھنا 3 things کرتا ہے، even when nobody asks۔

پہلا: writing کا act آپ کا decision بدلتا ہے۔ جب آپ AI suggestion silently accept کرتے ہیں تو دماغ اسے "sounds right, moving on" کے طور پر process کرتا ہے۔ جب آپ کو one-word label اور one-sentence reason لکھنی پڑتی ہے تو suggestion واقعی examine کرنا پڑتا ہے۔ پہلی بار یہ کرنے والے اکثر discover کرتے ہیں کہ session میں کم از کم ایک row ایسی ہے جہاں "why" sentence complete نہیں ہو رہا۔ وہی row تھی جسے وہ سوچے بغیر use کرنے والے تھے۔

دوسرا: receipt آپ کے work کا حصہ بن جاتی ہے، صرف record نہیں۔ Discipline 1 والی bank manager نے اپنی position اور data کے gap کو report کی opening line بنایا۔ ایک REJECT row اکثر final document میں "considered alternatives" paragraph بن جاتی ہے۔ SURFACED row اکثر meeting میں لے جانے والی سب سے interesting insight بنتی ہے۔ receipt filing cabinet نہیں؛ working tool ہے۔

تیسرا: future you سب سے common auditor ہے۔ 3 months بعد آپ اس work کو دیکھیں گے اور یاد نہیں ہو گا کہ کون سے parts آپ کے تھے، کون سے AI کے، اور آپ نے کیا کیوں decide کیا۔ receipt future you کے نام note ہے۔ receipt عموماً boss سے زیادہ آپ کو خود payoff دیتی ہے۔

audit scenario visible payoff ہے، مگر rarest ہے۔ پہلے 3 payoffs ہر بار happen کرتے ہیں۔ یہی page کے central rule کا practical مطلب ہے: deliverable documented evidence of thinking ہے۔ receipt work سے الگ نہیں؛ وہ work کو shape کرتی ہے۔

خود آزمائیں

آپ 60-person B2B SaaS company میں product lead ہیں۔ company mid-market sales teams کے لیے CRM tooling بناتی ہے، تقریباً $12M ARR ہے، اور سالانہ 30% بڑھ رہی ہے۔ feature ایک redesigned reporting layer ہے جس کا top customers چھ months سے مطالبہ کر رہے ہیں۔ current version میں دو non-critical edge cases کے bugs معلوم ہیں، جو تقریباً 4% accounts کو affect کرتے ہیں۔ closest competitor نے پچھلے week similar feature launch کیا ہے۔ آپ نے AI سے پوچھا: "کیا ہمیں یہ feature ابھی ship کرنا چاہیے، یا دو weeks مزید testing کے لیے رکنا چاہیے؟" AI نے five-claim recommendation دی۔ ہر claim کو پانچ verdicts میں سے ایک کے ساتھ receipt کریں، اور ایک جملے کی وجہ لکھیں۔

  1. "ابھی ship کریں۔ early adoption میں speed-to-market dominant variable ہے۔"
  2. "دو ہفتے delay کرنے سے news cycle miss ہونے کا risk ہے، کیونکہ [competitor] نے اپنا version پچھلے ہفتے launch کیا ہے۔"
  3. "آپ کی last three launches کی production telemetry دکھاتی ہے کہ defects week 1–3 میں surface ہوتے ہیں، اس لیے دو extra weeks of testing انہیں نہیں پکڑیں گے۔"
  4. "launch کے بعد پہلے ہفتے میں customer support load عموماً 40% بڑھتا ہے۔"
  5. "defended ship کے دوران engineering velocity 15% گر جاتی ہے۔"

(اگر آپ software ship نہیں کرتے، surface بدل دیں: AI نے آپ کے اس week کے real decision پر five-claim recommendation دی ہے۔ وہ استعمال کریں۔)

اس form سے پہلے ایک نوٹ۔ نیچے feedback frontier model کے لیے tune کی گئی ہے (Claude Sonnet 4.5+، Opus 4.7، GPT-5، Gemini 2.5 Pro)۔ چھوٹے models input quality سے قطع نظر handwave کرتے ہیں۔

1Your Work

یہ AI check کرے گا:

  1. کیا آپ نے ہر verdict کے لیے real "why" لکھا، یا "sounds right" / "makes sense" pattern لکھا؟ 1–10 rate کرے گا۔ میری receipt کا weakest "why" quote کرے گا۔
  2. کیا کم از کم ایک REJECT یا MODIFY ہے، plus کم از کم ایک SURFACED یا MISSED؟ اگر ہر verdict ACCEPT ہے تو receipt کام نہیں کر رہی۔ 1–10 rate کرے گا۔ اگر میری receipt all-ACCEPT ہے تو ایک line میں صاف کہے گا۔

میرا کام rewrite نہ کریں۔ personality پر grade نہ کریں۔ اگر field خالی یا vague ہے تو صاف کہیں۔

پہلا claim یہ ہے ("ابھی ship کریں۔ speed-to-market dominant variable ہے"):

دوسرا claim یہ ہے ("دو weeks delay سے news cycle miss ہونے کا risk ہے"):

تیسرے claim کے لیے ("Production telemetry دکھاتی ہے کہ defects week 1-3 میں surface ہوتے ہیں"):

چوتھے claim کے لیے ("customer support load عموماً 40% بڑھتا ہے"):

پانچویں claim کے لیے ("defended ship کے دوران engineering velocity 15% گرتی ہے") یا اپنی MISSED row:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

پہلی بار 10–15 منٹ رکھیں۔ بعد میں تیز ہو جائے گا۔ AI feedback کے ساتھ سب سے useful کام یہ ہے کہ ایک ایسی row تلاش کریں جہاں آپ نے "sounds right" لکھا مگر earn نہیں کیا۔ وہی row ہے جہاں آپ تقریباً کسی اور کی reasoning اپنے نام سے ship کرنے والے تھے۔ اس row کو real "why" کے ساتھ دوبارہ receipt کریں؛ exercise کی cost واپس آ چکی۔

آپ نے ابھی load-bearing claims ایک ایک کر کے catch کیے۔ مگر یہ ہر claim کے اندر چھپی technical errors نہیں پکڑتا: fabricated citations، stale facts، false confidence۔ وہ scan Discipline 3 ہے۔

موازنہ کرنے کے لیے strong sample چاہیے؟ (اپنا submit کرنے کے بعد کھولیں۔)

اسی ship-now-or-wait scenario پر ایک reader نے یہ لکھا۔ یہ واحد اچھا answer نہیں؛ shape دکھاتا ہے۔

ClaimVerdictWhy
1REJECTSpeed-to-market commodity markets میں dominate کرتا ہے، ہمارے میں نہیں: ہم compliance-bound buyers کو sell کرتے ہیں جو bugs کو delay سے زیادہ punish کرتے ہیں۔
2MODIFYcompetitor نے related feature launch کیا، ہمارا نہیں: differentiation news cycle سے زیادہ اہم ہے، اور cycle already over ہے۔
3ACCEPTہماری last three launches سے match کرتا ہے: hotfixes weeks 1–3 میں ہوتے ہیں، weeks 4–6 میں تقریباً کبھی نہیں۔
4SURFACEDمیں نے support lift کے لیے 20% budget کیا تھا، 40% نہیں: support team کے پاس صرف 1.5 weeks headcount cushion ہے، جو real risk close کرتا ہے۔
5MISSEDAI نے یہ نہیں اٹھایا کہ دو extra weeks ہمیں biggest customer's annual planning lock-in window میں دھکیل دیتے ہیں؛ یہی binding constraint ہے۔

اسے اچھا کیا بناتا ہے: صرف ایک ACCEPT، وہ بھی real evidence کے ساتھ۔ پانچ میں سے دو Whys prior internal data quote کرتے ہیں، vibes نہیں۔ MISSED row وہ constraint پکڑتی ہے جو AI نہیں جان سکتی تھی (customer planning calendar)۔ reader کا final decision "wait, because of customer lock-in" بنتا ہے، جو "wait, because more testing" سے مختلف answer ہے۔ verdict same، reasoning different، room میں defendable۔

یہ کیا کرنے کی کوشش نہیں کرتا: brilliant بننا۔ زیادہ تر rows ایک جملہ ہیں۔ discipline real Whys لکھنے میں ہے، literary Whys نہیں۔

تحقیقی بنیاد دیکھنی ہو تو کھولیں

یہ receipt AI سے بہت پہلے کی چیز ہے۔

  • Schön, D. (1983). The Reflective Practitioner. direct ancestor۔ Schön کی "reflection-in-action" وہ move ہے جس میں practitioner کام ہوتے ہوئے decisions کا written track بناتا ہے تاکہ بعد میں ہر decision defend کر سکے۔ reasoning receipt، model کے ساتھ کام کرنے پر reflection-in-action ہے۔
  • Argyris, C. (1977). "Double Loop Learning in Organizations." Harvard Business Review. single-loop learning existing model کے خلاف errors correct کرتی ہے؛ double-loop learning model خود surface کرتی ہے۔ all-ACCEPT receipt زیادہ سے زیادہ single-loop ہے۔ ہر Why لکھنے کی friction second loop force کرتی ہے۔
  • ماخذ: Brown, P. C., Roediger, H. L. & McDaniel, M. A. (2014). Make It Stick: The Science of Successful Learning. Belknap Press / Harvard University Press. retrieval-practice اور elaboration research کی مقبول تلخیص، جو Roediger, H. L. & Karpicke, J. D. (2006). "Test-enhanced learning: Taking memory tests improves long-term retention." Psychological Science 17(3), 249-255 میں formalize ہوئی۔ اپنے الفاظ میں ایک جملہ لکھنا کہ چیز کیوں matter کرتی ہے، چھ ماہ بعد memory کو dramatic طور پر improve کرتا ہے۔ receipt آپ کے اپنے decisions پر retrieval practice ہے؛ boss-asks-six-months-later moment بالکل یہی scenario ہے جو اس research کے بارے میں ہے۔

یہ Reasoning Receipt کو AI پر specifically test کرنے والی کوئی single trial نہیں۔ mechanism (decisions as you make them لکھیں، بعد میں defend کریں) well-studied ہے؛ اسے AI interactions پر apply کرنا obvious extension ہے، separately validated finding نہیں۔

مزید گہرائی: Part 0 Chapter 1: Asking Better Questions. full version (real AI conversation کے خلاف 10-row receipt، plus Contradiction Challenge جہاں آپ دوسرا AI اپنی reasoning attack کرواتے ہیں؛ 45–60 min) وہاں foundational sequence کا حصہ ہے۔ یہ صفحہ move سکھاتا ہے۔ وہ chapter اسے ایسی habit بناتا ہے جو آپ ہر load-bearing AI conversation پر چلا سکتے ہیں۔


حصہ 2: پکڑنا (جو AI چھوڑ دیتی ہے)

بنیادوں نے posture دیا۔ Detection وہ pattern recognition train کرتی ہے جو AI کی consistent misses پکڑتی ہے۔ یہاں دو failure modes dominate کرتی ہیں۔ AI درست ہو یا غلط، confident لگتی ہے، اور اس کی زیادہ تر errors انہی paragraphs میں چھپی ہوتی ہیں جو سب سے professional پڑھتے ہیں۔ AI visible variable کو optimize کرتی ہے اور وہ تین variables miss کر دیتی ہے جنہیں اس نے ابھی disturb کیا۔ اصول 3 (Error Taxonomy) وہ named-category scan ہے جو آپ fluent prose کے خلاف چلاتے ہیں تاکہ ship ہونے سے پہلے چھ specific error types پکڑی جائیں۔ اصول 4 (Thinking in Systems) وہ cascade map ہے جو آپ ہر meeting-worthy decision کے خلاف بناتے ہیں تاکہ وہ second-order effects ملیں جنہیں AI نے trace نہیں کیا۔

اصول 3: غلطیوں کی درجہ بندی

آپ trap جانتے ہیں۔ آپ ایک real document Claude یا ChatGPT میں paste کرتے ہیں، answer polished اور fluent واپس آتا ہے، اور آپ اسے اپنی writing کی طرح پڑھتے ہیں: general sense کے لیے، argument کی shape دیکھتے ہوئے۔ flow ہے۔ آپ nod کرتے ہیں۔ error draft کے سب سے professional paragraph میں ہوتی ہے، وہی paragraph جس پر آپ کی آنکھ اس لیے پھسل گئی کہ کچھ غلط محسوس نہیں ہوا۔ تین دن بعد وہ ship ہوتی ہے، اور ایک fabricated number یا nonexistent citation وہ پہلی چیز بن جاتا ہے جو reader پکڑ لیتا ہے۔

حل یہ ہے۔ AI output کو "feel" کے لیے نہ پڑھیں؛ ہر error type کو نام لے کر scan کریں۔ چھ types، ہر ایک کے ساتھ where-to-look-first prompt۔

Error typeیہ کیسا دکھتا ہےپہلے کہاں دیکھیں
Factual errordemonstrably false specific claim: number، date، name، citation، API method۔ہر sentence جس میں specific number ہو، خاص طور پر decimals۔ precision research کا illusion بناتی ہے۔ میں کہہ سکتا ہوں کہ 73.6% analysts AI figures verify نہیں کرتے، اور یہ credible لگے گا۔ میں نے یہ دس seconds پہلے بنایا ہے۔
Logical gapconclusion actually stated premises سے follow نہیں کرتا۔"evidence" اور "therefore" کے bridge پر۔ "therefore" bracket کریں اور پوچھیں: کیا یہ follow کرتا ہے، یا missing link میں خود provide کر رہا ہوں؟
False confidenceuncertain information certain tone میں stated ہو۔سب سے fluent paragraphs۔ hedging language ("may," "could") signal ہے کہ AI جانتی ہے معاملہ uncertain ہے؛ contested topic پر hedge absence red flag ہے۔
Missing contextcrucial factor omit ہو گیا جو analysis بدل دے۔وہ چیز جو subject-matter expert پہلے پوچھے گا۔ اگر آپ پوچھیں گے "wait, did you consider X?" تو AI نے شاید consider نہیں کیا۔
Fabricated sourcecitation، library function، یا API جو exist نہیں کرتا، یا exist کرتا ہے مگر وہ بات نہیں کہتا جو AI نے claim کی۔ہر citation، ہر quoted statistic، ہر external function call۔ forward یا run کرنے سے پہلے verify کریں۔
Stale factجو کبھی درست تھا، مگر اب درست نہیں۔time-sensitive چیزیں: prices، leadership، laws، API versions، tool کی capabilities۔

حقیقی دستاویزات پر ہر category کو نام سے scan کریں۔ نیچے exercise میں ہم دو named scans کریں گے (Factual اور Fabricated Source سے شروع کریں) تاکہ آپ move محسوس کریں؛ full six-row pass worked example میں دکھایا گیا ہے۔

ایک پُراعتماد سنائی دینے والا AI paragraph جس پر چھ error types بطور annotations لگے ہیں: factual error، logical gap، false confidence، missing context، fabricated source، اور stale fact۔ چھ error types خود اعلان نہیں کرتیں۔ وہ انہی paragraphs میں چھپتی ہیں جو سب سے professional پڑھتے ہیں، اسی لیے name-by-name scan، feel سے پڑھنے سے بہتر ہے۔

حقیقی زندگی میں یہ کیسا لگتا ہے۔

ایک buy-side equity analyst ایک mid-cap industrial name میں $25M position کے لیے recommendation memo بنا رہی تھی۔ Investment Committee کی meeting نوے minutes میں تھی۔ اس نے Claude سے thesis section کے چار paragraphs draft کروائے، اسے company کے last two 10-Qs، latest analyst-day transcript، اور اپنی notes دیں۔ Claude نے صاف draft واپس کیا: revenue growth، multiple expansion، cited bank-analyst quote، Q3 cash-flow figure، thesis paragraph۔ اس نے اسے memo میں paste نہیں کیا۔ اس نے six-row scan چلایا۔

Error typedraft میں اسے کیا ملاVerdict
Factual errorDraft نے کہا: "Q3 operating cash flow of $182M, up 14% year-over-year." اس کی 10-Q tab میں $164M، up 9% تھا۔ 11% off۔پکڑا۔ primary source سے correct کیا۔
Logical gapDraft نے کہا: "Comparable peers trade at 14x forward EBITDA; therefore the name is undervalued at 11x." "therefore" نے assumption smuggle کی کہ peer set واقعی comparable ہے۔ تین peers میں سے دو کے margins higher تھے۔پکڑا۔ margin-adjusted multiple کے ساتھ rewrite کیا۔
False confidenceDraft نے کہا: "Management's $2.3B revenue guidance for next year is conservative." hedge نہیں۔ basis نہیں۔ "conservative" سارا کام کر رہا تھا۔پکڑا۔ "above consensus by 4%" کے طور پر rewrite کیا۔
Missing contextDraft نے mention نہیں کیا کہ company کا largest customer (22% revenue) active RFP میں تھا جو IC کے next quarterly review سے پہلے close ہونا تھا۔ اس کی sector notes میں تھا؛ Claude کے پاس وہ note نہیں تھا۔پکڑا۔ first risk bullet کے طور پر add کیا۔
Fabricated sourceDraft نے cite کیا: "As Morgan Stanley's industrials desk noted in their November initiation, the multiple compression is overdone." اس نے FactSet search کیا۔ ایسا note موجود نہیں تھا۔ Claude نے دو real reports کو confident fiction میں blend کر دیا تھا۔پکڑا۔ quote remove کیا؛ citation کے بغیر rewrite کیا۔
Stale factاس draft میں time-sensitive چیز slip نہیں ہوئی۔ pricing data، leadership، rules current تھے۔actively scanned۔ clean۔

ایک ہی four-paragraph draft میں six categories میں سے five trigger ہوئیں، اور fabricated bank quote وہی تھا جو وہ تقریباً miss کر دیتی کیونکہ وہ بالکل Morgan Stanley desk کی زبان جیسا لگ رہا تھا۔ جو version IC deck میں گیا، وہ line by line re-evidenced تھا۔ IC نے position approve کر دی۔ بغیر scan والا version ایک real bank سے منسوب fake quote کے ساتھ memo میں اس کے نام سے جاتا۔

نام سے scan کیے بغیر وہی شخص یہ ship کر دیتا:

Reader habitکیا miss ہوتا ہےکیوں fail ہوتا ہے
top-to-bottom پڑھنا کہ "argument hold up کرتا ہے؟"specific numbers۔ fluent paragraph کے اندر figures پر eye skim کرتی ہے۔$182M cash-flow figure وہ detail ہے جس پر nod کر کے گزر جاتے ہیں۔ "Factual" کو نام سے scan کرنا ہر number پر stop force کرتا ہے۔
citations پر trust کیونکہ credible لگتی ہیںMorgan Stanley quote۔ real bank، plausible thesis، fabricated note۔"credible لگتا ہے" ہی failure mode ہے۔ "Fabricated Source" کو نام سے scan کرنا ہر citation پر verification force کرتا ہے۔
"therefore" کو connector word سمجھناpeer-comparable logical gap۔ "therefore" چھپاتا ہے کہ bridge actually hold کرتا ہے یا نہیں۔argument shape پڑھنا connector words کو load-bearing کام کرنے دیتا ہے۔ ہر "therefore" bracket کرنا bridge کو defend کرنے پر مجبور کرتا ہے۔
missing چیزیں صرف تب notice کرنا جب jump out کریںactive RFP میں 22% customer۔ draft میں نہیں، اس لیے catch کرنے کو visual flag نہیں۔Missing context page پر flag نہیں اٹھاتا۔ actively پوچھنا پڑتا ہے کہ next desk کا analyst کیا notice کرے گا جو model نہیں کر سکا۔

وہی شخص، وہی draft، وہی hour۔ فرق smarts نہیں۔ فرق یہ ہے کہ آپ نے نام سے scan کیا یا feel سے۔

خود آزمائیں

آپ investment analyst ہیں۔ آپ نے AI سے NorthBridge Industrial Holdings (NBIH) نامی mid-cap industrial supplier میں $25M position کے لیے recommendation memo draft کروایا۔ Investment Committee 90 minutes میں meet کر رہی ہے۔ یہ AI کا four-paragraph draft ہے۔ اسے چھ error types کے نام سے scan کریں، Factual اور Fabricated Source سے شروع کرتے ہوئے، کیونکہ miss ہونے کی cost سب سے زیادہ ہے، اور نیچے grid fill کریں۔

Investment Memo: NorthBridge Industrial Holdings (NBIH), DRAFT

NorthBridge Industrial Holdings ایک mid-cap industrial supplier ہے جس کی FY2024 revenue تقریباً $1.8B ہے۔ Q2 2026 operating cash flow $214M آیا، year-over-year 17% up، جو double-digit cash-flow growth کی مسلسل fourth quarter ہے۔ 38.4% gross margin NBIH کو sector کے top quartile میں رکھتا ہے۔ FY2026 کے لیے management کی $2.1B revenue guidance reported backlog کی strength دیکھتے ہوئے conservative posture دکھاتی ہے۔

industrial-supplier set میں comparable peers تقریباً 13.5x forward EBITDA پر trade کرتے ہیں؛ NBIH اس وقت 10.2x پر trade کرتا ہے۔ Therefore name roughly 25% undervalued ہے، جس سے next two quarters میں کسی بھی earnings beat پر meaningful re-rating potential بنتا ہے۔ mean-reversion thesis company's recent capital-return announcement اور broader sector rotation into industrials over the past six weeks سے supported ہے۔

Goldman Sachs نے اپنے April 2026 industrial-supplier sector primer میں کہا: "industrial suppliers with backlog visibility above 9 months are the most reliable beneficiaries of capex normalization." NBIH کا reported backlog 11.2 months ہے۔ پچھلے 90 days میں insider buying تین executives میں $4.2M total ہے، جو NBIH میں three years کی highest insider-buying activity ہے۔ technical setup constructive ہے: 50-day moving average mid-March میں 200-day سے اوپر cross ہوئی۔

Recommendation: BUY، 12-month price target $84 (current price $68)، یعنی 23.5% upside۔ $25M position size fund AUM کا 2.1% ہے، جو fund کے high-conviction sizing framework سے consistent ہے۔ principal risk general industrial cyclicality ہے؛ NBIH otherwise well-positioned ہے۔

(اگر buy-side analysis آپ کا کام نہیں، surface بدل دیں مگر shape رکھیں: AI-drafted document کسی decision-maker کو جا رہا ہے جو آپ سے senior ہے؛ fluent prose؛ named claims جنہیں verify کیا جا سکتا ہے؛ اور اتنا time نہیں کہ اسے تین بار پڑھیں۔ grant report، clinical summary، board memo، vendor risk note۔ taxonomy domain سے indifferent ہے۔)

فارم سے پہلے ایک نوٹ۔ نیچے feedback frontier model کے لیے tune کی گئی ہے (Claude Sonnet 4.5+، Opus 4.7، GPT-5، Gemini 2.5 Pro)۔ چھوٹے models آپ کے paste کردہ scan کو بس confirm کر دیتے ہیں، جو exercise کو ناکام کر دیتا ہے۔

1Your Work

اے آئی یہ check کرے گی:

  1. کیا آپ نے نام سے scan کیا، یا feel سے پڑھ کر بعد میں label لگا دیا؟ 1–10 rate کرے گا۔ میری grid کی وہ row quote کرے گا جس سے فیصلہ ہوتا ہے۔ real named scan ہر row کے لیے verdict دیتا ہے، even "actively scanned, found nothing." اس note کے بغیر blank row tell ہے۔
  2. کیا آپ کی quoted sentences load-bearing ہیں، یا آپ نے easy lines flag کیں؟ 1–10 rate کرے گا۔ جس row میں میں نے sentence quote کیا ہو، وہاں same draft سے ایک stronger candidate کا نام دے گا (اگر موجود ہو) جو مجھے پہلے catch کرنا چاہیے تھا۔

میرا کام rewrite نہ کریں۔ writing style پر grade نہ کریں۔ اگر row "actively scanned, none found" note کے بغیر خالی ہے تو ایک line میں صاف کہیں۔

آپ کی 6-row scan grid (ہر row میں exact AI sentence quote کریں؛ row صرف اس وقت blank چھوڑیں جب actively scan کر کے کچھ نہ ملا ہو، اور اسی row میں "actively scanned, none found" لکھیں):

ہر row پر آپ کا confidence (ہر error type کے لیے 1–10؛ ایک جملہ کیوں):

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

پہلی بار 8–15 منٹ رکھیں۔ بعد میں تیز ہو جائے گا۔ AI feedback کے ساتھ سب سے useful کام یہ ہے کہ ایک ایسی جگہ تلاش کریں جہاں AI آپ کے scan سے disagree کرتا ہے۔ next round کا judgment وہیں بنتا ہے۔

آپ نے ابھی اپنے موجودہ output کی local errors پکڑیں۔ یہ وہ second-order effects نہیں پکڑتا جو آپ کے output downstream trigger کرے گا: recommendation land ہونے پر morale hit، policy ship ہونے پر customer behavior change، وہ loop جہاں cost savings service quality گراتی ہیں اور churn بڑھتا ہے۔ یہ cascade map ہے، Discipline 4۔

موازنہ کرنے کے لیے strong sample چاہیے؟ (اپنا submit کرنے کے بعد کھولیں۔)

اس investment-memo scenario پر ایک reader نے یہ grid بنائی۔ یہ واحد اچھا answer نہیں؛ shape دکھاتا ہے۔

Error typeAI draft سے quoted sentenceیہ category کیوں trigger ہوتی ہے
Factual error"Q3 operating cash flow of $182M, up 14% year-over-year."specific number، 10-Q کے خلاف verifiable۔ 10-Q کہتا ہے $164M، up 9%۔ level اور growth rate دونوں غلط۔
Logical gap"Comparable peers trade at 14x forward EBITDA; therefore the name is undervalued at 11x.""therefore" assumption لیتا ہے کہ peer set comparable ہے، جو argue نہیں کیا گیا۔ تین peers میں سے دو structurally higher margins رکھتے ہیں، multiple gap کا حصہ justify ہوتا ہے۔
False confidence"Management's $2.3B revenue guidance for next year is conservative."hedging word نہیں۔ basis cite نہیں۔ "conservative" directional claim کو fact کے طور پر present کرتا ہے۔ contested forecast پر "may" یا "could" کا absence red flag ہے۔
Missing context(Draft سے missing.) company کا largest customer، تقریباً 22% revenue، active RFP میں ہے جو IC کے next review سے پہلے close ہوتا ہے۔page پر نہ ہونا ہی row کا point ہے۔ taxonomy اس لیے کام کرتی ہے کہ آپ scan کرتے ہیں کہ کیا موجود نہیں۔ next desk کا sector analyst اسے 30 seconds میں نام لے گا؛ model نہیں کر سکا۔
Fabricated source"As Morgan Stanley's industrials desk noted in their November initiation, the multiple compression is overdone."real bank، plausible quote، note موجود نہیں۔ FactSet یا bank publication tracker سے verifiable۔ یہی failure mode row catch کرنے کے لیے ہے۔
Stale factActively scanned, none found. Pricing، leadership، اور capital-allocation policy draft date تک current تھے۔اس note کے بغیر blank row skip ہوتی، finding نہیں۔ note row کو count کراتا ہے۔

اسے اچھا کیا بناتا ہے: ہر row verdict رکھتی ہے، even clean one۔ quoted sentences load-bearing ہیں (IC read بدل دیتے)، throwaway نہیں۔ Missing Context row اتنی specific ہے کہ دوسرا analyst verify کر سکتا ہے (named customer concentration، specific event، dated deadline)۔ Fabricated Source row exact sentence quote کرتی ہے اور falsify کرنے کا طریقہ بتاتی ہے۔

یہ کیا کرنے کی کوشش نہیں کرتا: exhaustive ہونا۔ taxonomy scan ہے، audit نہیں۔ 15 minutes میں six rows target ہیں۔ تین real catches، تیس performative catches سے بہتر ہیں۔

تحقیقی بنیاد دیکھنی ہو تو کھولیں

یہ taxonomy اس پرانی research کا 2026 application ہے کہ confident prose scrutiny کو کیوں disarm کرتی ہے۔

  • ماخذ: Alter, A. L. & Oppenheimer, D. M. (2009). "Uniting the tribes of fluency to form a metacognitive nation." Personality and Social Psychology Review 13(3), 219-235. processing fluency کا canonical review: fluent، easy-to-process information کو actual accuracy سے آزاد زیادہ credible judge کیا جاتا ہے۔ polished AI prose اس effect کا modern industrial-scale version ہے۔ named category scan ease-equals-truth shortcut کو interrupt کرتا ہے، کیونکہ reader کو credibility کے overall vibe کے بجائے specific failure shapes تلاش کرنے پڑتے ہیں۔ (مقبول تشریح کے لیے دیکھیں Kahneman, D. (2011). Thinking, Fast and Slow، باب 5: "Cognitive Ease." Farrar، Straus and Giroux۔)
  • Silver, N. (2012). The Signal and the Noise: Why So Many Predictions Fail, but Some Don't. Penguin Press. Silver کا central argument ہے کہ confidence اور calibration independent traits ہیں۔ جو forecasters سب سے certain لگتے ہیں، اکثر سب سے کم calibrated ہوتے ہیں، اور pattern pundits، models، اور اب generative AI میں repeat ہوتا ہے۔ taxonomy کی False Confidence row، AI output کے لیے اس thesis کی operationalization ہے۔
  • Gigerenzer, G. (2002). Calculated Risks: How to Know When Numbers Deceive You. Simon & Schuster. (UK میں Reckoning with Risk کے نام سے شائع ہوئی۔) Gigerenzer کی calibration work نے subjective confidence اور observed accuracy کے gap کو formalize کیا اور دکھایا کہ calibration بہتر ہوتی ہے جب forecasters written predictions commit کر کے outcomes کے against check کرتے ہیں۔ error-taxonomy scan AI کے لیے equivalent ہے: یہ آپ کو draft کو whole accept کرنے کے بجائے ہر category پر verdict commit کرواتا ہے۔ تعلیمی بنیاد کے لیے دیکھیں Gigerenzer, G., Hoffrage, U. & Kleinbölting, H. (1991). "Probabilistic mental models: A Brunswikian theory of confidence." Psychological Review 98(4), 506-528.

اس named taxonomy سے AI-error detection specifically کتنا improve ہوتی ہے، اس پر کوئی single trial نہیں۔ cognitive pattern well-studied ہے؛ AI output پر application obvious extension ہے۔

مزید گہرائی: Part 0 Chapter 2: Detecting Broken Reasoning. full version (8-category taxonomy، dual-AI cross-check، prediction-vs-actual calibration؛ 60–75 min) اسے system بناتا ہے۔

اصول 4: نظامی سوچ

ایک paragraph میں: جب آپ کسی decision کے بارے میں AI سے پوچھتے ہیں تو زیادہ تر AI tools آپ کو effects کی list دے دیتے ہیں۔ جو چیز وہ miss کرتے ہیں وہ feedback loops ہیں، جہاں effects واپس گھوم کر original decision کو amplify یا undo کرتے ہیں۔ Cascade Map consequences کو کئی stakeholder groups میں trace کرتا ہے اور clean answer ship کرنے سے پہلے آپ سے کم از کم ایک loop name کرواتا ہے۔

آپ trap جانتے ہیں۔ آپ نے AI سے staffing change کا analysis کروایا، answer صاف آ گیا: تین bullets اور crisp recommendation۔ آپ نے اسی afternoon ship کر دیا۔

تین months بعد ساتھ والی team کا morale collapse ہو گیا، دو clients آپ کے group کے around route کرنے لگے، وہ manager جو خاموشی سے displaced work اٹھا رہا تھا burn out ہو گیا، اور جب leadership نے پوچھا کہ کیا ہوا تو آپ explain نہیں کر سکے۔ first-order answer درست تھا۔ second-order effects نے اسے کھا لیا۔ third-order effects ابھی بھی room میں ہیں۔

حل یہ ہے۔ کسی بھی meeting-worthy decision پر AI کھولنے سے پہلے پانچ lines draw کریں۔

  1. Decision center میں۔ ایک جملہ، no hedging۔ "prices raise کرنے پر غور" نہیں بلکہ "اگلے quarter سے new contracts پر list prices 18% raise کریں۔"
  2. پانچ domains باہر spokes کی طرح۔ Employees، customers، competitors، regulators، internal knowledge۔ ہر domain ایک branch۔
  3. ہر domain پر تین "and then what?" layers۔ first-order effect۔ پھر اس effect کا consequence۔ پھر اس consequence کا consequence۔
  4. کم از کم ایک feedback loop کا نام لیں۔ downstream effect جہاں واپس circle کر کے original decision بدلتا ہے۔ mechanism لکھیں، label نہیں۔ "customers churn" نہیں بلکہ "customers churn کیونکہ new automated tier انسان تک ten seconds میں escalate نہیں کر سکتی، جبکہ previous vendor کر سکتا تھا۔"
  5. صرف تب finish کریں جب map messy لگے۔ اگر neat ہے تو آپ جلد رک گئے۔ زیادہ تر strategic disasters وہ loops ہوتے ہیں جنہیں کسی نے map نہیں کیا۔

اس drawing کو Cascade Map کہتے ہیں۔ مقصد future predict کرنا نہیں؛ مقصد clean answer ship کرنے سے انکار کرنا ہے۔

اے آئی اس variable کو optimize کرتی ہے جو آپ نے پوچھا؛ وہ تین variables reason نہیں کرتی جنہیں وہ disturb کرتی ہے۔ انسان breadth miss کرتے ہیں (دوسرا domain، وہ stakeholder جس کا نام نہیں لیا)۔ AI loops miss کرتی ہے (وہ feedback جو چھ months بعد واپس آ کر gain unwind کر دیتا ہے)۔ blind spots complementary ہیں۔ اسی لیے آپ پہلے map بناتے ہیں، پھر AI کو branches stress-test کرنے لاتے ہیں۔

کسی حقیقی meeting-worthy decision پر map 20–30 minutes لے سکتا ہے۔ نیچے exercise smaller scope استعمال کرتی ہے تاکہ آپ muscle محسوس کریں۔

Cascade Map Steps

cascade map: center میں ایک decision، باہر پانچ domains، ہر domain میں "and then what" کی تین layers، اور ایک feedback loop جہاں دو domains ایک دوسرے کو reinforce کرتے ہیں۔ پانچ domains، consequence کی تین layers، ایک named feedback loop۔ mess feature ہے، bug نہیں۔

حقیقی زندگی میں یہ کیسا لگتا ہے۔

ایک city planner کے پاس downtown commercial corridor کے 2.3 miles پر protected bike lanes add کرنے کی recommendation کے لیے six-week window تھی۔ first-order case صاف تھا: bike infrastructure mode shift، lower emissions، fewer cyclist injuries سے correlate کرتا ہے۔ corridor کی cyclist-injury rate city average سے 2x تھی۔ advocacy coalition organized اور patient تھی۔ AI نے خوشی سے case validate کر دیا۔

میمو forward کرنے سے پہلے اس نے cascade map draw کیا۔ central decision: protected bike lanes install کریں؛ ہر direction سے ایک vehicle lane remove کریں؛ curbside parking کا 40% remove کریں۔ پانچ domains میں تین layers۔ زیادہ تر second-order effects predictable تھے (cyclists happy، drivers grumpy، کچھ parking displacement)۔ third layer نے recommendation کھول دی۔

وہ named loop تھا جس نے memo بدل دیا: corridor businesses weekend visitor revenue lose کرتے ہیں، local tax base shrink ہوتا ہے، council pressure بڑھتا ہے، next session میں policy weak ہوتی ہے، mode-shift gain erode ہوتا ہے، اور across town next corridor کے لیے case مر جاتا ہے۔ اس corridor کو کرنے کی اصل وجہ اگلے دس corridors کے لیے case جیتنا تھا۔

اس نے project kill نہیں کیا۔ اس نے 12-month loading-zone pilot، guaranteed bus-stop redesign budget، quarterly revenue threshold (>15% sustained drop triggers revisit)، اور transit-agency MOU on bus-stop access add کیا۔ وہ version council میں 7-2 سے survive کر گیا۔ clean AI version میں ان provisions میں سے کوئی نہیں تھا، اور دوسری city میں ایک colleague کی similar recommendation (no cascade، no provisions) چودہ months کے اندر repeal ہو گئی۔

Domain1st-order2nd-order3rd-order
EmployeesPublic-works curbs repaint کرتا ہےloading conflicts cover کرنے کے لیے parking enforcement budget بڑھتا ہےbuses relocated stops پر clean pull نہ کر سکیں تو transit drivers grievance کرتے ہیں
CustomersCyclists protected route gain کرتے ہیںdelivery drivers bike lane میں double-park کرتے ہیںcorridor businesses weekend revenue dip دیکھتے ہیں؛ 3 relocation threaten کرتے ہیں
Competitorsadjacent corridor car-friendly رہتا ہےوہ corridor threatened businesses کو court کرتا ہے18 months میں tax base neighborhoods shift ہوتا ہے
RegulatorsState DOT grant terms apply ہوتے ہیںADA review bus-stop curb cuts flag کرتا ہےcompliance retrofit timeline کو 6 months push کرتا ہے اور cost add کرتا ہے
Internal knowledgeold mode-shift study (3 yrs)assumptions stale؛ weekend traffic pattern shift ہو گیاplanning dept forecast defend نہیں کر سکتا جب تک refresh نہ ہو

Named loop: corridor revenue loss → tax-base reduction → council pressure → next session میں policy weakened → mode-shift gains erode → defenders next corridor کے لیے case lose کرتے ہیں۔ یہی loop ہے جس کی وجہ سے recommendation کو teeth ملے۔

اس cascade کے بغیر وہی شخص کچھ ایسا لکھتا:

Domain1st-orderWhy it fails
Cyclistssafer ridesایک domain، ایک layer۔ loop نہیں۔ delivery-driver double-parking dynamic پوری طرح miss ہو گیا۔
Emissionslower CO2 per milemetric ہے، stakeholder نہیں۔ corridor-business revenue loop اور council feedback miss۔ mechanism name نہیں، صرف outcome assert کیا۔

وہی شخص، وہی hour۔ فرق smarts نہیں۔ فرق یہ ہے کہ map messy کیا یا clean ship کر دیا۔

Cascade Map Example: Sports Day

خود آزمائیں

آپ 200-person B2B SaaS company میں head of revenue ہیں۔ next quarter leadership چاہتی ہے کہ all new contracts پر list prices 18% raise کیے جائیں اور standard discount ladder short کیا جائے۔ آپ decision-recommender ہیں۔ Thursday exec read-out سے پہلے اس pricing change کا cascade بنائیں۔ پانچ domains directly apply کرتے ہیں: account executives، renewal کے لیے آنے والے existing customers، دو named competitors، top accounts کی procurement teams، اور آپ کا own sales-enablement collateral۔

(اگر pricing آپ کا کام نہیں، surface بدل دیں مگر shape رکھیں: leadership decision جس کا multi-stakeholder blast radius ہے، real deadline، اور کم از کم ایک place جہاں second-order effects واپس first-order outcome کو feed کرتے ہیں۔ یا اپنے ہفتے کا real decision لیں۔ یہی اسے stick کرتا ہے۔)

فارم سے پہلے ایک نوٹ۔ نیچے feedback frontier model کے لیے tune کی گئی ہے (Claude Sonnet 4.5+، Opus 4.7، GPT-5، Gemini 2.5 Pro)۔ چھوٹے models input quality سے قطع نظر handwave کرتے ہیں۔

1Your Work

اے آئی یہ check کرے گی:

  1. کیا آپ کا map پانچ domains wide اور تین layers deep گیا، ہر link پر mechanism (label نہیں) کے ساتھ؟ 1–10 rate کرے گا۔ thinnest domain کا نام دے گا اور ایک specific effect بتائے گا جو آپ miss کر گئے۔
  2. کیا آپ کا feedback loop real loop ہے، mechanism causal sentence کے طور پر stated ہے؟ 1–10 rate کرے گا۔ اگر loop صرف label ہے ("regulators react") تو flag کرے گا اور ایک additional loop propose کرے گا جو آپ نے name نہیں کیا، mechanism لکھ کر (یعنی "regulators react" نہیں بلکہ "regulators react because X triggers Y which forces Z")۔

میرا map redraw نہ کریں۔ style پر rate نہ کریں۔ اگر field empty یا vague ہے تو ایک line میں صاف کہیں۔

آپ کا cascade map (central decision، پھر 5 domains x 3 layers؛ rough text fine ہے، بس structure visible رکھیں):

آپ کا feedback loop، ایک causal sentence کے طور پر (label نہیں):

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

پہلی بار 15–20 minutes رکھیں۔ Cascade maps Prediction Lock سے زیادہ وقت لیتے ہیں کیونکہ value messy middle layers میں ہے، اور پہلے تین چار "and then what?" questions forced محسوس ہوتے ہیں، پھر real ones surface ہوتے ہیں۔ fourth یا fifth عموماً وہ third-order effect نکالتا ہے جو واقعی matter کرتا ہے۔ muscle بننے کے بعد تیز ہو جاتا ہے؛ experienced cascaders full map آٹھ سے بارہ minutes میں چلا لیتے ہیں۔

اے آئی feedback کے ساتھ سب سے useful کام یہ ہے کہ ایک ایسا domain تلاش کریں جو AI نے add کیا اور آپ نے miss کیا۔ blind spot وہیں ہے، اور یہ اس week کا cheapest lesson ہے۔ اگر AI نے کوئی loop add کیا جو آپ نے miss کیا، اسے separate find mark کریں۔ loops move-the-needle ہوتے ہیں کیونکہ وہ بتاتے ہیں کہ announced decision (18% list price increase) دنیا میں quite different چیز (4–6% realized) بن کر کیسے آئے گا۔

آپ نے ابھی existing plan کے second- and third-order effects stress-test کیے۔ یہ نہیں پوچھتا کہ plan شروع ہی درست assumptions پر کھڑا ہے یا نہیں۔

غلط premise پر بنایا گیا perfectly cascaded plan پھر بھی wall سے ٹکراتا ہے، بس بعد میں اور بہتر documentation کے ساتھ۔ یہی Discipline 5 ہے۔

موازنہ کرنے کے لیے strong sample چاہیے؟ (اپنا submit کرنے کے بعد کھولیں۔)

اس pricing scenario پر ایک reader نے یہ لکھا۔ یہ واحد اچھا answer نہیں؛ shape دکھاتا ہے۔

مرکزی decision: Q3 سے new contracts پر list prices 18% raise کریں؛ discount ladder کو 7 tiers سے 4 پر short کریں۔

Domain1st-order2nd-order3rd-order
Account execsquota math mid-quarter مشکل ہو جاتا ہےAEs چھوٹے deals پر concentrate کرتے ہیں جہاں discount approval تیز ہےenterprise top-of-funnel slow؛ sales mix down-market shift ہوتی ہے بغیر کسی explicit decision کے
Renewal customersrenewal price new list سے benchmark ہوتا ہےprocurement top 3 accounts میں "most favored nation" clauses دوبارہ کھولتی ہےدو largest accounts multi-year freezes negotiate کرتے ہیں جو new list price سے نیچے lock ہو جاتے ہیں
CompetitorsCompetitor A hold کرتا ہے، Competitor B undercut کرتا ہےCompetitor B top 50 prospects پر targeted outbound شروع کرتا ہےcompetitive deals میں win rate 8–12 pts گرتا ہے؛ CAC payback ایک full quarter stretch ہوتا ہے
Procurement teamsapproval workflow finance gate add کرتا ہےdeal cycle average 11–18 days extend ہوتا ہےQ3 forecast صرف deal-cycle slippage سے miss ہو جاتا ہے، won-loss effect سے پہلے
Sales collateralold pricing sheets CRM میں cached رہتی ہیںAEs transition کے 2–3 weeks old prices quote کرتے ہیںکچھ contracts old price پر signed ہو جاتے ہیں؛ legal flag کرتا ہے کہ honor کریں یا renegotiate

نامزد loop: new list کے تحت AE quota pressure flagship deals پر deeper one-off discounts push کرتا ہے، جو procurement reference checks کے ذریعے renewal benchmarks میں leak ہوتے ہیں، جو realized net price کو list سے نیچے compress کرتے ہیں، جس سے headline 18% increase 4–6% realized بنتا ہے، جو اگلے سال another pricing review trigger کرتا ہے جسے lead کرنے کی credibility team اب lose کر چکی ہوتی ہے۔

یہ کیوں کام کرتا ہے: پانچ real domains ہیں، صرف تین metrics نہیں۔ ہر chain mechanism کا نام لیتی ہے، outcome label نہیں ("procurement re-opens MFN clauses" نہ کہ "procurement reacts")۔ loop واقعی loop ہے: effect واپس circle کر کے original decision بدلتا ہے (announced 18%، realized 4–6%)۔

یہ map اتنا messy ہے کہ reader واضح طور پر loading-zone-equivalent دیکھ سکتا تھا: realized-vs-announced gap جس کا exec read-out میں کسی نے نام نہیں لیا تھا۔

یہ کیا کرنے کی کوشش نہیں کرتا: exhaustive ہونا۔ اس scenario میں کم از کم تین مزید loops ہیں (channel partner margin، competitive-tier customer migration، renewal-cycle timing)۔ discipline ایک real mechanism کے ساتھ ایک real loop name کرنے میں ہے، پہلی map میں سب loops name کرنے میں نہیں۔

اگر آپ کا map اس سے زیادہ tidy لگتا ہے تو signal یہی ہے: اپنے دو weakest domains میں ایک اور "and then what?" deeper جائیں، اور loop دوبارہ تلاش کریں۔

تحقیقی بنیاد دیکھنی ہو تو کھولیں

کسی analyst، human یا AI، سے consult کرنے سے پہلے decision map کرنا well-studied move ہے۔ یہ AI سے کئی دہائیاں پہلے کا ہے۔

یہ Cascade Map دو lineages کے intersection پر ہے: stakeholder breadth (Meadows، Sterman) اور feedback-loop depth (Forrester)۔ five-domain spoke پہلی چیز enforce کرتا ہے؛ named-loop requirement دوسری۔

  • Meadows, D. (2008). Thinking in Systems: A Primer. Chelsea Green. canonical short text۔ Meadows کا argument: کسی system میں highest-leverage interventions تقریباً کبھی وہ variables نہیں ہوتیں جن پر managers obsess کرتے ہیں۔ وہ feedback loops اور rules ہوتے ہیں جو انہیں govern کرتے ہیں، جن کا زیادہ تر analyses نام ہی نہیں لیتے۔ Cascade Map اس argument کا second half enforce کرتا ہے: جس loop کا نام نہیں لیا، اس پر intervene نہیں کر سکتے۔
  • Forrester, J. W. (1958). "Industrial Dynamics: A Major Breakthrough for Decision Makers." Harvard Business Review. system dynamics کا foundational paper۔ Forrester کی industrial-supply studies نے دکھایا کہ linear cause-and-effect reasoning operators کو ان loops سے blind کر دیتی ہے جو long-run behavior drive کرتے ہیں۔ bullwhip effect famous example ہے؛ underlying point ہر multi-stakeholder decision پر generalize ہوتا ہے۔
  • Sterman, J. (2000). Business Dynamics: Systems Thinking and Modeling for a Complex World. Irwin McGraw-Hill. management decisions پر Meadows/Forrester lineage کی textbook treatment۔ Sterman کی empirical work (خاص طور پر Beer Game) دکھاتی ہے کہ smart، motivated decision-makers بھی loops miss کرتے ہیں جب انہیں draw کرنے پر force نہ کیا جائے۔ Cascade Map اسی کا five-minute forced-draw version ہے۔

اس Cascade Map کو AI کے خلاف specifically test کرنے والی کوئی single trial نہیں۔ mechanism (humans breadth miss کرتے ہیں، AI loops miss کرتی ہے، map دونوں gaps close کرتا ہے) extension ہے؛ underlying work established ہے۔

مزید گہرائی: Part 0 Chapter 3: Thinking in Systems. full version (peer review plus AI counter-analysis plus assessment rubric؛ 60 minutes) اسے system بناتا ہے۔


حصہ 3: Origination (وہ کام جو AI نہیں کر سکتی)

Part 1 نے آپ کو AI سے پوچھنے سے پہلے سوچنا سکھایا۔ Part 2 نے AI کے answers میں mistakes spot کرنا سکھایا۔ Part 3 کسی اور چیز کے بارے میں ہے: وہ thinking کرنا جو AI آپ کے لیے نہیں کر سکتی۔

یہاں AI کے 2 بڑے blind spots ہیں۔ پہلا، یہ آپ کو سب سے common answer دیتا ہے، آپ کی situation کے لیے best answer نہیں۔ اگر 1,000 لوگوں نے یہی question پوچھا، تو AI ان سب کے لیے جو کام آیا اس کا average دے گا۔ لیکن آپ کی situation different ہو سکتی ہے۔ دوسرا، جتنا زیادہ آپ AI use کرتے ہیں، اتنا آسان ہو جاتا ہے کہ آپ خود سوچنا چھوڑ دیں اور جو بھی یہ کہے اسے accept کر لیں۔

Disciplines 5 اور 6 دونوں problems fix کرتے ہیں۔

شروع کرنے سے پہلے ایک important phrase سیکھیں: named threshold۔ Named threshold ایک specific condition ہوتی ہے جو بتاتی ہے کہ کوئی advice کب کام کرنا بند کرتی ہے۔ مثال: "یہ advice تب کام کرتی ہے جب آپ کی class میں 30 سے کم students ہوں" named threshold ہے۔ "یہ کبھی کبھی کام کرتی ہے" نہیں، کیونکہ "کبھی کبھی" یہ نہیں بتاتا کہ کب۔ آپ ایک minute میں یہ phrase use کریں گے۔

اصول 5: بنیادی اصول

پہلے ایک quick example۔ Career choose کرتے وقت سب کہتے ہیں "follow your passion"۔ یہ common advice ہے۔ ایک vague complaint یوں لگتی ہے: "Following your passion ہمیشہ کام نہیں کرتا۔" Named threshold یوں لگتا ہے: "جب جس field سے آپ محبت کرتے ہیں اس میں آپ کے ملک میں 500 سے کم paying jobs ہوں، اور آپ income کے بغیر 6 months سے زیادہ خود کو support نہ کر سکتے ہوں، تو following your passion happiness نہیں، money problems بناتا ہے۔" دوسرا version exact بتاتا ہے کہ advice کب کام کرنا بند کرتی ہے۔ یہی فرق ہے۔

اب full example۔ آپ اپنی university کے coding club کی president ہیں۔ Campus کے ہر دوسرے club نے ابھی membership fees charge کرنا شروع کی ہیں۔ آپ کی vice president، faculty advisor، اور 2 senior members سب کہتے ہیں: "ہمیں بھی fees charge کرنی چاہییں، everyone else is doing it." آپ AI سے پوچھتے ہیں۔ AI agree کرتا ہے۔ سب ایک ہی direction میں point کر رہے ہیں۔

یہی problem ہے۔ جب سب agree کرتے ہیں (AI سمیت)، تو سوچنا بند کر کے ساتھ چلنا آسان ہو جاتا ہے۔ لیکن common answer اس چیز پر based ہوتا ہے جو زیادہ تر clubs کے لیے کام کرتا ہے۔ آپ کا club different ہو سکتا ہے۔

Vague complaint کی شکل یہ ہے: "Fees charge کرنا ہمیشہ good idea نہیں ہوتا۔" یہ "ہمیشہ نہیں" use کرتا ہے مگر یہ نہیں بتاتا کہ کب۔ اب named threshold دیکھیں: "جب آپ کے club کا main goal ایسے first-year students کو attract کرنا ہو جنہوں نے پہلے کبھی code نہ کیا ہو، اور ان میں سے اکثر fee afford نہ کر سکتے ہوں، تو پیسے charge کرنا exactly انہی لوگوں کو ڈرا دے گا جن تک آپ پہنچنا چاہتے ہیں۔" دوسرا version specific condition name کرتا ہے (first-years جو afford نہیں کر سکتے) جہاں common advice break کرتی ہے۔ Vague complaint اور named threshold کا یہی gap پوری discipline ہے۔

Practice کرنے کا طریقہ یہ ہے۔ Common advice کا کوئی piece چنیں جو آپ کے ارد گرد ہر شخص (اور AI) آپ کو follow کرنے کو کہہ رہا ہے۔ پھر 3 rows لکھیں۔ ہر row میں ایک specific situation describe کریں جہاں وہ advice کام نہیں کرے گی۔ Real number یا real condition use کریں، صرف "کبھی کبھی" نہیں۔

Common adviceیہ کب کام کرنا بند کرتی ہے؟ (Specific number یا condition use کریں.)

اگر آپ 3 rows specific conditions کے ساتھ fill نہیں کر سکتے، تو آپ advice کو واقعی سمجھے بغیر follow کر رہے تھے۔

اچھی row کیسے پہچانیں: جو row کہتی ہے "جب آپ کے club کے 80% سے زیادہ members first-year students ہوں جن کی income نہیں، تو fees charge کرنا membership کو آدھا کر دے گا" useful ہے۔ یہ exact بتاتی ہے کہ advice کب break کرتی ہے۔ جو row کہتی ہے "fees charge کرنا ہمیشہ کام نہیں کرتا" decision میں مدد کے لیے بہت vague ہے۔

Boundary Conditions: From Vague Complaints to Named Thresholds

اچھا result کیسا دکھتا ہے۔

اوپر والی coding club president نے پہلی try میں 3 perfect rows نہیں لکھیں۔ سوچنے کے بعد اس کے پاس یہ تھا:

Common advice: "ہر club کو membership fees charge کرنی چاہییں۔"
Boundary 1. جب آپ کے 80% سے زیادہ members first-year students ہوں جن کی income نہیں، تو fees charge کرنا exactly انہی لوگوں کو ڈرا دے گا جن تک آپ پہنچنا چاہتے ہیں۔ Threshold: 80% first-year، no-income members۔
Boundary 2. جب آپ کے club کی main value free workshops ہوں جن میں کوئی بھی شامل ہو سکتا ہے، تو fee لگانا ایسی barrier بناتا ہے جو walk-in attendance kill کرتا ہے۔ یہ سب سے زیادہ تب matter کرتا ہے جب campus پر 3 یا زیادہ competing clubs ابھی بھی free ہوں۔ Threshold: same campus پر 3+ free competing clubs۔
Boundary 3. جب آپ کے club کا زیادہ تر budget university grant سے آتا ہو جو open to all students رہنے کی شرط رکھتا ہو، تو fees charge کرنے سے grant جا سکتی ہے۔ Threshold: "open access" requirement والی grant جو آپ کے budget کے half سے زیادہ cover کرے۔

اس نے 3 boundaries اپنے faculty advisor کو دکھائیں۔ انہوں نے club free رکھنے اور sponsored hackathons سے money raise کرنے کا فیصلہ کیا۔ Semester کے آخر تک membership 40% grow ہوئی، جبکہ جن clubs نے fees شروع کیں ان کی attendance drop ہوئی۔ تینوں boundaries common advice میں نہیں تھیں۔ AI کے پہلے answer میں بھی نہیں تھیں۔

Named thresholds کے بغیر وہ شاید کچھ ایسا لکھتی:

Common advice: "ہر club کو membership fees charge کرنی چاہییں۔"یہ مدد کیوں نہیں کرتا
کبھی fees charge کرنا good idea نہیں ہوتا۔بہت vague۔ "کبھی" یہ نہیں بتاتا کب۔ اس کا مطلب 5% members leave کرنا بھی ہو سکتا ہے یا 90% بھی۔ یہ decision میں مدد نہیں کرتا۔
دوسرے clubs ہمیشہ نہیں جانتے کہ وہ کیا کر رہے ہیں۔یہ دوسرے clubs کے بارے میں complaint ہے، آپ کے decision کی reason نہیں۔ یہ کچھ change نہیں کرتا۔
یہ situation پر depend کرتا ہے۔"It depends" کہنا، مگر کس چیز پر یہ نہ کہنا، مدد نہیں کرتا۔ سب کو پہلے ہی معلوم ہے کہ situation پر depend کرتا ہے۔

خود آزمائیں

Your exercise: کوئی بھی common advice چنیں جو لوگ آپ کو بار بار کہتے ہیں۔ Examples: "follow your passion"، "always study in a group"، "save 20% of every paycheck"، "do not skip lectures"۔ 3 rows لکھیں۔ ہر row میں specific situation name کریں (number یا condition کے ساتھ) جہاں وہ advice کام کرنا بند کرتی ہے۔

(آپ جو بھی advice چنیں، یہ same طریقے سے کام کرتا ہے.)

شروع کرنے سے پہلے یاد رکھیں: threshold specific number یا condition use کرتا ہے ("جب آپ کی class میں 200 سے زیادہ students ہوں")۔ "Sometimes"، "often"، اور "it depends" thresholds نہیں۔

اگر تیسری row نہیں آ رہی، تو اس کا مطلب ہے کہ آپ advice کو واقعی سمجھے بغیر follow کر رہے تھے۔ Weak third row force کرنے کے بجائے different advice چنیں۔ یہ خود بھی useful discovery ہے۔

1Your Work

AI grader 2 چیزیں check کرے گا:

  1. کیا ہر row میں specific threshold ہے (number، condition، clear situation)؟ 1-10 rate کرے گا۔ Weakest row quote کرے گا۔
  2. کیا ہر row explain کرتی ہے کہ advice اس situation میں کیوں fail ہوتی ہے، یا صرف کہتی ہے "یہ کام نہیں کرتی"؟ 1-10 rate کرے گا۔ ہر ایسی row point out کرے گا جو vague complaint ہے، real explanation نہیں۔

میری rows rewrite نہ کریں۔ اگر row empty یا vague ہے تو بس صاف کہہ دیں۔

وہ common advice جسے میں examine کر رہا ہوں:

Row 1: یہ advice کب کام کرنا بند کرتی ہے؟ (Specific condition name کریں اور explain کریں کیوں.)

Row 2:

Row 3:

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

یہ پہلی بار تقریبا 15-25 minutes لیتا ہے۔ Thresholds آپ کی expectation سے زیادہ مشکل ہیں۔ Score ملنے کے بعد ایسی row تلاش کریں جہاں آپ نے "sometimes" یا "it depends" لکھا ہو، اور اسے real number یا condition کے ساتھ rewrite کریں۔ اگر آپ rewrite نہیں کر سکتے، تو وہ row شاید real boundary نہیں۔ اسے drop کریں اور different one try کریں۔

آپ نے ابھی یہ تلاش کیا کہ ایک advice کہاں کام کرنا بند کرتی ہے۔ لیکن یہ ان problems پر AI کے ساتھ کام کرنا نہیں سکھاتا جہاں challenge کرنے کے لیے obvious advice موجود ہی نہیں۔ اسی کے لیے Discipline 6 ہے۔

اچھا example دیکھنا چاہتے ہیں؟ (اپنا submit کرنے کے بعد کھولیں۔)

ایک student نے advice چنی: "always study in a group." اس کی 3 rows یہ تھیں:

Common advice: "Always study in a group."
Row 1. 5 people سے بڑے groups اچھی طرح کام نہیں کرتے۔ زیادہ تر لوگ بس بیٹھ کر سنتے ہیں جبکہ 2-3 لوگ real work کرتے ہیں۔ When it breaks: 5 سے زیادہ people۔
Row 2. کچھ subjects quiet focus مانگتے ہیں (جیسے math problems solve کرنا یا essays لکھنا)۔ Group میں ہر چند minutes بعد کوئی interrupt کرتا ہے۔ When it breaks: ایسے tasks جنہیں 30 minutes سے زیادہ quiet thinking چاہیے۔
Row 3. جب ایک person سب سے بہت زیادہ جانتا ہو، تو وہ پورا وقت explain کرنے میں لگا دیتا ہے، study نہیں کرتا۔ وہ اپنے work میں پیچھے رہ جاتا ہے۔ When it breaks: جب best اور weakest student میں 2 grade levels سے زیادہ فرق ہو۔

یہ اچھا کیوں ہے: ہر row specific number use کرتی ہے (5 people، 30 minutes، 2 grade levels)۔ ہر row explain کرتی ہے کہ advice کیوں fail ہوتی ہے، صرف یہ نہیں کہ fail ہوتی ہے۔

3 clear rows کافی ہیں۔ آپ کو ہر possible situation list کرنے کی ضرورت نہیں۔

یہ واقعی کیوں کام کرتا ہے؟ (Research دیکھنے کے لیے click کریں)

ہر advice کچھ situations میں کام کرتی ہے اور کچھ میں fail ہوتی ہے۔ Skill یہ معلوم کرنا ہے کہ یہ کہاں کام کرنا بند کرتی ہے، اس سے پہلے کہ آپ مشکل طریقے سے سیکھیں۔

  1. Good advice صرف right situation میں کام کرتی ہے۔ Researchers نے پایا کہ ہر rule of thumb کا ایک environment ہوتا ہے جہاں یہ کام کرتی ہے اور ایک environment جہاں یہ break کرتی ہے۔ Job یہ ہے کہ اپنی situation کو اتنا جانیں کہ فرق بتا سکیں۔ Threshold exercise یہی کرتی ہے۔ (Gigerenzer, Todd & the ABC Research Group, 1999. Simple Heuristics That Make Us Smart.)

  2. Experts patterns follow کرتے ہیں، check نہیں کرتے۔ جب ہمیں familiar situation دکھتی ہے، ہم پہلا matching pattern پکڑ کر چل پڑتے ہیں۔ Pattern کہاں fail ہوتا ہے لکھنا آپ کو advice blindly follow کرنے سے پہلے pause اور check کرنے پر مجبور کرتا ہے۔ (Klein, 1998. Sources of Power.)

  3. Advice تبھی useful ہے جب آپ بتا سکیں کہ یہ کب wrong ہے۔ Philosopher Karl Popper نے argument کیا کہ claim تبھی معنی رکھتی ہے جب آپ describe کر سکیں کہ کیا چیز اسے wrong prove کرے گی۔ Named threshold یہی کرتا ہے: وہ condition name کرتا ہے جس کے تحت آپ advice follow کرنا چھوڑ دیں گے۔ (Popper, 1959. The Logic of Scientific Discovery.)

کسی نے یہ exact exercise AI use کے لیے specifically test نہیں کی۔ لیکن idea (advice follow کرنے سے پہلے معلوم کرنا کہ وہ کہاں کام کرنا بند کرتی ہے) decades سے studied ہے۔ اسے AI suggestions check کرنے کے لیے use کرنا natural next step ہے۔

مزید گہرائی: Part 0 Chapter 4: Reasoning from First Principles. Full version (Blank Page Sprint: جس practice کو آپ follow کرتے آئے ہیں اس کے خلاف 500 words لکھنا، پھر structured AI counter-analysis اور peer review چلانا؛ 60 min) Part 0 میں ہے۔ یہ page row shape سکھاتا ہے۔ وہ page longform argument سکھاتا ہے۔

اصول 6: AI کے ساتھ کام کرنا

آپ نے صبح AI کے ساتھ ایک important essay پر کام کرتے ہوئے گزاری۔ Result بہت اچھا لگتا ہے۔ Arguments clear ہیں اور writing polished ہے۔ پھر آپ کا professor پوچھتا ہے: "اس میں کون سے parts آپ کے ideas ہیں اور کون سے AI سے آئے؟" آپ جواب دینے لگتے ہیں اور سمجھتے ہیں کہ آپ بتا نہیں سکتے۔ کچھ sentences آپ کے ہیں۔ کچھ AI کے ہیں۔ زیادہ تر mix ہیں۔ Essay اچھا ہے۔ بس آپ نہیں جانتے کہ کون سے parts آپ واقعی explain اور defend کر سکتے ہیں۔

اسے fix کرنے کا طریقہ یہ ہے۔ Same task کو 3 different ways کریں، پھر results side by side compare کریں۔

  1. Solo۔ 15 minutes، no AI۔ صرف آپ اور problem۔
  2. AI-only۔ 5 minutes۔ AI سے پوچھیں، first answer accept کریں، کچھ change نہ کریں۔
  3. Collaborative۔ 10 minutes۔ AI سے پوچھیں، critically read کریں، جہاں needed ہو disagree کریں، follow-up questions پوچھیں، parts خود rewrite کریں۔

پھر تینوں versions compare کریں۔ خود سے پوچھیں: کون سا version best ہے؟ "Together" version کے کون سے parts اس لیے better ہیں کیونکہ آپ نے کسی چیز پر push back کیا؟ Together version عموما جیتتا ہے، مگر real lesson یہ دیکھنا ہے کہ آپ کی thinking نے اسے exactly کہاں better بنایا۔ یہی discipline ہے۔

Real project کے لیے full comparison تقریبا 30 minutes لیتا ہے۔ نیچے exercise quick 10-minute version ہے تاکہ آپ آج فرق feel کر سکیں۔

Three-Path Comparison

Real example میں یہ کیسا دکھتا ہے۔

ایک student کو اپنے professor کو email لکھنی تھی، major assignment کی deadline extension مانگنے کے لیے۔ اس کے پاس real reason تھا (family emergency)، مگر اسے email honest رکھنی تھی بغیر excuse جیسا لگے۔ اس نے تینوں paths try کرنے کا فیصلہ کیا۔

Solo، 15 minutes۔ اس نے email خود لکھی، AI help کے بغیر۔ Email honest اور personal تھی۔ اس نے situation clearly explain کی۔ مگر وہ ramble کر گئی، اور actual request ("can I have 5 more days?") نیچے bury ہو گئی۔ Email بہت long تھی اور professor شاید آخر تک نہ پڑھتا۔

AI-only، 5 minutes۔ اس نے AI کو situation دی اور first draft بغیر change کیے accept کیا۔ Email polished اور well-structured تھی۔ مگر generic لگتی تھی، جیسے کوئی بھی template بھیج سکتا تھا۔ اس میں اس کی situation کی specific details نہیں تھیں۔ یہ اس کی آواز جیسی نہیں لگتی تھی۔ Professor شاید سوچتا کہ اس نے AI email copy کی ہے۔

Collaborative، 10 minutes۔ اس نے opening خود لکھی (اپنی specific situation اپنے words میں explain کرتے ہوئے)، پھر AI سے کہا کہ email restructure کرنے میں help کرے تاکہ request پہلے آئے۔ AI نے tone soft کرنے کا مشورہ دیا؛ اس نے disagree کیا اور اپنی direct wording رکھی کیونکہ اسے معلوم تھا کہ یہ professor politeness سے زیادہ honesty prefer کرتا ہے۔ اس نے AI سے closing line بھی مانگی؛ AI کا version بہت formal تھا، اس لیے اس نے اسے اپنی actual بات کرنے کے انداز میں rewrite کیا۔ Final email clear، personal، اور well-structured تھی۔ Professor نے ایک hour میں reply کیا اور extension دے دی۔

Collaborative version اس لیے جیتا کیونکہ اس نے 2 specific چیزیں کیں: اس نے اپنی direct wording رکھی (جسے AI soft کرنا چاہتا تھا)، اور request کو اوپر رکھا (جو وہ خود شاید نہ سوچتی)۔ وہ exact point کر سکتی ہے کہ اس کے judgment نے email کہاں better بنائی۔

آپ کو صرف Collaborative نہیں، تینوں versions کیوں چاہییں:

  • Solo version کے بغیر، آپ نہیں جانتے کہ آپ خود کیا لکھتے۔ اس لیے آپ final email میں یہ نہیں بتا سکتے کہ کون سے ideas آپ کے ہیں اور کون سے AI سے آئے۔
  • تینوں compare کیے بغیر، آپ prove نہیں کر سکتے کہ Collaborative version واقعی better ہے۔ اگر کوئی پوچھے کہ آپ نے یہی version کیوں چنا، تو "یہ بہتر feel ہوتا ہے" real answer نہیں۔
  • AI-only version کے بغیر، آپ نہیں بتا سکتے کہ آپ نے AI کی ہر بات just accept تو نہیں کر لی۔ اگر Collaborative اور AI-only versions تقریبا same لگیں، تو آپ نے collaborate نہیں کیا۔ آپ نے copy کیا۔
یہ کب use کریں اور کب skip کریں

اسے ایسے work کے لیے use کریں جہاں آپ کا personal experience matter کرتا ہے: emails جنہیں آپ جیسا sound کرنا ہے، decisions جہاں AI آپ کی situation نہیں جانتا، creative work جسے آپ کے ideas چاہیے۔ Simple tasks کے لیے جہاں AI خود fine کام کرتا ہے (جیسے table format کرنا یا notes summarize کرنا)، AI کو کرنے دیں۔ اس exercise کو ایسے tasks پر waste نہ کریں جنہیں آپ کے judgment کی ضرورت نہیں۔

خود آزمائیں

Start here: اپنے landlord کو rent reduction مانگنے کا message لکھیں، یا professor کو deadline extension مانگنے کا message۔ ایسا کچھ جہاں آپ کے پاس context ہو جو AI کے پاس نہیں (آپ کی payment history، اس person سے relationship، specific situation)۔

Workplace version: آپ کا boss آپ سے one-page memo مانگتا ہے کہ company کو smaller competitor خریدنا چاہیے یا نہیں۔ Competitor میں 90 people ہیں اور last quarter تک fast grow کر رہا تھا، پھر اس نے اپنا biggest customer lose کیا (جو revenue کا 22% تھا)۔ وہ $40-55M میں bought ہونے کے لیے open ہیں۔ آپ کی recommendation اگلے 3 years تک آپ کے سامنے quote کی جائے گی۔

دونوں options میں سے کسی کے لیے بھی تینوں versions کریں: Solo (5 min)، AI-only (3 min)، Collaborative (5 min)۔ تینوں side by side رکھیں۔ Point memo نہیں۔ Point تین paths کے درمیان felt difference ہے۔

(یا اپنے desk پر اس week کا کوئی بھی real decision چنیں۔ جتنا real ہوگا، comparison اتنا sharp ہوگا.)

صرف AI والا draft skip نہ کریں۔ یہی drop کرنا سب سے tempting ہے ("مجھے پہلے ہی معلوم ہے AI کیا کہے گی") اور یہی سب سے diagnostic ہے۔ اگر Collaborative draft uncomfortable حد تک AI-only کے قریب نکلے تو آپ نے over-accept کیا۔ یہ صرف دونوں لکھنے سے معلوم ہوتا ہے۔

1Your Work

AI grader 2 چیزیں check کرے گا:

  1. کیا آپ کے 3 versions واقعی different ہیں، یا سب same بات کہتے ہیں؟ 1-10 rate کرے گا۔ اگر Solo اور Collaborative versions تقریبا identical لگیں تو صاف کہے گا۔
  2. کیا آپ کے 3 overrides specific ہیں؟ 1-10 rate کرے گا۔ ہر override ایسی چیز ہونی چاہیے جس پر آپ point کر کے کہہ سکیں: "اس کے بغیر email worse ہوتی۔" اگر کوئی override vague ہے (جیسے "میں نے اسے better بنایا") تو صاف کہے گا۔

میرا work rewrite نہ کریں۔ اگر box empty یا vague ہے تو بس صاف کہہ دیں۔

اپنے تینوں versions describe کریں (آپ نے کیا لکھا، کیا surprise ہوا، کہاں کمزور تھا):

Collaborative version میں 3 specific things name کریں جو آپ نے change یا add کیں اور جن سے وہ better بنی:

آپ کون سا version actually send کریں گے، اور کیوں؟

2Get Your Score

Discuss with an AI. Question your scores.
Come back when you have your BEST evaluation.

یہ thinking time سمیت تقریبا 15 minutes لیتا ہے۔ Score ملنے کے بعد ایسی جگہ تلاش کریں جہاں AI grader کہے کہ آپ کا Solo version کسی چیز میں better تھا۔ یہ بتاتا ہے کہ Collaborative version نے AI پر زیادہ rely کیا اور آپ کی thinking پر کم۔

آپ نے ابھی پورا crash course ایک exercise میں کر لیا۔ آپ نے AI سے پہلے اپنی رائے بنائی (Discipline 1)۔ آپ نے track کیا کہ کس سے agree اور disagree کیا (Discipline 2)۔ آپ نے mistakes check کیں (Discipline 3)۔ آپ نے سوچا کہ آگے کیا ہوتا ہے (Discipline 4)۔ آپ نے test کیا کہ common advice کہاں کام کرنا بند کرتی ہے (Discipline 5)۔ اور جب AI takeover کرنا چاہتا تھا تو آپ نے اپنا judgment رکھا (Discipline 6)۔ Point کبھی answer itself نہیں تھا۔ Point یہ دکھا پانا ہے کہ آپ نے کیسے سوچا۔

اچھا example دیکھنا چاہتے ہیں؟ (اپنا submit کرنے کے بعد کھولیں۔)

ایک اور student نے اپنے professor کو deadline extension مانگنے کی email لکھی۔ ہر version یوں دکھتا تھا:

Versionاس نے کیا لکھا
Solo (15 min)Honest اور personal۔ Family situation clearly explain کی۔ مگر بہت long تھی، اور actual request ("can I have 5 more days?") bottom میں bury تھی۔ اسے معلوم تھا restructuring چاہیے مگر time ختم ہو گیا۔
AI-only (5 min)Short اور well-organized۔ مگر template جیسی لگتی تھی۔ ایسے phrases use کیے جیسے "I would greatly appreciate your consideration" جو وہ real life میں کبھی نہ کہتی۔ اس میں course یا professor کی کوئی specific detail نہیں تھی۔
Collaborative (10 min)اس نے opening اپنے words میں لکھی، پھر AI سے request کو top پر رکھنے میں help مانگی۔ AI نے tone softer بنانے کا مشورہ دیا؛ اس نے direct wording رکھی کیونکہ وہ جانتی تھی کہ professor honesty پسند کرتا ہے۔ اس نے AI کی suggested structure use کی، مگر closing کو اپنی sentence سے replace کیا۔

Collaborative version میں اس نے 3 چیزیں بدلیں:

  1. اپنا direct tone رکھا۔ AI نے اسے زیادہ formal بنانے کی کوشش کی ("I would be grateful for your understanding")۔ اس نے original wording رکھی ("I need 5 more days") کیونکہ professor نے کہا تھا کہ اسے point پر آنے والے students پسند ہیں۔ اس کے بغیر email ہر AI-written extension request جیسی لگتی۔
  2. Request کو first line میں move کیا۔ وہ خود یہ نہ سوچتی۔ AI نے suggest کیا۔ یہی اس کے Solo version پر سب سے بڑا improvement تھا۔
  3. AI کی closing line replace کی۔ AI نے لکھا "Thank you for your time and consideration." اس نے اسے replace کیا: "I can show you what I have so far if that helps." اس سے دکھا کہ اس نے work already start کر دیا تھا۔ اس کے بغیر email generic line پر ختم ہوتی۔

یہ اچھا کیوں ہے: ہر override ایسی چیز پر point کرتا ہے جو اسے معلوم تھی اور AI کو نہیں: professor کی directness preference، اور یہ fact کہ اس نے work already start کر دیا تھا۔ وہ exact کہہ سکتی ہے کہ اس کے judgment نے email کہاں better بنائی۔ یہی test ہے۔

یہ واقعی کیوں کام کرتا ہے؟ (Research دیکھنے کے لیے click کریں)

AI کے ساتھ کام کرنے والے humans، humans alone یا AI alone سے better results دیتے ہیں۔ مگر صرف اس وقت جب human important decisions خود رکھتا ہے۔ اگر آپ AI کی ہر بات accept کرتے ہیں، result average ہوتا ہے۔ Research اس پر کافی consistent ہے۔

  1. Human + AI دونوں سے better ہو سکتا ہے۔ Chess champion Kasparov computer سے ہارنے کے بعد ایک surprising چیز پر پہنچے: human-computer teams best humans اور best computers دونوں کو اکیلے کھیلتے ہوئے beat کرتے ہیں۔ Key یہ تھی کہ human strategy choose کرتا تھا اور computer calculations کرتا تھا۔ Improvement computer کی speed سے نہیں، human کے یہ جاننے سے آیا کہ کب override کرنا ہے۔ (Kasparov, 2017. Deep Thinking.)

  2. AI beginners کو experts سے زیادہ help کرتا ہے۔ 5,000 سے زیادہ customer service workers کی study میں AI نے average productivity 14% بڑھائی۔ مگر beginners سب سے زیادہ improve ہوئے، کیونکہ AI already وہ لکھتا ہے جو experienced person لکھتا۔ Lesson: collaboration تبھی value add کرتا ہے جب آپ ایسا knowledge لاتے ہیں جو AI کے پاس نہیں۔ (Brynjolfsson, Li & Raymond, 2025. Quarterly Journal of Economics.)

  3. AI سب کو average بناتا ہے۔ Writing study میں AI نے weaker writers کی quality بڑھائی، مگر سب کی writing زیادہ similar ہو گئی۔ Human یہ choose نہ کرے کہ کیا رکھنا ہے اور کیا بدلنا ہے، تو AI output "good enough but nothing special" کی طرف drift کرتا ہے۔ اس exercise کا AI-only version exactly یہی دکھاتا ہے۔ (Noy & Zhang, 2023. Science.)

کسی نے exact three-version exercise test نہیں کی۔ لیکن اس کے پیچھے کی finding، human + AI best تب کام کرتا ہے جب human decide کرتا ہے کہ کیا override کرنا ہے، AI productivity research کے strongest results میں سے ہے۔

اس exercise کا full version (95-minute three-path comparison، peer review، XP tracking، اور full collaboration-style diagnosis کے ساتھ) Part 0 Chapter 6: Working WITH AI, Not For AI میں ہے۔ یہ صفحہ move سکھاتا ہے۔ وہ page working week کو اس کے گرد build کرتا ہے۔


Capstone: ایک decision، 6 disciplines

آپ اپنی university کی student council کی president ہیں۔ University نے council کو surprise budget دیا ہے: $10,000، جسے semester end سے پہلے spend کرنا ہے۔ آپ کے سامنے 2 options ہیں۔ Option A: professional event planner hire کریں جو year-end farewell party organize کرے۔ Option B: money سے AI tools اور equipment خریدیں جو ہر council member کو پورے سال better events plan کرنے میں help دیں۔ آدھی council farewell party چاہتی ہے۔ آدھی AI tools چاہتی ہے۔ آپ کو Friday کی council meeting میں recommendation present کرنی ہے۔ ہر discipline decision میں کیسے help کرتی ہے:

Discipline 1، Prediction Lock۔ AI سے کچھ پوچھنے سے پہلے، آپ اپنی 4 lines لکھتی ہیں۔ یہ اصل میں کس بارے میں ہے؟ Real question "farewell party vs. tools" نہیں، بلکہ "ایک بڑا event vs. ہر future event کو better بنانا" ہے۔ آپ کا guess: AI tools help کریں گے، مگر 8 میں سے صرف 4 council members انہیں actually use کریں گے۔ Confidence: 50%۔ آپ کوئی AI tool کھولنے سے پہلے یہ لکھتی ہیں۔

Discipline 2، Reasoning Receipt۔ آپ AI سے advice مانگتی ہیں۔ AI کہتا ہے farewell party "500+ students کے لیے lasting memories" بنائے گی۔ آپ اسے MODIFY label کرتی ہیں: venue میں صرف 300 لوگ آ سکتے ہیں۔ AI کہتا ہے AI tools event quality 35% بڑھائیں گے۔ آپ اسے REJECT label کرتی ہیں: کوئی source نہیں، اور آپ کی council نے یہ tools پہلے کبھی use نہیں کیے۔ AI mention کرتا ہے کہ دوسری universities نے event planning کے لیے AI use کر کے money save کیا۔ آپ اسے SURFACED label کرتی ہیں: آپ نے دوسری universities کے بارے میں سوچا نہیں تھا۔ AI suggestions سے گزرنے کے بعد آپ کے پاس 8 labeled rows ہیں۔ آپ کو exact معلوم ہے کہ کون سی claims trust کرنی ہیں اور کون سی نہیں۔

Discipline 3، Error Taxonomy۔ آپ AI output کو 6 mistake types کے لیے scan کرتی ہیں۔ آپ کو ملتا ہے: غلط number (venue capacity)، made-up statistic (35% quality increase کا source نہیں)، اور stale fact (AI نے tools pricing last year کی quote کی؛ current price higher ہے)۔ یہ mistakes کسی option کو kill نہیں کرتیں، مگر آپ کی cost calculations بدل دیتی ہیں۔

Discipline 4، Cascade Map۔ آپ دونوں options کے effects 5 groups میں trace کرتی ہیں:

  • Council members: Option A کا مطلب ایک بڑا event اور پھر کچھ نہیں۔ Option B کا مطلب سب کے لیے new skills۔
  • Students: Option A 300 students کو ایک great night دیتا ہے۔ Option B ہر event کو تمام students کے لیے improve کرتا ہے۔
  • University admin: Option A safe اور familiar ہے۔ Option B دکھاتا ہے کہ council forward-thinking ہے۔
  • Next year's council: Option A کچھ نہیں چھوڑتا۔ Option B tools اور training چھوڑتا ہے جسے next team use کر سکتی ہے۔
  • Sponsors: Option A ایسے sponsors attract کرتا ہے جنہیں ایک event پر visibility چاہیے۔ Option B sponsors کو pitch کرنا harder ہے۔

آپ ایک loop find کرتی ہیں: اگر آپ Option B چنتی ہیں مگر 8 میں سے صرف 4 members tools use کرتے ہیں، تو events improve نہیں ہوتے، next year's council benefit نہیں دیکھتی، اور AI tools cancel کر دیتی ہے۔ Investment waste ہو جاتا ہے۔

Discipline 5، First Principles۔ سب کہتے ہیں "big event school spirit build کرتا ہے." آپ test کرتی ہیں کہ یہ advice کہاں break ہوتی ہے۔ Boundary: جب 20% سے کم students attend کر سکتے ہوں (2,000 میں سے 300)، farewell party صرف small group کے لیے spirit build کرتی ہے اور باقی لوگ left out محسوس کرتے ہیں۔ یہ boundary picture بدل دیتی ہے۔

Discipline 6، Working WITH AI۔ آپ اپنی recommendation 3 ways لکھتی ہیں۔ Solo: Option B کے لیے solid case، مگر آپ farewell party چاہنے والے council members کو address کرنا بھول گئیں۔ AI-only: polished recommendation جو difference split کرتی ہے ("دونوں کرو!") مگر explain نہیں کرتی کہ دونوں budget میں کیسے fit ہوں گے۔ Collaborative: core argument آپ خود لکھتی ہیں، AI سے farewell party supporters کی concerns address کرنے میں help مانگتی ہیں، اور specific rule add کرتی ہیں: اگر 8 میں سے 6 members 3 months میں AI training complete نہیں کرتے، تو remaining money farewell party کو جائے گا۔

Council آپ کی safeguard rule کے ساتھ Option B vote کرتی ہے۔ آپ اپنی recommendation کا ہر part explain کر سکتی ہیں کیونکہ آپ نے اسے خود build کیا، AI کی help کے ساتھ۔

6 disciplines نے کیا کیا: انہوں نے آپ کو answer نہیں دیا۔ انہوں نے trail دیا: prediction جسے later check کیا جا سکتا ہے، receipt جو دکھاتی ہے AI کی کون سی claims آپ نے trust کیں اور کون سی نہیں، error scan جس نے numbers fix کیے، cascade map جس نے risk find کیا، boundary جس نے obvious choice challenge کی، اور three-version comparison جس نے safeguard find کیا۔ 6 disciplines کے بغیر آپ meeting میں "مجھے لگتا ہے Option B better ہے" لے کر جاتیں۔ ان کے ساتھ آپ evidence اور backup plan لے کر جاتی ہیں۔

ہر decision پر تمام 6 disciplines use نہ کریں

Lunch کہاں کرنا ہے اس کے لیے Cascade Map نہیں چاہیے۔ ہر text message کے لیے Reasoning Receipt نہیں چاہیے۔ 6 disciplines صرف ان decisions کے لیے use کریں جو واقعی matter کرتے ہیں۔ باقی سب پر decide کریں اور move on کریں۔

کس decision کے لیے کون سی disciplines؟

Decision کتنی important ہے؟Exampleکون سی disciplines use کریںTime
بالکل important نہیںکہاں کھانا ہے، routine message کا replyNone، یا quick Prediction Lock (30 seconds)0-1 min
کچھ importantNext semester course چننا، laptop خریدناPrediction Lock + top AI recommendation پر Error Taxonomy10-15 min
Important، deadline کے ساتھCareer choice، big purchase، group project proposalPrediction Lock + Reasoning Receipt + Error Taxonomy + 1-2 اور جو fit ہوں30-60 min
بہت important، لوگ آپ کی reasoning judge کریں گےThesis defense، job interview presentation، council recommendationتمام 6 disciplines90+ min

خود try کریں: mini-capstone

آپ نے ابھی 1 decision پر 6 disciplines apply ہوتے دیکھیں۔ اب اپنے week کے کسی decision پر reduced scope میں same کریں تاکہ 30 minutes میں finish ہو سکے۔ کچھ real چنیں: کوئی purchase جس پر آپ سوچ رہے ہیں، difficult conversation، career choice، project direction۔

  1. Prediction Lock (2 minutes): 2-line lock لکھیں۔ ایک sentence real decision کے لیے، ایک predicted answer confidence کے ساتھ۔
  2. Reasoning Receipt (5 minutes): AI سے recommendation مانگیں۔ 3 claims کو ACCEPT، REJECT، یا MODIFY سے receipt کریں اور ہر ایک کے لیے 1 sentence why۔
  3. Error Taxonomy (3 minutes): AI output میں 6 types میں سے 1 named error scan کریں۔ Sentence quote کریں۔
  4. Cascade Map (5 minutes): 3 affected groups چنیں۔ ہر group کے لیے "and then what?" کی 1 layer۔ 1 loop name کریں۔
  5. First Principles (3 minutes): 1 boundary row لکھیں۔ Threshold name کریں جہاں consensus کام کرنا بند کرتا ہے۔
  6. Three-Path Comparison (5 minutes): 1 paragraph solo لکھیں، 1 AI کے ساتھ۔ Compare کریں۔ کس میں ایسی چیز ہے جو دوسرے میں نہیں؟

Total: 25-30 minutes۔ Result polished نہیں ہوگا۔ وہ آپ کا ہوگا۔ یہی point ہے۔


یہاں سے آگے کہاں جائیں

6 disciplines میں سے کسی پر deeper practice کے لیے اس book کا Part 0 long-form treatment ہے:

وہ 5 thinking skills جنہیں یہ crash course cover نہیں کرتا، Part 0 میں full treatment رکھتے ہیں:

اس کتاب میں آپ کا next move، اپنا mode چنیں:

  • اگر آپ code لکھتے ہیں تو Claude Code & OpenCode پر جائیں۔ یہ Mode 1 کا engineering surface ہے: AI سے وہ work improve کرنا جو آپ already کرتے ہیں۔
  • اگر آپ knowledge work کرتے ہیں (legal، finance، marketing، operations، healthcare، education، leadership)، تو Cowork پر جائیں۔ یہ Mode 1 problem-solving کا domain-expert surface ہے۔
  • اگر آپ ایسے AI Workers بنانا چاہتے ہیں جو خود چلیں، تو Build AI Agents پر جائیں۔ یہ Mode 2 ہے: ایسے AI systems بنانا جو independently work کرتے ہیں۔

یہ disciplines ہر tool، ہر mode، ہر domain میں transfer ہوتی ہیں۔ یہی وہ چیز ہے جو آپ یہاں سے ہر جگہ ساتھ لے کر جاتے ہیں۔


Glossary

اگر page کے بیچ میں آپ کوئی word بھول گئے ہوں، تو load-bearing terms یہاں ایک جگہ ہیں۔

4 key ideas (rule section اور diagram سے).

  • Discipline: وہ thinking habit جسے آپ practice کرتے ہیں۔ کچھ جو آپ کرتے ہیں۔
  • Failure mode: وہ specific طریقہ جس سے AI آپ کو mislead کرتا ہے۔ کچھ جو AI کرتا ہے۔ ہر discipline ایک failure mode کا answer ہے۔
  • Arc (یا part): disciplines کا group جس کا shared job ہے۔ Course میں 3 arcs ہیں (Foundations، Detection، Origination)، ہر ایک میں 2 disciplines۔
  • Deliverable: وہ چیز جو آپ boss، professor، یا client کو دیتے ہیں۔ 2026 میں deliverable صرف answer نہیں؛ answer plus documented evidence of thinking ہے جس نے اسے produce کیا (prediction، receipt rows، cascade map، named threshold)۔ اگر آپ evidence پر point نہیں کر سکتے، تو deliverable نہیں ہے۔

6 disciplines اور ان کے moves.

#DisciplineMoveکیا کرتی ہے
1Prediction Lock (Arc 1: Foundations)PREDICT BEFORE YOU PROMPTAI سے پوچھنے سے پہلے لکھیں کہ آپ کو answer کیا لگتا ہے۔
2Reasoning Receipt (Arc 1: Foundations)DOCUMENT EVERY DECISIONAI کی ہر important بات پر ACCEPT / REJECT / MODIFY / SURFACED / MISSED mark کریں اور 1-sentence why لکھیں۔
3Error Taxonomy (Arc 2: Detection)PREDICT WHERE ERRORS HIDEAI output کو 6 mistake types کے لیے scan کریں: Factual error، Logical gap، False confidence، Missing context، Fabricated source، Stale fact۔
4Thinking in Systems (Arc 2: Detection)CASCADE MAPS & LOOPSDecision کے بعد affected groups میں کیا ہوتا ہے trace کریں، 3 layers deep، اور loops تلاش کریں جہاں effects واپس circle کرتے ہیں۔
5First Principles (Arc 3: Origination)FIND THE BOUNDARYNamed threshold name کریں: specific number یا condition جہاں common advice کام کرنا بند کرتی ہے۔
6Working WITH AI (Arc 3: Origination)OVERRIDE & ITERATESolo لکھا ہوا، AI-alone draft، اور Collaborative draft compare کریں۔ Collaborative version تبھی جیتتا ہے جب آپ specific overrides point کر سکیں جہاں آپ کے judgment نے اسے better بنایا۔

Page پر use ہوئے کچھ اور terms.

  • Named threshold: specific number یا condition جو بتاتی ہے کہ advice کب کام کرنا بند کرتی ہے۔ "یہ تب کام کرتا ہے جب آپ کی class میں 30 سے کم students ہوں" named threshold ہے۔ "یہ کبھی کبھی کام کرتا ہے" نہیں۔
  • Cascade map: one-page diagram جس میں ہر affected group کے لیے چھوٹا column ہوتا ہے (students، professors، parents، sponsors وغیرہ) اور ہر column کے نیچے 3 arrows دکھاتے ہیں کہ پہلے کیا ہوتا ہے، اس سے اگلا کیا ہوتا ہے، اور اس کے بعد کیا ہوتا ہے۔
  • Reasoning receipt: important AI claims کی list، ہر claim پر label (ACCEPT، REJECT، MODIFY، SURFACED، MISSED) اور 1-sentence reason۔
  • Loop: cause اور effect کی chain جہاں later effect واپس circle کر کے original decision بدلتا ہے، اکثر اسے worse بناتے ہوئے۔

فلیش کارڈز Study Aid


اپنی سمجھ test کریں

Checking access...

Disciplines deliverable نہیں ہیں۔ وہ جو evidence produce کرتی ہیں وہی deliverable ہے۔ Disciplines اس evidence کو produce کرنے کا طریقہ ہیں۔

کیا یہ AI کو آپ کے ہاتھ میں زیادہ طاقتور tool بناتا ہے، یا آپ کو اسی tool کا slow version بنا دیتا ہے؟