مجسم ذہانت (Embodied Intelligence)
مدت: 45 منٹ | سطح: L1 (دستی بنیادیں) | ٹیر: 1 (براؤزر)
پچھلے سبق میں، ہم نے رکاوٹوں (constraints) کے بارے میں بات کی تھی: کشش ثقل (gravity)، تاخیر (latency)، حفاظت (safety)۔ یہ مسائل کی طرح لگتے ہیں۔ لیکن یہاں ایک بصیرت ہے جو سب کچھ بدل دیتی ہے:
جسمانی رکاوٹیں کیڑے (bugs) نہیں ہیں—وہ خصوصیات (features) ہیں۔
یہ حقیقت کہ ایک روبوٹ کا جسم مخصوص شکل، وزن اور طاقت رکھتا ہے، اس کی ذہانت کو محدود نہیں کرتا۔ یہ بنیادی طور پر ایک مختلف قسم کی ذہانت کو فعال کرتا ہے۔ ان رکاوٹوں کے بغیر، وہ ذہانت کام نہیں کرے گی۔
یہ مجسم ذہانت کا اصول ہے: ذہن اور جسم الگ نہیں ہیں۔ جسم اس بات کو تشکیل دیتا ہے کہ ذہن کیا کر سکتا ہے، اور یہ تشکیل ذہانت کی مخصوص شکلوں کو ممکن بناتی ہے۔
سیکھنے کے مقاصد
اس سبق کے اختتام تک، آپ اس قابل ہو جائیں گے:
- وضاحت کریں کہ روبوٹ کی مورفولوجی (جسم کی شکل) کنٹرول کی حکمت عملیوں کو کیسے متاثر کرتی ہے
- جسمانی نظام میں فیڈ بیک لوپس کی وضاحت کریں اور بتائیں کہ وہ سیکھنے کے لیے کیوں اہم ہیں
- پہچانیں کہ رکاوٹیں رویے کو فعال کرتی ہیں—وہ انہیں روکتی نہیں ہیں
جسم ذہن کو تشکیل دیتا ہے
آپ کا جسم آپ کی سوچ کو تشکیل دیتا ہے
آپ نے کبھی اس بارے میں نہیں سوچا ہوگا کہ آپ کپ کیسے اٹھاتے ہیں۔ آپ بس یہ کر دیتے ہیں۔ لیکن کپ اٹھانے کی آپ کی صلاحیت مکمل طور پر آپ کے مجسم ہونے (embodiment) سے آتی ہے: بازو کی لمبائی، انگلیوں کی طاقت، کلائی کی لچک، پروپریو سیپٹیو فیڈ بیک (بغیر دیکھے یہ احساس کہ آپ کا بازو کہاں ہے)۔
اگر آپ کے بازو نہ ہوتے، تو آپ کپ نہیں اٹھا سکتے تھے۔ یہ آپ کے ذہن کی کوئی حد نہیں ہے—آپ کے ذہن میں سب سے پہلے کپ اٹھانے کا تصور ہی نہیں ہوتا۔ آپ کے مجسم ہونے نے اس امکان کو پیدا کیا۔
اپنے مجسم ہونے کو تبدیل کریں، اور آپ اس چیز کو تبدیل کر دیں گے جو آپ کی ذہانت کر سکتی ہے۔
ایک ہیومنوائڈ کا مجسم ہونا
ایک ہیومنوائڈ روبوٹ (جیسے ٹیسلا باٹ یا یونٹری H1) میں یہ چیزیں ہوتی ہیں:
| خصوصیت | نتیجہ |
|---|---|
| 2 بازو، ہر ایک میں 5 انگلیاں | انسانی اوزاروں کو استعمال کر سکتا ہے، اشیاء کو پکڑ سکتا ہے، انسانوں کے ڈیزائن کردہ مقامات کے ساتھ تعامل کر سکتا ہے |
| 2 ٹانگیں، ٹخنے/گھٹنے/کولہے پر جوڑ | سیڑھیاں چڑھ سکتا ہے، ناہموار زمین پر چل سکتا ہے، متحرک توازن قائم رکھ سکتا ہے |
| تنے/سینہ | گھوم سکتا ہے، مڑ سکتا ہے، رکاوٹوں کے گرد پہنچ سکتا ہے |
| سامنے کی طرف کیمروں والا سر | دیکھ سکتا ہے کہ وہ کہاں جا رہا ہے، بصری فیڈ بیک میں کام کر سکتا ہے |
| وزن: 30-60 کلوگرام | رفتار (momentum) کو سنبھالنا پڑتا ہے؛ لامحدود تیزی سے تیز نہیں ہو سکتا |
ان میں سے ہر خصوصیت ایک رکاوٹ ہے جو مخصوص ذہانت کو فعال کرتی ہے۔
- 2 ٹانگیں کیوں؟ کیونکہ دو ٹانگوں پر چلنا انسانی ماحول اور زمین پر حرکت کرنے کے لیے کارآمد ہے۔ کوئی دوسری شکل یہ بہتر طریقے سے نہیں کرتی۔
- انگلیاں کیوں؟ کیونکہ انسانی اوزار انگلیوں والے ہاتھوں کے لیے ڈیزائن کیے گئے تھے۔ ایک ہیومنوائڈ دروازے کا ہینڈل استعمال کر سکتا ہے، سکریو ڈرایور پکڑ سکتا ہے، کی بورڈ پر ٹائپ کر سکتا ہے۔
- سامنے کی طرف آنکھیں کیوں؟ کیونکہ انسان اسی طرح دیکھتے ہیں۔ انسانی جگہوں میں حرکت کرنے والا روبوٹ اس بصری فریم کو وراثت میں لیتا ہے۔
ان رکاوٹوں کے بغیر، ایک روبوٹ نظریاتی طور پر زیادہ کام کر سکتا تھا۔ لیکن اس کے پاس ان میں سے کسی کے لیے بھی کوئی مربوط حکمت عملی نہیں ہوگی۔
بہت زیادہ آزادی کا مسئلہ
ایک ایسے روبوٹ کا تصور کریں جس میں یہ خصوصیات ہوں:
- لامحدود جوڑ کی حد (کسی بھی سمت میں مڑ سکتا ہے)
- لامحدود رفتار (جوڑ فوری طور پر جواب دیتے ہیں)
- لامحدود طاقت (کچھ بھی اٹھا سکتا ہے)
- لامحدود پہنچ (بازو 20 میٹر لمبے)
یہ طاقتور لگتا ہے۔ لیکن یہ موثر طریقے سے کیسے حرکت کرے گا؟ یہ انسانی جگہوں پر کیسے نیویگیٹ کرے گا؟ اسے کیسے معلوم ہوگا کہ کوئی حرکت "قدرتی" ہے بمقابلہ "فضول"؟
رکاوٹیں ڈھانچہ فراہم کرتی ہیں۔ ان کے بغیر، لامحدود امکانات ہیں لیکن کوئی حکمت عملی نہیں۔
سینسوریموٹر لوپ: فیڈ بیک ہی سب کچھ ہے
خالص سافٹ ویئر تنہائی میں چلتا ہے۔ آپ کا کوڈ چلتا ہے؛ واحد فیڈ بیک یہ ہے کہ آیا وہ کریش ہوا۔ اسے اوپن لوپ کنٹرول کہا جاتا ہے—آپ احکامات بھیجتے ہیں اور امید کرتے ہیں کہ وہ کام کریں گے۔
جسمانی نظام اس طرح کام نہیں کر سکتے۔ ایک روبوٹ کو مسلسل چیک کرنا پڑتا ہے: "کیا میرے حکم نے وہی اثر ڈالا جو میں نے ارادہ کیا تھا؟"
یہ ایک فیڈ بیک لوپ بناتا ہے:
سینسوریموٹر لوپ:
فیصلہ → حکم → موٹر عمل کرتا ہے → حسی فیڈ بیک → ماڈل اپ ڈیٹ کریں → فیصلہ
↑ │
└────────────────── اگلے فیصلے کو بہتر بنائیں ──────────────────────────┘
ہر قدم:
- فیصلہ (Decision): کیا کرنا ہے
- حکم (Command): موٹر کو بھیجنا
- موٹر عمل کرتا ہے (Motor Acts): جوڑ حرکت کرتا ہے (100-500ms تاخیر)
- حسی فیڈ بیک (Sensory Feedback): پروپریو سیپٹرز، IMU اصل حالت کی رپورٹ کرتے ہیں
- ماڈل اپ ڈیٹ کریں (Update Model): ارادے کے بمقابلہ اصل نتیجہ کا موازنہ کریں
چلنا: ایک سینسوریموٹر مثال
جب آپ چلتے ہیں، تو ہر قدم اس لوپ کا استعمال کرتا ہے:
- فیصلہ: "میں اپنا بایاں پاؤں آگے بڑھاؤں گا"
- حکم: پٹھے سکڑتے ہیں، بایاں پاؤں آگے بڑھتا ہے
- موٹر عمل کرتا ہے: بایاں پاؤں خلا میں حرکت کرتا ہے
- حسی فیڈ بیک: پروپریو سیپٹرز آپ کو پاؤں کی پوزیشن بتاتے ہیں؛ پاؤں کے سینسر زمین سے رابطہ محسوس کرتے ہیں
- اپ ڈیٹ: آپ محسوس کرتے ہیں کہ آیا آپ متوازن ہیں؛ اگر جھک رہے ہیں، تو اگلا قدم درست کرتا ہے
- دوبارہ لوپ: دایاں پاؤں قدم رکھتا ہے؛ مسلسل فیڈ بیک
آپ ان میں سے کسی کے بارے میں شعوری طور پر نہیں سوچ رہے ہیں۔ چلتے وقت آپ کا دماغ اس لوپ کو تقریباً 40+ بار فی سیکنڈ چلاتا ہے۔ ہر قدم پچھلے قدم کے فیڈ بیک کی بنیاد پر ایک چھوٹا سا تصحیح (correction) ہے۔
یہی وجہ ہے کہ انسان ناہموار زمین پر چل سکتے ہیں۔ وہ پہلے سے حساب شدہ منصوبے پر عمل نہیں کر رہے ہیں۔ وہ حسی فیڈ بیک کی بنیاد پر مسلسل ایڈجسٹ کر رہے ہیں۔
یہ روبوٹ کے لیے کیوں اہم ہے
ناہموار زمین پر چلنے والا روبوٹ موٹر احکامات کا پہلے سے لکھا ہوا سلسلہ استعمال نہیں کر سکتا جیسے "بایاں پاؤں ہلاؤ، توقف کرو، دایاں پاؤں ہلاؤ، توقف کرو۔" زمین غیر متوقع ہے؛ روبوٹ کو یہ کرنا پڑتا ہے:
- قدم رکھنا، زمین کو محسوس کرنا، جھکاؤ کا پتہ لگانا
- اصل زمین کے رابطے کی بنیاد پر موقف کو ایڈجسٹ کرنا
- IMU فیڈ بیک کا استعمال کرتے ہوئے رفتار کو درست کرنا
- اپ ڈیٹ شدہ سمجھ کے ساتھ دوبارہ قدم رکھنا
فیڈ بیک لوپ اختیاری نہیں ہے۔ یہ ذہانت ہے۔
سافٹ ویئر جو اس فیڈ بیک کو نظر انداز کرتا ہے (اوپن لوپ) صرف بالکل ہموار زمین پر کام کرے گا۔ جس لمحے زمین مختلف ہوتی ہے، روبوٹ گر جاتا ہے۔
رکاوٹیں بطور خصوصیات: کشش ثقل چلنے کو ممکن بناتی ہے
یہ ایک غیر متوقع خیال ہے: کشش ثقل چلنے کو مشکل نہیں بناتی۔ یہ چلنے کو کارآمد بناتی ہے۔
کشش ثقل کے بغیر دو ٹانگوں پر چلنا؟
بین الاقوامی خلائی اسٹیشن کی طرح، صفر کشش ثقل میں چلنے والے روبوٹ کا تصور کریں۔ کشش ثقل کے نیچے نہ ہونے پر، روبوٹ کو یہ کرنا پڑے گا:
- "چلنے" کے لیے زمین کے خلاف فعال طور پر دھکیلنا پڑے گا
- پوزیشن برقرار رکھنے کے لیے توانائی خرچ کرنی پڑے گی (کوئی "اوپر" نہیں ہے)
- چلنے کا کیا مطلب ہے، اس پر مکمل طور پر دوبارہ غور کرنا پڑے گا
صفر کشش ثقل میں انسان چلتے نہیں ہیں—وہ ہینڈ ہولڈز کا استعمال کرکے خود کو دھکیلتے ہیں۔ کشش ثقل کی کمی اس رکاوٹ کو ہٹا دیتی ہے جو چلنے کو کارآمد بناتی ہے۔
کشش ثقل کے ساتھ دو ٹانگوں پر چلنا
زمین پر، کشش ثقل ایک موقع پیدا کرتی ہے:
- جب آپ آگے قدم بڑھاتے ہیں، تو کشش ثقل پنڈولم کی حرکیات (pendulum dynamics) کی طرح پاؤں کو پیچھے جھولنے میں مدد کرتی ہے
- جب آپ ایک پاؤں پر متوازن ہوتے ہیں، تو کشش ثقل مستقل ہوتی ہے؛ آپ کے پٹھے صرف خلل (perturbations) سے لڑتے ہیں
- دو ٹانگوں پر چلنے کی توانائی کی لاگت حیرت انگیز طور پر کم ہوتی ہے کیونکہ کشش ثقل زیادہ تر کام کرتی ہے
رکاوٹ (کشش ثقل) کارکردگی کو فعال کرتی ہے۔ اس کے بغیر، دو ٹانگوں پر چلنا بے معنی ہو جاتا ہے۔
گہرا نکتہ
جب آپ کوئی روبوٹ ڈیزائن کرتے ہیں، تو اس کے مجسم ہونے کی ہر رکاوٹ (جیسے ماس، جوڑ کی حد، رفتار کی حدیں) شاندار، کارآمد حلوں کے لیے مواقع پیدا کرتی ہے۔ بہترین روبوٹ ڈیزائن ان رکاوٹوں سے لڑتے نہیں ہیں—وہ ان کا فائدہ اٹھاتے ہیں۔
پہیوں والا روبوٹ ہموار زمین پر کام کرتا ہے کیونکہ پہیے رولنگ فرکشن (rolling friction) کا فائدہ اٹھاتے ہیں۔ ٹانگوں والا روبوٹ زمین پر کام کرتا ہے کیونکہ ٹانگیں قدم رکھنے اور توازن کا فائدہ اٹھاتی ہیں۔
کوئی بھی ڈیزائن "ہر لحاظ سے بہتر" نہیں ہے۔ ہر ایک مختلف مسائل کو حل کرنے کے لیے مختلف رکاوٹوں کا فائدہ اٹھاتا ہے۔
حل شدہ مثال: جوڑ کی حدود رویے کو فعال کرتی ہیں
ایک ہیومنوائڈ بازو کا کندھا تقریباً 170° سے زیادہ گھوم نہیں سکتا (آپ اسے اپنے جسم پر بھی دیکھ سکتے ہیں)۔
یہ ایک حد معلوم ہوتی ہے۔ لیکن یہ دراصل ایک خصوصیت ہے:
-
یہ قابلِ رسائی جگہ کو متعین کرتا ہے: روبوٹ صرف اپنی قابلِ رسائی جگہ میں حرکتوں کی منصوبہ بندی کر سکتا ہے۔ لامحدود حد کا مطلب لامحدود امکانات اور کوئی مربوط حکمت عملی نہیں ہوگی۔
-
یہ خود سے ٹکراؤ کو روکتا ہے: جوڑ کی حدود کے ساتھ، روبوٹ اپنے بازو کو ایسے طریقوں سے نہیں موڑ سکتا جس سے وہ اپنے جسم سے ٹکرا جائے۔
-
یہ موثر کنٹرول کو فعال کرتا ہے: معلوم حدود کے اندر، کنٹرول سسٹم جانتا ہے کہ کیا ممکن ہے اور اسی کے مطابق بہتر بناتا ہے۔
-
یہ ڈیزائن کو مطلع کرتا ہے: چونکہ بازو کی رینج ±170° ہے، اس لیے ڈیزائنر جانتا ہے کہ کون سے کام قابلِ عمل ہیں (میز کے پار پہنچنا: ہاں؛ اپنی کمر کے پیچھے پہنچنا: نہیں)۔
اس کا موازنہ ChatGPT سے کریں: اس کے کوئی جوڑ کی حدود نہیں ہیں کیونکہ اس کے کوئی جوڑ نہیں ہیں۔ یہ نظریاتی طور پر کسی بھی موضوع پر غور کر سکتا ہے۔ لیکن یہ آزادی اسے ہوشیار نہیں بناتی—یہ صرف ایک مختلف قسم کا نظام ہے۔
روبوٹ کی رکاوٹ (کندھے کی رینج) موثر، بامقصد رویے کو فعال کرتی ہے۔ اس کے بغیر، لامحدود امکانات ہوں گے لیکن کوئی حکمت عملی نہیں۔
گائیڈڈ پریکٹس: مورفولوجی اور صلاحیت
ڈیزائن منظر نامہ 1: پہیوں والا بمقابلہ ٹانگوں والا
ناہموار زمین (چٹانیں، رکاوٹیں، کھردری سطحیں) کی تلاش کرنے والے دو روبوٹوں پر غور کریں:
پہیوں والا روبوٹ:
- فائدہ: ہموار سطحوں پر کارآمد، سادہ میکینکس
- نقصان: چٹانوں پر پھنس جاتا ہے، رکاوٹوں پر چڑھ نہیں سکتا
ٹانگوں والا روبوٹ:
- فائدہ: رکاوٹوں پر چڑھ سکتا ہے، ناہموار زمین کے مطابق ڈھل سکتا ہے
- نقصان: زیادہ پیچیدہ کنٹرول، ہموار سطحوں پر سست
کوئی بھی "بہتر" نہیں ہے۔ ہر ایک مختلف ماحول کے لیے مختلف مورفولوجی کا فائدہ اٹھاتا ہے۔
سوال: پہیوں والے روبوٹ کو زیادہ پہیوں یا بڑے پہیوں سے "بہتر" کیوں نہیں بنایا جا سکتا؟ کس مقام پر مسئلہ پہیوں کا نہیں بلکہ خود مورفولوجی کا ہے؟
ڈیزائن منظر نامہ 2: بازو کی ترتیب
ایک ہیومنوائڈ بازو میں یہ ہوتا ہے:
- کندھا (3 DOF: رول، پچ، یاو)
- کہنی (1 DOF: فلیکشن)
- کلائی (3 DOF: رول، پچ، یاو)
یہ کل 7 ڈگری آف فریڈم (DOF) دیتا ہے۔ بہت زیادہ لگتا ہے، لیکن:
- کچھ امتزاج ناقابلِ رسائی ہیں (جوڑ کی حدود)
- کچھ امتزاج خود سے ٹکراؤ کا سبب بنتے ہیں
- کچھ امتزاج غیر موثر ہیں (موٹر کا تناؤ)
سوال: اگر آپ ایک ایسا بازو چاہتے ہیں جو کسی بھی سمت میں کسی بھی مقام تک پہنچ سکے، تو آپ کو کتنے DOF کی ضرورت ہوگی؟ کیا آپ ایسا روبوٹ رکھنا چاہیں گے جس کے پاس وہ بازو ہو؟ کیوں یا کیوں نہیں؟
آزاد پریکٹس: رکاوٹ کی میپنگ
ان روبوٹوں اور ان کے مجسم ہونے کے بارے میں سوچیں:
-
یونٹری گو2 (Unitree Go2) (چار ٹانگوں والا کتے جیسا روبوٹ)
- رکاوٹ: 4 ٹانگیں، ہر ایک میں 3 جوڑ
- صلاحیت: یہ کن کاموں کو فعال کرتا ہے؟ (چڑھنا، ناہموار زمین، رفتار)
- کن کاموں سے یہ خارج ہے؟ (چھوٹی اشیاء اٹھانا، باریک کام)
-
بوسٹن ڈائنامکس اسپاٹ (Boston Dynamics Spot) (یہ بھی چار ٹانگوں والا)
- رکاوٹ: Go2 جیسا ہی لیکن بھاری، مضبوط سرووز
- صلاحیت: Go2 کے مقابلے میں کیا بدلتا ہے؟
- اضافی وزن/طاقت کی رکاوٹ مختلف رویے کو کیسے فعال کرتی ہے؟
-
ٹیسلا باٹ (Tesla Bot) (ہیومنوائڈ)
- رکاوٹ: 2 بازو، 2 ٹانگیں، ہیومنوائڈ تناسب
- صلاحیت: ہیومنوائڈ شکل کن کاموں کو فعال کرتی ہے؟
- فیکٹری کے کاموں کے لیے کواڈروپیڈ کے بجائے ہیومنوائڈ کیوں؟
عبور کا اشارہ (Mastery Signal): آپ روبوٹ کی مورفولوجی کا انتخاب کر سکتے ہیں اور ایک ایسا کام بیان کر سکتے ہیں جسے وہ فعال کرتا ہے اور ایک ایسا کام جو وہ نہیں کر سکتا، جس کی وجہ مجسم ہونے پر مبنی ہو۔
غور کریں (Reflect)
مجسم ذہانت کا مطلب ہے ذہن کو جسم سے الگ نہیں کیا جا سکتا۔ جسم کی رکاوٹیں کوئی حد نہیں ہیں—وہ ڈھانچہ ہیں جو ذہانت کو ممکن بناتا ہے۔
جب آپ کوئی روبوٹ ڈیزائن کرتے ہیں، تو آپ صرف میکینکس نہیں بنا رہے ہوتے۔ آپ ذہانت کی ایک شکل بنا رہے ہوتے ہیں۔ روبوٹ کی شکل طے کرتی ہے کہ وہ کس قسم کے مسائل حل کر سکتا ہے، وہ کون سی حکمت عملی استعمال کر سکتا ہے، اور وہ کن ماحول میں نیویگیٹ کر سکتا ہے۔
اگلے سبق میں، ہم دیکھیں گے کہ روبوٹکس انڈسٹری نے ایک وجہ سے ہیومنوائڈ فارم فیکٹر کو معیاری بنایا ہے: یہ انسانی ماحول میں عام مقاصد کے کاموں کے لیے سب سے زیادہ ورسٹائل مجسم ہونا ہے۔
جسم ذہن کو تشکیل دیتا ہے۔ فارم فیکٹر ذہانت کو تشکیل دیتا ہے۔ یہی مجسم ذہانت ہے۔
پچھلا: سبق 1.1: ڈیجیٹل سے فزیکل تک → | اگلا: سبق 1.3: ہیومنوائڈ انقلاب →