حصہ 4: ویژن-لینگویج-ایکشن (Vision-Language-Action)
خودمختار ہیومینوئڈ سسٹمز (Autonomous Humanoid Systems)
یہ وہ جگہ ہے جہاں سب کچھ اکٹھا ہوتا ہے۔ آپ نے کمیونیکیشن لیئر (ROS 2)، سمولیشن انوائرنمنٹ (Gazebo)، اور پرسیپشن سسٹمز (Isaac) بنا لیے ہیں۔ اب آپ ایسے روبوٹس بنائیں گے جو قدرتی زبان کو سمجھیں، اپنے ماحول کے بارے میں استدلال کریں، اور پیچیدہ کاموں کو خود مختار طریقے سے انجام دیں۔
VLA ماڈلز (Vision-Language-Action) روبوٹکس AI کی جدید ترین سرحد کی نمائندگی کرتے ہیں۔ وہ اس بات کو یکجا کرتے ہیں کہ روبوٹ کیا دیکھتا ہے (vision)، آپ اسے کیا کہتے ہیں (language)، اور وہ کیا کرتا ہے (action) کو متحد نظاموں میں۔ کہیں "pick up the cup on the table" (میز پر رکھا کپ اٹھاؤ) اور روبوٹ باقی سب کچھ خود طے کرتا ہے: کپ کی جگہ کا تعین کرنا، بازو کی ٹراجیکٹری (trajectory) پلان کرنا، پکڑنے کا عمل انجام دینا، کامیابی کی تصدیق کرنا۔
اس حصے میں، آپ ایک خودمختار ہیومینوئڈ بنائیں گے جو صوتی احکامات کا جواب دے گا، حقیقی ماحول میں نیویگیٹ کرے گا، اور اشیاء کو مینیپولیٹ (manipulate) کرے گا۔ یہ پورے کورس کا کیپ اسٹون (capstone) ہے—حصہ 1-3 کی ہر مہارت ایک کام کرنے والے نظام میں یکجا ہو جاتی ہے۔
ابواب (Chapters)
باب 9: ہیومینوئڈ کائنی میٹکس (Humanoid Kinematics)
ہیومینوئڈز مکینیکلی پیچیدہ ہوتے ہیں—پاؤں سے انگلیوں تک کائنی میٹک چینز (kinematic chains) بنانے والے درجنوں جوڑ۔ آپ ہیومینوئڈ ڈھانچے کا ماڈل بنائیں گے، انورس کائنی میٹکس (inverse kinematics) کو لاگو کریں گے (ایک ہدف ہاتھ کی پوزیشن دی جائے تو تمام جوڑ کے زاویے شمار کرنا)، اور دو پیروں پر توازن اور چلنے پھرنے کے منفرد چیلنجز کو سمجھیں گے۔ حفاظت سب سے اہم ہے: کسی بھی موٹر کے حرکت کرنے سے پہلے آپ حفاظتی اقدامات بنائیں گے۔
باب 10: بات چیت پر مبنی روبوٹکس (Conversational Robotics)
اپنے روبوٹ کو سننا اور جواب دینا سکھائیں۔ آپ تقریر کو متن میں تبدیل کرنے کے لیے Whisper کو مربوط کریں گے، قدرتی زبان کی تفہیم اور ٹاسک پلاننگ کے لیے LLMs کو جوڑیں گے، اور زبان کو جسمانی صلاحیتوں سے جوڑیں گے (روبوٹ جانتا ہے کہ وہ کیا کر سکتا ہے)۔ جب کوئی کہتا ہے "get me a drink" (میرے لیے کوئی مشروب لاؤ)، تو روبوٹ اسے نیویگیشن، تلاش، پکڑنے، اور ڈیلیوری کے ذیلی کاموں میں تقسیم کرتا ہے۔
باب 11: کیپ اسٹون — خودمختار ہیومینوئڈ (Capstone — Autonomous Humanoid)
حتمی انضمام (integration)۔ آپ ایک مکمل نظام بنائیں گے: صوتی حکم → LLM پلاننگ → VSLAM نیویگیشن → آبجیکٹ ڈیٹیکشن → موشن ایگزیکیوشن → ٹاسک ویریفیکیشن۔ چار حصوں میں آپ نے جو ہر جزو بنایا ہے وہ ایک خودمختار ایجنٹ میں جڑ جاتا ہے۔ کیپ اسٹون سمولیشن میں کام کرتا ہے (ہر کوئی) اور اختیاری طور پر حقیقی Unitree ہیومینوئڈز پر (اگر دستیاب ہو)۔
سیکھنے کے نتائج (Learning Outcomes)
حصہ 4 مکمل کرنے پر، آپ یہ کر پائیں گے:
- انورس کائنی میٹکس کے ساتھ ہیومینوئڈ کائنی میٹک ماڈلز ڈیزائن کرنا
- آواز کے ذریعے کنٹرول ہونے والے روبوٹ انٹرفیسز کو لاگو کرنا
- ٹاسک پلاننگ اور استدلال کے لیے LLMs کو مربوط کرنا
- تمام حصوں کی مہارتوں کو متحد رویوں میں ترتیب دینا
- اینڈ ٹو اینڈ خودمختار ہیومینوئڈ سسٹمز کو تعینات (deploy) کرنا
ہارڈ ویئر (Hardware)
| ٹائر (Tier) | آپ کو کیا چاہیے | آپ کو کیا ملے گا |
|---|---|---|
| 1 (سمولیشن) | کوئی بھی لیپ ٹاپ | سمولیشن میں مکمل کورس + کلاؤڈ وائس APIs |
| 4 (فزیکل) | Unitree G1/Go2 | حقیقی ہیومینوئڈ ہارڈ ویئر پر تعیناتی |
تمام بنیادی مواد سمولیشن میں کام کرتا ہے۔ حقیقی روبوٹس اختیاری ہیں۔
کیپ اسٹون: خودمختار ہیومینوئڈ ایجنٹ (Capstone: Autonomous Humanoid Agent)
کورس کا اختتام۔ آپ کا ہیومینوئڈ ایک صوتی حکم وصول کرتا ہے ("find the red cup and bring it to me" - لال کپ ڈھونڈو اور میرے پاس لاؤ)، LLM کا استعمال کرتے ہوئے ٹاسک کی منصوبہ بندی کرتا ہے، VSLAM کا استعمال کرتے ہوئے نیویگیٹ کرتا ہے، وژن سے آبجیکٹ کا پتہ لگاتا ہے، انورس کائنی میٹکس سے پکڑتا ہے، اور ڈیلیور کرتا ہے۔ ایک مربوط نظام جو آپ نے سیکھی ہوئی ہر چیز کو ظاہر کرتا ہے۔
VLA ماڈلز جن پر غور کیا گیا (VLA Models Explored)
- OpenVLA (Berkeley) — اوپن سورس ویژن-لینگویج-ایکشن فاؤنڈیشن
- π0 (Physical Intelligence) — جدید ترین مینیپولیشن
- GR00T (NVIDIA) — سم-ٹو-ریل ہیومینوئڈ کنٹرول
پیشگی تقاضے (Prerequisites)
حصہ 1-3 مکمل۔ آپ ROS 2، سمولیشن، اور Isaac پرسیپشن کو مربوط کریں گے۔
مبارک ہو! حصہ 4 کے بعد، آپ نے شروع سے ایک خودمختار ہیومینوئڈ بنا لیا ہوگا—ROS 2 مڈل ویئر، فزکس سمولیشن، AI پرسیپشن، اور آواز کے ذریعے کنٹرول شدہ خودمختاری سب مل کر کام کر رہے ہوں گے۔ آپ حقیقی دنیا کی روبوٹکس کے لیے تیار ہیں۔