زرا سوچیں، کیا ممکن ہے کہ دنیا کے تمام بڑے مسائل—موسمیاتی تبدیلیوں سے لے کر بیماریوں کے علاج اور پلاسٹک کے کچرے کو ٹھکانے لگانے تک— سب کا حل ایک ہی ہو؟ ایک ایسا حل جو اتنا معمولی ہو کہ نظر بھی نہ آ سکے۔ مجھے لگتا ہے کہ شاید ایسا ہی ہے، اور اس کی وجہ ایک حالیہ سائنسی پیش رفت ہے جس نے گزشتہ صدی کے سب سے بڑے مسائل میں سے ایک کو حل کر دیا ہے۔ وہ مسئلہ یہ تھا کہ پروٹین کی ساخت کا تعین کیسے کیا جائے؟
یہ حیاتیات میں اتنی ہی بڑی دریافت ہے جیسے ریاضی میں ‘فرما کا آخری تھیورم’ (Fermat’s last theorem)۔ چھ دہائیوں سے زائد عرصے تک، دسیوں ہزار ماہرینِ حیاتیات نے بڑی محنت سے 1 لاکھ 50 ہزار پروٹینز کی ساخت معلوم کی۔ پھر صرف چند سالوں میں، تقریباً 15 افراد کی ایک ٹیم نے 20 کروڑ پروٹینز کی ساخت کا تعین کر لیا۔ یعنی دوسرے لفظوں میں وہ تمام پروٹینز جو قدرتی طور پر پائی جاتی ہیں۔ انہوں نے یہ کیسے کیا، اور کیا اس میں حیاتیات کے علاوہ دیگر مسائل کو حل کرنے کی صلاحیت بھی ہو سکتی ہے؟
ایک پروٹین کی ابتدا محض امینو ایسڈز کی ایک لڑی (chain) سے ہوتی ہے۔ ہر امینو ایسڈ کے مرکز میں ایک کاربن ایٹم ہوتا ہے۔ اس کے ایک طرف ایک امائن گروپ اور دوسری طرف ایک کاربوکسل گروپ ہوتا ہے۔ چوتھا حصہ 20 مختلف سائیڈ چینز میں سے کوئی ایک قسم کا ہو سکتا ہے، اور یہی اس امینو ایسڈ کی شناخت ہوتی ہے۔ ایک امینو ایسڈ کا امائن گروپ دوسرے کے کاربوکسل گروپ کے ساتھ تعامل کر کے پیپٹائڈ بانڈ بنا سکتا ہے۔ اس طرح دو امینو ایسڈز مل کر ایک لڑی بناتے ہیں جو مزید لمبی ہو سکتی ہے، اور اس لمبی لڑی کے بے شمار مالیکیولز کے درمیان کشش، الیکٹرو سٹیٹک قوتیں، ہائیڈروجن بانڈز اور محلول کے اثرات اس لڑی کو بل کھا کر خود بخود تہہ ہونے پر مجبور کر سکتے ہیں۔ یہی عمل بالآخر پروٹین کی سہ جہتی (3D) ساخت کا تعین کرتا ہے۔
اور یہی شکل وہ خاصیت ہے جو پروٹین کے حوالے سے سب سے زیادہ اہمیت رکھتی ہے۔ یہ ایک خاص مقصد کے لیے بنی ہوتی ہے، جیسے ہیموگلوبن میں خون میں آکسیجن لے جانے کے لیے بہترین بائنڈنگ سائٹ ہوتی ہے۔ یہ چھوٹی چھوٹی مشینیں ہیں، انہیں کام کرنے کے لیے اپنی درست ترتیب میں ہونا ضروری ہے، مثال کے طور پر آپ کے پٹھوں میں موجود پروٹینز۔ یہ جسم کو حرکت دینے اور سکڑنے کے لیے اپنی شکل میں کچھ ردوبدل کر سکتی ہیں۔
لیکن صرف ایک پروٹین کی ساخت معلوم کرنے میں لوگوں کو بہت وقت لگتا تھا۔ پروٹین کی ساخت معلوم کرنے کا پرانا طریقہ اس پروٹین کا کرسٹل بنانا تھا۔ پھر اسے ایکس رے (X-rays) کے سامنے رکھا جاتا تاکہ ایک ڈفریکشن پیٹرن حاصل کیا جا سکے، اور پھر سائنسدان اس ایکس رے کو دیکھ کر یہ معلوم کرنے کی کوشش کرتے کہ مالیکیولز کی کون سی شکل ایسا پیٹرن بنا سکتی ہے۔
برطانوی بائیو کیمسٹ، جان کینڈریو (Kendrew) کو پہلی پروٹین کی ساخت معلوم کرنے میں 12 سال لگے۔ ان کا ہدف ‘مائیوگلوبن’ نامی ایک آکسیجن ذخیرہ کرنے والا پروٹین تھا، جو ہمارے دل میں اہم کام کرتا ہے۔ انہوں نے پہلے گھوڑے کے دل پر تجربہ کیا، لیکن اس سے بہت چھوٹے کرسٹل بنے کیونکہ اس میں مائیوگلوبن کی مقدار کافی نہیں تھی۔ وہ جانتے تھے کہ غوطہ خور ممالیہ جانوروں کے پٹھوں میں مائیوگلوبن وافر مقدار میں ہوتا ہے کیونکہ وہ آکسیجن کو محفوظ رکھنے میں مشہور ہیں۔ انہوں نے پیرو سے وہیل (whale) کے گوشت کا ایک بڑا ٹکڑا حاصل کیا۔ اس سے کینڈریو کو بالآخر اتنے بڑے کرسٹلز مل گئے کہ وہ ایکس رے ڈفریکشن (x-ray diffraction) کر کے تصویر بنا سکیں۔ جب یہ تصویر سامنے آئی تو یہ بہت عجیب دکھائی دی۔ لوگ کسی ایسی چیز کی توقع کر رہے تھے جو منطقی، ریاضیاتی اور قابل فہم ہو، لیکن یہ بالکل عجیب تھی—میں اسے بدصورت تو نہیں کہوں گا، لیکن یہ بہت پیچیدہ اور الجھی ہوئی تھی، جیسے کہ آپ کسی راکٹ کا انجن دیکھیں جس کے تمام پرزے باہر کی طرف لٹک رہے ہوں۔ اس ساخت کو، جسے “صدی کا بدترین نمونہ” (Turd of the century) کہا گیا، نے کینڈریو کو 1962 میں کیمسٹری کا نوبل انعام دلوایا۔ اگلی دو دہائیوں تک، صرف سو کے قریب مزید ساختیں ہی حل کی جا سکیں۔ آج بھی، پروٹین کا کرسٹل بنانا ایک بڑا چیلنج ہے۔
سچ تو یہ ہے کہ یہ کوئی غیر معمولی بات نہیں کہ کسی کی پوری پی ایچ ڈی صرف چند پروٹین ساختوں پر مبنی ہو۔ بعض اوقات صرف ایک، اور کبھی کبھی تو صرف ایک ساخت کی جانب تھوڑی بہت پیش رفت ہی کافی ہوتی ہے۔ اور یہ مہنگا بھی ہے۔ ایکس رے کرسٹلوگرافی پر فی پروٹین دسیوں ہزار ڈالر کا خرچ آ سکتا ہے۔ اس لیے سائنسدانوں نے پروٹین کی ساخت معلوم کرنے کا کوئی دوسرا طریقہ تلاش کرنا شروع کیا۔ پروٹین میں امینو ایسڈز کی ترتیب معلوم کرنے پر صرف سو ڈالر کے قریب خرچ آتا ہے۔ لہذا، کیا ہی اچھا ہو کہ آپ اس معلومات کو استعمال کر کے یہ جان سکیں کہ پروٹین کیسے تہہ (fold) ہوتی ہے۔ یوں بہت سا وقت، محنت اور پیسہ بچ سکتا ہے۔ میں جانتا ہوں کہ کاربن کیسے برتاؤ کرتا ہے، کیسے کاربن سلفر کے ساتھ جڑتا ہے، اور کیسے وہ نائٹروجن کے ساتھ جڑ سکتا ہے۔ اگر یہ اجزاء یہاں موجود ہوں، تو میں تصور کر سکتا ہوں کہ یہ کیسے تہہ ہو کر ایک دوسرے سے بانڈ بنائیں گے۔ تو ہونا یہ چاہیئے کہ اگر آپ کو بنیادی مالیکیولر ڈائنامکس کی کچھ سمجھ ہو، تو آپ یہ معلوم کر سکتے ہیں کہ یہ پروٹین کیسے تہہ ہوگی۔
حیاتیات میں چند درست پیش گوئیوں میں سے ایک لینس پالنگ (Linus Pauling) کی تھی، جنہوں نے پروٹین کے بنیادی اجزاء کی جیومیٹری کو دیکھ کر کہا تھا کہ انہیں ہیلکس (helices) اور شیٹس (sheets) بنانی چاہئیں۔ اسے ہم ثانوی ساخت (secondary structure) کہتے ہیں، جو پروٹین کے مقامی موڑ اور بل ہوتے ہیں۔ لیکن ہیلکس اور شیٹس سے آگے، بائیو کیمسٹ کوئی ایسا قابلِ اعتماد نمونہ تلاش نہیں کر سکے جو تمام پروٹینز کی حتمی ساخت تک لے جائے۔ اس کی ایک وجہ یہ ہے کہ ارتقاء نے پروٹینز کو شروع سے ایک منصوبے کے تحت ڈیزائن نہیں کیا۔
یہ کچھ ایسا ہی ہے جیسے کوئی ایسا پروگرامر ہو جسے کام کا مکمل علم نہ ہو، اور ہر تھوڑے وقت کے بعد اسے جب بھی ضرورت محسوس ہو وہ ڈیزائن میں ردوبدل کرتا جائے۔ اسی لیے آخر میں ہمارے پاس ایسی اشیاء بنتی ہیں جو حیران کن ہونے کے ساتھ ساتھ ناقابلِ یقین حد تک پیچیدہ اور بیان کرنے میں مشکل ہوتی ہیں۔ ان کے پیچھے کوئی ایسا مقصد نہیں ہوتا جیسا کہ انسان کی بنائی ہوئی مشین میں ہوتا ہے۔
اس عمل کی پیچیدگی کو واضح کرنے کے لیے، ایم آئی ٹی (MIT) کے ماہر حیاتیات سائرس لیونتھل (Cyrus Levinthal) نے ایک سرسری حساب لگایا اور معلوم کیا کہ ایک چھوٹی سی پروٹین چین، جس میں صرف 35 امینو ایسڈز ہوں، وہ بھی فلکیاتی تعداد (astromonical possibilities) میں مختلف طریقوں سے تہہ ہو سکتی ہے۔ لہذا، اگر کوئی کمپیوٹر ہر نینو سیکنڈ میں 30,000 اشکال کی توانائی کے عدم استحکام کو بھی چیک کرے، تب بھی درست ساخت تلاش کرنے میں کائنات کی عمر سے 200 گنا زیادہ وقت لگے گا۔ ہمت نہ ہارتے ہوئے، یونیورسٹی آف میری لینڈ کے پروفیسر جان مولٹ (John Moult) نے 1994 میں CASP نامی ایک مقابلے کا آغاز کیا۔ اس کا مقصد سادہ تھا: ایک ایسا کمپیوٹر ماڈل تیار کرنا جو امینو ایسڈ کی ترتیب (sequence) کو لے کر اس کی ساخت (structure) بتا سکے۔ ماڈل بنانے والوں کو پہلے سے درست ساخت کا علم نہیں ہوتا تھا، لیکن ہر ماڈل کے نتائج کا موازنہ تجرباتی طور پر طے شدہ ساخت سے کیا جاتا تھا۔ مکمل مطابقت پر 100 نمبر دیے جاتے تھے، لیکن اگر کوئی ساخت 90 سے زیادہ اسکور حاصل کر لے تو اس کو بھی قرین القیاس سمجھا جاتا تھا۔
اس مقابلے کے شرکاء مونٹیری، کیلیفورنیا میں ایک پرانے لکڑی کے بنے گرجا گھر میں جمع ہوتے تھے، جسے کانفرنس سینٹر میں تبدیل کر دیا گیا تھا۔ وہاں یہ روایت تھی کہ اگر کوئی پیش گوئی (prediction) سمجھ سے باہر ہوتی تو شرکاء دوستانہ انداز میں اپنے پاؤں زمین پر تھپتھپاتے تھے۔ اور وہاں اکثر پاؤں تھپتھپانے کی آوازیں ہی سنائی دیتی تھیں۔ پہلے سال، کوئی بھی ٹیم 40 سے زیادہ اسکور حاصل نہ کر سکی۔ اس میدان میں ابتدائی طور پر ‘روزیٹا’ (Rosetta) نامی الگورتھم سب سے آگے تھا، جسے یونیورسٹی آف واشنگٹن کے ماہر حیاتیات ڈیوڈ بیکر نے تیار کیا تھا۔ ان کی ایک اختراع یہ تھی کہ گھروں، اسکولوں اور لائبریریوں میں موجود فارغ کمپیوٹرز کی پروسیسنگ پاور کو اکٹھا کر کے کمپیوٹیشن کی رفتار بڑھائی جائے، جن کے مالکان نے رضاکارانہ طور پر ان کا سافٹ ویئر ‘روزیٹا ایٹ ہوم’ انسٹال کیا تھا۔
اس سافٹ ویئر کا ایک حصہ ایک اسکرین سیور تھا جو پروٹین فولڈنگ کے حساب کتاب کا عمل دکھاتا تھا۔ پھر لوگوں نے خط لکھنے شروع کیے کہ وہ اسکرین سیور کو دیکھ کر یہ محسوس کرتے ہیں کہ وہ کمپیوٹر سے بہتر کام کر سکتے ہیں۔ چنانچہ بیکر کو ایک خیال آیا اور انہوں نے ایک ویڈیو گیم بنائی۔ ‘فولڈ اِٹ’ (Fold It) نامی اس گیم میں پروٹین کی ایک زنجیر کو مختلف انداز میں موڑنے اور گھمانے کی سہولت دی گئی۔ اب کمپیوٹر کے بجائے گیم کھیلنے والے انسان خود یہ حرکتیں کر سکتے تھے۔
تین ہفتوں کے اندر، 50,000 سے زائد گیمرز نے اپنی کوششوں کو یکجا کر کے ایک ایسے انزائم کو سمجھ لیا جو ایچ آئی وی (HIV) میں کلیدی کردار ادا کرتا ہے۔ ایکس رے کرسٹلوگرافی نے ثابت کیا کہ ان کا نتیجہ درست تھا۔ یہاں تک کہ ان گیمرز کو تحقیقی مقالے میں شریک مصنفین کے طور پر کریڈٹ بھی دیا گیا۔
‘فولڈ اِٹ’ کھیلنے والوں میں ایک سابق چائلڈ چیس پروڈیجی (شطرنج کے ماہر بچے) ڈیمس ہاسابِس بھی شامل تھے۔ ہاسابِس نے حال ہی میں ‘ڈیپ مائنڈ’ (DeepMind) نامی ایک اے آئی کمپنی شروع کی تھی۔ ان کے اے آئی الگورتھم ‘الفا گو’ (AlphaGo) نے عالمی چیمپئن لی سیڈول کو شکست دے کر سرخیوں میں جگہ بنائی تھی۔ ‘الفا گو’ کی ایک چال، یعنی ‘موو 37’، نے سیڈول کو ہلا کر رکھ دیا تھا۔ لیکن ہاسابِس نے ‘فولڈ اِٹ’ گیمر کے طور پر اپنے وقت کو کبھی فراموش نہیں کیا۔ ان کا کہنا تھا، “میں گیم ڈیزائن کے نقطہ نظر سے اس سے بہت متاثر تھا۔ یہ لوگ اتفاق سے صرف شوقیہ ماہر حیاتیات تھے۔ اگر ہم ان گیمرز کی بصیرت (intuition) کی نقل کر سکیں تو یہ بیش قیمت ہو گا۔”
کوریا سے واپسی کے بعد، ڈیپ مائنڈ کے محققین نے ایک ہفتے طویل ہیکاتھون کا انعقاد کیا جس میں انہوں نے اے آئی کو ‘فولڈ اِٹ’ کھیلنے کی تربیت دینے کی کوشش کی۔ یہ ہاسابِس کے اس دیرینہ مقصد کی شروعات تھی کہ اے آئی کو سائنس کی ترقی کے لیے استعمال کیا جائے۔ انہوں نے پروٹین فولڈنگ کے مسئلے کو حل کرنے کے لیے ‘الفا فولڈ’ (AlphaFold) کے نام سے ایک نیا منصوبہ شروع کیا۔ دریں اثنا، CASP میں بہترین کارکردگی دکھانے والوں، بشمول روزیٹا، کی پیش گوئیوں کا معیار ایک سطح پر آ کر رک گیا تھا۔ درحقیقت، CASP-8 کے بعد کارکردگی نیچے کی طرف جانے لگی۔ تیز رفتار کمپیوٹرز اور پروٹین ڈیٹا بینک میں دستیاب سٹرکچرز کی بڑھتی ہوئی تعداد کے باوجود، پیش گوئیاں اتنی درست نہیں تھیں جتنی ہونی چاہیے تھیں۔
ڈیپ مائنڈ (DeepMind) نے الفا فولڈ (AlphaFold) کے ذریعے اس صورتحال کو بدلنے کی امید ظاہر کی۔ اس کا پہلا ورژن، الفا فولڈ 1، اس وقت کمپیوٹر ویژن کے لیے استعمال ہونے والے معیاری ڈیپ نیورل نیٹ ورکس جیسا ہی تھا۔ محققین نے اسے پروٹین ڈیٹا بینک سے حاصل کردہ پروٹین کے بے شمار ڈھانچوں پر تربیت دی۔ ان پٹ کے طور پر، الفا فولڈ پروٹین کی امینو ایسڈ ترتیب اور ارتقاء سے حاصل کردہ اہم اشارے استعمال کرتا تھا۔
ارتقاء کا عمل جینیاتی کوڈ میں تبدیلیوں یعنی ‘میوٹیشنز’ سے چلتا ہے، جو بدلے میں پروٹین کی ترتیب میں موجود امینو ایسڈز کو تبدیل کر دیتے ہیں۔ لیکن جیسے جیسے انواع ارتقاء پذیر ہوتی ہیں، پروٹینز کو اپنی اس مخصوص شکل کو برقرار رکھنا پڑتا ہے جو انہیں اپنا کام انجام دینے کے قابل بناتی ہے۔ مثال کے طور پر، ہیموگلوبن انسانوں، بلیوں، گھوڑوں اور بنیادی طور پر تمام ممالیہ جانوروں میں ایک جیسا نظر آتا ہے۔ ارتقاء کا اصول یہ ہے کہ “اگر کوئی چیز درست کام کر رہی ہے، تو اسے تبدیل نہ کرو۔” لہذا، ہم ارتقائی جدول میں مختلف انواع کے درمیان ایک ہی پروٹین کی ترتیب کا موازنہ کر سکتے ہیں۔ جہاں ترتیب ایک جیسی ہو، وہاں امکان ہوتا ہے کہ وہ پروٹین کے ڈھانچے اور فعل کے لیے اہم ہیں۔
یہاں تک کہ جہاں ترتیب مختلف ہو، وہاں یہ دیکھنا مددگار ثابت ہوتا ہے کہ میوٹیشنز جوڑوں کی صورت میں کہاں واقع ہوتی ہیں، کیونکہ اس سے یہ شناخت کرنے میں مدد ملتی ہے کہ حتمی ڈھانچے میں کون سے امینو ایسڈز ایک دوسرے کے قریب ہیں۔ فرض کریں کہ دو امینو ایسڈز، ایک مثبت چارج والا لائسین اور ایک منفی چارج والا گلوٹامک ایسڈ، فولڈ شدہ پروٹین میں ایک دوسرے کو اپنی طرف کھینچتے اور تھامے رکھتے ہیں۔ اب، اگر کوئی میوٹیشن لائسین کو منفی چارج والے امینو ایسڈ میں بدل دے، تو یہ گلوٹامک ایسڈ کو دور دھکیلے گا اور پورے پروٹین کو غیر مستحکم کر دے گا۔ لہذا، ایک اور میوٹیشن کا گلوٹامک ایسڈ کو مثبت چارج والے امینو ایسڈ سے تبدیل کرنا ضروری ہو جاتا ہے۔ اسے ‘کو-ایوولوشن’ (مشترکہ ارتقاء) کہا جاتا ہے۔
یہ ارتقائی جدول الفا فولڈ کے لیے ایک اہم ان پٹ تھے۔ آؤٹ پٹ کے طور پر، براہ راست تھری ڈی (3D) ڈھانچہ بنانے کے بجائے، الفا فولڈ اس ڈھانچے کی ایک سادہ ٹو ڈی (2D) جوڑے کی تشکیل (pair representation) پیش کرتا تھا۔ امینو ایسڈ کی ترتیب کو افقی اور عمودی طور پر ترتیب دیا جاتا ہے۔ جب بھی دو امینو ایسڈز حتمی ڈھانچے میں ایک دوسرے کے قریب ہوتے ہیں، تو ان کا متعلقہ قطار اور کالم کا ملاپ روشن ہوتا ہے، جبکہ دور والے امینو ایسڈ کے جوڑے مدھم نظر آتے ہیں۔ فاصلوں کے علاوہ، یہ جوڑے اس بارے میں بھی بتاتے ہیں کہ امینو ایسڈ کے مالیکیولز ڈھانچے کے اندر کس طرح مڑے ہوئے ہیں۔
الفا فولڈ 1 نے پروٹین کی ترتیب اور اس کے ارتقائی جدول کو اپنے ڈیپ نیورل نیٹ ورک میں فیڈ کیا، جسے اس نے جوڑے کی پیش گوئی کرنے کے لیے تربیت دی تھی۔ اس حساب کے بعد، ایک دوسرا الگورتھم فاصلے اور گھماؤ کی حدود و قیود (torsion constraints) کی بنیاد پر امینو ایسڈ کی لڑی کو فولڈ کر دیتا تھا۔ اور یہی پروٹین کے ڈھانچے کی حتمی پیش گوئی ہوتی تھی۔
اس فریم ورک کے ساتھ، الفا فولڈ نے CASP 13 میں حصہ لیا اور فوری طور پر سب کی توجہ کا مرکز بن گیا۔ کئی اضافوں کے بعد یہ واضح فاتح تھا، لیکن یہ غلطیوں سے پاک نہیں تھا۔ اس کا 70 کا اسکور CASP کی 90 کی حد کو عبور کرنے کے لیے ناکافی تھا۔ ڈیپ مائنڈ کو بہتر نتائج حاصل کرنے کے لیے دوبارہ منصوبہ بندی کی ضرورت تھی۔ چنانچہ ہاسابیس (Hassabis) نے جان جمپر (John Jumper) کو الفا فولڈ کی قیادت کرنے کے لیے بھرتی کیا۔
جان جمپر کے مطابق: “الفا فولڈ 2 کی بنیاد پر ہم نے ڈیپ لرننگ کا ایک نیا ماڈل تیار کیا۔ اس کے انفرادی بلاکس کو پروٹین کے مختلف فیچرز کے بارے میں مہارت تھی، یعنی جیومیٹرک، فزیکل اور ارتقائی تصورات۔ یہ تصورات سکھانے کے بجائے نیورل نیٹ ورک کو اس طرح تشکل دیا گیا کہ یہ تصورات اس کا حصہ تھے اور نیٹ ورک ان کو استعمال کر کے پروٹین کے سٹرکچر کی پیش گوئی مہارت کے ساتھ کر سکتا تھا۔ اس طریقے نے درستگی کی شرح میں زبردست اضافہ کیا۔”
مصنوعی ذہانت (AI) کے ساتھ بہتر نتائج حاصل کرنے کے لیے تین اہم اقدامات کیے گئے۔ پہلا، زیادہ سے زیادہ کمپیوٹ پاور۔ اس معاملے میں، ڈیپ مائنڈ (DeepMind) دنیا میں کسی بھی دوسرے ادارے کے مقابلے میں بہتر پوزیشن میں تھا۔ اسے گوگل کی بے پناہ کمپیوٹنگ طاقت تک رسائی حاصل تھی، جس میں ان کے ‘ٹینسر پروسیسنگ یونٹس’ بھی شامل تھے۔ دوسرا، انہیں ایک بڑے اور متنوع ڈیٹا سیٹ کی ضرورت تھی۔ کیا ڈیٹا سب سے بڑی رکاوٹ ہے اور کیوں؟ – میرا خیال ہے کہ یہ کہنا بہت آسان ہے کہ ڈیٹا ہی اصل رکاوٹ ہے اور ہمیں اس معاملے میں محتاط رہنا چاہیے۔ ‘الفا فولڈ 2’ (AlphaFold 2) کو بالکل اسی ڈیٹا پر تربیت دی گئی تھی جس پر ‘الفا فولڈ 1’ کو دی گئی تھی، لیکن اس میں مشین لرننگ کا استعمال کہیں زیادہ بہتر تھا۔ ہر کوئی ڈیٹا کی رکاوٹ کو بڑھا چڑھا کر پیش کرتا ہے لیکن بہتر مشین لرننگ کے ساتھ یہ مسئلہ کم سنگین ہو جاتا ہے۔ یعنی تیسرا اہم عنصر تھا بہتر AI الگورتھمز۔
اور اب واپس پروٹین فولڈنگ کی طرف چلتے ہیں۔ جب الفا فولڈ 2 کی ٹیم بہتر الگورتھمز کی تلاش میں تھی، تو انہوں نے ‘ٹرانسفارمر’ (Transformer) کا رخ کیا۔ یہ وہی ‘T’ ہے جو ChatGPT میں استعمال ہوتا ہے۔ اور یہ ‘اٹینشن’ (Attention) نامی تصور پر انحصار کرتا ہے۔ جملے میں، “جانور سڑک پار نہیں کر سکا کیونکہ وہ بہت تھکا ہوا تھا”، ‘اٹینشن’ اس بات کو پہچانتا ہے کہ ‘تھکا ہوا’ ہونے کی وجہ سے ‘وہ’ کا تعلق جانور سے ہے، نہ کہ سڑک سے۔ ‘اٹینشن’ کسی بھی قسم کی ترتیب وار معلومات کو حصوں میں تقسیم کر کے، انہیں عددی شکل (numerical representations) یا ایمبیڈنگز میں تبدیل کر کے اور ان کے درمیان روابط قائم کر کے سیاق و سباق (context) فراہم کرتا ہے۔ یہاں لفظ “it” اور “animal” کی مثال لیجیے۔ لارج لینگویج ماڈلز (Large language models) کسی جملے میں اگلا موزوں ترین لفظ پیش گوئی کرنے کے لیے ‘اٹینشن’ کا استعمال کرتے ہیں، بالکل اسی طرح الفا فولڈ (AlphaFold) کے پاس بھی تسلسلی معلومات ہوتی ہیں، جو جملے تو نہیں، مگر امینو ایسڈ کی ترتیب (amino acid sequences) پر مشتمل ہوتی ہیں۔ ان کا تجزیہ کرنے کے لیے، الفا فولڈ کی ٹیم نے ٹرانسفارمر کا اپنا ایک ورژن تیار کیا جسے ‘ایوو فارمر’ (EVO Former) کہا جاتا ہے۔
ایوو فارمر دو ٹاورز پر مشتمل تھا: بائیولوجی ٹاور میں ارتقائی معلومات اور جیومیٹری ٹاور میں جوڑیوں کی تشکیل (pair representations) ہوتی ہے۔ الفا فولڈ 1 کا وہ ڈیپ نیورل نیٹ ورک ختم کر دیا گیا جو ایک ٹاور سے شروع ہو کر دوسرے کی پیش گوئی کرتا تھا۔ اس کے بجائے، الفا فولڈ 2 کا ایوو فارمر دونوں ٹاورز کو الگ الگ بناتا ہے۔ یہ کچھ ابتدائی اندازوں سے شروع ہوتا ہے، جیسے کہ پہلے کی طرح معلوم ڈیٹا سیٹس سے لی گئی ارتقائی جدول (evolutionary tables) اور ملتے جلتے معلوم پروٹینز پر مبنی جوڑیوں کی تشکیلیں۔ اس بار دونوں ٹاورز کو جوڑنے والا ایک پل موجود ہے جو نئے دریافت شدہ حیاتیاتی اور جیومیٹرک اشارے ایک دوسرے تک پہنچاتا ہے۔
بائیولوجی ٹاور میں، کالم پر لاگو ہونے والی ‘اٹینشن’ ان امینو ایسڈ سیکونسز کی نشاندہی کرتی ہے جو محفوظ (conserved) رہے ہیں۔ جبکہ ایک قطار کے ساتھ ساتھ، یہ ان امینو ایسڈ میوٹیشنز (mutations) کو تلاش کرتی ہے جو ایک ساتھ واقع ہوئے ہیں۔ جب بھی ایوو فارمر ارتقائی جدول میں بہت قریب سے جڑے ہوئے امینو ایسڈز پاتا ہے، تو اس کا مطلب ہے کہ وہ ساخت کے لیے اہم ہیں اور یہ معلومات جیومیٹری ٹاور کو بھیج دی جاتی ہے۔ یہاں ‘اٹینشن’ کا اطلاق امینو ایسڈز کے درمیان فاصلوں کا حساب لگانے میں مدد کرتا ہے۔ اگر جیومیٹری ٹاور یہ دیکھتا ہے کہ دو امینو ایسڈز کا ایک دوسرے کے قریب ہونا ناممکن ہے، تو یہ پہلے ٹاور کو بتاتا ہے کہ وہ ارتقائی جدول میں ان کے تعلق کو نظر انداز کر دے۔ ایوو فارمر کے اندر معلومات کا یہ تبادلہ 48 بار ہوتا ہے، یہاں تک کہ دونوں ٹاورز کے اندر موجود معلومات کو بہتر اور درست کر لیا جائے۔
اس نیٹ ورک کے ذریعے سیکھی گئی جیومیٹرک خصوصیات الفا فولڈ 2 کی دوسری بڑی جدت، یعنی ‘اسٹرکچر ماڈیول’ (structure module) کو منتقل کی جاتی ہیں۔ اسے ہر امینو ایسڈ کو الگ الگ ترتیب دینے کی آزادی حاصل ہے۔ کچھ لوگوں کا خیال ہے کہ یہ چیز اسے اس الجھن سے بچنے میں مدد دیتی ہے کہ چیزوں کو کہاں رکھا جانا چاہیے۔ اسے ہر وقت اس پابندی کے بارے میں سوچنے کی ضرورت نہیں ہوتی کہ یہ چیزیں ایک زنجیر بنا رہی ہیں۔ یہ ایک ایسی چیز ہے جو بعد میں قدرتی طور پر سامنے آتی ہے۔ یہی وجہ ہے کہ الفا فولڈ (AlphaFold) کی فولڈنگ کی لائیو ویڈیوز میں اسے کچھ عجیب اور غیر طبعی (non-physical) حرکتیں کرتے ہوئے دکھایا جا سکتا ہے۔ سٹرکچر ماڈیول ایک تھری ڈی (3D) پروٹین تو پیش کر دیتا ہے، لیکن وہ ابھی مکمل نہیں ہوتا۔ اسے پروٹین کی گہری سمجھ بوجھ حاصل کرنے کے لیے کم از کم تین بار مزید ‘ایوو فارمر’ (EvoFormer) سے گزارا جاتا ہے، تب جا کر حتمی پیش گوئی کی جاتی ہے۔
دسمبر 2020 میں، ڈیپ مائنڈ (DeepMind) نے الفا فولڈ 2 کے ساتھ ایک ورچوئل CASP مقابلے میں شرکت کی، اور اس بار انہوں نے کامیابی حاصل کر لی۔ جان مولٹ نے ایک ای میل میں لکھا: “آپ کے گروپ نے CASP 14 میں حیران کن کارکردگی کا مظاہرہ کیا ہے، دوسرے گروپس کے مقابلے میں بھی اور ماڈل کی درستگی کے لحاظ سے بھی۔ اس کام پر آپ کو مبارکباد۔”
بہت سی پروٹینز کے لیے، الفا فولڈ 2 کی پیش گوئیاں اصل ساخت سے تقریباً پوری طرح میل کھاتی تھیں اور انہوں نے بالآخر 90 کے گولڈ سٹینڈرڈ سکور کو عبور کر لیا۔
چھ دہائیوں سے زائد عرصے تک، دنیا بھر میں پروٹین پر کام کرنے والے تمام سائنسدانوں نے بڑی محنت سے تقریباً 150,000 پروٹین ڈھانچے دریافت کیے۔ پھر ایک ہی جست میں، الفا فولڈ نے آ کر 20 کروڑ سے زائد پروٹینز کو بے نقاب کر دیا؛ تقریباً وہ تمام پروٹینز جو قدرت میں موجود ہیں۔ صرف چند مہینوں میں، الفا فولڈ نے دنیا بھر کی تحقیقی لیبارٹریوں کے کام کو کئی دہائیاں آگے بڑھا دیا۔ اس نے ملیریا کی ویکسین تیار کرنے میں براہِ راست ہماری مدد کی ہے۔ اس نے اینٹی بائیوٹک مزاحمت کرنے والے انزائمز کو توڑنا ممکن بنایا ہے، جس سے بہت سی جان بچانے والی ادویات دوبارہ کارگر ہو گئی ہیں۔ اس نے ہمیں یہ سمجھنے میں بھی مدد کی ہے کہ پروٹین میں تبدیلیاں (mutations) کس طرح شیزوفرینیا سے لے کر کینسر تک مختلف بیماریوں کا باعث بنتی ہیں، اور خطرے سے دوچار اور معدوم ہونے والی انواع کا مطالعہ کرنے والے ماہرینِ حیاتیات کو اچانک پروٹینز اور ان کے حیاتیاتی میکانزم تک رسائی حاصل ہو گئی۔ الفا فولڈ 2 کے تحقیقی مقالے کا 30,000 سے زائد بار حوالہ دیا جا چکا ہے۔ اس نے واقعی زندگی کے بارے میں ہماری سمجھ بوجھ میں ایک انقلابی جست لگائی ہے۔ جان جمپر اور ڈیمس ہاسابیس کو اس پیش رفت کے لیے 2024 کے کیمسٹری کے نوبل انعام کا نصف حصہ دیا گیا۔
دوسرا نصف حصہ ڈیوڈ بیکر کو ملا، لیکن روزیٹا (Rosetta) کا استعمال کرتے ہوئے ڈھانچوں کی پیش گوئی کرنے پر نہیں، بلکہ بالکل نئے پروٹینز کو از سر نو اپنی مرضی اور ضرورت کے مطابق ڈیزائن کرنے کا طریقہ پیش کرنے پر۔ یعنی ایسے نئے پروٹینز بنانا جو مخصوص کام کر سکیں۔ یہ بہت مشکل تھا۔ اور یہی وہ مسئلہ ہے جسے انہوں نے حل کیا۔ ایسا کرنے کے لیے، وہ اسی قسم کی جنریٹو اے آئی (Generative AI) کا استعمال کرتے ہیں جو Dall-E جیسے پروگراموں میں آرٹ تخلیق کرتی ہے۔ آپ کہہ سکتے ہیں کہ “ایک کینگرو کی تصویر بنائیں جو خرگوش پر سوار ہو” یا کچھ اور، اور وہ ایسا کر دے گا۔ اور پروٹینز کے ساتھ ہم نے بالکل یہی کیا۔ ان کی تکنیک، جسے “آر ایف ڈیفیوژن” (RF Diffusion) کہا جاتا ہے، کو ایک معلوم پروٹین ڈھانچے میں بے ترتیب شور (random noise) شامل کر کے تربیت دی جاتی ہے۔ پھر مصنوعی ذہانت (AI) کو اس شور (noise) کو ختم کرنا ہوتا ہے۔ اس طرح تربیت پانے کے بعد، AI سے مختلف افعال کے لیے پروٹین تیار کرنے کو کہا جا سکتا ہے۔ اسے ایک بے ترتیب شور (random noise) بطور ان پٹ دیا جاتا ہے، اور AI ایک بالکل نیا پروٹین تخلیق کر لیتا ہے جو آپ کی مطلوبہ کارکردگی کا حامل ہوتا ہے۔
اس کام کے بہت دور رس نتائج برآمد ہو سکتے ہیں۔ آپ کن اطلاقات (applications) کے بارے میں سب سے زیادہ پرجوش ہیں؟
ذرا تصور کریں کہ آپ کو کسی زہریلے سانپ نے کاٹ لیا ہے۔ اگر آپ خوش قسمت ہیں تو آپ کو ایسی اینٹی وینم (anti-venom) کسی قریبی ہسپتال میں دستیاب ہوگی جو اسی مخصوص سانپ کے زہر سے تیار کی گئی ہو، جسے زندہ جانوروں میں انجیکٹ کیا جاتا ہے، اور پھر ان جانوروں سے اینٹی باڈیز نکال کر انہیں صاف کیا جاتا ہے اور آپ کو بطور اینٹی وینم دیا جاتا ہے۔ مسئلہ یہ ہے کہ اکثر لوگوں کو دوسرے جانداروں سے حاصل کردہ ان اینٹی باڈیز سے الرجی ہو جاتی ہے۔ لیکن بیکر کی لیب میں تیار کردہ جدید مصنوعی پروٹینز کے ساتھ آپ کے بچنے کے امکانات کہیں زیادہ بہتر ہو سکتے ہیں۔ انہوں نے انسانی جسم سے مطابقت رکھنے والی ایسی اینٹی باڈیز بنائی ہیں جو مہلک سانپ کے زہر کو بے اثر کر سکتی ہیں۔ یہ اینٹی وینم بڑی مقدار میں تیار کی جا سکتی ہے اور جہاں ضرورت ہو وہاں آسانی سے پہنچائی جا سکتی ہے۔ ان ننھی مالیکیولر مشینوں کے ساتھ، امکانات لامحدود ہیں۔
میرا خیال ہے کہ اس طریقے سے بنی ویکسین بہت کارگر ثابت ہوں گی۔ ہمارے پاس کئی ایسے پروٹینز ہیں جو کینسر کے لیے انسانی کلینیکل ٹرائلز کے مراحل میں ہیں، اور اب ہم آٹو امیون امراض (autoimmune diseases) پر کام کر رہے ہیں۔ ہم گرین ہاؤس گیسوں کو پکڑنے جیسے مسائل کے بارے میں بہت پرجوش ہیں۔ چنانچہ ہم ایسے انزائمز ڈیزائن کر رہے ہیں جو میتھین کو ٹھکانے لگا سکیں اور پلاسٹک کو تحلیل کر سکیں۔ یہ طریقہ کار اس لیے اتنا مؤثر ہے کیونکہ اب ہم بہت تیزی سے پروٹینز تخلیق کر سکتے ہیں یا ان میں بہتری لا سکتے ہیں۔ روایتی بائیو کیمسٹ یا پروٹین پر کام کرنے والے سائنسدان کے لیے یہ کسی معجزے سے کم نہیں ہے۔ اب ہم کمپیوٹر پر ڈیزائن تیار کر سکتے ہیں، ڈیزائن کردہ پروٹینز کی امینو ایسڈ ترتیب حاصل کر سکتے ہیں، اور پھر صرف چند دنوں میں پروٹین حاصل کر سکتے ہیں۔ جی ہاں، ہم نے اسے ‘کاؤ بوائے بائیو کیمسٹری’ کا نام دیا ہے، کیونکہ اس میں آپ کو بس جتنی تیزی سے ہو سکے کام کرنا ہوتا ہے، اور یہ طریقہ کافی کارگر ثابت ہوتا ہے۔
اے آئی نے پروٹینز کے لیے جو کچھ کیا ہے، وہ تو محض ایک جھلک ہے کہ یہ دوسرے شعبوں میں اور بڑے پیمانے پر کیا کچھ کر سکتا ہے۔ مثال کے طور پر، میٹریل سائنس میں، ڈیپ مائنڈ (DeepMind) کے GNoME پروگرام نے 22 لاکھ نئے کرسٹلز دریافت کیے ہیں، جن میں 4 لاکھ سے زائد ایسے مستحکم مادے شامل ہیں جو مستقبل کی ٹیکنالوجیز، جیسے سپر کنڈکٹرز سے لے کر بیٹریوں تک کو توانائی فراہم کر سکتے ہیں۔ AI سائنس میں انقلابی پیش رفت کر رہا ہے اور ان بنیادی مسائل کو حل کرنے میں مدد کر رہا ہے جنہوں نے انسانی ترقی کی راہ روک رکھی تھی۔
اگر ہم علم کے پورے شجر پر غور کریں، تو کچھ ایسے مسائل ہیں جنہیں اگر آپ حل کر لیں، تو وہ دریافت کے ایک پورے نئے شعبے یا راستے کو کھول دیتے ہیں۔ آج AI انسانی علم کی حدود کو ایسی رفتار سے آگے بڑھا رہا ہے جو پہلے کبھی نہیں دیکھی گئی۔ دو گنا رفتار (2x) اچھی ہوتی ہے، بہت زبردست ہوتی ہے، ہم اسے پسند کرتے ہیں۔ لیکن ایک لاکھ گنا (100,000x) کی رفتار آپ کے کام کرنے کا انداز ہی بدل دیتی ہے۔ آپ بنیادی طور پر مختلف کام کرتے ہیں اور اپنی سائنس کو نئے سرے سے تعمیر کرنا شروع کر دیتے ہیں۔ ان چیزوں کے گرد جو مشکل تھیں لیکن آسان ہو گئی ہیں۔ اور یہی وہ بات ہے جس پر میں بہت پرجوش ہوں۔ یہ دریافتیں سائنس میں ایک حقیقی اور بنیادی تبدیلی (step function change) کی نمائندگی کرتی ہیں۔ اگر مصنوعی ذہانت (AI) آج کی سطح سے آگے نہ بھی بڑھے، تب بھی ہم ان کامیابیوں کے ثمرات سے دہائیوں تک مستفید ہوتے رہیں گے۔ اور اگر یہ فرض کر لیا جائے کہ مصنوعی ذہانت کی ترقی کا سفر جاری رہتا ہے، تو یہ ایسے مواقع پیدا کرے گی جنہیں پہلے ناممکن سمجھا جاتا تھا۔ چاہے وہ تمام بیماریوں کا علاج ہو، نئے مادوں کی تخلیق ہو، یا ماحول کو اس کی اصل اور شفاف حالت میں بحال کرنا ہو۔ یہ ایک شاندار مستقبل معلوم ہوتا ہے۔
بشرطیکہ مصنوعی ذہانت ہم پر قابض ہو کر ہمیں نیست و نابود نہ کر دے۔
اصل ویڈیو کا لنک: