Една от основните задачи на биологията е решена

Една от основните задачи на биологията е решена
Една от основните задачи на биологията е решена
Anonim

Протеиновата структура е една от основните загадки, които науката трябва да разкрие, например за рециклиране на пластмасови отпадъци или лечение на наследствени заболявания. Но се оказа, че природата е по -хитра от всеки компютър: в света има повече от 200 милиона протеинови структури и всяка е индивидуална. Изкуственият интелект (AI) доближи учените до разкриването на техните тайни.

Изкуственият интелект (AI) е решил един от най-важните проблеми в биологията: сега може да се използва за предсказване на аминокиселинната последователност на триизмерната структура на протеин. В зависимост от съвършенството или несъвършенството на тази последователност, протеинът изпълнява своите функции. Водещи експерти по структурна биология и организатори на двугодишния експеримент за сгъване (сгъване) на протеини днес обявиха това изключително постижение от учени от британската компания DeepMind, която се развива в областта на изкуствения интелект (AI). Беше заявено, че методът на DeepMind ще има далечни последици. Например, той може драстично да ускори разработването на нови лекарства.

„Екипът на DeepMind успя да постигне фантастичен резултат, който драстично ще промени перспективите за развитие на структурната биология и изследванията на протеините“, казва Джанет Торнтън, почетен директор на Европейския институт по биоинформатика. „Това предизвикателство е на 50 години“, добавя Джон Моулт, структурен биолог от Университета на Мериленд в Shady Grove; Moult е съосновател на научното състезание Critical Assessment of Protein Structure Prediction (CASP). „Никога не съм мислил, че ще доживея този момент“, добавя Молт.

За какво става дума? В човешкото тяло има десетки хиляди различни протеини, всеки от които представлява верига от много аминокиселини - от десетки до много стотици. Последователността на аминокиселините определя безбройните взаимодействия между тях и по този начин води до появата на сложни триизмерни структури, които от своя страна определят свойствата на протеините. Информацията за тези протеинови структури позволява на учените да създават нови лекарства. А способността да се синтезират протеини с желаната структура ще ускори развитието на ензими (ускорители), с помощта на които например е възможно да се произвеждат биогорива и напълно да се разграждат пластмасовите отпадъци.

В продължение на десетилетия учените дешифрират триизмерни протеинови структури, използвайки експериментални техники като рентгенова кристалография или криоелектронна микроскопия (крио-ЕМ). Използването на такива методи обаче отнема понякога, месеци или години; освен това тези методи не винаги работят. От повече от 200 милиона известни протеинови структури, само около 170 хиляди са дешифрирани.

През 60 -те години на миналия век учените стигат до извода, че ако е възможно да се определят всички връзки, характерни за дадена протеинова последователност, тогава би било възможно да се предскаже пространствената структура на протеина. Въпреки това, тъй като всеки протеин съдържа стотици аминокиселинни единици, които взаимодействат помежду си по различни начини, в крайна сметка откриваме, че общият възможен брой такива структури на една аминокиселинна последователност е просто гигантски. Компютърните учени се заеха с решението на този проблем, но нещата вървяха бавно.

През 1994 г. Джон Моулт и колегите му стартират мащабен CASP експеримент, който се провежда на всеки две години. На участниците в този експеримент се дават аминокиселинни последователности от около сто протеина, чиято структура е неизвестна. Някои групи учени изчисляват структурата за всяка последователност, докато други групи я определят експериментално. След това организаторите на експеримента сравняват прогнозираните прогнози с лабораторните резултати, използвайки оценка на точността на оценката (GDT), която варира от нула до сто. С оценки над 90 GDT, изчислените прогнози се считат за близки до експерименталните, каза Моулт.

Още през 1994 г. учените постигнаха, че предвидените от тях структури на малки прости протеини могат да съответстват на експерименталните резултати. Въпреки това, за по -големи и по -сложни протеини, резултатите от изчисленията бяха около 20 GDT - „пълен провал“, както се изрази един от съдиите на CASP, Андрей Лупас, еволюционен биолог в Института по биология на развитието. Макс Планк. До 2016 г. конкуриращи се екипи от учени са наели около 40 GDT за най -сложните протеини, главно чрез анализ на известни протеинови структури, известни за CASP.

Когато DeepMind се включи в състезанието за първи път през 2018 г., предложеният му алгоритъм, наречен AlphaFold, разчита на описания по -горе метод за сравняване на теоретични и практически резултати. Но AlphaFold също използва методи за дълбоко обучение: софтуерът се учи от огромни количества данни (в този случай последователности и структури на известни протеини) и се научава да идентифицира модели. DeepMind спечели лесно, побеждавайки конкуренцията средно с 15% за всяка протеинова структура и отбелязвайки около 60 GDT точки за най -предизвикателните задачи.

И все пак, според Джон Джъмпър, който отговаря за разработването на алгоритъма AlphaFold в DeepMind, направените прогнози са твърде груби, за да бъдат използвани за практически цели. „Знаехме, че все още сме далеч от практическата употреба в биологията“, каза Джъмпър. За да постигнат по -добри резултати, Jumper и колегите му комбинират задълбоченото обучение с „алгоритъм за внимание“, който имитира човешката способност да сглобява пъзели. Ето как се случва: първо, малки фрагменти се правят от малки парчета (в този случай фрагменти от аминокиселинни единици), а след това се правят опити да се комбинират тези фрагменти, образувайки едно цяло с по -големи размери. Тази работа включва компютърна мрежа, състояща се от 128 процесора за машинно обучение; те успяха да обучат алгоритъма върху около 170 хиляди известни протеинови структури.

И проработи! Тази година алгоритъмът AlphaFold получи среден резултат от 92,4 GDT за протеини, които бяха предложени за анализ в CASP. При анализа на най -сложните протеини алгоритъмът AlphaFold отбеляза средно 87 точки, което е с 25 точки по -високо от най -точните прогнози, направени по -рано. Алгоритъмът дори се справи с анализа на структурите на протеините, които се намират в клетъчните мембрани и са отговорни за много човешки заболявания, но в същото време е трудно да се изследва с помощта на рентгенова кристалография. Структурният биолог Венки Рамакришнан от Лабораторията по молекулярна биология на Съвета по медицински изследвания изследва резултата като „зашеметяващо постижение в проблема с предсказването на протеиновата структура“.

Според Джон Моулт, в тазгодишното състезание всички групи учени са демонстрирали още по -точни резултати. Но ако говорим за алгоритъма AlphaFold, тогава според Андрей Лупас „ситуацията се е променила коренно“. Организаторите на експеримента CASP дори се усъмниха в целостта на алгоритъма DeepMind. И Лупас си постави отделна задача: да открие структурата на мембранния протеин на вида археи (представител на група древни микроорганизми). В продължение на десет години изследователският му екип се опитва да получи рентгенова снимка на кристалната структура на този протеин. Но според Лупас този проблем не може да бъде решен.

Алгоритъмът AlphaFold обаче нямаше проблеми. Резултатът е подробно изображение на трикомпонентен протеин с два спираловидни клона в средата. Моделът, произведен от алгоритъма, позволи на Лупас и колегите му да разберат данните, получени с помощта на рентгена; за половин час те сравниха своите експериментални данни със структурата, предвидена от алгоритъма AlphaFold. „Резултатът е почти перфектен“, казва Лупас. - Невъзможно беше да се манипулират данните. Не разбирам как са успели да го направят."

Едно от условията за участие в експеримента CASP, DeepMind, заедно с всички останали групи, се съгласи да разкрие съществените подробности за техния метод, така че други групи да могат да го повторят. Това е подарък за експериментаторите, тъй като точното прогнозиране на протеиновата структура ще им помогне правилно да интерпретират неясни данни, получени с помощта на рентгенови изследвания и крио-електронна микроскопия (крио-ЕМ). В допълнение, алгоритъмът AlphaFold, според Moult, също ще позволи на разработчиците на лекарства бързо да определят структурата на протеините, които съставляват нови и опасни патогени, като SARS-CoV-2, който от своя страна трябва да се разглежда като един от важните стъпки в процеса на търсене на молекули, с които тези патогени могат да бъдат блокирани.

Алгоритъмът AlphaFold обаче не може да изпълнява всички задачи. Например, в експеримента CASP, неговата работа забележимо се забави при анализ на един от протеините (това беше смес от 52 малки повтарящи се сегмента, които изкривяват местоположенията един на друг по време на сглобяването). Джон Джъмпър казва, че изследователският екип би искал да обучи AlphaFold, за да може да анализира споменатите по -горе структури, както и протеинови комплекси, които заедно изпълняват важни функции в клетката.

Въпреки това, скоро след решаването на един от най -трудните проблеми, несъмнено ще се появят други. „Още не е свършило“, казва Джанет Торнтън. "Предстоят ни много нови задачи."

Препоръчано: