Группа учёных разработала Evo 2, которую они называют крупнейшей моделью ИИ, когда-либо созданной для биологических исследований. Эта система может генерировать полные хромосомы и анализировать сложные генетические вариации в различных живых организмах. Evo 2 основана на обширном атласе генома, содержащем 9,3 триллиона пар оснований ДНК бактерий, архей и эукариот, охватывающих более 100 000 видов. Исследователи из Arc Institute, Стэнфордского университета, Калифорнийского университета в Беркли, Калифорнийского университета в Сан-Франциско и Nvidia утверждают, что такое обширное обучение позволяет модели предсказывать и проектировать биологические последовательности от молекулярного до геномного уровня для всех форм жизни.
Команда разработала две версии Evo 2 с 7 и 40 миллиардами параметров соответственно. Обе версии способны обрабатывать последовательности длиной до 1 миллиона пар оснований. По словам исследователей, модель обучена точно предсказывать влияние генетических вариантов на функции организма, просто анализируя последовательности ДНК, без необходимости дополнительного обучения для решения конкретных задач.
Тестирование показало, что Evo 2 может самостоятельно распознавать различные биологические характеристики и генерировать полные митохондриальные геномы, прокариотические геномы и эукариотические хромосомы, соответствующие по длине и сложности естественным. При анализе мутаций в гене рака молочной железы BRCA1 система продемонстрировала точность, почти соответствующую лучшим существующим ИИ-моделям в выявлении изменений, вызывающих заболевания.
Исследователи выяснили, что использование поиска по времени вывода — метода, при котором Evo 2 генерирует несколько возможных последовательностей и фильтрует их через функцию оценки — позволяет эффективно контролировать сложные эпигеномные структуры, такие как доступность хроматина. Это стало первой демонстрацией применения масштабирования для вычисления времени вывода в биологических исследованиях.
Контроль доступа хроматина, который определяет, насколько плотно ДНК упакована в ядре клетки, особенно важен. Этот процесс влияет на доступность генов для активации клеточными белками или их подавление. Благодаря сочетанию генеративного моделирования и поиска по времени вывода, Evo 2 может проектировать ДНК-последовательности с конкретными эпигенетическими регуляторными паттернами, точно определяя, какие участки должны быть активными или, наоборот, неактивными.
Чтобы способствовать развитию биологических исследований и разработок, команда сделала Evo 2 доступной с открытым исходным кодом, включая параметры модели, код для обучения и вывода, а также набор данных OpenGenome2. Это делает её одной из крупнейших открытых моделей в своей области. Как и её предшественник Evo 1, модель использует гибридную архитектуру на базе StripedHyena.
Evo 2 — это значительный шаг вперёд по сравнению с Evo 1. Новая модель обучалась на данных в 30 раз большего объёма и охватывает гораздо более широкий спектр живых организмов, включая эукариот. Контекст последовательностей был расширен с 8000 до 1 миллиона пар оснований, что стало возможным благодаря архитектуре "StripedHyena 2". Если Evo 1 могла работать только с прокариотами, то Evo 2 теперь делает прогнозы для всего генома всех форм жизни с улучшенной точностью.
Аншул Кундадже, специалист по вычислительной биологии из Стэнфорда, похвалил техническую архитектуру модели, но выразил сомнения по поводу того, что она действительно понимает отдалённые некодирующие последовательности, регулирующие активность генов.
Брайан Хай из Стэнфорда и Arc Institute признал, что, хотя геномы, сгенерированные Evo 2, превосходят результаты её предшественника, они, вероятно, не будут функционировать в живых клетках. Команда сознательно исключила патогены человека и более сложные организмы из обучающих данных по этическим и безопасности, гарантируя, что модель не будет генерировать полезную информацию о таких патогенах.
Команда разработала две версии Evo 2 с 7 и 40 миллиардами параметров соответственно. Обе версии способны обрабатывать последовательности длиной до 1 миллиона пар оснований. По словам исследователей, модель обучена точно предсказывать влияние генетических вариантов на функции организма, просто анализируя последовательности ДНК, без необходимости дополнительного обучения для решения конкретных задач.
Тестирование показало, что Evo 2 может самостоятельно распознавать различные биологические характеристики и генерировать полные митохондриальные геномы, прокариотические геномы и эукариотические хромосомы, соответствующие по длине и сложности естественным. При анализе мутаций в гене рака молочной железы BRCA1 система продемонстрировала точность, почти соответствующую лучшим существующим ИИ-моделям в выявлении изменений, вызывающих заболевания.
Исследователи выяснили, что использование поиска по времени вывода — метода, при котором Evo 2 генерирует несколько возможных последовательностей и фильтрует их через функцию оценки — позволяет эффективно контролировать сложные эпигеномные структуры, такие как доступность хроматина. Это стало первой демонстрацией применения масштабирования для вычисления времени вывода в биологических исследованиях.
Контроль доступа хроматина, который определяет, насколько плотно ДНК упакована в ядре клетки, особенно важен. Этот процесс влияет на доступность генов для активации клеточными белками или их подавление. Благодаря сочетанию генеративного моделирования и поиска по времени вывода, Evo 2 может проектировать ДНК-последовательности с конкретными эпигенетическими регуляторными паттернами, точно определяя, какие участки должны быть активными или, наоборот, неактивными.
Чтобы способствовать развитию биологических исследований и разработок, команда сделала Evo 2 доступной с открытым исходным кодом, включая параметры модели, код для обучения и вывода, а также набор данных OpenGenome2. Это делает её одной из крупнейших открытых моделей в своей области. Как и её предшественник Evo 1, модель использует гибридную архитектуру на базе StripedHyena.
Evo 2 — это значительный шаг вперёд по сравнению с Evo 1. Новая модель обучалась на данных в 30 раз большего объёма и охватывает гораздо более широкий спектр живых организмов, включая эукариот. Контекст последовательностей был расширен с 8000 до 1 миллиона пар оснований, что стало возможным благодаря архитектуре "StripedHyena 2". Если Evo 1 могла работать только с прокариотами, то Evo 2 теперь делает прогнозы для всего генома всех форм жизни с улучшенной точностью.
Аншул Кундадже, специалист по вычислительной биологии из Стэнфорда, похвалил техническую архитектуру модели, но выразил сомнения по поводу того, что она действительно понимает отдалённые некодирующие последовательности, регулирующие активность генов.
Брайан Хай из Стэнфорда и Arc Institute признал, что, хотя геномы, сгенерированные Evo 2, превосходят результаты её предшественника, они, вероятно, не будут функционировать в живых клетках. Команда сознательно исключила патогены человека и более сложные организмы из обучающих данных по этическим и безопасности, гарантируя, что модель не будет генерировать полезную информацию о таких патогенах.