Evo 2: Крупнейшая ИИ-модель в биологии

Evo 2 представляет собой геномную фундаментальную модель, способную выполнять генералистские задачи предсказания и дизайна для ДНК, РНК и белков. Используя передовую архитектуру глубокого обучения, она обеспечивает моделирование биологических последовательностей с разрешением до одного нуклеотида и почти линейным масштабированием вычислений и памяти относительно длины контекста.

Исторический прорыв: Evo 2 обучена на 9.3 триллионах нуклеотидов от более чем 128,000 геномов, что делает её крупнейшей моделью ИИ в биологии на сегодняшний день с контекстным окном до 1 миллиона нуклеотидов.

Революционные возможности Evo 2

Архитектурные инновации

StripedHyena 2 архитектура: Evo 2 использует новую архитектуру StripedHyena 2, сочетающую конволюционные операторы, зависящие от входных данных, с механизмами внимания, оптимизированными для эффективной обработки длинных ДНК-последовательностей в масштабе.

Характеристика Evo 1 Evo 2 (7B) Evo 2 (40B) Улучшение
Обучающий корпус Одноклеточные геномы 9.3T нуклеотидов 9.3T нуклеотидов Всё дерево жизни
Параметры Не указано 7 миллиардов 40 миллиардов +470% к 7B
Контекстное окно Ограниченное 1M токенов 1M токенов Беспрецедентно длинное
Разрешение Базовое Один нуклеотид Один нуклеотид Максимальная точность

Обучающий корпус OpenGenome2

Модель была обучена на тщательно курированном геномном атласе, охватывающем все домены жизни. Корпус OpenGenome2 включает разнообразные эукариотические и прокариотические геномы, предоставляя беспрецедентное понимание биологического разнообразия.

Домен жизни Количество геномов Особенности Применения
Бактерии Тысячи Быстрая эволюция Антибиотики, биотехнологии
Археи Сотни Экстремальные условия Промышленные ферменты
Эукариоты Десятки тысяч Сложные структуры Медицина, сельское хозяйство
Бактериофаги Множество Вирусы бактерий ⭐ Фаговая терапия

Научные достижения

Предсказание мутационных эффектов

Zero-shot точность: Evo 2 точно предсказывает функциональные эффекты мутаций в прокариотических и эукариотических геномах без необходимости специальной настройки под задачу, демонстрируя чувствительность к мутациям в стартовых кодонах, сайтах сплайсинга и консервативных геномных регионах.

Аннотация вымерших видов

Тестирование показало, что Evo 2 успешно аннотировала геном шерстистого мамонта из сырых геномных последовательностей без прямого обучающего референса, демонстрируя способность обобщать функции только из последовательности.

Задача Результат Evo 2 Сравнение с SOTA Клиническая значимость
Предсказание мутаций BRCA1 90% точность Сопоставимо с AlphaMissense ✅ Рак молочной железы
Некодирующие варианты Превосходная точность Лучше специализированных моделей ✅ Регуляторные нарушения
Indels Высокая производительность Превосходит GPN-MSA ✅ Структурные варианты
Аннотация мамонта Успешная без референса Уникальная способность ✅ Де-экстинкция

Генеративные возможности

Дизайн геномов

Синтетическая биология: При запросе митохондриальных геномных последовательностей Evo 2 произвела ДНК с правильным количеством кодирующих генов, тРНК и рРНК, демонстрируя глубокое понимание геномной организации.

Программируемая хроматиновая доступность

Evo 2 была применена в задаче контролируемого дизайна времени вывода для инженерии ДНК-последовательностей с программируемой хроматиновой доступностью. Интегрируя модели хроматиновой доступности, такие как Enformer и Borzoi, Evo 2 генерировала последовательности с конкретными регуляторными особенностями, включая способность кодировать сообщения азбукой Морзе в эпигенетических структурах.

Применение Входные данные Выходные данные Инновация
Митохондриальные геномы Промпт последовательности Полный функциональный геном Правильная структура органелл
Бактериальные геномы Спецификации организма Синтетические геномы Длина до размера простых бактерий
Эпигенетический дизайн Регуляторные требования Программируемые области ⭐ Сообщения азбукой Морзе в ДНК
Синтетические ферменты Функциональные спецификации Новые белковые последовательности Промышленные приложения

Технические характеристики

Производительность и масштабирование

Метрика Значение Контекст
Обучающий корпус 9.3T нуклеотидов Крупнейший в биологическом ИИ
Контекстное окно 1M токенов Беспрецедентно в геномике
Обучающая инфраструктура 1,024 GPU NVIDIA DGX Cloud на AWS
Эффективность Выше чем Transformer Благодаря StripedHyena 2

Доступность и интеграция

Открытая наука: Evo 2 доступна через NVIDIA BioNeMo платформу в виде NIM микросервиса для безопасного развертывания ИИ. Обучающий код, параметры модели и набор данных OpenGenome2 открыто доступны для ускорения геномных исследований.

Практические применения

Медицина и фармакология

  • Предиктивная медицина: Предсказание болезнетворных мутаций человека
  • Персонализированное лечение: Адаптация лекарств к индивидуальному ДНК
  • Редкие заболевания: Анализ генетических вариантов
  • Онкология: Понимание мутаций в раковых генах

Биотехнологии и сельское хозяйство

  • Оптимизированные культуры: Устойчивые к болезням и климату сорта
  • Биотопливо: Инженерия микроорганизмов для производства энергии
  • Экологические решения: Бактерии для поглощения CO₂
  • Промышленные ферменты: Разработка белков для специфических задач

Фундаментальная наука

  • Популяционная генетика: Крупномасштабные геномные исследования
  • Эволюционная биология: Понимание эволюционных паттернов
  • Синтетическая биология: Создание новых биологических систем
  • Консервационная биология: Анализ вымирающих видов

Этические соображения и безопасность

Ответственная разработка: Учитывая потенциальные этические риски и риски безопасности, ученые исключили патогены, поражающие людей и другие сложные организмы, из базового набора данных Evo 2 и обеспечили, что модель не будет давать продуктивные ответы на запросы об этих патогенах.

Принципы безопасности

  • Исключение патогенов: Человеческие патогены удалены из обучающих данных
  • Контролируемый доступ: Ограничения на потенциально опасные запросы
  • Прозрачность: Открытость кода и методов для проверки сообществом
  • Этические гайдлайны: Разработка стандартов для ответственного использования

Сравнение с конкурентами

Модель Размер корпуса Контекстное окно Специализация
Evo 2 9.3T нуклеотидов 1M токенов Универсальная геномика
AlphaMissense Специализированная Ограниченная Предсказание мутаций
GPN-MSA Ограниченная Короткая Геномные варианты
Enformer Специализированная Ограниченная Регуляторные элементы

Будущие направления

Evo 2 представляет значительный прогресс в геномном ИИ, сочетая предсказательную точность с генеративными возможностями в геном-широких масштабах. Будущие применения могут включать крупномасштабные исследования популяционной генетики, синтетическую биологию и продвинутый эпигеномный дизайн.

Видение будущего: Исследователи предполагают Evo 2 как "операционную систему" для биологии - фундаментальное ядро, на котором можно строить специализированные приложения, от предсказания того, как отдельные мутации ДНК влияют на функции белков, до дизайна генетических элементов, которые ведут себя по-разному в разных типах клеток.

Evo 2 подойдет для

Эта модель особенно ценна для:

  • Геномных исследователей и биоинформатиков
  • Фармацевтических компаний в открытии лекарств
  • Биотехнологических стартапов
  • Исследователей синтетической биологии
  • Специалистов по персонализированной медицине
  • Компаний сельскохозяйственной биотехнологии
  • Ученых-экологов и консервационистов

Полезные ресурсы