Evo 2 представляет собой геномную фундаментальную модель, способную выполнять генералистские задачи предсказания и дизайна для ДНК, РНК и белков. Используя передовую архитектуру глубокого обучения, она обеспечивает моделирование биологических последовательностей с разрешением до одного нуклеотида и почти линейным масштабированием вычислений и памяти относительно длины контекста.
Исторический прорыв: Evo 2 обучена на 9.3 триллионах нуклеотидов от более чем 128,000 геномов, что делает её крупнейшей моделью ИИ в биологии на сегодняшний день с контекстным окном до 1 миллиона нуклеотидов.
Революционные возможности Evo 2
Архитектурные инновации
StripedHyena 2 архитектура: Evo 2 использует новую архитектуру StripedHyena 2, сочетающую конволюционные операторы, зависящие от входных данных, с механизмами внимания, оптимизированными для эффективной обработки длинных ДНК-последовательностей в масштабе.
| Характеристика | Evo 1 | Evo 2 (7B) | Evo 2 (40B) | Улучшение |
|---|---|---|---|---|
| Обучающий корпус | Одноклеточные геномы | 9.3T нуклеотидов | 9.3T нуклеотидов | Всё дерево жизни |
| Параметры | Не указано | 7 миллиардов | 40 миллиардов | +470% к 7B |
| Контекстное окно | Ограниченное | 1M токенов | 1M токенов | Беспрецедентно длинное |
| Разрешение | Базовое | Один нуклеотид | Один нуклеотид | Максимальная точность |
Обучающий корпус OpenGenome2
Модель была обучена на тщательно курированном геномном атласе, охватывающем все домены жизни. Корпус OpenGenome2 включает разнообразные эукариотические и прокариотические геномы, предоставляя беспрецедентное понимание биологического разнообразия.
| Домен жизни | Количество геномов | Особенности | Применения |
|---|---|---|---|
| Бактерии | Тысячи | Быстрая эволюция | Антибиотики, биотехнологии |
| Археи | Сотни | Экстремальные условия | Промышленные ферменты |
| Эукариоты | Десятки тысяч | Сложные структуры | Медицина, сельское хозяйство |
| Бактериофаги | Множество | Вирусы бактерий | ⭐ Фаговая терапия |
Научные достижения
Предсказание мутационных эффектов
Zero-shot точность: Evo 2 точно предсказывает функциональные эффекты мутаций в прокариотических и эукариотических геномах без необходимости специальной настройки под задачу, демонстрируя чувствительность к мутациям в стартовых кодонах, сайтах сплайсинга и консервативных геномных регионах.
Аннотация вымерших видов
Тестирование показало, что Evo 2 успешно аннотировала геном шерстистого мамонта из сырых геномных последовательностей без прямого обучающего референса, демонстрируя способность обобщать функции только из последовательности.
| Задача | Результат Evo 2 | Сравнение с SOTA | Клиническая значимость |
|---|---|---|---|
| Предсказание мутаций BRCA1 | 90% точность | Сопоставимо с AlphaMissense | ✅ Рак молочной железы |
| Некодирующие варианты | Превосходная точность | Лучше специализированных моделей | ✅ Регуляторные нарушения |
| Indels | Высокая производительность | Превосходит GPN-MSA | ✅ Структурные варианты |
| Аннотация мамонта | Успешная без референса | Уникальная способность | ✅ Де-экстинкция |
Генеративные возможности
Дизайн геномов
Синтетическая биология: При запросе митохондриальных геномных последовательностей Evo 2 произвела ДНК с правильным количеством кодирующих генов, тРНК и рРНК, демонстрируя глубокое понимание геномной организации.
Программируемая хроматиновая доступность
Evo 2 была применена в задаче контролируемого дизайна времени вывода для инженерии ДНК-последовательностей с программируемой хроматиновой доступностью. Интегрируя модели хроматиновой доступности, такие как Enformer и Borzoi, Evo 2 генерировала последовательности с конкретными регуляторными особенностями, включая способность кодировать сообщения азбукой Морзе в эпигенетических структурах.
| Применение | Входные данные | Выходные данные | Инновация |
|---|---|---|---|
| Митохондриальные геномы | Промпт последовательности | Полный функциональный геном | Правильная структура органелл |
| Бактериальные геномы | Спецификации организма | Синтетические геномы | Длина до размера простых бактерий |
| Эпигенетический дизайн | Регуляторные требования | Программируемые области | ⭐ Сообщения азбукой Морзе в ДНК |
| Синтетические ферменты | Функциональные спецификации | Новые белковые последовательности | Промышленные приложения |
Технические характеристики
Производительность и масштабирование
| Метрика | Значение | Контекст |
|---|---|---|
| Обучающий корпус | 9.3T нуклеотидов | Крупнейший в биологическом ИИ |
| Контекстное окно | 1M токенов | Беспрецедентно в геномике |
| Обучающая инфраструктура | 1,024 GPU | NVIDIA DGX Cloud на AWS |
| Эффективность | Выше чем Transformer | Благодаря StripedHyena 2 |
Доступность и интеграция
Открытая наука: Evo 2 доступна через NVIDIA BioNeMo платформу в виде NIM микросервиса для безопасного развертывания ИИ. Обучающий код, параметры модели и набор данных OpenGenome2 открыто доступны для ускорения геномных исследований.
Практические применения
Медицина и фармакология
- Предиктивная медицина: Предсказание болезнетворных мутаций человека
- Персонализированное лечение: Адаптация лекарств к индивидуальному ДНК
- Редкие заболевания: Анализ генетических вариантов
- Онкология: Понимание мутаций в раковых генах
Биотехнологии и сельское хозяйство
- Оптимизированные культуры: Устойчивые к болезням и климату сорта
- Биотопливо: Инженерия микроорганизмов для производства энергии
- Экологические решения: Бактерии для поглощения CO₂
- Промышленные ферменты: Разработка белков для специфических задач
Фундаментальная наука
- Популяционная генетика: Крупномасштабные геномные исследования
- Эволюционная биология: Понимание эволюционных паттернов
- Синтетическая биология: Создание новых биологических систем
- Консервационная биология: Анализ вымирающих видов
Этические соображения и безопасность
Ответственная разработка: Учитывая потенциальные этические риски и риски безопасности, ученые исключили патогены, поражающие людей и другие сложные организмы, из базового набора данных Evo 2 и обеспечили, что модель не будет давать продуктивные ответы на запросы об этих патогенах.
Принципы безопасности
- Исключение патогенов: Человеческие патогены удалены из обучающих данных
- Контролируемый доступ: Ограничения на потенциально опасные запросы
- Прозрачность: Открытость кода и методов для проверки сообществом
- Этические гайдлайны: Разработка стандартов для ответственного использования
Сравнение с конкурентами
| Модель | Размер корпуса | Контекстное окно | Специализация |
|---|---|---|---|
| Evo 2 | 9.3T нуклеотидов | 1M токенов | Универсальная геномика |
| AlphaMissense | Специализированная | Ограниченная | Предсказание мутаций |
| GPN-MSA | Ограниченная | Короткая | Геномные варианты |
| Enformer | Специализированная | Ограниченная | Регуляторные элементы |
Будущие направления
Evo 2 представляет значительный прогресс в геномном ИИ, сочетая предсказательную точность с генеративными возможностями в геном-широких масштабах. Будущие применения могут включать крупномасштабные исследования популяционной генетики, синтетическую биологию и продвинутый эпигеномный дизайн.
Видение будущего: Исследователи предполагают Evo 2 как "операционную систему" для биологии - фундаментальное ядро, на котором можно строить специализированные приложения, от предсказания того, как отдельные мутации ДНК влияют на функции белков, до дизайна генетических элементов, которые ведут себя по-разному в разных типах клеток.
Evo 2 подойдет для
Эта модель особенно ценна для:
- Геномных исследователей и биоинформатиков
- Фармацевтических компаний в открытии лекарств
- Биотехнологических стартапов
- Исследователей синтетической биологии
- Специалистов по персонализированной медицине
- Компаний сельскохозяйственной биотехнологии
- Ученых-экологов и консервационистов