Компьютерная биология — наука XXI века

Александр Прохоров

Определение пространственной структуры биологических макромолекул

Массивным вычислениям — мощные компьютеры

Токийский суперкомпьютерный биоинформационный центр

Суперкомпьютерный центр Sanger Centre компании Celera Genomics

Суперкомпьютерный центр Oak Ridge National Laboratory

биологии компьютеры используются очень широко — это и моделирование самых разных биологических систем, и организация и хранение всевозможной информации, и документооборот, и обучение, и экологические ГИС, и Интернет-технологии. Однако, говоря о компьютерной биологии, прежде всего имеют в виду три задачи: расшифровка генома, определение пространственной структуры белка и моделирование функционирования биомакромолекул (рис. 1).

Все перечисленные задачи требуют колоссальных вычислительных мощностей, и сама постановка этих проблем немыслима без высокопроизводительных вычислительных систем. Успехи компьютерной биологии, появившиеся на фоне стремительного развития суперкомпьютерных вычислений, привели к возникновению совершенно новых наук: геномики, протеомики, биоинформатики — дисциплин, которые революционизируют наши представления о живых организмах.

Геномика занимается установлением структуры и выяснением механизма функционирования генома в живых системах. Эта наука открывает новое понимание молекулярных механизмов заболеваний, определяет новые подходы в создании лекарств, новые диагностические тесты. Геномика положила начало получению трансгенных растений и животных.

С геномикой тесно связана еще одна новая наука — протеомика. Если геномика исследует информационный материал клетки, то протеомика изучает структуру и функции белков.

Третья наука — биоинформатика — занимается более широким спектром вопросов, включая анализ биологических текстов, построение структур макромолекул, предсказание их функций и создание новых лекарственных препаратов. Биоинформатика открывает перспективы перед многими научными и прикладными дисциплинами, такими как археология, теория эволюции, экология, сельское хозяйство и т.п.

В данной статье мы кратко остановимся на специфике задач компьютерной биологии, расскажем о том, какие международные проекты создаются для их решения и какие аппаратные вычислительные комплексы используются для осуществления подобных проектов.

Расшифровка структуры генома человека

асшифровка структуры генома сводится к выявлению последовательности символов отдельных структурных единиц и определению их функциональной нагрузки. Для описания сути и масштабов данной вычислительной задачи необходимо кратко рассказать об основах теории наследственности.

Генетика зародилась почти 150 лет назад, когда Грегор Мендель открыл существование дискретных частиц (названных впоследствии генами), передающих наследственные свойства. В начале XX века появилась хромосомная теория наследственности, согласно которой гены линейно расположены в ядерных хромосомах и их последовательность может быть расшифрована.

Позднее было установлено, что гены состоят из ДНК, а ДНК, в свою очередь, имеет структуру двойной спирали. Каждая нить этой спирали представляет собой линейную молекулу, состоящую из нуклеотидов, содержащих в своем составе те или иные азотистые основания: аденин (А), тимин (T), гуанин (G) и цитозин (С) (рис. 2).

Затем было открыто, что ДНК является матрицей для репликации, то есть для превращения информации, содержащейся в ДНК, в белковые молекулы. Таким образом, молекула ДНК, являющаяся носителем генетической информации, представляет собой биополимер, элементарным звеном которого служит нуклеотидная пара. Установление последовательности чередований этих оснований в генах означает раскрытие генетического кода генома. Появление быстрых методов компьютерной расшифровки последовательности нуклеотидных пар в геномах организмов позволило решить задачу расшифровки генома.

В геноме человека содержится около 3Ѕ109 оснований генетических «букв» (А, Т, G, С), составляющих десятки тысяч различных генов. Задача состоит в определении последовательности расположения 3,5 млрд. нуклеотидов, содержащих в своем составе те или иные азотистые основания. Такими генетическими «буквами» и написаны слова «книги жизни», определяющей образ рода человеческого. Если издать генетическую информацию только об одном человеке в виде книги, то получится фолиант в 750 тыс. страниц.

Задачей проекта «Геном человека» (Human Genome Project, HGP) было определение последовательности всех нуклеотидов в геноме человека с точностью до 0,01%. Инициатором этой работы стало Министерство энергетики США, которое в 1986 году выступило с идеей осуществить полную расшифровку генома человека. Проект был развернут Национальным институтом здоровья США и планировался к завершению в 2005 году. Двадцать стран мира имели свои национальные программы по изучению генома человека, а в России эту проблему изучали десятки исследовательских групп. В 1998 году была создана частная компания Celera Genomics, которая составила конкуренцию этому проекту и обещала завершить исследования к 2001 году, что изрядно подстегнуло ученых, занятых в общественном международном проекте.

В 2000 году конкурирующие коллективы — Celera Genomics и международный консорциум — объявили о том, что совместными усилиями в целом завершена работа над проектом HGP. В том же году премьер-министр Великобритании Тони Блэр и президент США Билл Клинтон заявили, что расшифровано 97% генома человека. На тот момент была расшифрована структура 50 тыс. генов, в которых идентифицирована последовательность расположения 3,5 млрд. генетических букв. Основная часть проекта была завершена намного раньше намеченных сроков, и сегодня последовательность ДНК человека раскодирована практически на 100%.

Одной из причин быстрого осуществления данного проекта явилось интенсивное развитие суперкомпьютерных мощностей ведущих исследовательских центров.

По словам руководителя отделения ДНК-последовательностей в Институте Сэнгера (учреждения, которое внесло наиболее весомый вклад в проект HGP) доктора Джейн Роджерса, «ученым удалось достичь намеченных результатов значительно раньше, сохранив при этом невероятно высокие стандарты качества. Эта работа позволяет исследователям немедленно приступить к целому ряду биомедицинских проектов».

Однако установление последовательности генетического кода — это только первый шаг на пути создания нового поколения так называемых молекулярных лекарств, предназначенных для коррекции конкретных генов. Директор Института Сэнгера профессор Алан Брэдли считает, что расшифровка генома человека открывает широчайшие перспективы для медицины: «Только одна часть нашей работы — последовательность хромосомы 20 — уже позволила ускорить поиски генов, ответственных за развитие диабетов, лейкемии и детской экземы. Не стоит ожидать немедленного прорыва, но нет сомнений в том, что мы завершаем одну из самых удивительных глав “книги жизни”».

Доктор Фрэнсис Коллинс, директор Национального института исследований генома США, приводит следующие данные: «Один из наших проектов предусматривал идентификацию генов предрасположенности к диабету II типа, которым страдает каждый 20-й человек старше 45 лет, и эта доля со временем только возрастает. При помощи общедоступной карты генетических последовательностей мы сумели отобрать один ген в хромосоме 20, наличие которого в геноме, похоже, увеличивает вероятность возникновения диабета II типа».

Зная практически всю последовательность миллиардов букв-нуклеотидов генетического кода нашей ДНК, ученые смогут вплотную заняться теми проблемами жизни человека, которые вызываются генетическими причинами.

Проект HGP обещает изменить наши представления о жизни на Земле (рис. 3). Новые технологии будут внедряться не только в биологии, но также в медицине и сельском хозяйстве. Генетические данные послужат основой для развития таких дисциплин, как судебная медицина и идентификационные методы в биологии, откроют новые перспективы в экологии и науках об окружающей среде, новые методы расщепления токсичных отходов, обеспечат создание новых биоэнергетических источников и индустриальных процессов, помогут разгадать тайны эволюции, антропологии, процессов миграции человека и т.д.

В то время как расшифровка первичной структуры молекул ДНК человека завершена, изучение ее пространственной структуры находится в начальной стадии. Для моделирования пространственной структуры фрагментов ДНК требуется учет всевозможных конфигураций как отдельных нуклеотидов, входящих в состав ДНК, так и большого числа молекул растворителей, окружающих макромолекулу. Процедура расчета энергии межмолекулярных взаимодействий занимает основную часть вычислительных ресурсов. Использование высокопроизводительных вычислений позволяет изучить пространственную организацию больших фрагментов ДНК, механизмы связывания лекарств и других биологически активных соединений с ДНК.

Определение пространственной структуры биологических макромолекул

ще более трудоемкой по сравнению с расшифровкой генома является задача расшифровки пространственной структуры белков, входящих в состав биологического организма. Знание пространственной структуры белков тесно связано с их функционированием, в частности без этого невозможно создание новых типов лекарств. Предсказание пространственной структуры белков по последовательности нуклеотидных пар в ДНК — самая важная и сложная задача компьютерной биологии.

Число известных первичных белковых структур, установленных по известным нуклеотидным последовательностям ДНК, намного превосходит число экспериментально подтвержденных пространственных белковых структур. Цель исследований состоит в нахождении искомой структуры на основе минимизации свободной энергии пространственной системы, но даже для небольшого белка это задача сводится к поиску минимума функции десятков тысяч переменных. Точное решение подобной задачи сегодня невозможно, но уже разработано множество приближенных подходов. Один из самых эффективных — использование в качестве первого приближения информации о пространственной структуре белков, обладающих первичной структурой, близкой к исследуемому белку. В этом случае задача сводится к расчетному уточнению начального приближения.

Знание пространственной структуры белков играет решающую роль для понимания их функционирования (рис. 4). Учитывая, что число различных белков в организме человека составляет сотни тысяч, можно понять, сколь масштабная задача стоит перед исследователями.

Массивным вычислениям — мощные компьютеры

асштабы и сложность биологической информации в проекте «Геном человека» диктовали самые высокие требования к вычислительной инфраструктуре обработки данных. Объемы баз данных в биоинформационных проектах увеличиваются с поразительной скоростью, а участие в работе географически распределенных исследовательских групп и растущая сложность запросов к базам данных требуют использования масштабируемых серверов и систем памяти высокого быстродействия. Для компьютерной биологии необходимы сложные инструменты получения данных, средства визуализации данных и управления активами, что предполагает интеграцию всех систем в единый, четко работающий комплекс. Чтобы показать, насколько сложные вычислительные комплексы требуются для решения задач компьютерной биологии, расскажем об оснащении некоторых исследовательских центров, занятых в программе HGP.

Компьютерный центр Bristol-Myers Squibb

Компания Bristol-Myers Squibb занимается разнообразными исследованиями в области биоинформатики и одновременно ведет работы для фармацевтической промышленности, опираясь на широкий диапазон научных исследований, проводимых в Израиле, США и Канаде. Спектр интересов компании охватывает различные аспекты медицины — от изучения наследственных заболеваний до детального анализа моделей генетических систем.

Группа исследователей в области биоинформатики Bristol-Myers Squibb использует в своей работе кластер Linux-серверов компании Incyte. Эта система обрабатывает результаты, получаемые в ходе выполнения проекта HGP, включая анализ ДНК и белковых цепочек, расшифровку профилей и протеомику.

Linux-кластер Incyte интегрирован с сервером семейства SGI 2000, который дает исследователям возможность выполнять специальные приложения в Linux-среде и высвобождает ресурсы сервера SGI 2000 для приложений, которые требуют интенсивного распараллеливания и разделяемой памяти большого объема. Это позволяет Bristol-Myers Squibb снизить нагрузку по администрированию передачи данных и вычислений между вычислительными платформами и повышает эффективность работы пользователей.

По словам руководителя группы биоинформатики Bristol-Myers Squibb, в лаборатории построена идеальная среда для биоинформационных вычислений.

Компания Incyte, являющаяся лидером среди поставщиков информации по исследованиям генома, располагает передовыми системами обработки, способными анализировать и управлять растущими объемами данных по геному, накапливающихся в процессе исследований. Кластер систем Linux, разработанный Incyte, предоставляет ученым из Bristol-Myers Squibb возможность анализировать большие объемы данных быстрее и с меньшими затратами, чем раньше. С помощью серверов SGI и Incyte Genomics значительно повысилась эффективность разработки новых биоинформационных решений.

Токийский суперкомпьютерный биоинформационный центр

Токийский суперкомпьютерный биоинформационный центр (Human Genome Center, HGC), основанный в 1991 году, использует суперкомпьютеры по программе «Анализ генома человека» с 1997 года. Постепенно центру потребовалась большая вычислительная мощность, и в 2002 году HGC приобрел SGI Origin 3900 — новейшую модель серии суперкомпьютеров Origin 3000 компании SGI. На момент сделки это была самая крупная инсталляция системы Origin 3900 в мире.

Данная система служит для исследований в области генома человека, а также для других приложений компьютерной биологии и вычислительной химии в сфере предсказания протеиновых структур.

Центр HGC столкнулся с проблемой нехватки вычислительных ресурсов именно при работе над проектом «Геном человека», что явилось основной причиной для последнего апгрейда. После замены старого оборудования (суперкомпьютер Cray T94 и SGI Origin 2000) вычислительная мощность была увеличена втрое.

В дополнение к последнему апгрейду, который позволил построить систему с 512 процессорами компания SGI также поставила хранилище данных (SGI TP9400 storage system) на 5 Тбайт.

В результате развертывания сервера Origin 3900 (рис. 5) в несколько раз была увеличена мощность системы, причем без изменения площади, занимаемой суперкомпьютером.

Суперкомпьютерный центр Sanger Centre компании Celera Genomics

Ученые из компаний Celera Genomics, Sanger Centre и Whitehead Institute внесли существенный вклад в проект по расшифровке генома человека, используя в своих исследованиях суперкомпьютерные системы Compaq AlphaServer под ОС Tru64 UNIX и ПО TruCluster. В системе было задействовано более 600 процессоров Alpha, выполняющих около триллиона операций в секунду. Итоговые вычисления осуществлялись на новой системе Compaq AlphaServer GS160, так как для успешного решения задачи требовалось 64 Гбайт общей памяти.

Корпорация Compaq поддерживает работы в области расшифровки генома человека с начала реализации данного проекта. Первоначальная конфигурация центра Sanger Centre включала 160 рабочих станций Compaq Alpha, четыре системы Compaq AlphaServer 1200, а впоследствии центр приобрел 250 систем Compaq AlphaServer и рабочих станций под ОС Tru64 UNIX, развернул RAID-систему Compaq StorageWorks емкостью 4 Тбайт, подсистему Network Appliances RAID емкостью 300 Гбайт и 48 компьютеров Compaq Deskpro.

В 1999 году Compaq создала Bioinformatics Expertise Center в Мальборо (шт. Массачусетс), начала исследовательские работы по биоинформатике в своих лабораториях в Кембридже и Массачусетсе, разработав алгоритмы интеллектуального анализа генетических данных. В том же году корпорация Compaq была выбрана институтом Whitehead Institute в качестве поставщика информационной инфраструктуры для работы по расшифровке генома человека. При анализе генетических данных институт использовал серверы Compaq AlphaServer ES40 и системы хранения данных Compaq StorageWorks. В лаборатории Compaq Enterprise System Lab для завершения работ по проекту был инсталлирован кластер серверов AlphaServer ES40 (100 процессоров и дисковая память в 1 Тбайт).

Суперкомпьютерный центр Oak Ridge National Laboratory

Национальная лаборатория Oak Ridge National Laboratory Департамента энергетики США (Department of Energy, DOE) предлагает уникальные расчетные мощности, которые превышают возможности любой другой организации в США. Oak Ridge National Laboratory (ORNL) имеет в своем распоряжении такие системы, как Cray X1 и IBM SP.

Имеющаяся в лаборатории Cray-система в сентябре этого года планируется к апгрейду, в результате чего количество процессоров будет увеличено до 256. Система на базе IBM SP состоит из 176 узлов Winterhawk II SMP, каждый — по четыре 375-МГц Power3-II процессора. Данный вычислительный комплекс используется в расчетах по программе «Геном человека» (рис. 6).

КомпьютерПресс 7'2003

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12