Советы по строительству и ремонту

Биоинформатика как наука появилась на стыке молекулярной биологии, генетики, математики и компьютерных технологий. Ее основная задача - разработка вычислительных алгоритмов для анализа и систематизации данных о структуре и функциях биологических молекул, прежде всего нуклеиновых кислот и белков. Объем генетической информации, накапливаемой в банках данных, начал увеличиваться с возрастающей скоростью после того, как были разработаны быстрые методы секвенирования (расшифровки нуклеотидных последовательностей ДНК). Биоинформатические методы позволяют не просто обрабатывать этот огромный массив данных, но и выявлять закономерности, которые не всегда можно заметить при обычном эксперименте, предсказывать функции генов и зашифрованных в них белков, строить модели взаимодействия генов в клетке, конструировать лекарства. В июле 2004 года в новосибирском Академгородке прошла четвертая Международная конференция по биоинформатике регуляции и структуры генома (BGRS"2004), организованная Институтом цитологии и генетики Сибирского отделения Российской академии наук. В течение недели более 200 ученых из разных стран - России, Германии, США, Англии, Италии, Франции, Японии и других - обсуждали проблемы компьютерной геномики, системной и эволюционной биологии, а также протеомики - нового научного направления, связанного с исследованием белков и их взаимодействия в организме. На конференции побывала специальный корреспондент журнала "Наука и жизнь" Г. АФАНАСЬЕВА.

Наука и жизнь // Иллюстрации

Член-корреспондент РАН Н. А. Колчанов открывает четвертую Международную конференцию по биоинформатике регуляции и структуры генома.

Трехмерная модель контакта регуляторного белка с молекулой ДНК. О молекулярном моделировании пространственной структуры белков и их взаимодействии с нуклеиновыми кислотами рассказали Р. Г. Ефремов (Институт биоорганической химии) и К. В. Шайтан (МГУ).

Заседание, посвященное эволюционной биологии, ведет доктор биологических наук М. С. Гельфанд.

Пространственная организация и функционирование активных центров белков.

Чтобы сконструировать лекарство точечного действия, нужно подобрать вещество (лиганд), которое входит в белок-мишень, как ключ в замок. Для этого необходимо знать пространственную структуру молекул.

Нуклеотидная последовательность ε-гемо-глобина человека.

Генная сеть антивирусного ответа.

Регуляция системы дыхания.

Оживленные дискуссии продолжались в перерывах между заседаниями. Сложную науку объясняет "на пальцах" гость из Индии доктор Сринивасан Рамачандран (Институт геномики, Дели).

КОГДА БИОЛОГИЯ НАЧАЛА ГОВОРИТЬ ЯЗЫКОМ МАТЕМАТИКИ…

Так когда же появилась биоинформатика, которую сейчас с уверенностью называют наукой третьего тысячелетия? Вот что говорит об этом доктор биологических наук Рустэм Нурович Чураев, заведующий отделом эпигенетики Института биологии Уфимского научного центра и заведующий лабораторией математической и молекулярной генетики:

"Можно считать, что эта наука зародилась в XIII веке. Тогда молодой итальянец Леонардо из Пизы, вошедший в историю математики под именем Фибоначчи, описал решение задачи о размножении кроликов и, таким образом, построил первую математическую модель биологического процесса. По сути, этот любопытный случай и положил начало математической биологии. В 20-е годы XX века другой итальянский математик, Вито Вольтерра, создал модель совместного существования двух биологических популяций типа "хищник-жерт ва". У математиков появился интерес к теоретической биологии, а у биологов, в свою очередь, возникла потребность к систематизации науки с математических позиций. После Второй мировой войны в биологию пришли физики и математики. Это событие во многом индуцировал Шредингер выходом в свет своей книги "Что такое жизнь с точки зрения физики?". Среди них были такие знаменитые ученые, как Алексей Андреевич Ляпунов и Игорь Андреевич Полетаев. Благодаря их научным работам начал развиваться кибернетический подход к биологическим процессам. Вадим Александрович Ратнер, ученик Ляпунова, в начале 1960-х годов применил математический подход к описанию явлений молекулярного уровня в сложных системах.

В 1975 году была создана первая известная количественная модель управления развитием фага "лямбда". Его геном содержит 48 генов (совсем немного по нынешним меркам), но имеет сложную управляющую систему. Эта и более сложные системы уже требовали использования компьютеров. Из математической биологии стала выделяться отдельная ветвь - биоинформатика, которая предполагает применение информационных технологий для изучения биологических систем. Следует отметить большую роль Института цитологии и генетики Сибирского отделения РАН в развитии биоинформатики. Это область со своей проблематикой и методикой, которые немыслимы без компьютеров. Накапливается много данных, идет вал информации о первичных последовательностях геномов молекул ДНК".

IN SILICO ИЛИ IN VIVO?

Конечно, для анализа огромного массива данных требуются высокопроизводительные вычисления, и обычный компьютер не способен справиться с такой задачей - не хватит объема памяти и времени. Какие компьютерные технологии предлагают сегодня биоинформатикам? Сначала в США появилась высокопроизводительная система "Cray" - громадная установка, которая занимает объем комнаты, но если собрать вместе обычные компьютеры, чтобы получить такую же мощность, получится пятиэтажный дом. Сегодня, к примеру, все больше используется суперкомпьютер "Blue" (именно он обыграл Гарри Каспарова в шахматном поединке). Этот компьютер способен проанализировать громадное количество комбинаций за довольно короткий период времени (от нескольких минут до нескольких дней, в зависимости от сложности поставленной задачи). Не менее важны так называемые компьютерные кластеры, то есть несколько последовательно соединенных обычных компьютеров. Задача разделяется на части, работа с которыми идет параллельно. Возможно, как раз подобная технология найдет широкое применение в будущем, так как параллельная обработка данных наиболее эффективна. В последнее время возник такой метод, как распределенные вычисления, когда в расчетах участвует множество компьютеров в разных странах и каждый компьютер выполняет одну небольшую часть задачи.

Суперкомпьютеры необходимой мощности существуют и в России, например в Пущине. При наличии оптоволоконных сетей к нему может подключиться лаборатория, которая находится даже в другом городе.

Сравнительно недавно в науке появился термин "биология in silico", буквальный смысл которого - "биология на кремнии", говоря иными словами, проведение биологического эксперимента на компьютере. Сейчас это понятие стало вполне официальным и широко используется. Есть журнал, который так и называется - "In silico biology".

Биоинформатика дает возможность быстро и дешево провести модельный эксперимент и зачастую предсказать результат эксперимента обычного. Но модели компьютерной жизни все же пока далеки от реальности. Во всем мире ведутся активные исследования для максимального приближения in silico к in vivo. Это означает не только привлечение к расчетам данных о структуре и функции исследуемого белка, но и учет взаимодействия между белками в реальной среде. В проект виртуальной клетки сейчас вкладываются огромные средства. В России, например, такие работы ведутся в Пущинском научном центре. Создание "электронной клетки" даст возможность эффективно конструировать лекарства нового поколения. О перспективах биоинформатики и о доверии экспериментаторов к предсказаниям in silico говорил доктор биологических наук Михаил Сергеевич Гельфанд:

"Биоинформатика - это способ делать биологические утверждения, не наблюдая непосредственно природу (как, например, в зоологии) и не ставя эксперименты (как в молекулярной биологии), а путем анализа уже полученных массовых экспериментальных результатов. Конечно, основой всего является геном: только зная все гены организма, можно делать надежные выводы. А массовые данные получаются из экспериментов, поставленных на индустриальный поток: это расшифровка геномов, изучение синтеза закодированных в генах белков, определение белок-белковых взаимодействий в различных организмах, клетках, условиях роста… Раньше для получения такого рода данных ставились специальные эксперименты, но представьте себе: у средней бактерии примерно 3000 генов, у человека - на порядок больше, 30 000, белков еще больше - сколько же надо провести экспериментов, например, для того, чтобы проверить все пары белков, взаимодействуют ли они. И при этом основное время как раз уйдет на "пустые" эксперименты, с невзаимодействующими белками. Массовый эксперимент - это сотня экспериментов одновременно, которые выполняют несколько десятков роботов. Однако при этом возникает высокий уровень "шума" - случайных ошибок, и задача биоинформатики - извлечь из этих данных достоверные утверждения.

То же самое с функциями генов. В принципе, выяснение функции одного гена в эксперименте - это год работы сильного исследователя и хорошая статья. Но генов-то тысячи в каждом организме. И вот оказывается, что биоинформатика позволяет делать надежные предсказания, которые поддаются уже целенаправленной экспериментальной проверке. Это получается намного проще, быстрее и дешевле. Конечно, бывают и ошибочные выводы, что вызывает недоверие у "традиционных" биологов. Но тут ситуация такая же, как с любой новой техникой исследования. Когда появился микроскоп, тоже поначалу мерещилось много всякого, например, некоторые описывали, что видят маленького зародыша в сперматозоиде. Но постепенно экспериментаторы приобретают вкус к биоинформатическим методам и научаются отделять зерна от плевел, а сами биоинформатики начинают более критично относиться к своей работе. В конечном счете возникает совершенно новое мощное средство для биологических исследований. Собственно, оно уже сейчас есть, надо его развивать и учиться им пользоваться - для этого и проводятся подобные конференции".

Среди основных задач биоинформатики - описание генных сетей, изобретение новых лекарств с заданными свойствами, разработка компьютерных моделей процессов, происходящих в организме.

КОМПЬЮТЕР ПРОЕКТИРУЕТ ЛЕКАРСТВА

Одна из самых перспективных и быстро развивающихся областей биоинформатики - конструирование лекарств направленного действия. Действие таких препаратов нацелено на центры связывания конкретного белка в организме возбудителя болезни. При этом аналогичные белки человека не подвергаются изменениям, а значит, нет и побочных эффектов. Создание лекарства направленного действия требует знаний о трехмерной структуре белка-мишени, так как точное пространственное соответствие играет ключевую роль.

Структура белков зашифрована в ДНК, но разобраться в этом шифре не так-то просто. Дело в том, что ген белка помимо кодирующих фрагментов (их называют экзонами) содержит интроны - участки, которые никакой полезной информации о белке не несут. То есть "слова" генетического кода прерываются довольно длинными вставками из случайного набора "букв". Большое число докладов на конференции BGRS"2004 были посвящены поиску новых эффективных методов распознавания экзон-интронной структуры ДНК, а также определению пространственной структуры белков по известной последовательности аминокислот. Об этом говорили в своих выступлениях Ю. Л. Орлов (Институт цитологии и генетики, Новосибирск), М. А. Ройтберг (Институт математических проблем биологии РАН, Пущино) и многие другие. И. И. Абнизова (Великобритания) рассказала о новых вычислительных подходах, которые позволяют судить о функции участков ДНК по тому, каким образом распределены в нем нуклеотиды.

Сегодня наиболее эффективный метод анализа белков - не постепенная расшифровка структуры для каждого отдельного белка, а сравнение со структурами родственных (гомологичных) белков, которые уже расшифрованы. Наиболее близкая из известных последовательностей берется за "точку отсчета", и дальше проводится ее уточнение. Данные рентгеноструктурного анализа и ядерно-магнитного резонанса позволяют предсказывать пространственную структуру схожих белков и делать вывод об их возможной функции в организме.

Когда пространственная структура белка-мишени установлена, наступает следующий этап: поиск низкомолекулярного вещества (лиганда), которое, соединившись с белком, будет оказывать нужное фармакологическое действие. Такой поиск связан с перебором не одной тысячи вариантов, и без компьютерных технологий тут не обойтись.

ГЕННЫЕ СЕТИ

Гены в клетках организма могут взаимодействовать друг с другом посредством своих продуктов - белков. Например, регуляторные белки способны связываться с определенными участками ДНК, и, таким образом, один ген может включить или выключить другой. Благодаря подобному взаимодействию образуется генная сеть, охватывающая значительное количество генов (от десятков до сотен), которые координируют свою деятельность и контролируют выполнение определенных функций в организме. Выяснение механизмов функционирования генных сетей представляет принципиально важную задачу, ведь именно они определяют внешние признаки организма и наследственные заболевания. Полная и ясная картина взаимодействия генов откроет новые возможности для генной диагностики и генной терапии. Эта тема была одной из центральных на конференции.

В конструировании искусственных генных сетей используется представление об эпигене как новом классе наследственных единиц, разработанное Р. Н. Чураевым в 1975 году. Эпиген - это "надгенная" система с двумя или более наследуемыми режимами работы генов (например, когда определенный ген "включен" и когда он "выключен"). Эпиген запоминает режим, в котором он находится, и передает информацию об активности генов по наследству. Такая концепция позволяет объяснить наблюдаемые экспериментально случаи наследования приобретенных признаков и ряд других феноменов.

ЭВОЛЮЦИЯ ЧЕРЕЗ ПРИЗМУ БИОИНФОРМАТИКИ

Сравнение геномов различных организмов дает возможность прослеживать эволюцию живых организмов. В секции компьютерной эволюционной биологии М. С. Гельфанд представил доклад, посвященный эволюции регуляторных систем бактерий. Анализ сотен бактериальных геномов позволил описать поведение регуляторных систем в ходе эволюции на самых разных уровнях: эволюцию отдельных регуляторных сигналов, изменения в структуре белков-регуляторов, поведение наборов регулируемых генов и, наконец, полную перестройку регуляторных систем. Возможно, самая древняя регуляторная система - так называемые РНК-переключатели, о которых рассказал доктор биологических наук Андрей Александрович Миронов. РНК-переключатель представляет собой молекулу РНК, которая способна не только переносить информацию, но и управлять активностью гена самостоятельно, без помощи белков. Регулирующие свойства РНК-переключателей были вначале предсказаны методами биоинформатики, а затем обнаружены экспериментально. В пользу предположения о древности системы РНК-переключателей говорят два факта: присутствие регуляторных сигналов такого типа практически во всех группах организмов от бактерий и архебактерий до растений и грибов и то, что регуляция осуществляется непосредственно при связывании регуляторной структуры РНК с малыми молекулами (витаминами и аминокислотами) без участия какого-либо посредника. Тем самым такие регуляторные системы могли существовать в "РНК-мире" еще до появления белков.

С практической точки зрения интересно исследование, проведенное в группе Гельфанда А. Е. Казаковым, О. В. Калининой и Е. А. Перминой. Они исследовали устойчивость бактерий к тяжелым металлам. Во многих случаях эта устойчивость обеспечивается белками-транспортерами, выбрасывающими токсичные катионы металла из клетки. Однако различных транспортеров много, они весьма разнообразны, и предсказать специфичность белка-транспортера к тому или иному металлу удается далеко не всегда. Исследователи пошли другим путем: они изучили, как регулируется работа генов, кодирующих белки-транспортеры. Оказалось, что в ней участвует определенное семейство белков-репрессоров, узнающих о присутствии катионов металлов при помощи специального функционального участка, в который входят не менее трех остатков аминокислоты цистеина. Связавшись с катионом, белок-репрессор освобождает сигнальный участок ДНК и тем самым запускает работу гена, кодирующего белок-транспортер. Авторы показали, что по последовательности сигнального участка в ДНК можно предсказать, к какой группе относится соответствующий белок-репрессор, а эти белки высокоспецифичны к катионам металлов. Полученные результаты могут быть использованы для создания надежных индикаторов на загрязнение. А по схеме, построенной учеными, можно предсказать, к каким металлам будет нечувствительна та или иная бактерия, что особенно важно при создании штаммов, применяемых для биологической очистки промышленных стоков.

БИОИНФОРМАТИКА - НАУКА ИЛИ МЕТОД ИССЛЕДОВАНИЯ?

На этот вопрос, вызывающий немало споров среди ученых, ответил председатель оргкомитета конференции член-корреспондент РАН Николай Александрович Колчанов:

"И наука, и метод, и стратегия исследования. Метод - если рассматривать биоинформатику как набор технологий, позволяющий работать с огромным массивом данных и получать с их помощью новые результаты. Научная сторона биоинформатики связана с развитием информационной биологии. Как любая наука, она имеет собственные задачи и занимается изучением механизмов хранения, передачи и реализации биологической информации на разных уровнях. Таких уровней несколько: геном, клетка, взаимодействие между клетками, организм, популяция в целом. Биоинформатика появилась на стыке наук - молекулярной биологии, физиологии, математики, информатики, физики и химии, а такого рода объединения имеют стратегический характер. Самые крупные достижения возникают тогда, когда происходит синтез наук. Биология и информатика - классическое отражение этой ситуации".

Первая конференция по биоинформатике регуляции и структуры генома состоялась в Академгородке по инициативе Института цитологии и генетики Сибирского отделения РАН в 1998 году. Что изменилось за прошедшие шесть лет? Вновь слово Н. А. Колчанову:

"В 2002 году закончена расшифровка генома человека. Следующая важнейшая задача - расшифровать протеом. Этот термин образован от слова "протеин" (по аналогии с геномом) и означает совокупность белков, которые функционируют в организме. Конечно, получение "белкового портрета" организма потребует времени, но в принципе эта задача вполне решаема. Общий объем накопленной информации сейчас таков, что на первый план выходит системная биология, цель которой - не просто объединить достижения, полученные различными методами, но интегрировать знания и перевести их на качественно новый уровень. Помимо глобальных задач появилось много интересных прикладных направлений, например технология ДНК-микрочипов. Изменения в направлениях исследований отражаются и в тематике конференции".

Иллюстрация "Пространственная организация и функционирование активных центров белков".
Конфигурация активного центра белка (выделен цветом) обеспечивает избирательность биохимических взаимодействий. Новейшие достижения в исследованиях пространственной организации и функционирования активных центров белков представили М. Ондрехен (США), С. Рамачандран (Индия), Д. А. Афонников, В. А. Иванисенко (Институт цитологии и генетики, г. Новосибирск) и другие участники конференции.

Иллюстрация "Нуклеотидная последовательность ε-гемо-глобина человека".
Нуклеотидная последовательность ε-гемо-глобина человека. Синим цветом выделены информативные участки - экзоны, красным - "бессмысленные" интроны. Одна из задач биоинформатики - определить экзон-интронную структуру и распознать те области в геномах, которые кодируют белки.

Иллюстрация "Генная сеть антивирусного ответа".
Генная сеть, приведенная на рисунке в качестве примера, включает комбинацию положительных и отрицательных обратных связей. При попадании вируса в клетку происходит активация гена интерферона- β (IFN-β). Белок (фактор транскрипции) IRF-1 вначале усиливает работу гена, продуцирующего интерферон, а позднее запускает синтез другого белка IRF-2, который подавляет производство интерферона, обеспечивая возвращение системы в исходное состояние. Прямоугольниками на рисунке обозначены гены, а кружками - белки.

Иллюстрация "Регуляция системы дыхания".
В регуляции системы дыхания у бактерий участвуют различные белки-регуляторы (факторы транскрипции), в частности FNR (переключатель аэробно-анаэробного метаболизма), ArcA (датчик наличия кислорода) и NarP (регулятор азотного дыхания). Д. А. Равчеев и А. В. Герасимова из исследовательской группы М. С. Гельфанда провели компьютерное сравнение бактериальных геномов и установили, что у микроорганизмов разных групп эти белки могут формировать различные регуляторные каскады. На рисунке белки представлены цветными фигурами, кодирующие их гены - фрагментами ДНК соответствующего цвета, а регуляторные взаимодействия показаны как тонкие стрелки. Из экспериментальных работ было известно, что у кишечной палочки (А) основным фактором является FNR, который регулирует свой собственный ген fnr, а также гены, кодирующие другие регуляторы (arcA и narXL). Оказалось, что у пастерелл (Б) факторы FNR и NаrP образуют петлю (регулируют гены друг друга) и, кроме того, ген fnr регулируется факторами FNR (авторегуляторная петля) и ArcA. У вибрионов (В) обнаружена авторегуляция генов fnr и narP, а ArcA регулирует оба этих гена и, по-видимому, является основным регулятором.

Биоинформатика стала модным словом в современном мире науки. Примерно один или два десятилетия назад люди рассматривали биологию и информатику как две совершенно разные области. Одна изучала живых существ и функции их организма, тогда как другая занималась компьютерами и информационными системами. Однако в настоящее время существует, по-видимому, связь между этими двумя областями, и эта новая область, биоинформатика, появилась как комбинация Информатики и Биологии.

Что такое биоинформатика?

био + информатика = биоинформатика
Биоинформатика  - это междисциплинарная область, которая разрабатывает методы и программные средства для понимания биологических данных. В качестве междисциплинарной области науки биоинформатика сочетает компьютерную науку, статистику, математику и технику для анализа и интерпретации биологических данных.

Различные биологические анализы приводят к экспоненциальному росту количества биологических данных, и их очень сложно анализировать вручную. Именно здесь приходит на помощь компьютерная наука и информационные технологии. Различные вычислительные методы используются для более точного и эффективного анализа биологических данных и автоматизируют процесс их обработки. Следовательно, биоинформатика может рассматриваться как область науки о данных для решения проблем в области биологии и медицины.

Зачем изучать и применять биоинформатику?

Биоинформатика стала междисциплинарной наукой, и если вы являетесь биологом, то знания в области биоинформатики могут принести вам огромную пользу в работе с вашими экспериментами и исследованиями.

Международный рынок труда в настоящее время заполнен вакансиями для людей с навыками биоинформатики. Крупные фармацевтические, биотехнологические и софтверные компании стремятся нанять профессионалов, имеющих опыт в области биоинформатики, чтобы они работали с огромным количеством биологической и медицинской информации.

Основное применение биоинформатика находит в области прецизионной и профилактической медицины . Основу прецизионной медицины составляют медицинские методы, адаптированных для отдельных пациентов, включая методы лечения и диагностики. Вместо лечения болезней прецизионная медицина фокусируется на разработке мер по профилактике и предотвращении заболеваний. Она сосредотачивается на таких болезнях, как грипп , рак , сердечные заболевания и диабете .

Проводятся исследования по выявлению генетических изменений у пациентов, что позволяет ученым предлагать лучшие методы лечения и даже возможные меры профилактики. Определенные типы рака, вызванные такими генетическими изменениями, могут быть идентифицированы заранее и лечение может начаться до ухудшения состояния.

Как стать специалистом в биоинформатике?

Прежде чем углубиться в предмет, на начальном этапе вам нужно немного узнать о биологии , генетике и геномике . Это включает изучение генов, ДНК , РНК , белковых структур, различных процессов синтеза и т.п.

Затем вам нужно будет изучить биомолекулярные структуры (например, последовательности, обнаруженные в ДНК , РНК и белках) и методы для обнаружения и анализа различных моделей, а также информационных сайтов о них. Вы столкнетесь с различными алгоритмами, используемыми различными методами. Кроме того, вы получите возможность использовать различные методы машинного обучения и интеллектуального анализа данных, такие как скрытые марковские модели , нейронные сети и кластеризация .

Поскольку вы будете иметь дело с большими объемами данных, важно иметь хорошее понимание о статистике , как вы должны анализировать данные в соответствии с конкретными требованиями.

Конечно, вам понадобятся хорошие навыки программирования . Такие языки программирования, как R , Python и Bash являются наиболее часто используемыми языками в анализе биологических данных. Решить, с чего начать, зависит от ваших целей. Вы можете использовать и другие языки, такие как C / C++ и Java .

После базового понимания фундаментальных концепций вы можете исследовать другие области, такие как структурная биоинформатика , системная биология и биологические сети .

Человек - удивительное создание, а его геном еще более увлекателен. Весь геном человека, хранящийся в молекуле ДНК, это потрясающе! Можно кодировать огромные количества данных за одну минуту, и расшифровывать их чтобы понять, какие изменения в экспрессии генов могут привести к фатальным генетическим заболеваниям. Системы здравоохранения нуждаются в мерах по выявлению таких заболеваний, а также в лечебно-профилактических мерах, способствующих спасению человеческих жизней.

Биоинформатика доказала, что обладает большим потенциалом для выявления болезней на ранней стадии, определения методов их лечения и улучшения жизни людей. Воодушевленные знаниям в области компьютерных наук такие области, как генная техника, медицина и здравоохранение, могут развиваться - от лечения индивидуальных пациентов до исцеления всех групп населения.

Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

Почему биология перестала справляться без информатики и при чем тут рак

Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

Биоинформатика в ЕРАМ

В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

Как становятся биоинформатиками

Мария Зуева, разработчик:

«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

Как читают геном

Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

Михаил Альперович, глава юнита биоинформатики:

«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

Геннадий Захаров:

«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

Биоинформатика: производство и опенсорс

У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

Проект №1: вариант-коллер

Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

Исходный код программы доступен на GitHub .

Проект №2: 3D-просмотрщик молекул

Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

Как выглядит работа с приложением, можно узнать из видео .

Проект №3: геномный браузер NGB

Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

Геннадий Захаров, бизнес-аналитик:

«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

Как изучать биоинформатику

Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть: [Видео] [Слайды]

Революция в ядерной физике привела много лет назад к накоплению огромного количества данных, которые надо было хранить и обрабатывать. Это оказалось под силу только компьютерам, а за ними и супер-компьютерам.

Бум геномики последних 10-15 лет продолжил эту традицию и приумножил ее: медико-биологические исследования касаются каждого из нас, а значит и данных будет производиться все больше и больше особенно в свете идеи персонализированной медицины и требований большой фармы. Тут уж без компьютерных знаний и программных продуктов и вовсе делать нечего. Но кроме того, надо хорошо знать что изучать, как, как анализировать данные и насколько им можно верить. Как хранить и обрабатывать. Где применять и где использовать.

В лекции освещено большинство этих «как». Алла ставит своей целью рассказать о значимости и широте приложений биоинформатики.

2. Мутационный процесс и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Мутационный процесс - первый из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения мутаций, методы измерения параметров мутационного процесса на малых, средних и больших временах, данные о скоростях мутирования и простейшие модели влияния мутирования на генетическую структуру популяции.

3. Естественный отбор и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Естественный отбор - второй из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения отбора, методы и параметры, применяемые для его описания и изучения, данные об отборе в природе и простейшие модели влияния отбора на популяцию.

4. Детское развитие и биоинформатика: задачи и решения (Елена Григоренко, Yale University)

[Видео] [Слайды]

В лекции рассказано о нескольких «стыках» наук о развитии и биоинформатики.
Обсуждаются проблемы пренатальной диагностики и пренатального секвенирования, а также экзомного секвенирования новорожденных.

Рассказывается об изучении влияния ранней среды развития на состояние метилома, и о геномной этиологии детских расстройств развития. В заключение рассмотрены этические вопросы, связанные с использованием геномной информации в принятии диагностических и индивидуализированных решений о развитии ребенка.

5. Секвенирование нового поколения: принципы, возможности и перспективы (Мария Логачева, МГУ)

[Видео] [Слайды]

Секвенирование нового поколения (NGS) преобразило многие области биологических и биомедицинских исследований. Оно позволяет относительно быстро и недорого получать последовательности генов и геномов ранее не изученных видов, а также – на материале большого числа индивидуумов одного вида – выявлять внутривидовую изменчивость, проводить поиск генов, ассоциированных с интересующими признаками. Помимо собственно определения последовательностей геномов NGS позволяет проводить детальный анализ экспрессии генов в разных тканях организма или при разных условиях, широко используется в эпигенетических исследованиях.

В лекции дан обзор основных методов секвенирования, их физико-химические принципы, особенности пробоподготовки, характеристика получаемых данных, их стоимость и типичные ошибки. Особое внимание уделено применимости разных методов для решения биологических задач, и даны рекомендации по планированию экспериментов, связанных с NGS.

6. Структурная биология белка: обзор проблем и подходов (Павел Яковлев, BIOCAD)

[Видео] [Слайды]

Использование только первичных последовательностей позволяет решить большинство вопросов, связанных с нуклеиновыми кислотами (ДНК и РНК). При изучении функций белков знание только первичной последовательности уже не позволяет решить большинство задач. Какие белки будут взаимодействовать между собой и как сильно? Повлечет ли замена аминокислоты смену функции белка? Как убрать побочные эффекты от лекарственного белка или увеличить его эффективность? На эти вопросы призвана ответить область биоинформатики, занимающаяся разработкой алгоритмов для моделирования пространственной формы белков и их взаимодействий.

7. De novo сборка транскриптомов (Артем Касьянов, МФТИ)

[Видео] [Слайды]

В связи со значительным удешевлением и повышением производительности технологий число проектов, посвященных de novo секвенированию геномов немодельных организмов, значительно возросло. В ряде случаев de novo секвенирование и сборка генома затруднена - к примеру, в случае его значительных размеров. В таких случаях прибегают к изучению транскриптома. Также de novo анализ транскриптома может понадобиться в случае изучения видов с большим количеством альтернативно сплайсирующихся генов, так как даже при наличии генома достаточно сложно определить полный перечень изоформ.

Лекция посвящена вопросам сборки транскриптомных данных в отсутствии генома. Рассмотрены такие темы, как сплайс-графы, программы trinity и newbler, сравнение и анализ сборок, сборка транскриптомов полиплоидных организмов.

8. Эволюция алгоритмов сборки генома (Антон Банкевич, СПбАУ РАН)

[Видео] [Слайды]

На данный момент существует уже несколько поколений методов секвенирования ДНК. Однако новые технологии бессмысленны без алгоритмов, способных обработать их результаты. Постоянно возникающие новые методы секвенирования ставят всё новые алгоритмические задачи. Одной из важнейших таких задач является сборка генома. В лекции рассказано об эволюции методов секвенирования и алгоритмических подходах к сборке генома, возникавших и продолжающих возникать с каждым шагом этой эволюции.

9. Введение в молекулярную биологию и генетику (Павел Добрынин, СПбГУ)

[Видео] [Слайды]

Лекция посвящена структуре и организации ДНК у прокариот и эукариот, молекулярным механизмам, отвечающим за сохранение и воспроизведение генетического материала. Разобраны основные механизмы, стоящие за генетической изменчивостью, и варианты реализации генетического материала.

10. Задача множественного локального выравнивания и построения синтенных блоков (Илья Минкин, Pennsylvania State University)

[Видео] [Слайды]

В лекции рассматривается две похожие алгоритмические задачи в сравнительной геномике: множественное локальное выравнивание и построение синтенных блоков. Эти алгоритмы играют крайне важную роль в сравнении полных последовательностей геномов. Рассказано о постановке задач и о базовых идеях, на которых построены некоторые современные алгоритмы.

11. Зачем и как делать презентации (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции обсуждаются типы презентаций, зачем они на самом деле нужны, и рассказывается, как выступить так, чтобы слушатели все поняли и не заснули, а также каких ошибок надо избегать и с кого брать пример при подготовке своего выступления.

12. Бизнес в биоинформатике (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции рассказано, какие биоинформатические компании существуют в России и в мире, кто их создал и на чем именно они зарабатывают деньги.
Обсуждены планы крупных игроков и тренды в индустрии.

В завершающей части лекции Андрей дает пищу для размышлений об организации собственного стартапа или выборе нового места работы.

13. Перспективы и проблемы системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Лекция призвана дать общее представление о системных свойствах биологических объектов. Илья Серебрийский рассказывает об основных составляющих системной биологии, об интерактомике и построении моделей, об основных проблемах в системной биологии и попытках их разрешения. Обсуждаются некоторые достижения системной биологии (главным образом из области онкологии). Также рассматриваются общедоступные ресурсы для системной биологии (TCGA/cBioPortal, CCLE).

14. Лабораторная по системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Занятие посвящено построению сетей взаимодействия на основе общедоступных баз данных. Использованы такие базы данных и веб-сервисы, как Entrez, GeneMANIA, BioGRID и другие. Рассмотрены различные методы визуализации сетей взаимодействия, в частности с помощью программы Cytoscape.

15. Метагеномика (Алла Лапидус, СПбАУ РАН)

[Видео] [Слайды]

Микробы везде, микробы правят миром, но далеко не со всеми из них мы можем познакомиться в лабораторных условиях. Подавляющее большинство из них мы не знаем как вырастить, а значит, их надо как-то извлекать из их естественной среды обитания - земли, воды, из-под корней деревьев и т.д., где они живут большими группами.

Метагеномика и помогает в этих весьма запутанных исследованиях. А еще она помогает кормить, согревать, лечить людей и ловить преступников. Всему этому и биоинформатике в метагеномике и была посвящена эта лекция.

16. Проблема проверки множества статистических гипотез (Антон Коробейников, СПбГУ, СПбАУ РАН)

[Видео] [Слайды]

В лекции рассмотрена классическая проблема проверки множества гипотез одновременно. Подобного рода задачи встают сплошь и рядом, например, при полногеномном поиске ассоциаций или анализе данных микрочипов. Рассмотрены возможные варианты решения этой проблемы, начиная от классического подхода Бонферрони и заканчивая методами, позволяющими контролировать FDR (false discovery rate).

17. Как правильно и неправильно использовать статистику (Никита Алексеев, СПбГУ, George Washington University)

[Видео] [Слайды]

Лекция посвящена ошибкам в применении статистики и способам их предотвращения. В частности, дан ответ на вопрос: в каких ситуациях можно использовать стандартные критерии для сравнения типичных представителей выборки, и что делать, если стандартные критерии не подходят?

18. Математические модели регуляции экспрессии гена (Мария Самсонова, СПбГПУ)

[Видео] [Слайды]

Понимание тонких механизмов регуляции активности генов ‒ необходимое условие для расшифровки механизмов возникновения болезней у человека. К сожалению, на сегодняшний день такое понимание отсутствует: мы не можем удовлетворительно объяснить, ни каким образом группы транскрипционных факторов взаимодействуют друг с другом, с белками хроматина, другими адапторными белками и комплексом РНК‒полимеразы, ни как и почему тот или иной участок последовательности ДНК может контролировать сложную, ограниченную в пространстве и детерминированную во времени картину экспрессии гена.

Математическое моделирование помогает понять механизмы генной регуляции путем механистического и количественного описания этого процесса. В лекции рассмотрены два наиболее распространенных подхода к моделированию экспрессии генов ‒ основанные на нелинейных уравнениях реакции‒диффузии и термодинамическом равновесии. Последовательно рассмотрены этапы построения таких моделей и приведены примеры их использования для генерации новых знаний.

19. Полулокальное и локальное выравнивание последовательностей (Александр Тискин, University of Warwick)

[Видео] [Слайды]

Вычисление наибольшей общей подпоследовательности (longest common subsequence, LCS) двух строк - одна из классических алгоритмических задач, имеющая широкое применение как в информатике, так и в вычислительной биологии, где она известна как «глобальное выравнивание последовательностей». Во многих приложениях необходимо обобщение этой задачи, которое мы называем вычислением полулокальной LCS (semi-local LCS), или «полулокальным выравниванием». В этом случае требуется вычислить LCS между строкой и всеми подстроками другой строки, и/или между всеми префиксами одной строки и всеми суффиксами другой. Помимо важной роли этой обобщенной задачи в строковых алгоритмах у нее обнаруживаются неожиданные связи с алгеброй полугрупп и вычислительной геометрией, с сетями сравнений (comparison networks), а также практические приложения в вычислительной биологии. Кроме того, задача вычисления полулокальной LCS может использоваться в качестве гибкого и эффективного подхода к (полностью) локальному выравниванию биологических последовательностей.

В лекции представлено эффективное решение задачи вычисления полулокальной LCS и дан обзор основных сопутствующих результатов и приложений. В их числе динамическая поддержка LCS; быстрое вычисление клик в некоторых специальных графах; быстрое сравнение сжатых строк; параллельные вычисления на строках.

20. Анализ семейств молекулярных последовательностей (Сергей Нурк, СПбАУ РАН)

[Видео] [Слайды]

При решении самых разных задач, от поиска регуляторных мотивов до предсказания функций белков, биоинформатикам приходится работать с целыми «семействами» эволюционно связанных нуклеотидных или аминокислотных последовательностей. В лекции рассмотрены различные способы представления таких семейств, применяемые в популярных биоинформатических инструментах и базах данных. Рассказано, как расшифровать PROSITE pattern и проинтерпретировать sequence logo, в чем отличие profile HMM от PSSM, а также как избежать ошибок при их построении и анализе результатов.

21. Эпигеномика, РНК и все такое (Андрей Миронов, ИППИ РАН)

[Видео] [Слайды]

В лекции дан обзор понятия эпигенетики. Рассмотрены уровни структурной организации хроматина, рассказано о различных эпигеномных модификациях: модификациях гистонов, метилировании CpG-мотивов. Обсуждено их влияние на экспрессию генов.
Также рассмотрена роль эпигеномных модификаций в сплайсинге, импринтинге и т.п.

Рассказано о системе XIST (X-inactivation specific transcript), антисмысловых РНК, сплайсинге, РНК-зависимой регуляции.
Также рассмотрены модели для изучения эпигеномных модификаций.

22. Контроль качества данных NGS (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В лекции описаны погрешности секвенирования, характерные для технологий NGS. Примерами таких ошибок являются ПЦР-амплификация, сиквенс-специфичные ошибки прочтения, неравномерное распределение GC-состава и прочие. Разобраны различные методы оценки этих погрешностей и учета их при анализе. Затронут вопрос практических методов решения и существующих программных инструментов.

23. Контроль качества данных NGS, семинар (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В ходе семинара участники научились применять навыки программирования для контроля качества данных NGS. Были рассмотрены форматы данных BAM/SAM, библиотеки pysam и pyplot, фундаментальные понятия. В частности, разобраны примеры подсчета GC-состава, оценки частоты дупликаций, распределения длины вставки, расчета покрытия в окнах.

24. Практическое секвенирование РНК (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды 1] [Слайды 2]

На семинаре разбиралась практическая задача анализа данных РНК-секвенирования.
В формате презентации и практики были обсуждены и продемонстрированы методы: выравнивания ридов, первоначального контроля качества, пайплайны для изучения экспрессии генов DESeq и Cufflinks, нахождение изоформ транскриптов, поиск гибридных генов.

25. Биоинформатические подходы к изучению и лечению рака на примере рака легких (Мария Шутова, ИОГен РАН)

[Видео] [Слайды]

Рак - одно из самых распространенных и опасных заболеваний. Его называют «болезнью генома» за огромный вклад накопленных и новых мутаций в его появление и развитие. При этом известно, что не только состояние генома, но и транскрипционный и даже эпигенетический статус первичных раковых клеток, а также сложный гомеостаз растущей опухоли напрямую влияют на ее свойства и, главное, восприимчивость к терапии. Единственную возможность разобраться в этом клубке взаимозависимых факторов дает биоинформатика. В лекции разобраны основные вопросы, связанные с изучением опухолеобразования, и возможные способы ответить на них с использованием биоинформатических подходов.

26. Новые омики в биологии человека: метаболомика и липидомика (Филипп Хайтович, Сколтех)

[Видео] [Слайды]

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей - все эти биологические методы в приложении к «big data» дали ученым большой объем ценной информации о том, что отличает человека от других животных.

Эта лекция посвящена новым «омикам», позволяющим ответить на вопросы о человеческом организме при изучении мозга и других тканей - метаболомике и липидомике.

27. Геномная сборка: взгляд в завтрашний день (Андрей Пржибельский, СПбАУ РАН)

[Видео] [Слайды]

В последние годы технологии секвенирования нового поколения сделали заметный шаг вперед: появились IonTorrent и Pacific Biosciences, Ilumina создала ряд новых протоколов. Но, как оказывается, всего этого недостаточно для того, чтобы считать проблему сборки геномов решенной. Для того чтобы пройти путь от извлечения ДНК до полностью завершенного генома, как правило, требуются десятки различных специалистов, сотни тысяч долларов и годы работы. Поэтому сегодня эта задача остается актуальной как с точки зрения биотехнологий, так и с точки зрения биоинформатики. В лекции рассмотрены последние прорывы в методах сборки геномов, новейшие типы данных, которые, возможно, позволят вывести эту задачу на новый уровень, и перспективы геномики в ближайшем будущем.

Вместо заключения

  • образование
  • летняя школа
  • Добавить метки

    Биология не раз переживала новое рождение: быв сначала «полевой» наукой, изучавшей животных и растения, в XX веке она значительно переместилась в лаборатории, концентрируясь на молекулярных основах жизни и наследственности. В XXI веке история двинулась дальше: многие эксперименты теперь проводятся на компьютере, а материалом для изучения являются последовательности белков и ДНК, а также информация о строении биологических молекул. В этой статье мы дадим несколько советов тем, кто решил связать свою карьеру с компьютерной биологией, став, тем самым, биоинформатиком.

    Обратите внимание!

    Спонсор публикации этой статьи - Лев Макаров.

    В наше время в мире никого не удивишь уже названием профессии «компьютерный биолог» или «биоинформатик», хотя еще несколько десятков лет назад эти сферы деятельности - биология и компьютеры - казались совсем непересекающимися, а еще за несколько десятков лет до того никаких компьютеров не было вовсе. Причем сейчас этот термин включает в себя уже достаточно много отдельных занятий, требующих разной подготовки и разного взгляда на науку и ее место в жизни: биоинформатик, специалист по обработке информации, разработчик баз данных, программист, куратор онтологий, специалист по молекулярному моделированию - все они занимаются разными вещами, хотя со стороны их отличить будет непросто. Все это без намеков говорит нам, что компьютеры прочно вошли в будни биологов, причем это не только е-мейл и фейсбучек, но и масса более специальных навыков, без которых исследователю сейчас и в будущем уже не обойтись (см. врезку). Студент вы или профессор, - никогда не поздно начать совершенствовать свои навыки биоинформатика !

    Для ясности биоинформатиками будем называть всех биологов, в работе которых компьютеры играют роль бóльшую, чем просто печатная машинка, хотя в российской традиции собственно под биоинформатиками имеют в виду тех, кто занимается изучением закономерностей биологических текстов - последовательностей белков и ДНК, - а моделирование динамики и свойств биомолекул, например, чаще называют молекулярным моделированием .

    «Сухая» биология

    «Биомолекула» довольно много внимания уделяет компьютерной, или, как ее еще называют, «сухой» биологии - современной отрасли биологической науки, в которой главным инструментом исследователя является обычный компьютер. (Правда, частенько приходится прибегать к помощи и не совсем обычных - супер компьютеров.) На нашем сайте есть специальная рубрика, посвященная этой науке, - «“Сухая” биология » , - ознакомиться с которой мы и предлагаем заинтересованному читателю. В частности, там идет речь о концепции количественной биологии , о способах вычисления пространственной структуры и динамики биологических молекул (с особенным акцентом на биомембранах и мембранных белках и рецепторах ), а также о становлении молекулярной графики . В недавних статьях было рассказано о методах изучения эволюции по молекулярным данным , а также о новой концепции «сухой» биологии, предсказывающей будущее биологии как науки .

    В этой статье, основанной на переводе недавнего эссе в журнале Nature Biotechnology , мы приводим некоторые советы для начинающих биоинформатиков - исследователей, которые планируют заниматься изучением жизни без отрыва от клавиатуры.

    Словарик компьютерных терминов

    Командная стока способ взаимодействия с компьютером без мышки и кнопочек, а лишь набирая в окне терминала специальные команды и оперируя информацией, хранящейся в текстовых файлах. Чаще всего командная строка ассоциируется с компьютерами под управлением UNIX/Linux, хотя и в Windows TM , и в Mac OS TM они тоже есть. Кластер объединенные в единую высокоскоростную сеть и работающие вместе компьютеры, которые можно использовать для решения ресурсоемких задач. Обычно оснащены системой планирования задач и диспетчеризации ресурсов. Конвейер способ решения конкретных задач по обработке данных, объединяя программы более общего назначения в цепочку так, чтобы информация, выдаваемая одной программой, попадала на вход следующей. Исходный код (исходник) текст программы на одном из языков программирования. В случае интерпретируемых языков текст является программой сам по себе, а вот программу, написанную на компилируемом языке , сначала надо перевести в бинарный исполняемый файл (скомпилировать). Программное обеспечение (ПО) ну это и так понятно - добавим лишь, что это набор инструкций для компьютера, который позволяет пользователю (или программисту) решать нужные ему задачи - от набора текстов в ворде до анализа генетической последовательности или расчета молекулярной динамики. Скрипт разновидность программы, написанная на интерпретируемом языке (а значит, не требующая специальной компиляции) и используемая биоинформатиками для автоматизации своих задач, для реализации парадигмы конвейера . Система контроля версий компьютерная система управления разработкой сложных программ, включающих десятки или сотни файлов с исходниками, тысячи или даже миллионы строчек кода, и разрабатываемых несколькими или многими программистами. Позволяет программе со временем не «расползаться», а программистам - легко переключаться между разными версиями и «ветками» разработки. UNIX/Linux семейство исходно многопользовательских и многозадачных операционных систем (ОС). Чаще всего используется на серверах и вычислительных кластерах, однако может устанавливаться и на персональные компьютеры в качестве альтернативы коммерческим ОС (таким как Windows). Особенностью этих операционных систем является модель разработки - поскольку ОС имеют открытый исходный код, в их создании участвуют программисты-добровольцы со всего мира. Впрочем, число версий так велико, что есть и проприетарные («закрытые») ветви - как, например, Mac OS, которая с некоторого времени внезапно стала «потомком» UNIX-систем.

    Выбор оружия за вами

    Сейчас создано такое количество разнообразных биоинформатических программ, что сделать оригинальное компьютерное исследование можно, и не программируя самостоятельно; надо только выбрать подходящее ПО. Однако не стоит слишком расслабляться: чтобы получилось что-то хорошее, надо сначала как следует понять, что же эти программы делают, и какая математическая теория лежит в их основе. Вы же не пойдете в лабораторию ставить полимеразную цепную реакцию , предварительно не узнав, что это такое и для чего нужно ? Ну так вот и с компьютерами то же самое. Биоинформатические программы, по сути, являются аналогами оборудования и методик в «мокрой» молекулярно-биологической лаборатории. (Кстати, на контрасте со словом «мокрый» биоинформатические лаборатории все чаще сейчас называют «сухими» .) Поэтому, хотя от вас и не требуется вчитываться в каждую строчку исходного кода, представлять себе общие принципы работы программ совершенно необходимо.

    Ну, мы надеемся, что не пойдете. - Ред.

    Разные программы часто воплощают один и тот же теоретический подход, но все-таки адаптированы для решения разных практических задач. Например, при «сборке» генома из отдельных последовательностей ДНК , получаемых в результате работы автоматических секвенаторов, в случае «длинных» (сотни остатков нуклеотидов) прочтений используется алгоритм, основанный на перекрывании (Overlap-Layout-Consensus), в то время как для работы с наборами «коротких» (десятки остатков нуклеотидов) фрагментов лучше подходят графы де Брёйна. И выбор правильной программы не только сэкономит вам массу времени, но и вообще принципиально обеспечит (или не обеспечит) выполнимость поставленной задачи.

    Хотя иной раз на мониторе биоинформатика и появляются занятные картинки (в данном случае - гликопротеин лихорадки Денге), чаще всего там можно увидеть текстовое окошко с непонятными колонками цифр или строчками букв.

    Держите все под контролем

    Одна из главных опасностей, что компьютер запросто может выдать неправильный результат, специально никак не просигнализировав об этом. Отсутствие сообщения об ошибке еще не говорит о том, что полученный результат правильный. Подав программе дикие данные на вход или просто использовав неправильные настройки, неизбежно получишь дикий ответ, и чрезвычайно важно постоянно помнить о такой возможности и уметь проверять, что полученное имеет хоть какое-то отношение к действительности. Проще всего убедиться, что все работает как следует, запустив программу для данных, ответ для которых уже известен, и убедиться, что именно он и получается. Часто для маленьких наборов данных вычисления можно провести буквально вручную, и тогда сверить ответ с получаемым на компьютере особенно занятно: если он отличается, то либо не права машина, либо вы. Но положительного результата в этом случае уже не получить - это точно.

    Биохимические эксперименты никогда не проводят без отрицательных и/или положительных «контролей», так вот привыкайте и на компьютере делать то же самое. Контролем в биоинформатике последовательностей служит, как правило, проверка модели на неких случайных данных. С выбором модели генерации случайных данных надо быть очень и очень аккуратным. Дважды проверяйте, что все было без ошибок, и, главное, что полученные результаты имеют какой-то смысл, - иначе вас неизбежно подкараулят «открытия» на ровном месте.

    Вы ученый, а не программист

    Как известно, лучшее - враг хорошего. Помните, что в вашей работе важны свежие мысли и новизна результатов, а не красота исходников программы. Превосходно оформленный и документированный код, который не дает правильного ответа, несомненно, никуда не годится по сравнению с примитивным скриптом, который дает его. Другими словами, красоту в программу следует привносить только после того, как вы не раз уже убедились, что она и впрямь делает то, для чего предназначена. И - самое главное - используйте свои биологические знания по максимуму, потому что только это и делает вас компьютерным биологом . С другой стороны, полезно писать комментарии прямо по ходу написания программы: «эта функция/структура нужна для...», иначе уже через неделю вы потратите много времени, чтобы понять, что здесь происходит. Повторный запуск программы - это отличное повод для приведения кода в человеческий вид; вы просто будете делать это походу «вспоминания» вчерашней последовательности действий.

    Используйте систему контроля версий

    Использование контроля версий позволит более гибко управлять развитием кода, позволит легко возвращаться к предыдущим редакциям программы или переключаться между разными ветвями разработки, а также откроет возможность совместной разработки программы. Распространенные системы - такие как Git или Subversion - дадут возможность легкой публикации проекта в сети. Вы сделаете лучше прежде всего для себя, если не поленитесь написать несколько внятных README-файлов и положите их в нужные места проекта; это чрезвычайно вам поможет, если спустя месяцы или даже годы вам придется вернуться к старой программе. Документируйте программы и скрипты, чтобы было понятно, что они делают. Когда публикуете научную статью, хорошим тоном будет опубликовать также оригинальные программы, которые использовались для обсчета данных: это позволит другим использовать тот же метод и воспроизвести ваши результаты. Неплохо бы также вести электронный дневник, в котором был бы записан весь ход работы. Онлайн-репозитории, такие как Github, позволяют делать это, а также позволят вам хранить рабочие версии программы, что станет дополнительным уровнем бэкапа ваших наработок (см. таблицу 1).

    Таблица 1. Важные инструменты компьютерного биолога.
    Задача Инструменты
    Совместная разработка программ Сделайте ваш код (и, возможно, данные) доступными в сети с такими онлайн-хранилищами как Github , или Bitbucket . В интернете много руководств по использованию этих систем. Существуют также системы управления научными проектами, о которых рассказано в отдельной врезке.
    Для сложных задач пишите скрипты и конвейеры Для этого можно использовать как современные разработки, вроде Ruffus , так и проверенные временем классические UNIX-утилиты типа Make . Выбор конкретного инструментария зависит от личных предпочтений и любимого языка программирования
    Сделайте ваши «конвейеры» доступными Не исключено, что в командной строке вы себя чувствуете, как рыба в воде, но большинство ваших коллег, наверняка, нет. Созданные вами конвейеры можно оснащать графическими интерфейсами с помощью систем Galaxy или Taverna .
    Инструменты разработчика (IDE) Конечно, программы можно писать в любом текстовом редакторе, начиная с , но будет лучше, если вы освоите более продвинутые инструменты - такие как текстовый редактор Emacs или полнофункциональную среду разработки типа Eclipse . И, опять же, конкретный выбор будет основан на ваших предпочтениях и любимом языке программирования.

    Системы управления проектами

    Еще одним полезным инструментом, помимо систем контроля версий, который можно позаимствовать из программисткой практики, являются системы управления проектами. Проще всего воспринимать их как продвинутый электронный журнал, который предоставляет вам следующие дополнительные возможности:

    • Создание и назначение задач. Например, «посчитать то-то». Внутри задачи можно вести обсуждения, которые будут удобно структурированы и не превратят вашу почту в склад ужасающей переписки вроде «Re: Project X (100)» При этом, однако, можно настроить почтовые уведомления, поэтому никто не пропустит важный комментарий.
    • Прикладывать и организовывать файлы с подробными описаниями и поддержкой версий а-ля Dropbox. Вам приходилось подолгу искать в нескольких ветках переписки по проекту какие-нибудь файлы с маловразумительными названиями, вроде «report_ACC_clean.xxx»?
    • Во встроенную Wiki можно заносить описания процедур запуска программ , методики экспериментов, встраивать видеозаписи и даже рендерить LaTeX формулы.
    • Текстовый поиск по всему содержимому , в том числе по приложенным файлам.
    • Интеграция с системами контроля версий для разработки ПО позволяет удобно соотносить задачи с изменениями в репозиториях.
    • Есть даже такие экзотические возможности, как организация своего аналога Google Docs для одновременного редактирования текста. Не всю информацию можно доверить сторонним ресурсам.

    В нашей лаборатории мы используем Redmine - это отличная СПО-система управления проектами, под которую есть множество плагинов. Ее можно развернуть как самостоятельно, так и взять в аренду виртуальную машины с уже установленной системой. Наиболее известным проприетарным аналогом является Basecamp .

    Залевский Артур , факультет биоинженерии и биоинформатики МГУ
    (группа вычислительной структурной биологии).

    Заразная болезнь конвейерит

    Конвейер (pipeline) - программная цепочка из нескольких или многих инструкций, позволяющая проводить в точности те же операции на новом наборе данных. Конвейеры и скрипты незаменимы в работе компьютерного биолога, но они также могут загнать ваше сознание в прокрустово ложе скрипта и в корне прервать полет фантазии.

    Полет фантазии

    Ну конечно же, вы можете. Что захотите - то и можете. В том смысле, что креатив и смелая фантазия в работе компьютерного биолога совершенно необходимы, потому что иначе сделать ничего интересного не получится. Адаптируйте существующие методы, создавайте новые, предвидьте успех и не бойтесь неудачи. В этой области очень многого можно достичь, просто лазая по интернету и общаясь с коллегами в лаборатории или в сети. Самообразование не только научит вас решать конкретные проблемы - оно научит вас постоянно учиться.

    Запишитесь на онлайн-курсы (см. табл. 2), но это будет только начало, а не конец обучения. Лишь смерть обрывает обучение по-настоящему творческого человека.

    Таблица 2. Полезные ресурсы для (само)образования.
    Полезный навык Ресурсы
    Онлайн-курсы (Massive open online courses) Сейчас такие курсы переживают взрыв популярности, и уже предлагают крайне широкий спектр тематик для изучения прямо через интернет. На сайтах Coursera , Udacity , edX и Kahn Academy есть масса полезного из области биоинформатики, геномики, компьютерной биологии, статистики и разнообразного моделирования.
    Обучение программированию Codeacademy и Code School не являются чем-то заточенным под биологию, но хорошо подходят для начал программирования. Потом можно продолжить с курсом «Python для биологов ». Множество хороших примеров доступно на сайте http://software-carpentry.org .
    Решение биоинформатических задач Практическое изучение биоинформатики путем изучения программирования и соревнования с другими участниками проекта доступно на российском сервисе Rosalind .
    Международные организации GOBLET - международная организация по биоинформатическому образованию, а ELIXIR - европейское объединение, обеспечивающее различную информационную поддержку и инфраструктуру для исследований в области наук о жизни.
    Блоги и листы подписки В сети есть масса блогов и списков рассылки для компьютерных биологов, например http://stephenturner.us/p/edu и http://ged.msu.edu/angus/bioinformatics-courses.html . Для вычислительных химиков есть еще CCL.net .
    «Локальные» российские ресурсы
    Обучение основам биоинформатики (курсы и свободное посещение) Московская школа биоинформатики даст основные навыки в этой сфере, а курс по работе с данными высокопроизводительного секвенирования расскажет, как получают полные последовательности геномов. в Санкт-Петербурге знакомит студентов с основами биоинформатики на примере реальных научных исследований (также проходит Летняя школа).
    Вузы, в которых преподают биоинформатику
    • МГУ им. М.В. Ломоносова, Факультет биоинженерии и биоинформатики (специалитет)
    • Академический Университет РАН (магистратура)
    • Московский Физико-Технический Институт, Факультет биологической и медицинской физики (кафедра биоинформатики)
    • Санкт-Петербугский Государственный Политехнический Институт, Физико-механический факультет (кафедра прикладной математики ; магистратура)
    Опыт работы с Linux/Unix Помощь в установке и настройке одного из дистрибутивов Linux вам могут помочь в сообществах Russian Fedora или Ubuntu . Также вы можете обратиться с вопросами на http://linux.org.ru ; более того, на этом ресурсе можно получить и ответы на некоторые научные вопросы.

    Никого не слушай

    При отработке статистических методик часто делают такой эксперимент: генерируют большие массивы случайных данных, которые случайно же обозначают как «рабочую выборку» или «контроль». А затем к этим данным применяют статистический критерий, который должен выявить различия между данными, которые исходно не различаются, и... Для многих «выборок» p-значение частенько указывает на статистически значимое различие. Биологические наборы данных, например, полученные из геномного анализа или из скрининговых тестов, также полны случайного «шума» и часто огромны по размерам. Будьте готовы к тому, что при анализе подобных данных вам придется столкнуться с ложноположительными и ложноотрицательными результатами, а также в исходные данные может вкрасться систематическая ошибка, возникшая из-за особенностей эксперимента или экспериментатора.

    Даже у биологов, искушенных в статистике, частенько возникает соблазн наплевать на осторожность и углубиться в эксперименты с программой или скриптом, давшими интересный результат. Однако тут всегда необходима осторожность, которая подсказывает, что необходимо рассматривать любой результат как потенциально ошибочный и провести дополнительные проверки на этот счет. Если один и тот же результат удается получить с помощью разных подходов, тогда уверенность в правильности каждого из них возрастет. И, тем не менее, большинство таких «открытий» требуют экспериментального подтверждения, чтобы откинуть оставшиеся сомнения.

    Самое важное - что для интерпретации полученных на компьютере результатов нужно хорошее биологическое образование и чутье. И даже то, что программа или скрипт работают правильно, еще не гарантирует, что полученный результат не является артефактом или просто неверной трактовкой каких-то других явлений.

    Верный инструментарий

    Обязательно освойте командную строку UNIX/Linux. Бóльшая часть биоинформатических программ имеет интерфейс командной строки. На самом деле, она чрезвычайно мощная, позволяет в тонкостях контролировать рабочие задачи, запускать программы на параллельное исполнение, и, что немаловажно, контролировать работу утилит и перезапускать их прямо через текстовый терминал, хоть с мобильного телефона. Это одно из преимуществ работы биоинформатиков - работать можно где угодно, был бы под рукой компьютер или планшет, а также выход в интернет. Освойте параллельные вычисления, потому что они позволяют запускать сотни задач одновременно и многократно повышать производительность работы. Обязательно нужно уметь хоть чуть-чуть программировать, хотя выбор конкретного языка программирования не играет большой роли: у всех у них есть свои преимущества и недостатки, и иногда нужно комбинировать несколько разных языков, чтобы сделать работу быстрее.

    Помните, что выбор более популярного языка позволит вам пользоваться бóльшим набором существующих библиотек и подпрограмм, которые позволят не изобретать велосипед, а сосредоточиться на своей работе. Примером такого «склада» наработок является Open Bioinformatics foundation . Старайтесь не использовать Microsoft Excel (только для вывода таблиц, которые будут читать некомпьютерные биологи, которые только с ним и умеют работать). Это хорошая программа, но для обработки большого количества данных она все-таки подходит плохо. Лучше всего хранить экспериментальные данные в структурированных текстовых файлах (хороший вариант для таблиц - csv) или в SQL-базе - это позволит получать доступ к информации прямо из вашей программы.

    И, да, делайте бэкапы!

    Элементарно, Ватсон!

    Раз уж вы станете компьютерным биологом, вам все время придется возиться с данными. Они хранят множество историй, и выловить эти истории оттуда - ваш профессиональный долг. Однако скорее всего сделать это будет не так-то просто. Нужно постоянно держать в голове смысл проведенного эксперимента и схему анализа данных, а также денно и нощно обдумывать, какой же биологический смысл кроется в полученных результатах. И не является ли гипотетический подмеченный вами смысл тривиальным следствием ошибок анализа или артефактов в данных.

    Чтобы все это имело смысл, нужно общаться с другими специалистами, которые получали эти экспериментальные данные, и стараться собрать картину по кусочкам. Предлагайте дополнительные эксперименты, которые смогут подтвердить или опровергнуть выдвинутую вами гипотезу. Станьте детективом, докопайтесь до ответа.

    Кто-то это уже сделал. Так найдите их и спросите!

    Какая бы хитрая не была проблема и как бы не был нов метод, всегда есть вероятность, что люди уже занимались тем, с чем пришлось столкнуться вам. Есть два сайта, на которых обсуждают возникшие в исследованиях проблемы - BioStars и SeqAnswers (а чисто программистские вопросы - Stack Overflow). Иногда можно получить дельный совет даже в твиттере. Поищите в интернете, кто в этой стране и в мире занимается похожими вопросами и свяжитесь с ними (см. таблицу 3).

    Таблица 3. Русские «сухие» лаборатории.
    Лаборатория Город Чем занимаются
    Группа молекулярного моделирования на биологическом факультете МГУ Москва Молекулярная динамика белков и пептидов
    Группа вычислительной структурной биологии , биоинформатическая группа и лаборатория эволюционной геномики на факультете биоинженерии и биоинформатики МГУ Москва
    • Молекулярное моделирование нуклеиновых кислот и нуклеопротеидов и биомембран. Дизайн ферментов.
    • Системная биология, биостатистика, изучение вторичной структуры РНК.
    • Изучения естественного отбора на геномном уровне, работа с данными секвенирования нового поколения (NGS).
    Лаборатория химической кибернетики и группа компьютерного молекулярного дизайна на химическом факультете МГУ Москва
    • Квантовая и фотохимия
    • Молекулярное моделирование оболочек вирусов и их ингибиторов, а также мембранных рецепторов
    Компьютерное моделирование комплексов белков с белками и лекарствами, драг-дизайн, фармакология, изучение связей «структура-активность»
    Учебно-Научный центр «Биоинформатика » и еще несколько биоинформатических групп в Институте Проблем Передачи Информации РАН Москва Системная биология, анализ пространственных структур биомолекул, сравнительная геномика.Организуют Московский биоинформатический семинар , Московскую школу биоинформатики и конференцию «Moscow Conference for Molecular Computational Biology».
    Лаборатория системной биологии и вычислительной генетики и группа биоинформатики в Институте общей генетики РАН Москва Поиск функциональных мотивов (сайтов связывания транскрипционных факторов и т.д.) в последовательностях ДНК
    Лаборатория биоинформатики и системной биологии в Институте молекулярной биологии РАН Москва Методы биоинформатики и поиска функциональных мотивов, предсказание предрасположенности к заболеваниям
    Лаборатория биоинформатики в НИИ Физико-химической медицины Москва Проблемы метагеномики и протеомики
    Лаборатория алгоритмической биологии Академического университета РАН Санкт-Петербург
    Лаборатория «Алгоритмы сборки геномных последовательностей » национального исследовательского университета информационных технологий, механики и оптики Санкт-Петербург Проблемы «сборки» и анализа геномов
    Группа биоинформатики и функциональной геномики Института Цитологии РАН Санкт-Петербург Изучение функционального значения общей структуры генома
    Лаборатории функциональной геномики и клеточного стресса и механизмов функционирования клеточного генома Института биофизики клетки РАН Пущино
    • Моделирование структурной организации и поиск промоторов в ДНК бактерий
    • Анализ распределения физических свойств вдоль последовательности ДНК, нелинейная динамика ДНК
    Лаборатория прикладной математики в Институте математических проблем биологии РАН Пущино Вторичная структура РНК, альтернативный сплайсинг
    Лаборатория физики белка Института белка РАН Пущино Теоретическое и экспериментальное изучение процессов сворачивания белковых молекул
    Отдел системной биологии Института цитологии и генетики СО РАН Новосибирск Постгеномная биоинформатика. Компьютерный анализ и моделирование молекулярно-генетических систем. Генные сети. Модели эволюции микроорганизмов.
    Группа лаборатории экологической биохимии Института биологии КарНЦ РАН Петрозаводск Молекулярное моделирование биомембран
    Мы отдаем себе отчет, что в одной таблице нельзя перечислить все стóящие научные группы. Если мы забыли кого-то, то с удовольствием добавим. Таблица подготовлена Еленой Чуклиной (Московский физико-технический институт / Учебно-научный центр «Биоинформатика» Института проблем передачи информации РАН).

    В довершение можно сказать, что в интернете есть масса форумов и юзергрупп, где можно задать интересующие вопросы. Установите себе линукс и начните изучать в онлайне что-нибудь биоинформатическое. При должном упорстве вы удивитесь, как многого можно достичь, имея просто компьютер и выход в интернет!

    Статья написана по мотивам эссе в журнале Nature Biotechnology при участии Артура Залевского и Елены Чуклиной.

    Литература

    1. Код жизни: прочесть не значит понять ;
    2. Nick Loman, Mick Watson. (2013). So you want to be a computational biologist? . Nat Biotechnol . 31 , 996-998.


    Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter
    ПОДЕЛИТЬСЯ:
    Советы по строительству и ремонту