Молекулярное моделирование: теория и практика [3изд.]
 978-5-9963-2401-9, 978-5-9963-1070-8

Citation preview

МОЛЕК УЛЯРНОЕ МОДЕЛИРОВАНИЕ

Hans-Dieter Holtje, Wolfgang Sippl, Didier Rognan, Gerd Folkers

Molecular Modeling Basic Principles and Applications Third, Revised and Expanded Edition

Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс

МОЛЕК УЛЯРНОЕ МОДЕЛИРОВАНИЕ ТЕОРИЯ И ПРАКТИКА 3е издание (электронное) Перевод с английского канд. хим. наук А. А. Олиференко, канд. хим. наук Д. И. Осолодкина, С. А. Писарева и канд. хим. наук В. И. Чупахина под редакцией канд. хим. наук В. А. Палюлина и канд. хим. наук Е. В. Радченко

Москва БИНОМ. Лаборатория знаний 2015

УДК 547 ББК 24.23 Х36

Х36

Хёльтье Х.-Д. Молекулярное моделирование: теория и практика [Электронный ресурс] / Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс ; пер. с англ. — 3-е изд. (эл.). — Электрон. текстовые дан. (1 файл pdf : 322 с.). — М. : БИНОМ. Лаборатория знаний, 2015. — Систем. требования: Adobe Reader XI ; экран 10". ISBN 978-5-9963-2401-9 В научном издании, написанном учеными из Германии, Франции и Швейцарии, имеющими большую педагогическую практику, на современном уровне рассмотрены основные методы молекулярного моделирования и дизайна лекарственных веществ — бурно развивающейся области современной компьютерной химии. Изложены теоретические основы моделирования пространственной структуры малых молекул и построения зависимостей биологической активности от пространственной структуры (на основе 3D-QSAR), принципы моделирования структуры белковых молекул, методы молекулярного докинга и виртуального скрининга, принятые подходы при выборе биомишени. Приведены примеры моделирования антагонистов дофаминового рецептора D3 . В настоящем издании внесены исправления, уточняющие перевод, и исправлены некоторые рисунки. Для научных сотрудников, работающих в областях молекулярного моделирования, био- и хемоинформатики, нанотехнологий и поиска новых лекарств, а также для студентов и аспирантов. УДК 547 ББК 24.23

Деривативное электронное издание на основе печатного аналога: Молекулярное моделирование: теория и практика / Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс ; пер. с англ. — 2-е изд. — М. : БИНОМ. Лаборатория знаний, 2013. — 319 с. : ил. — ISBN 978-5-9963-1070-8.

В соответствии со ст. 1299 и 1301 ГК РФ при устранении ограничений, установленных техническими средствами защиты авторских прав, правообладатель вправе требовать от нарушителя возмещения убытков или выплаты компенсации

ISBN 978-5-9963-2401-9

c Originally published in the English ○ language by WILEY-VCH Verlag GmbH & Co. KGaA, Boschstraße 12, D-69469 Weinheim, Federal Republic of Germany, under the title «Molecular Modeling. Basic Principles and Applications». Copyright 2008 by Wiley-VCH Verlag GmbH & Co. KGaA. All Rights Reserved. This EBook published under license with the original publisher. c Перевод на русский язык, ○ оформление. БИНОМ. Лаборатория знаний, 2010

Предисловие к русскому изданию Молекулярное моделирование — бурно развивающаяся область современной компьютерной химии. Существует много методов молекулярного моделирования, ориентированных на решение различных задач и различающихся как стратегическим подходом, так и программной реализацией. Важность молекулярного моделирования для конструирования новых лекарственных веществ неоспорима: структуры практически всех новых лекарств, появившихся в последние годы, прошли через стадию молекулярного моделирования. Предлагаемый читателю русский перевод книги Х.-Д. Хёльтье, В. Зиппля, Д. Роньяна и Г. Фолькерса является пока единственным изданием на русском языке, охватывающим на современном уровне основные аспекты молекулярного моделирования и дизайна лекарственных веществ. Авторы книги — известные ученые, многие годы успешно работающие в области молекулярного моделирования. Каждый автор ведет курс молекулярного моделирования в учебном заведении, что позволяет не сомневаться в высоком научном и педагогическом уровне издания. Авторы книги стремятся создать у читателя системное представление о молекулярном моделировании. В книге рассматриваются все основные аспекты этой области знания — от теории и методов моделирования малых молекул до моделирования пространственной структуры белков и дизайна структур потенциальных лекарств, воздействующих на определенные белковые биомишени. Книга хорошо иллюстрирована, что значительно облегчает восприятие материала. Особую ценность данному изданию придает наличие подробно разобранных примеров решения практических задач молекулярного моделирования как для малых, так и для белковых молекул, что позволит студентам самостоятельно «прочувствовать» процесс моделирования или осуществить его под руководством опытного наставника. Подобная книга на русском языке принесет несомненную пользу студентам, аспирантам и научным сотрудникам, работающим в областях молекулярного моделирования и нанотехнологий, био- и хемоинформатики, и, конечно же, занятым поиском новых лекарств.

Академик РАН Н. С. Зефиров

Предисловие редакторов перевода В последние десятилетия молекулярное моделирование стало важнейшей составляющей практически любого исследования в химии. Такие области науки как изучение механизмов химических реакций, конструирование молекул с заданными свойствами и с определенными геометрическими характеристиками, нанотехнологии, создание новых материалов уже не могут обходиться без молекулярного моделирования. Молекулярное моделирование стало важнейним методом при дизайне новых лекарственных веществ на первых этапах конструирования молекул, оптимальным образом связывающихся с заданными биологическими мишенями (как правило, белковой природы) и обладающих определенным комплексом свойств. В то же время литература на русском языке в данной области практически отсутствует. Представляемая вниманию читателей книга, в которой в первую очередь рассматриваются современные проблемы и методы компьютерного дизайна новых лекарств, достойно восполняет этот пробел. При переводе на русский язык современной литературы по молекулярному моделированию неизбежны трудности, связанные с передачей англоязычных терминов. Вошедшие явочным порядком в русский научный лексикон «кальки» из английского языка часто оказываются неприемлемыми и выглядят скорее научным жаргоном, чем удачными переводами или органичными заимствованиями, поэтому переводчики старались избегать таких нововведений без крайней необходимости. Тем не менее, создание более гибкой и адаптированной к языковым возможностям научной теминологии было необходимо. Так, нами был введен термин «докировать», проводить докинг, который оказался достаточно гибким и удобным. В русском языке существует морской термин «доковать», ставить корабль в док, однако в литературе по молекулярному моделированию он не прижился. Переводчики по возможности избегали применения неустоявшегося термина «докировать», однако он может быть рекомендован для дальнейшего использования. Единственный термин, который был напрямую заимствован из английского — «хит» (англ. hit compound). В контексте молекулярного моделирования он означает соединение, имеющее высший по определенным критериям рейтинг (ср. употребление слова «хит» в массовой культуре) и пригодное для дальнейшей оптимизации. Пройдя различные дополнительные проверки, соединение-хит становится соединением-лидером (ведущим соединением), пригодным для создания лекарств на его основе. Для большинства терминов, встречающихся в тексте лишь один-два раза, приводится оригинальный англоязычный термин и сокращение (если оно есть) в скобках. При отсутствии устоявшихся русскоязычных сокращений и наличии устоявшихся англоязычных используются последние. В особенности это касается восьмой главы, в которой встреча-

Предисловие редакторов перевода

7

ется множество общепринятых международных сокращенных названий рецепторов, которые, как правило, оставлялись без перевода. Перевод выполнили: гл. 1 — С. А. Писарев, разд. 2.1–2.5 — А. А. Олиференко и С. А. Писарев, разд. 2.6 и гл. 3–5 — Д. И. Осолодкин, гл. 6–8 — В. И. Чупахин. Переводчики выражают сердечную благодарность П. В. Олиференко, Д. О. Чаркину, Д. А. Шульге, М. И. Лаврову, А. С. Морозову, Д. В. Мамченкову, Н. А. Проценко, Т. П. Бутенко, О. Л. Пустоваловой и Е. В. Демахиной, чьи критические замечания оказали неоценимую помощь при подготовке текста перевода. В. А. Палюлин, Е. В. Радченко

Предисловие к третьему изданию ...И когда после долгого поиска обнаруживается новый фрагмент истины, это не открытие, но откровение. Ответ оказывается настолько же неожиданным, насколько и простым, он доставляет эстетическое удовольствие и мгновенно приносит с собой убежденность; наступает чудесный, незабываемый момент, когда кто-то говорит себе: «Ну конечно же! Вот оно!»... Эти слова Лоуренса Брэгга лучше всего описывают уникальные возможности молекулярного моделирования для расширения нашего понимания сложных взаимодействий между лигандами и их мишенями, что характерно для множества областей исследования биологических наук. Сам я всегда рассматривал эту особенность методов молекулярного моделирования как наиболее перспективную и наиболее увлекательную. Приложения методов молекулярного моделирования, возникшие благодаря бурному развитию вычислительной техники и программного обеспечения, претерпели серьезные изменения за четыре года, которые прошли со времени выхода второго издания этой книги. Именно поэтому авторы и издатели решили, что наступило время для ее переработки. В настоящее издание внесены следующие изменения: l l l

добавлена глава, посвященная хемогеномике модельный пример исследования белка заменен весьма актуальным объектом моделирования — моделью рецептора CAR тщательно пересмотрены, исправлены и расширены все главы книги.

Мы также решили приводить названия всех цитируемых работ, чтобы облегчить читателю поиск дополнительной информации. Надеемся, что эта книга принесет пользу даже новичкам в данной области исследований. По поручению моих соавторов я благодарю всех, кто участвовал в работе над этим изданием, и выражаю признательность издательству Wiley-VCH за долговременное сотрудничество. Октябрь 2007 г. Дюссельдорф Ханс-Дитер Хёльтье

Введение

1

«О, благая Венера! Под небом скользящих созвездий...». Тит Лукреций Кар1 начинает свою известную поэму «О природе вещей» с просьбы к богине любви об усмирении бога войны Марса, управлявшего миром в то время, когда Древний Рим находился в зените своего могущества. Лукреций ставил своей целью объяснение. Эта цель как будто бы вступала в странное противоречие с его воззваниями к богине любви. Согласно Лукрецию, объяснение обычному человеку законов природы изгоняло страх — страх перед богами и их служителями, страх перед мощью непредсказуемой природы и властью звезд. Молнии, огонь и свет, вино и оливковое масло — вот простые и обыденные вещи, которые были необходимы людям и радовали их, но которых они в то же время боялись. Нам не составит труда объяснить на основе разумной То, почему проникать несравненно пронзительней может Молний огонь, чем земной, исходящий от факелов наших: Будет довольно сказать, что небесное молнии пламя Тоньше гораздо и все состоит из мельчайших частичек, А потому проходить оно может в такие отверстья, Где не пробиться огню ни от дров, ни от факелов наших. Кроме того, через рог фонаря проникает свободно Свет, но не дождь. Почему? Ибо света тела основные Мельче, чем те, из каких состоит благодатная влага. И хоть мгновенно вино, когда цедишь его, протекает, Но потихоньку идет и сочится ленивое масло; Иль потому, что его, очевидно, крупней элементы, Иль крючковатей они и спутаны больше друг с другом; И получается так, что не могут достаточно быстро Связь меж собой разорвать по отдельности первоначала И вытекать, проходя чрез отверстие каждое порознь2. 1

Тит Лукреций Кар (ок. 99–55 гг. до н. э.) — римский поэт и философ, последователь учения Эпикура, приверженец атомистического материализма (здесь и далее, если не указано иное— прим. перев. ). 2 Перевод Ф. А. Петровского.

10

Молекулярное моделирование

Атомистическая теория Демокрита1 позволила Лукрецию описать качества света, воды и вина. Для того чтобы вывести соотношения между структурой вещества и его свойствами, он использовал модели. Основные «строительные блоки» в моделях Лукреция напоминают современные атомы (сам Лукреций называл их первоначалами): это элементарные сущности, не поддающиеся какому-либо дальнейшему расщеплению и обладающие способностью соединяться друг с другом. Лукреций даже предположил наличие явлений взаимодействия и распознавания, для обеспечения которых он наделил свои «блоки» механическими приспособлениями. Самыми важными условиями для быстроты сцепления этих воображаемых приспособлений были соответствие структур и наличие крючков. Насколько хорошо такая модель соответствует реальности, показывает объяснение поэтом различной текучести вина и масла. Модель Кори—Полинга—Колтуна (КПК) для молекул жирных кислот и воды удивляет своим сходством с картиной, нарисованной Лукрецием более двух тысяч лет назад.

1.1. Историческая справка Истоки развития современного молекулярного моделирования относятся к началу XX в. Появление первых удачных представлений пространственной структуры молекул связано со значительным прогрессом в области ядерной физики. Достижения кристаллографии имели решающее значение для развития молекулярного моделирования. Сложность исследуемых кристаллических структур очень быстро возрастала, и их установление («решение») было связано с большим объемом вычислений и неадекватностью двумерного представления на бумаге. Единственной альтернативой, позволяющей получить пространственное (трехмерное) представление структуры кристалла, оказались наборы молекулярных моделей. Наиболее известными среди них стали модели Дрейдинга, в которых были обобщены все накопленные к тому времени знания в области структурной химии. Изготовленные заранее модульные элементы, например атомы азота с правильным числом связей и углами, соответствующими состоянию их гибридизации, или ароматические остатки, сделали возможным построение практически точных пространственных моделей кристаллических структур. Размеры моделей определялись путем линейного увеличения реальных молекулярных размеров. Эти модели достаточно хорошо описывали стерические затруднения при введении заместителей, образование водородных связей и многое другое.

1

Демокрит Абдерский (ок. 460 — ок. 370 до н. э.) — древнегреческий философ-материалист, ученик Левкиппа, один из основателей атомистического учения.

Глава 1. Введение

11

Модели Стюарта—Бриглеба и КПК обеспечивали близкое качество описания, однако с меньшей точностью из-за того, что элементы этих наборов заполняли пространство. Уотсон и Крик использовали молекулярные модели при первых попытках моделирования взаимодействия пар оснований и в конце концов пришли к модели спиральной структуры ДНК. Однако в самом начале молекулярное моделирование не было связано с вычислительной техникой. Мог ли компьютер привнести дополнительные измерения в молекулярное моделирование и конструирование молекул? Вычислительная техника постоянно совершенствовалась. Процессоры с увеличившейся производительностью позволили проводить необходимые расчеты за меньшее время, благодаря чему стало возможным оперировать с молекулами белков, содержащими тысячи атомов. Прогресс технологий молекулярной графики также был связан с разработкой все более быстрых процессоров. В 1970-х гг. появились первые псевдопространственные модели молекул с цветовым кодированием и возможностью вращать их на экране компьютера — виртуальные модели Дрейдинга. Без компьютерных технологий массив данных о сложных, в частности белковых, структурах превысил бы пределы возможностей человека. Белки невозможно изучать методами рентгеноструктурного анализа или ядерного магнитного резонанса без соответствующих вычислительных технологий, которые сделали эти методы такими, какими они предстают перед нами сегодня. Была и другая область исследований и разработок, без которой был бы немыслим сегодняшний компьютерный молекулярный дизайн. С 1930-х гг. в ядерной физике требовалось не только аналитическое, но и системное мышление — это было важно для создания атомной бомбы. С тех пор вычисления приобрели смысл математического моделирования для численного определения и предсказания физических состояний. В 1940-х годах в Лос-Аламосе «компьютеры» состояли из солдат-новобранцев, собранных в большие группы. Каждый из солдат должен был проводить определенный расчет, всякий раз один и тот же. Это было предвестником переворота в развитии вычислительных устройств. Моделирование методом Монте-Карло, который был разработан в то время, применялось для предсказания физических состояний частиц газа. Тогда же появились первые примеры применения механических аналогий для молекулярных систем. Появились силовые поля, которые постоянно оптимизировались и к настоящему моменту достигли невероятной эффективности. Приближенные математические методы, позволившие создать квантово-химическое описание систем сложнее атома водорода, сделали возможным даже моделирование лигандов в активном центре фермента методами «квантовой динамики».

12

Молекулярное моделирование

1.2. Современное молекулярное моделирование — лишь отражение мира по Лукрецию или это чтото большее? На самом деле это всего лишь вопрос правильного применения. Используемые методы могут быть как простыми, так и сильно усложненными, но результаты скажут сами за себя. Простые методы не нужно объявлять непригодными, однако для правильного их использования необходимо критическое отношение к полученным результатам. Это означает, что пользователь должен вполне сознавать ограничения используемых методов и знать, как и о чем можно судить на основании получаемых результатов. Критическое рассмотрение результатов приводит к уточнению знаний о связи между структурой и свойствами даже в случае использования наиболее упрощенных подходов. Очень часто критическое отношение такого рода отсутствует, что может быть связано с особенностями современных коммерческих систем моделирования, где программы всегда выдают результат, метод вычисления остается на совести пользователя. Программа проведет вычисления даже для самого абсурдного случая. Их результат может не только выражаться числом, но и представляться в виде красивого изображения на экране, и это — еще один соблазнительный момент для некритичного использования вычислительных методов. Тем не менее, прогресс молекулярной графики неоспорим в силу значительности ее вклада в развитие других аналитических методов, например ядерного магнитного резонанса и рентгеноструктурного анализа белков. Обратной стороной медали является стремление к наилучшему представлению данных. Рассмотрим пример такой проблемы. Одним из наиболее важных методов сравнения свойств молекул является визуализация изоэлектрического потенциала. Часто для описания структур используется положительный или отрицательный потенциал для определенного вида энергии. Представление потенциалов основано на расчете зарядов и может быть использовано для поиска подходящего выравнивания обучающей выборки биологически активных молекул. Эта процедура может выполняться различными методами. Например, существуют алгоритмы, которые хорошо использовать при расчете свойств простых углеводов, но они бесполезны при обработке ароматических структур. К сожалению, не всегда известно заранее, что алгоритмы невозможно применять для обработки ароматической системы. Однако результаты получены, рассчитана эквипотенциальная поверхность, построен график. Исходя из этого исследователи пытаются вывести соотношения, связывающие структуру и активность. И тут кроется другая проблема. Построение обучающей выборки представляет собой, несомненно, резкое сужение пространства параметров. Можно надеяться на получение как можно более представительной выборки свойств путем тщательного отбора, однако в этом нельзя быть полностью уверенным. Таким образом, корреляции возникают благодаря взаимоуничтожению двух по-

Глава 1. Введение

13

следовательных ошибок, причина которых — некритический выбор методов и массивов данных.

1.3. Для чего используют модели? В науке применяются различные модели; их можно классифицировать в соответствии с используемым уровнем абстракции. Одни модели служат для упрощения анализа сложных явлений. Модели второго типа служат дидактическими иллюстрациями обстоятельств, которые невозможно доступно представить иными способами. Важно помнить, что такие модели могут быть весьма далеки от реальности1. К третьему типу моделей относятся эмпирические модели, или механические аналогии. К классу механических аналогий принадлежат силовые поля. Они удобны потому, что законы классической механики, например закон Гука, точно известны. Моделирование подобного рода играет решающую роль в построении единых теорий, особым свойством которых является то, что предполагается не отражение моделью реальности, а формальное подобие двух различных явлений. Примером такой модели является предположение, что связи в молекуле напоминают своим поведением пружину, описываемую законом Гука. Механистические аналогии успешно применялись в различных теориях. Во многих случаях с помощью аналогий значимость теории может быть оценена экспериментально. И здесь наиболее важен тот факт, что с помощью механистических моделей могут быть предсказаны новые явления. Преимущество эмпирических моделей в том, что их параметры оптимизируются для достижения соответствия с экспериментальными данными. «Механизация» не дает информации о немеханических вкладах, однако эмпирические коррекции позволяют свести к нулю погрешности, вносимые этими вкладами. Именно поэтому эмпирические модели часто очень хорошо описывают реальные явления. Наконец, четвертая область применения моделей лежит в сфере математического моделирования. Такие модели используют при имитации различных процессов, к примеру в моделировании кинетики ферментативной химической реакции. При выборе подходящих параметров появляется возможность моделировать реальные процессы.

1.4. В молекулярном моделировании используются все четыре типа моделей Дидактические модели используются для совместного представления структур и свойств молекул. Например, графическое представление результатов квантово-механического расчета для малых молекул или подвижности гибких пептидных лигандов. 1

Примером такой модели может служить концепция резонансных структур в органической химии.

14

Молекулярное моделирование

В случае белков само по себе представление структуры уже является сложной задачей. Взаимодействие лигандов и белков также можно изучать с использованием дидактических моделей. Очевидно, что функции различных моделей могут перекрываться. Механические аналогии и допущения, имеющие своей целью упрощение основных составляющих частей исследуемых объектов, широко применяются в молекулярном моделировании.

1.5. Завершающий этап: конструирование Конструирование, вероятно, самый важный этап моделирования. В ходе молекулярного моделирования исследователь создает виртуальный мир, связанный с реальным посредством модели одного из четырех типов. В этом виртуальном мире можно проводить вычисления, результаты которых предопределены в отличие от результатов экспериментов в реальном мире. На основе аналитического описания системы становится возможным конструирование ингибиторов до их химического синтеза и исследование их предполагаемой активности. На этапе конструирования, или дизайна, замыкается цикл научного исследования. Оно не останавливается, как это часто случается, на аналитическом описании системы, но возвращается в начало при ее разложении на составляющие. Молекулярный дизайн позволяет нам понять, что система сложнее, чем просто сумма составляющих. Особенно это важно для биологических систем, с которыми преимущественно сталкиваются разработчики лекарственных средств. Сам процесс конструирования даже в виртуальном мире не так прост, как хотелось бы его видеть. Ситуация здесь сходна с той, которую наблюдал Гулливер во время своего визита в академию Лагадо. Там Гулливер узнал, что существует машина, которая, систематически комбинируя слова и буквы, когда-нибудь напишет все важнейшие научные труды мира. Прекрасная научная фантастика Джонатана Свифта демонстрирует нам все переплетение проблем: человеческая жизнь недостаточно продолжительна для того, чтобы перепробовать все варианты, поэтому необходим надежный алгоритм нахождения правильного решения или человек, который введет дополнительный критерий качества. Все должно быть основано на знаниях, опыте и способности отвергать комбинации слов и фраз: эффективно работать может лишь связка «человек — машина». В произведении Свифта фигурирует профессор, который наставляет своих учеников, обслуживающих машину, и размышляет после каждого эксперимента над его результатом — нужно ли включать эту комбинацию слов в книгу. К несчастью, Свифт не определил качества самого экспериментатора; в этом проявляется ирония рассказов о путешествиях Гулливера. Однако результат зависит не только от безошибочного функционирования машины, но и от качеств пользователя (рис. 1.1)! Такая же проблема возникает перед нами при моделировании в виртуальном мире. Систематическое исследование свойств возможно лишь

Глава 1. Введение

15

Рис. 1.1. «Машина, пишущая книги», виденная Гулливером во время визита в Лагадо. Из иллюстрации Гранвиля к «Путешествиям Гулливера»

для небольших систем, иначе после нескольких шагов система может оказаться в состоянии комбинаторного взрыва. Изучение гибкости пептидов дает нам такой пример: переход от четырех торсионных углов к пяти и шести увеличивает число возможных конформаций от нескольких тысяч до нескольких миллиардов. В случае дизайна лигандов ситуация усугубляется. Требуется чрезвычайно продуманная система ограничений, основанная на экспериментах, интуиции или знаниях. Даже здесь решающую роль играет качество связки «человек — машина». Полностью автоматические системы конструирования выглядят примерно так же, как машина из свифтовской академии Лагадо.

16

Молекулярное моделирование

1.6. Цель этой книги Основная цель данной книги — обеспечить информацией начинающих исследователей. Понимание основных положений и их ограничений очень важно, но еще важнее полное представление обо всех доступных алгоритмах, программах и банках данных. Сейчас наблюдается экспоненциальное развитие технологических возможностей молекулярного моделирования, равно как и других областей, связанных с компьютерными технологиями. Почти ежедневно появляются новые алгоритмы сравнения аминокислотных последовательностей белков, поиска новых источников данных и т. д., но единственным способом получения качественного результата остается правильное применение программ с учетом их ограничений. Таким образом, исследователь должен понимать, что для анализа взаимодействий лиганда и белка минимизация энергии in vacuo не имеет большого смысла. Надо знать также, что белковая молекул сворачивается из линейной полипептидной цепи не совсем просто. Более того, существует альтернативное (множественное) связывание: даже в ряду близких аналогов связывающиеся с ферментом ингибиторы внутри активного центра могут характеризоваться различной геометрией. Малые изменения структуры могут изменить ориентацию лиганда в активном центре. Необязательно верно и то, что структурно-ориентированное наложение окажется лучше, чем предложенное интуитивно или основанное на свойствах стерических или электростатических поверхностей. Современное молекулярное моделирование пошло значительно дальше представлений Лукреция. Оно не останавливается на уровне аналитического описания свойств или взаимосвязей, не только создает «цветные картинки», но и «воспитывает» в начинающем исследователе системное мышление. Именно системный подход необходим для того, чтобы, правильно учитывая ограничения используемых методов, все же избегать слишком простых объяснений. Именно к этому мы стремимся побудить читателя. Описывая собственный опыт работы в области молекулярного дизайна на двух примерах (один — для малых молекул — лигандов, другой — для больших — белков), мы стараемся ориентировать начинающих исследователей на критическую оценку результатов.

Малые молекулы

2

2.1. Генерация трехмерных координат Молекулярное моделирование начинается с формирования компьютерной модели молекулы путем задания пространственного расположения ее атомов в виде их декартовых координат. Разумный выбор начальной геометрии молекулы в значительной степени определяет качество последующего исследования. Информация о начальной геометрии может быть получена различными путями. Для получения пространственных (трехмерных, 3D) координат молекулярных структур в основном используются следующие источники:

1. базы рентгеноструктурных данных; 2. поиск стандартных геометрий в библиотеках фрагментов; 3. построение трехмерных структур из двумерных с помощью различного программного обеспечения.

2.1.1. Рентгеноструктурные данные Для начала остановимся на использовании рентгеноструктурных данных при построении моделей молекул. Важнейшей базой кристаллографических данных для малых молекул является Кембриджская кристаллографическая база структурных данных (Cambridge Crystallographic Structural Database, CCSD; http://www.ccdc.cam.ac.uk/products/csd/) [1]. Она содержит экспериментально определенные атомные координаты для органических1 и неорганических2 соединений размером до 500 атомов и постоянно обновляется. Кембриджский центр кристалло1

Существует ряд специализированных банков структурной информации для полимерных биомолекул. Структуры полипептидов и полисахаридов, состоящих более чем из 24 остатков, хранятся в Банке данных белковых молекул (Protein Data Bank, PDB; http://pdb.org/; подробнее см. гл. 4) . Структуры олигонуклеотидов и нуклеиновых кислот содержатся в Банке данных нуклеиновых кислот (Nucleic Acids Data Bank, NDB; http://ndbserver.rutgers.edu/). 2 В настоящее время главным источником данных о строении неорганических соединений является База структурных данных неорганических кристаллов (Inorganic Crystal Structure Database, ICSD; http://www.fiz-karlsruhe.de/icsd.html). Структуры металлов и сплавов хранятся в базе данных CRYSTMET (http://www.tothcanada.com/).

18

Молекулярное моделирование

графических данных (Cambridge Crystallographic Data Centre, CCDC), поддерживающий эту базу, предоставляет платные услуги поиска и анализа этих данных, а также соответствующее программное обеспечение. Итогом поиска по базам данных является файл, содержащий информацию о пространственном строении интересующей молекулы. Этот файл легко считывается большинством коммерческих программных пакетов для молекулярного моделирования (см., например, [2–4]). При считывании файла программой для молекулярного моделирования атомные координаты, записанные в базе данных, автоматически преобразуются в декартовы координаты. Затем структура может быть визуализирована с использованием молекулярной графики и изучена в трехмерном виде. Структуры молекул, полученные методом рентгеноструктурного анализа (РСА), обычно характеризуются достаточно хорошим разрешением, но при этом отсутствует гарантия точности исходных данных. Определение положения атомов водорода в кристалле является в рамках рентгеноструктурного анализа довольно сложной задачей. РСА основан на закономерностях дифракции рентгеновского излучения на электронном «облаке», окружающем ядра атомов. Электронное облако атома водорода содержит единственный электрон, поэтому такие атомы слабо влияют на картину рассеяния в целом и обычно в явном виде не принимаются во внимание при установлении структуры. Конечно, местонахождение атомов водорода может быть определено из данных о величинах стандартных длин связей и валентных углов, однако в этом случае обычно утрачиваются индивидуальные особенности геометрии. По этой причине перед использованием данных из базы РСА рекомендуется проверить атомные координаты, длины связей и валентные углы на внутреннюю согласованность. В частности, перед началом любой работы с рентгеноструктурными данными молекулы необходимо прояснить следующее:

1. правильно ли определены виды атомов; 2. правдоподобны ли величины длин связей и валентных углов; 3. являются ли выбранный порядок связей правильным; 4. в случае, если молекула хиральна, соответствуют ли данные нужному энантиомеру. После проверки этих деталей молекула может быть сохранена в файле молекулярных данных. Организация файла, его тип, формат и информация, содержащаяся в файле, зависят от используемой программы. Следует иметь в виду, что геометрия молекулы в кристаллическом состоянии подвержена влиянию сил, действующих в кристаллической упаковке, поэтому длины связей и валентные углы могут отличаться от теоретических или стандартных значений. Более того, твердофазная геометрия молекулы обычно соответствует единственной из множества возможных, многих низкоэнергетических конформаций, доступных для

Глава 2. Малые молекулы

19

конформационно подвижной молекулы, и всегда испытывает влияние соседних молекул в кристаллической ячейке, а иногда подвергается воздействию и со стороны молекул растворителя, включенных в кристаллическую структуру. Другие разрешенные по энергии конформации должны быть исследованы методом конформационного анализа для окончательного отбора биологически значимых конформеров. Следует отметить, что информация о наиболее стабильной конформации, соответствующей глобальному энергетическому минимуму, важна для оценки вероятности существования конформеров, имеющих более высокую энергию. Используемые для этой цели методы изложены в разд. 2.2.

2.1.2. Библиотеки фрагментов Второй распространенный метод построения молекулярной геометрии основан на использовании фрагментов, предварительно собранных в библиотеки. Этот метод выбирают, когда нет доступа к кристаллографической базе данных или рентгеноструктурные данные об искомых структурах отсутствуют. В настоящее время большинство коммерческих программ для молекулярного моделирования предоставляет возможность построения молекул с применением библиотек фрагментов. Библиотеки фрагментов — это удобный набор моделей для построения трехмерных структур. Так как все элементы в группе фрагментов обладают предварительно оптимизированной стандартной геометрией, итоговые трехмерные структуры также имеют приемлемую геометрию. В уточнении, как правило, нуждаются только значения торсионных углов во избежание наложения атомов или чрезвычайно близких вандер-ваальсовых контактов. Могут возникнуть трудности с сопряженными системами циклов из-за неоднозначности способа сочленения циклов друг с другом. Для решения этой проблемы рекомендуется, по возможности, обратиться к рентгеноструктурным или иным экспериментальным данным для сходных циклических систем с тем, чтобы выбрать правильный способ сочленения циклов. В любой структуре каждый атом обладает некоторым набором характеристических свойств. При молекулярном моделировании следует учитывать гибридизацию атомных орбиталей, атомный объем и другие характеристики. Соответствующие им параметры и определяют тип атомов, а общая совокупность всех этих параметров представляет собой атомную составляющую силового поля. В структурных фрагментах, взятых из библиотек, типы атомов уже определены и обычно определены верно. Во многих случаях, однако, не так просто определить, какой тип атома подходит для данного случая. Обсудим эту задачу на примере N-ацетилпиперидина. Когда для построения N-ацетилпиперидина из библиотеки фрагментов берут кольцо пиперидина и ацетильную группу, тип атома азота пиперидина определяется как sp3-гибридизованный с тетраэдрической геометрией. Но когда атом азота связан с ацетильным остатком, он может рассматриваться также как амидный, для которого характерна пла-

20

Молекулярное моделирование

нарная тригональная геометрия sp2-типа. В этом случае правильное решение может быть принято только путем сравнения с геометрией, установленной по рентгеноструктурным данным либо с использованием квантово-механических вычислений, позволяющих надежно рассчитать геометрию интересующего нас структурного фрагмента. На рис. 2.1.1 представлены результаты полуэмпирических расчетов и вычислений ab initio в сравнении со структурами, полученными методом силового поля, а также кристаллическая структура N-ацетилпиперидин-2карбоновой кислоты [5]. В то время как sp3-гибридизованный атом азота в структуре, полученной методом силового поля, имеет тетраэдрическую геометрию, кристаллическая структура и геометрия, вычисленная квантово-механическим методом, указывают на почти плоскую конфигурацию атома азота. Чтобы избежать дальнейших ошибок, атому азота должен быть приписан тип с планарной геометрией. Другой проблемой, возникающей при построении систем, содержащих замещенные насыщенные циклы, является определение правильной конфигурации цикла в силу влияния на нее различных заместителей. Циклогексан — одна из наиболее изученных циклических молекул в органической химии. Много работ посвящено исследованию относительных энергий различных конформаций циклогексана и энергетических барьеров между ними [6, 7]. Без сомнения, конформация «кресло» является самой стабильной как для циклогексана, так и для монозамещенных циклогексанов, причем для любого заместителя предпочтительным оказывается экваториальное положение. Разница энер-

Рис. 2.1.1. Геометрия амидной группы в N-ацетилпиперидине зависит как от применяемого метода, так и от типа атома, используемого для оптимизации. Для сравнения показана кристаллическая структура N-ацетилпиперидин-2-карбоновой кислоты (а). Здесь и далее используется следующее цветовое обозначение: атом углерода — белый, кислорода — красный, азота — синий, водорода — голубой

Глава 2. Малые молекулы

21

гий экваториального и аксиального положений незначительна в случае небольших заместителей, но возрастает в присутствии групп больших размеров [8]. Из-за этого необходимо всегда сверять структуру, построенную из библиотечных фрагментов, с экспериментальными данными.

2.1.3. Преобразование двумерных структур в трехмерные Еще один путь генерации пространственных структур молекул — начать с одно- или двумерных представлений и преобразовать их в трехмерную модель. Существуют многочисленные программы для различных манипуляций с информацией о структуре молекул, позволяющие сохранять данные о ней в виде файла. Многие поставщики программного обеспечения разработали свои собственные форматы таких файлов, вследствие чего возникла потребность в стандартном формате. Два формата получили наибольшее распространение. Формат Molfile и связанный с ним формат SD (Structure-Data) [9], разработанные в 1980-х гг. компанией Molecular Design Limited (MDL), а также линейная нотация SMILES (Simplified Molecular Input Line Entry System), разработанная Дэвидом Вэйнингером в 1986 г. [10, 11], стали стандартами для файлов с целью хранения молекулярных структур. Помимо файлов типа Mol компании MDL и линейной нотации SMILES, в системах молекулярного моделирования часто используются и другие форматы файлов. Так, Mol2-формат компании Tripos [2] является стандартом представления трехмерных структур малых молекул (см. гл. 3), в то время как формат PDB (Protein Data Bank) [12, 13] в основном используется для хранения информации о пространственной структуре белков и других макромолекул (см. разд. 4.1). В линейной нотации SMILES информация о химической структуре сильно сжата и упрощена (см. рис. 7.4). Химическая структура описывается в виде простых одномерных массивов данных [10]. Нотация SMILES основана на систематической химической номенклатуре и не зависит от конкретной программы. В данной нотации используется ряд правил преобразования пространственных структур в строку символов.Детальная информация о SMILES может быть найдена в работах [10, 11] и на сайте http://www.daylight.com/daylight/smiles. Компактный текстовый код, используемый в SMILES, позволяет хранить большое количество структурной информации и осуществлять быстрый обмен между разными программами или компьютерами. Расширением формата Mol компании MDL является формат SD или SDF (см. рис. 7.4). Он содержит структуру и данные (свойства) для одной или нескольких молекул, что делает его особенно удобным для хранения информации о большом числе молекул. Многие компании и поставщики химических соединений хранят свои данные о структурах в этом двумерном (2D) формате. Для того чтобы создать 3D-структуры в формате, отличном от SD-файла или нотации SMILES, используются такие генераторы 3D-структур, как CONCORD [14, 15], CORINA [16] или Omega [17]. Эти программы позволяют автоматически генерировать 3D-струк-

22

Молекулярное моделирование

туры. Они используют систему правил и баз данных для автоматической генерации декартовых координат атомов молекулы, исходя из таблицы связности (как в SD-файле) или линейного кода (SMILES), достаточно мощную и надежную для преобразования огромных баз данных, содержащих сотни тысяч или даже миллионы соединений. Алгоритм CONCORD использует для формирования структур чрезвычайно подробную таблицу длин связей. При определении длин связей учитываются не только такие характеристики, как атомный номер, гибридизация и тип атома, но и химическое окружение атомов, образующих связь. Точный выбор величин длин связей особенно важен при создании систем, содержащих циклы, поскольку их неверное задание может оказывать значительное влияние на геометрию цикла. В начале преобразования из двумерного представления в трехмерное определяется так называемое наименьшее множество наименьших циклов (Smallest Set of Smallest Rings, SSSR). Затем этот логический анализ проводится для каждой циклической системы. На основе полученной таким образом информации о связности циклов и ограничениях, наложенных на циклы, определяется, какие циклы и как будут построены. Кроме того, проводится грубая оценка конформации каждого цикла системы с учетом планарности или стереохимических напряжений. Если общие атомы нескольких колец не определены, то CONCORD создает изомер, обладающий самым низким значением энергии. После построения циклов и связывания их в циклическую систему программа изменяет базовые конформации так, чтобы убрать внутреннее напряжение, распределив его симметрично на все атомы цикла. Этот прием приводит к достаточно ненапряженным структурам. Следующим шагом в построении структур является добавление ациклических подструктур. Углы и длины связей также берутся из таблиц. Во избежание слишком близких ван-дер-ваальсовых контактов торсионные углы в формирующейся структуре изменяют таким образом, чтобы получить энергетически приемлемые конформации. Помимо высокой скорости вычислений, важным достоинством метода CONCORD является отслеживание топологии растущей модели молекулы на каждом шаге. В результате CONCORD строит 3D-структуры хорошего качества за приемлемое время. Это важный критерий в случае, когда большие двумерные базы данных необходимо преобразовать в трехмерные. Программа CORINA работает схожим образом. Начало построения циклических систем аналогично программе CONCORD, но на следующем этапе CORINA использует другой метод соединения кольцевых систем. Кольца смыкаются, и энергии возможных конформаций вычисляются с использованием грубого силового поля. Если обнаруживается, что выбор этого соединения циклов энергетически неблагоприятен, делается новая попытка с использованием других энергетически возможных конформаций. После генерации циклических структур следует оптимизация геометрии.

Глава 2. Малые молекулы

23

Так же, как и в программе CONCORD, ациклические структуры вводятся в конструкцию после того, как определена структура циклов. Цепи, добавляемые к циклам, обычно находятся в полностью раскрытых конформациях, что, конечно же, приводит к геометрии, нуждающейся в дальнейшем уточнении. Торсионные углы варьируются до достижения первой конформации, устраняющей близкие контакты. В результате достаточно грубого конформационного поиска программа все-таки выдает приемлемые структуры. Важно отметить, что полученные конформации только случайно могут соответствовать конформациям в кристаллическом окружении или некой низкоэнергетической конформации. Окончательно полученная структура должна быть подвергнута конформационному анализу с целью обнаружения всех возможных низкоэнергетических конформаций. Все рассматриваемые здесь программы являются эффективными альтернативами для построения структур. Они быстры и надежны: обеспечивают хорошую (99,5%) степень преобразования при испытании на выборке примерно в четверть миллиона соединений из открытой базы данных Национального института рака США (National Cancer Institute Open Database) [18]. Эта база находится в свободном, бесплатном доступе и содержит огромное число структу органических соединений и лекарственных веществ, проверенных на противораковую активность в Национальном институте рака. Так как все больше и больше предприятий и организаций предлагают базы данных соединений, в которых химические структуры сохранены в виде SD-файлов или строк SMILES, мощные программы генерации 3D-структур становятся все более необходимыми для обработки больших баз данных за приемлемое время. В настоящее время еще одним путем получения трехмерных структур является загрузка из Интернета уже преобразованных структур, например из некоммерческой базы проекта ZINC (http://zinc.docking.org) [19]. Научная группа руководителя этого проекта Брайана Шойхета тщательно конвертировала из доступных источников в 3D-структуры 4,6 миллиона молекул1. Дополнительная информации о представлении химических структур, структурных генераторах и протоколах обмена между различными программами может быть найдена в [20, 21].

Цитированная литература 1. Olga Kennard, F. R. S. Cambridge Structural Database, Cambridge Crystallographic Data Centre, http://www.ccdc.cam.ac.uk.

2. SYBYL, Tripos Associates, St. Louis, http://www.tripos.com. 3. INSIGHT/DISCOVER, Accelrys Inc., San Diego, http://www.accelrys.com. 1

По состоянию на ноябрь 2011 г. в базе ZINC содержится более 13 миллионов структур.

24

Молекулярное моделирование

4. MOE, Chemical Computing Group, Montreal, http://www.chemcomp.com. 5. Rae, I. D., Raston, C. L., and White, A. H. (1980) Crystal and molecular structure of (+)-(e)-n-acetylpiperidine-2-carboxylic and. Australian Journal of Chemistry, 33, 215.

6. Bucourt, R. (1974). The torsion angle concept in conformational analysis, in Topics in Stereochemistry (eds E. L. Eliel and N. L. Allinger) John Wiley & Sons, New York, Vol. 8, pp. 159–224.

7. Shopee, C. W. (1946) Steroids and the Walden inversion. Part II. Derivatives of D5-cholestene and D5-androstene. Journal of the Chemical Society, 1147–51.

8. Hirsch, J. A. (1967) Tables of conformational energies, in Topics in Stereochemistry, (eds. E. L., Eliel and N. L. Allinger), John Wiley & Sons, New York, Vol. 1, pp. 199–222.

9. MDL Informations Systems, http://www.mdli.com. 10. Weininger, D. (1988) SMILES, a chemical language and information-system. 1. introduction to methodology and encoding rules. Journal of Chemical information and Computer Sciences, 28, 31–36.

11. Weininger, D. (1990) SMILES. 3. DEPICT — graphical depiction of chemical structures. Journal of Chemical Information and Computer Sciences, 30, 237–43.

12. Bernstein, F. C., Koetzle, T. F., Williams, G. J. B. et al. (1977) Protein data bank — computer-based archival file for macromolecular structures. Journal of Molecular Biology, 112, 535–42.

13. PDB Format Description, http://www.rcsb.org/pdb. 14. Pearlman, R. S. (1987) Rapid generation of high quality approximate 3D molecular structures. Chemical Design Automation News, 2, 1–7.

15. Pearlman, R. S. (1993) 3D molecular structures: generation and use in 3D searching, in 3D QSAR in Drug Design (ed. H. Kubinyi), Escom Science Publishers, Leiden, pp. 41–79.

16. Gasteiger, J., Rudolph, C., and Sadowski, J. (1990) Automatic generation of 3D-atomic coordinates for organic molecules. Tetrahedron Computer Methodology, 3, 537–47.

17. Omega, Version 2.0, OpenEye Scientific Software, Santa Fe, http://www. eyesopen.com.

18. National Cancer Institute, National Institute of Health (Development Therapeutics Program), http://dtp.nci.nih.gov/docs/3d.data.

19. Irwin, J. J. and Shoichet, B. K. (2005) ZINC — A free database of commercially available compounds for virtual screening. Journal of Chemical Information and Modeling, 45, 177–82.

20. Engel, T. (2003) Representation of chemical compounds, in Chemoinformatics (eds J. Gasteiger and T. Engel), Wiley-VCH, Weinheim, pp. 15–168.

21. Engel, T. (2006) Basic overview of chemoinformatics. Journal of Chemical Information and Modeling, 46, 2267–77.

Глава 2. Малые молекулы

25

2.2. Вычислительные методы оптимизации геометрии 2.2.1. Силовые поля Структуры молекул, полученные с использованием процедур, описанных в разд. 2.1, должны быть оптимизированы для того, чтобы найти состояния с минимальной энергией, индивидуальные для каждой молекулы. Обычно это делается методами молекулярной механики, которая представляет собой общепринятый вычислительный метод расчета геометрии и энергии молекул. В отличие от квантово-механических подходов, в молекулярной механике электроны и ядра явно при расчетах не учитываются. Молекулярная механика рассматривает атомы в составе молекулы как набор материальных точек, взаимодействующих друг с другом как в модели гармонического осциллятора. В результате этого упрощения молекулярная механика является относительно быстрым вычислительным методом, пригодным как для малых, так и для больших молекул и даже олигомолекулярных систем. В молекулярной механике атомы в молекуле рассматриваются как упругие шарики различных размеров (атомных типов), соединенные вместе пружинками различной длины (связями). Для вычисления потенциальной энергии такого атомного ансамбля используется закон Гука. Полная энергия системы Etot (1) минимизируется относительно атомных координат. Etot = Estr + Ebend + Etors + Evdw + Eelec + ...,

(1)

где Estr — энергия деформации связей; Ebend — энергия деформации валентных углов; Etors — энергия деформации торсионных углов; Evdw — энергия ван-дер-ваальсовых взаимодействий; Eelec — энергия электростатического взаимодействия. Компоненты полной энергии молекулы (пространственной молекулярной модели) чаще всего выражаются в терминах отклонений длин связей, валентных и торсионных углов, а также параметров несвязных взаимодействий от некоторых стандартных, «ненапряженных» значений. Набор этих ненапряженных значений вместе с теми величинами, которые можно называть силовыми константами (которые на самом деле являются эмпирическими подгоночными параметрами) и называется силовым полем. Первое слагаемое в уравнении (1) описывает изменение энергии, когда связь растягивается или сокращается относительно своей стандартной длины. Подразумевается, что межатомные силы являются гармоническими, так что энергетический вклад растяжения связей может быть описан простой квадратичной функцией вида (2). Estr = 12 kb (b - b0 )2 ,

(2)

где kb — силовая константа растяжения связей; b0 — стандартная длина связи; b — текущая длина связи.

26

Молекулярное моделирование

Для большей точности в выражение (2) для энергии растяжения связей могут включаться члены третьего [1] или четвертого [2–4] порядков по (b–b0). С этой же целью иногда используется функция Морзе [5]. Деформации валентных углов также в основном описываются простым гармоническим представлением. Вклад, относящийся к таким искажениям, задается уравнением (3): Ebend = 12 kq (q - q0 )2 ,

(3)

где kq — силовая константа деформации валентных углов; q0 — равновесное значение валентного угла; q — текущее значение валентного угла. Вклад внутреннего вращения вокруг химических связей выражается через значения межплоскостных (двугранных, торсионных) углов с помощью тригонометрических функций вида (4): Etors = 12 kj [1 + cos(nj - j0 )],

(4)

где kj — торсионный барьер (барьер вращения); j — текущее значение торсионного угла; n — период (число минимумов энергии на один полный цикл); j0 — стандартное значение торсионного угла (обычно принимается 0° для косинуса, тогда максимум энергии приходится на 0°, или 180° для синуса с минимумом энергии при 0°). Ван-дер-ваальсовы взаимодействия между не связанными непосредственно атомами обычно выражаются потенциалом Леннард-Джонса1 [6]: Evdw = å

Aij rij12

-

Bij rij6

.

(5)

где Aij — коэффициент вклада отталкивания; Bij — коэффициент вклада притяжения; rij — расстояние между атомами i и j. Это одна из форм потенциала Леннард-Джонса, существуют и другие его модификации, которые используются в различных силовых полях. Пи описании электростатических взаимодействий соответствующая компонента энергии чаще всего вычисляется в соответствии с законом Кулона для точечных (атомных) зарядов: 1 QQ Eelec = × 1 2 , e r

(6)

где e — диэлектрическая проницаемость; Q1, Q2 — заряды на взаимодействующих атомах; r — межатомное расстояние. Заряды могут быть рассчитаны с использованием методов, описанных в разд. 2.4.1.1, а в отдельные силовые поля [2–4] они входят как эмпирически подобранные параметры. 1

Джон Эдвард Леннард-Джонс (1894–1954) — английский математик и физик, внесший огромный вклад в теорию молекулярных структур и межмолекулярных взаимодействий. Считается основателем современной вычислительной химии. За научные заслуги удостоен рыцарского звания.

Глава 2. Малые молекулы

27

Некоторые силовые поля включают перекрестные члены, внеплоскостные вклады, вклады водородных связей и т. д., а также используют другие функции потенциальной энергии для описания системы. Так как существует довольно много силовых полей, различающихся по своей функциональной форме, нет возможности рассмотреть их все подробно в настоящей книге, но для этой цели имеются замечательные обзоры [7, 8]. Основная идея молекулярной механики основана на существовании неких «естественных» длин связей и валентных углов. Равновесные значения этих длин связей и валентных углов, а также соответствующие силовые константы, используемые в функциях потенциальной энергии, задаются в силовом поле и в дальнейшем будут называться параметрами силового поля. Любое отклонение от этих стандартных значений приведет к увеличению полной энергии молекулы. Поэтому полная энергия молекулы служит мерой внутримолекулярного напряжения относительно некой гипотетической молекулы с идеальной геометрией. Сама по себе эта энергия не имеет физического смысла. Универсальное силовое поле должно описывать как можно больше различных классов молекул с приемлемой точностью. Надежность молекулярно-механического расчета зависит от функций потенциальной энергии и от качества параметров, входящих в эти функции. Поэтому легко понять, что точный расчет не может быть выполнен, если отсутствуют параметры для этих важных геометрических характеристик. Во избежание этой ситуации необходимо для каждой конкретной задачи подбирать подходящее силовое поле. Некоторые силовые поля были разработаны применительно к широкому набору органических соединений и малых молекул [1–4, 9, 10], тогда как другие пригодны в основном для белков и других биомолекул [11–13]. Отсутствие подходящих экспериментальных данных может значительно затруднить разработку усовершенствованных функций энергии для более точных вычислений. Это послужило причиной разработки так называемых силовых полей класса II, таких как согласованное силовое поле (Consistent Force Field, CFF) [11] и молекулярное силовое поле компании Merck (Merck Molecular Force Field, MMFF) [10]; обе группы силовых полей основаны преимущественно на квантовомеханических расчетах поверхности потенциальной энергии. Целью MMFF является учет всех функциональных групп, интересных для конструирования лекарств, включая малые молекулы и макромолекулярные структуры. Текущая версия, MMFF94, реализована в различных программах и коммерческих пакетах, таких как SYBYL, MOE или Cerius2. Для всех силовых полей необходимо отметить следующее: они могут быть применены для решения конкретной задачи только в том случае, если полностью содержат все необходимые параметры. Если параметры для определенных типов атомов, типов и длин связей, валентных или торсионных углов отсутствуют, то неизбежно приходится добавлять недостающие данные в силовое поле [14, 15].

28

Молекулярное моделирование

2.2.2. Оптимизация геометрии Уже отмечалось, что полученная описанными выше методами пространственная модель молекулы почти наверняка не идеальна, что приводит к необходимости проведения соответствующей оптимизации ее геометрии путем релаксации структуры. Из примера, представленного на рис. 2.2.1 и в табл. 2.2.1, видно, что внутренние напряжения в структурах, полученных из кристаллографических данных, в основном обусловлены малыми отклонениями от «идеальных» длин связей. Таким образом, все вышеупомянутые энергетические вклады (энергия растяжения связей и изменения валентных углов) изменяются в процессе оптимизации методом силового поля. Торсионные же углы изменяются мало, несмотря на заметные изменения энергии. Это четко указывает на хорошо известное наблюдение, что в кристаллах почти без исключения обнаруживаются только низкоэнергетические конформации. Ни в коем случае не следует считать, что кристаллические структуры характеризуются «плохой» геометрией. Из рис. 2.2.1 легко видеть, что отличие геометрии кристаллической структуры от геометрии структуры, оптимизированной по методу силового поля, довольно незначительно. Этот факт можно интерпретировать и в том смысле, что не следует ожидать значительных вариаций в геометрическом строении, если используются различные хорошо параметризованные силовые поля. В рассмотренном здесь частном случае реальная кристаллическая структура рамиприлата сравнивается со структурой, полученной при помощи хорошо известного многоцелевого силового поля фирмы Tripos [9]. Перед началом оптимизации геометрии следует устранить неприемлемые ван-дер-ваальсовы контакты, потому что в конце оптимизации энергия минимума зависит от начальной геометрии [7]. Такие преимущества, как скорость вычисления, достаточная точность, а также возможность широкого применения как к малым молекулам, так и к большим системам, сделали молекулярную механику наиболее важным стандартным методом оптимизации геометрии. По при-

Рис. 2.2.1. Наложение кристаллической (красной) и молекулярно-механической, оптимизированной с помощью силового поля Tripos (зеленой), структур рамиприлата, ингибитора ангиотензин-превращающего фермента

Глава 2. Малые молекулы

29

Таблица 2.2.1. Вклады в молекулярно-механическую энергию молекулы рамиприлата до и после оптимизации геометрии (силовое поле Tripos)

Энергия, ккал/моль Энергетические вклады

Кристаллическая структура

Оптимизированная структура

Энергия растяжения связей

179,514

0,982

Энергия деформации валентных углов

15,693

10,372

Энергия деформации торсионных углов

17,230

14,335

Энергия внеплоскостных отклонений

0,043

0,011

Энергия 1–4 ван-дер-ваальсовых взаимодействий

18,538

4,791

Энергия ван-дер-ваальсовых взаимодействий

–3,839

–7,822

Полная энергия

227,179

22.669

чине сложности и значительных требований к вычислительным ресурсам методы квантовой механики следует применять только в особых случаях, которые будут рассмотрены позже. Далее мы остановимся на некоторых общепринятых процедурах минимизации энергии, которые используются в молекулярной механике. При этом важно отметить, что алгоритмы минимизации позволяют найти только локальные минимумы на поверхности потенциальной энергии, но не глобальный минимум.

2.2.3. Методы минимизации энергии Методы минимизации энергии можно разделить на два класса: методы, основанные на градиентной технике, такие как метод скорейшего спуска или метод сопряженных градиентов, и методы с использованием второй производной, такие как метод Ньютона—Рафсона и родственные ему методы. 2.2.3.1. Метод скорейшего спуска

Для приближения к энергетическому минимуму в методе скорейшего спуска используются рассчетные значения первых производных функции энергии. Энергия вычисляется сначала для исходной геометрии, а затем при сдвиге одного из атомов на малое расстояние вдоль одной из координатных осей. Этот процесс повторяется для всех атомов, которые

30

Молекулярное моделирование

все в конечном счете перемещаются в новые положения, находящиеся ниже на поверхности потенциальной энергии [7]. Процесс останавливается, когда оказывается выполнено некоторое заданное наперед условие достижения минимума (критерий сходимости). Такая процедура в окрестностях минимума протекает медленно, поэтому метод наискорейшего спуска обычно применяют для оптимизации структур, расположенных вдали от минимума. Этот метод следует использовать для построения низкоэнергетических структур на основании кристаллографических данных с недостаточным разрешением, либо для быстрой минимизации молекул, созданных с помощью графических пакетов. В большинстве случаев оптимизация методом наискорейшего спуска является первоначальным, грубым приближением; за этой процедурой обычно следует более точная оптимизация, основанная на более совершенном алгоритме, например, методе сопряженных градиентов. 2.2.3.2. Метод сопряженных градиентов

В методе сопряженных градиентов происходит накопление информации о минимизируемой функции в ходе пошаговой процедуры, от итерации к итерации. Таким образом удается избежать осцилляций из-за обращения результата, достигнутого в итоге предыдущих итераций. На каждой стадии минимизации вычисляется градиент, который далее в качестве дополнительной информации для расчета нового вектора направления минимизации, и так каждая последующая стадия уточняет направление к минимуму. Метод сопряженных градиентов рекомендуют применять к большим системам, хотя для него затраты на вычисления и требования к памяти выше, чем для метода наискорейшего спуска, поскольку при этом сложность вычислений и большее время, затрачиваемое на одну итерацию, с лихвой компенсируются более эффективной сходимостью метода в целом. Метод Пауэлла очень похож на метод сопряженных градиентов. При его применении сходимость достигается еще быстрее, и он подходит для разнообразных задач, однако применять его следует с определенной осторожностью, поскольку в ходе оптимизации иногда могут слишком сильно изменяться торсионные углы. Поэтому метод Пауэлла неприменим для минимизации энергии после конформационного поиска, поскольку обнаруженные низкоэнергетические конформации могут быть изменены нежелательным образом. В такой ситуации рекомендуется выполнять минимизацию энергии при помощи метода сопряженных градиентов. 2.2.3.3. Метод Ньютона—Рафсона

В методе Ньютона—Рафсона, основанном на использовании вторых производных, при определении направления поиска в дополнение к градиенту учитывается кривизна функции. Вторая производная также используется для того, чтобы предсказать, где функция проходит через минимум. Эффективность метода Ньютона—Рафсона увеличивается по мере приближения к минимуму. Недостатками являются затраты на

Глава 2. Малые молекулы

31

вычисления и требования к памяти, когда метод применяется для расчета больших систем. Для высоконапряженных структур процесс минимизации может стать нестабильным, поэтому этот алгоритм в основном применяется к задачам, в которых требуется быстрая сходимость, начиная с предварительно оптимизированной геометрии к очень точному значению минимума. Более подробная информация о методах оптимизации приводится в работах [16, 17]. Можно заключить, что выбор метода минимизации зависит от двух факторов — размера системы и текущей степени оптимизации. Для структур, находящихся вдали от минимума, метод скорейшего спуска является, как правило, наилучшим для проведения первых 10–100 итераций. Затем минимизация может быть завершена при помощи метода сопряженных градиентов или метода Ньютона—Рафсона. Для расчета систем, которые слишком велики для вычисления и хранения матрицы вторых производных, единственным применимым методом является метод сопряженных градиентов. Процедура минимизации продолжается до достижения сходимости. Критерии сходимости при минимизации молекул могут быть определены несколькими способами. В неградиентных методах, таких как метод скорейшего спуска, только изменения энергии и/или координат могут служить мерой оптимальности текущей геометрии молекулярной системы. В градиентных же методах для этой цели используются среднеквадратичные градиенты сил на каждом атоме молекулы. К тому же всегда рекомендуется проверять максимальное значение производной для того, чтобы определить неблагоприятные геометрические области. Минимизированная геометрия является вполне удовлетворительной, если все производные меньше некоего заданного значения. Выбор такого значения, например максимального значения производной, зависит от цели оптимизации. Если желательна только простая релаксация напряженной молекулы, то применим довольно грубый критерий сходимости, например, достаточно, чтобы максимальное абсолютное значение первой производной было меньше или равно 0,1 ккал/(моль·C), тогда как в других случаях для нахождения минимума требуется сходимость к точке с модулем максимальной компоненты градиента не более 0,001 ккал/(моль·C). Выбор критериев сходимости должен определяться, с одной стороны, достаточной точностью минимизируемой структуры, с другой — отсутствием лишних расчетов, которые не приводят к дальнейшему улучшению результатов [17].

2.2.4. Влияние зарядов и растворителя В молекулярной механике вычисления часто проводят в «условиях вакуума» (in vacuo, e = 1). В случае неполярных углеводородов явное включение растворителя в расчет приводит к пренебрежимо малым отличиям от результатов для расчета газообразного состояния. Однако исследование заряженных и поляризованных молекул требует учета влия-

32

Молекулярное моделирование

ния растворителя [7]; в противном случае стабильность конформаций, наиболее подверженных влиянию сильных электростатических взаимодействий, будет неоправданно высокой. Под действием силового поля максимально усиливается электростатическое притяжение; это приводит к появлению очень энергетически выгодных конформаций молекулы с нереально низкими значениями энергии. Это можно нивелировать, введя в расчеты диэлектрическую проницаемость соответствующего растворителя [18], например для воды e = 80. В отличие от макромолекул электростатическое поле малых молекул считается однородным, благодаря чему можно перейти к использованию единой диэлектрической проницаемости. Экспериментальные значения e опубликованы в литературе и могут использоваться для более точного описания кулоновских взаимодействий молекул в растворе. Отказ от включения в расчет взаимодействия атомных зарядов и диполей, индуцированных растворителем, сильно упрощает расчет в процессе оптимизации молекулярной структуры. Такие результаты очень часто оказываются вполне приемлемыми по качеству; это приближение особенно рекомендуется для минимизации результатов конформационного анализа, поскольку электростатическое взаимодействие зарядов может существенно искажать конформацию. Однако всегда необходимо учитывать заряды при расчетах, когда требуется описание водородных связей. Энергия электростатического взаимодействия уменьшается обратно пропорционально расстоянию. Поэтому в некоторых силовых полях диэлектрическая проницаемость принимается зависимой от расстояния, чтобы учесть при моделировании эффект вытеснения молекул растворителя при сближении молекулы лиганда с поверхностью макромолекулы. Это особенно важно, если конформационный анализ является частью задачи поиска фармакофора. Всегда, когда это возможно, результаты вычислений необходимо проверять с использованием имеющихся экспериментальных данных. Крайне важными в этом отношении являются данные спектроскопии ядерного магнитного резонанса (ЯМР). Поскольку данные ЯМР в большинстве случаев получены для растворов в хлороформе или другом органическом растворителе, включение в явном виде соответствующей диэлектрической постоянной в электростатическое слагаемое силового поля делает возможным более точное согласование результатов расчета и эксперимента. Учет диэлектрической проницаемости — только один из возможных вариантов моделирования влияния растворителя. Другой способ — создание вокруг исследуемой молекулы «оболочки» из отдельных молекул растворителя. Существенными недостатками такого подхода являются большое количество дополнительных вычислений, а также ограничение на возможное число молекул в этой оболочке, накладываемое в подавляющем большинстве силовых полей.

Глава 2. Малые молекулы

33

2.2.4.1. Растворитель как статистический континуум

Для определения наиболее вероятной конформации лиганда в водной среде весьма важен учет влияния растворителя на поведение всей системы. На этот вопрос можно ответить с помощью моделирования молекул растворителя как части системы, однако для больших молекул, например, лиганд-белковых комплексов, это оказывается сопряжено с очень большим объемом вычислений. В связи с этим были разработаны методы, в которых растворитель рассматривается как непрерывная протяженная среда вокруг молекулы растворенного вещества, что позволило оценить влияние сольватации с меньшими затратами на вычисления. Соответствующие расчеты в числе прочего обычно включают в себя различные математические выражения для описания электростатического взаимодействия в среде растворителя, а также поверхностных явлений: гидрофобных и ван-дер-ваальсовых взаимодействий. При конструировании молекул лекарственных веществ чаще всего применяются две континуальные модели. В одной для описания электростатической составляющей (с учетом поверхностных взаимодействий) используется уравнение Пуассона—Больцмана — модель обозначается PB–SA [19, 20]; вторая описывает зарядовые взаимодействия с помощью обобщенного приближения Борна (GB–SA) [21–23]. В модели PB–SA параметры электростатических полей в исследуемой системе вычисляются путем решения уравнения Пуассона—Больцмана, однако для растворенных веществ со сложной, нерегулярной формой поверхности (белков, нуклеиновых кислот) аналитического решения для данного уравнения может не существовать. Оказываются необходимыми численные методы решения, реализация которых даже на больших вычислительных системах требует значительных расчетных ресурсов. В модели GB–SA при оценке сольватации используется ряд упрощений; при значительно меньшей сложности вычислений точность этой модели сравнима с точностью PB–SA. Одна из первых реализаций приближения GB–SA, предложенная Стиллом с соавт. [21], хорошо соотносится с PB–SA в оценке свободной энергии сольватации малых молекул.

2.2.5. Квантовомеханические методы Необходимо хотя бы кратко рассмотреть методы квантовой механики, так как они имеют большое значение в вычислительной химии. Такие параметры, как геометрия молекулы и ее конформационная энергия, могут быть рассчитаны с приемлемой точностью для значительного числа структур при использовании хорошо параметризованного и достаточно общего силового поля. Если же параметры силового поля для какой-либо структуры неизвестны, то для оптимизации геометрии можно использовать методы квантовой химии. Квантово-механические методы также применяются для расчета переходных состояний и путей реакций, кроме того, они позволяют определить геометрию молекул с учетом поляризации или в случае необычного распределения электронной плотности. Недостатком является сложность вычислений, ограни-

34

Молекулярное моделирование

чивающая область применимости этих методов относительно малыми молекулами. Таким образом, их следует применять лишь для решения отдельных задач. Не ставя перед собой цель вдаваться в теорию квантово-механических расчетов, мы постараемся вместо этого дать ряд практических советов по применению программ полуэмпирических и неэмпирических (ab initio) расчетов. Читателю, желающему вникнуть в детали теории, необходимо ознакомиться с обзорными статьями и книгами [29–32]. 2.2.5.1. Неэмпирические (ab initio) методы

В отличие от молекулярной механики и полуэмпирических методов молекулярных орбиталей в неэмпирической квантовой химии возможно воспроизводить экспериментальные данные без использования эмпирических параметров. Таким образом, применение расчетов ab initio особенно удобно в тех случаях, когда экспериментальная информация недостаточна или отсутствует. Качество неэмпирических расчетов зависит от используемого базисного набора функций (базиса) [33, 34]. Выбор базиса определяется целью расчета, а также природой исследуемых молекул. Следует помнить, что даже очень большой базис не гарантирует точного соответствия расчетных и экспериментальных данных [35]. Неправильный базис может лишить всякой значимости результаты квантово-химических вычислений, зачастую весьма продолжительных по времени. Мы рассмотрим лишь наиболее часто применяемые в расчетах базисы. STO-3G — минимальный базис — ранее использовался весьма широко. Его название представляет собой аббревиатуру «слэйтеровские орбитали» (Slater-Type Orbitals); каждая из слэйтеровских функций, в свою очередь, аппроксимируется тремя функциями Гаусса (Gaussian functions). Минимальный базис содержит число атомных орбиталей, минимально необходимое для описания всех электронов атома в основном состоянии, что предполагает сферическую симметрию каждого атома. Позднее весьма популярными стали так называемые «валентно-расщепленные» базисы. В них орбитали валентной оболочки атома представлены с помощью двух наборов — внешнего и внутреннего. Таким образом увеличиваются возможности для описания докализации электронов [36]. Валентно-расщепленные базисы дают лучшее описание молекулы по сравнению с минимальным базисом; базисы 3-21G, 4-31G и особенно 6-31G широко используются в расчетах1. Они различаются по числу гауссовых функций, используемых для разложения выражений для внутренней оболочки (остова) и внутренней сжатой валентной оболочки [35]. К примеру, в базисе 4-31G орбитали остова состоят из четырех функций, внутренняя валентная оболочка — из трех, а внешняя — из одной. 1

В настоящее время наиболее широкое распространение при проведении квантово-химических расчетов получили корреляционно согласованные базисы Даннинга [Peterson K. A., Dunning Jr. T. H. J. Chem. Phys. 2002. V. 23. P. 10548–10560].

Глава 2. Малые молекулы

35

Следующим этапом является введение наборов поляризационных функций. Для тяжелых атомов добавляются d-орбитали, что позволяет орбиталям p-оболочки «сдвигаться» относительно ядра, что вызывает деформацию (поляризацию) орбиталей. Такая поправка особенно важна в случае соединений, содержащих малые циклы [36]. Поляризованные базисы обозначаются символом «*»; например, базис 6-31G* использует шесть гауссовых примитивов для орбиталей остова, расщепление 3:1 для s- и p-орбиталей валентной оболочки, а также один набор из шести d-функций. Более подробное описание базисов можно найти в книгах и обзорах, например [32, 35]. К сожалению, не существует общего простого правила для подбора адекватного базиса. Уровень приближения зависит от желаемой точности и от исследуемого свойства. Оптимизация геометрии простой молекулы среднего размера может быть проведена с приемлемой точностью в базисе 3-21G, однако для иных задач такого уровня приближения может оказаться недостаточной. Если на геометрию молекулы сильно влияет поляризация, делокализация электронов или эффекты сверхсопряжения (гиперконъюгация), необходимо использовать базис 6-31G* (включающий d-функции; см. выше) или еще более расширенный набор (рис. 2.2.2). Несмотря на развитие вычислительной техники, неэмпирические расчеты до сих пор могут быть проведены далеко не во всех случаях. Обычным способом уменьшить временные затраты на расчеты можно при использовании базиса 3-21G для оптимизации структуры с последующим расчетом волновой функции в приближении 6-31G*. Такая процедура обычно обозначается 6-31G*//3-21G. Расширение базиса не приводит к автоматическому увеличению точности расчета молекулярных свойств. Чтобы найти наиболее подходящее приближение, необходимо «калибровать» метод по экспериментальным результатам или же опытным путем подобрать базис, при использовании которого получаются результаты, приемлемые по точности.

Рис. 2.2.2. Показана окончательная геометрия 2,6-диазаспиро[3.3]гептил- 2-форм-

амида после оптимизации геометрии с использованием различных базисов атомных орбиталей. Этот пример ясно указывает на зависимость полученной геометрии от используемого базиса. Использование минимального базиса STO-3G и базиса 3-21G приводит к различной геометрии. Включение в расчет d-орбиталей (базис 6-31G*) приводит к структуре, в которой поляризационные эффекты и напряжения цикла отражены более точно, поэтому окончательная геометрия амидного атома азота лежит между тетраэдрическим и тригональным состояниями гибридизации

36

Молекулярное моделирование

2.2.5.2. Полуэмпирические методы молекулярных орбиталей

Полуэмпирические методы молекулярных орбиталей сочетают в себе элементы молекулярной механики и неэмпирических расчетов. Являясь по своей природе квантово-механическими, они отличаются от методов ab initio прежде всего использованием эмпирических величин для уменьшения временных издержек, необходимых для оценки всех интегралов. В частности, одноцентровые интегралы межэлектронного отталкивания и резонансные интегралы замещаются параметрами, которые подгоняются под известные экспериментальные данные с наибольшей возможной точностью. Вторая основная идея полуэмпирического подхода состоит в том, что большинство представляющих интерес свойств молекулы определяется в наибольшей степени именно валентными электронами соответствующих атомов. Исходя из этого в расчеты вовлекаются только валентные электроны, что ведет к дальнейшему сокращению расчетного времени. Все полуэмпирические методы основаны на одних и тех же теоретических положениях, различаясь лишь по форме приближений, реализующих эти положения [37]. Такие методы, как AM1 (Austin Model 1 [38]) или PM3 (Parametric Method 3 [39–41]), являются удачным компромиссом между точностью результатов и сложностью вычислений. Результаты проведенных с их помощью расчетов соответствуют эксперименту практически с той же точностью, что и результаты неэмпирического расчета в малом базисе. Преимущества полуэмпирических методов не исчерпываются лишь тем, что они на несколько порядков быстрее, — моделировать системы размером более 200 атомов в настоящий момент возможно лишь с помощью полуэмпирических методов. Однако к полученным результатам необходимо очень осторожное отношение. Подобно выбору неверного базиса для неэмпирических вычислений в полуэмпирических расчетах результаты вычислений при отсутствии точных параметров могут оказаться бессмысленными. Качество полуэмпирических расчетов для многих молекул с различными свойствами рассматривается в ряде обзоров [28–31]. Следует также отметить, что полуэмпирические методы склонны давать ошибочные результаты при расчете соединений, включающих элементы третьего периода1. 2.2.5.3. Комбинированные методы квантовой и молекулярной механики

Теоретические ограничения молекулярной механики, с одной стороны, и сложность неэмпирических расчетов, с другой, способствовали в дальнейшем разработке гибридной схемы, в которой сочетались бы преимущества обоих подходов. Впервые подобную комбинацию продемонстрировали Уоршел и Левитт в 1976 г. [42]. 1

К настоящему времени предложена новая модификация метода MNDO (аналогично AM1 и PM3) — PM6, в которой значительно расширен набор параметризованных элементов и устранен ряд существенных недостатков [Stewart J. J. P. J. Mol. Model. 2007. V. 13. P. 1173–1213].

Глава 2. Малые молекулы

37

Несмотря на грандиозный прогресс вычислительной техники и теоретической методологии, что позволило давать системам гораздо больших размеров квантово-механическое описание, большие биологические системы (белки, ДНК, липидные мембраны), состоящие из тысяч атомов, до сих пор невозможно исследовать методами квантовой химии. К сожалению, эти методы незаменимы при описании химических реакций, протекающих с разрывом и образованием ковалентных связей, и при точной оценке энергии взаимодействия лекарств с биологическими мишенями. При этом чаще всего квантово-механическое описание растворителя или макромолекулы в целом не требуется. Процессы, для которых необходимо такое описание, чаще всего происходят в довольно локальных областях, например, в активном центре фермента. В гибридных схемах эти области моделируются методами квантовой механики (область КМ), тогда как остальная часть макромолекулы и растворитель описываются молекулярной механикой (область ММ). Схема на рис. 2.2.3 также поясняет, почему методы КМ–ММ называют также вложенными: область КМ погружена (вложена) внутрь области ММ. В различных методах и программах КM–MM, опубликованных к настоящему времени, все модификации, производимые для того, чтобы иметь возможность сочетать расчеты с помощью силовых полей и методов квантовой механики, аналогичны. Основная идея состоит в том, что атомы различных областей (КM и MM) могут взаимодействовать; атомы области КM «видят» атомы области MM и наоборот. Полная энергия системы в методе КM–MM определяется уравнением (7). При вычислении КМ-составляющей атомы области MM представляют собой точечные заряды и таким образом оказывают влияние на атомы области КM. Вандер-ваальсовы взаимодействия атомов областей КM и MM не зависят от состояния электронов и поэтому рассчитываются по формулам классической молекулярной механики, как и в области MM.

Рис. 2.2.3. Организация системы при расчетах методом КМ–ММ

38

Молекулярное моделирование

Etot = EQMelec + EQMvdW + EMM .

(7)

Здесь: Etot — полная энергия; EQMelec — электростатическая энергия атомов области КM; EQMvdW — энергия ван-дер-ваальсова взаимодействия атомов области КM; EMM — энергия атомов области MM. В общем случае возможно сочетание любого силового поля и любого квантово-механического метода. Некоторые хорошо известные и широко распространенные программы содержат модуль КM–MM (CHARMM, QSite, QuanteMM [43–45]). В последние годы методы КM–MM все чаще применяют для исследования ферментативных реакций. Описание реакции на уровне отдельных атомов наглядно обеспечивает лучшее понимание сути процесса и механизма реакции. Первым ферментом, исследованным в таком приближении, стал лизоцим [42]; в дальнейшем были детально изучены триозофосфатизомераза [46], цитратсинтаза [47] и фармацевтически важные b-лактамазы [48].

Цитированная литература 1. Allinger, N.L. (1977) Conformational analysis. 130. MM2. А hydrocarbon force field utilizing V1 and V2 torsional terms. Journal of the American Chemical Society, 99, 8127–34.

2. Allinger, N.L., Yuh, Y.H., and Lii, J. H. (1989) Molecular mechanics. The MM3

force-field for hydrocarbons. 1. Journal of the American Chemical Society, 111, 8551–66.

3. Lii, J. H, and Allinger, N. L. (1989) Molecular mechanics. The MM3 force-field for hydrocarbons. 2. Vibrational frequencies and thermodynamics. Journal of the American Chemical Society, 111, 8566–76.

4. Lii, J. H. and Allinger, N. L. (1989) Molecular mechanics. The MM3 force-field for hydrocarbons. 3. The van der Waals potentials and crystal data for aliphatic and aromatic hydrocarbons. Journal of the American Chemical Society, 111, 8576–82.

5. Morse, P. M. (1929) Diatomic molecules according to the wave mechanics. II. Vibrational levels. Physical Review, 34, 57–64.

6. Jones, J. E. (1924) On the determination of molecular fields. II. From the equation of state of a gas. Proceedings of the Royal Society, 106A, 463–77.

7. Burkert, U. and Allinger, N.L. (1982) Molecular Mechanics, ACS Monograph, Vol. 177, American Chemical Society, Washington, DC.

8. Dinur, U. and Hagler, A. T. (1991) New approaches to empirical force fields, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 2, pp. 99–164.

9. Clark, M., Cramer III, R. D., and Van Opdenbosch, N. (1989) Validation of the

general purpose Tripos 5.2 force field. Journal of Computational Chemistry, 10, 982–1012.

10. Halgren, N. A. and Nachbar, R. B. (1996) Merck molecular force field. 4. Conformational energies and geometries for MMFF94. Journal of Computational Chemistry, 17, 587–615.

Глава 2. Малые молекулы

39

11. Maple, J. R., Hwang, M. J., Jalkanen, K. J. et al. (1998) Derivation of class II force fields: V. Quantum force field for amides, peptides, and related compounds. Journal of Computational Chemistry, 19, 430–58.

12. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a program for macromolecular energy, minimization, and dynamics calculations. Journal of Computational Chemistry, 4, 187–217.

13. van Gunsteren, W. F. and Berendsen, H. J. C. (1985) Molecular dynamics simulations: techniques and applications to proteins, in Molecular Dynamics and Protein Structure (ed. J. Hermans), Polycrystal Books Service, Western Springs, pp. 5–14.

14. Maple, J. R., Dinur, U., and Hagler, A. T. (1988) Derivation of force fields for molecular mechanics and dynamics from ab initio energy surfaces. Proceedings of the National Academy of Sciences of the United States of America, 85, 5350–54.

15. Bowen, J. P. and Allinger, N. L. (1991) Molecular mechanics: the art and science of parameterization, in Reviews in Computational Chemistry K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 2, pp. 81-97.

(eds

16. Press, W.H., Flannery, B.P., Teukolsky, S.A., and Vetterling, W.T. (1988) Numerical Recipes in C: The Art of Scientific Computing. Cambridge University Press, Cambridge, p. 301.

17. Schlick, T. (1992) Optimization methods in computational chemistry, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 3, pp. 1–71.

18. Eliel, E. L., Allinger, N. L., Angyal, S. J., and Morrison, G. A. (1965) Conformational Analysis, Wiley-Interscience, New York.

19. Ooi, T., Oobatake, M., Nemethy, G., and Scheraga, H. A. (1987) Accessible surface areas as a measure of the thermodynamics parameters of hydration of peptides. Proceedings of the National Academy of Sciences of the United States of America, 84, 3086–90.

20. Gilson, M. K., Sharp, K. A. and Honig, B. (1988) Calculating the electrostatic potential of molecules in solution — method and error assessment. Journal of Computational Chemistry, 9, 327–35.

21. Still, W. C., Tempczyk, A., Hawley, R. C. and Hendrickson, T. (1990) Semianalytical treatment of solvation for molecular mechanics and dynamics. Journal of the American Chemical Society, 112, 6127–29.

22. Wojciechowski, M. and Lesyng, B. (2004) Generalized Born model: analysis, re-

finement, and applications to proteins. Journal of Physical Chemistry B, 108, 18368–76.

23. Guvench, O., Weiser, J., Shenkin, P. et al. (2002) Application of the frozen atom approximation to the GB/SA continuum model for solvation free energy. Journal of Computational Chemistry, 23, 214–21.

24. Apostolakis, J., Pluckthun, A., and Caflisch, A. (1998) Docking small ligands in flexible binding sites. Journal of Computational Chemistry, 19, 21–37.

25. Kang, X., Shafer, R. H., and Kuntz, I. D. (2004) Calculation of ligand-nucleic acid binding free energies with the Generalized Born model in DOCK. Biopolymers, 73, 192–204.

40

Молекулярное моделирование

26. MOE, Chemical Computing Group, Montreal. http://www.chemcomp.com. 27. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) Macromodel — an integrated software system for modeling organic and bioorganic molecules using molecular mechanics. Journal of Computational Chemistry, 11, 440–67.

28. Cornell, W. D., Cieplak, P., Bayly, C. I. et al. (1995) A 2nd generation force-field for the simulation of proteins, nucleic acids, and organic molecules. Journal of the American Chemical Society, 117, 5179–88.

29. Pople, J. A. (1970) Molecular orbital methods in organic chemistry. Accounts of Chemical Research, 3, 217–23.

30. Hehre, W. J., Radom, L., Schleyer, P. v. R., and Pople, J. A. (1986) Ab Initio Molecular Orbital Theory, Wiley-Interscience, New York.

31. Szabo, A. and Osthund, N. S. (1985) Modern Quantum Chemistry: Introduction to Advanced Electronic Structure Theory, Revised 1st edn, McGraw-Hill, New York.

32. Clark, T. (1985) A Handbook of Computational Chemistry: A Practical Guide to Chemical Structure and Energy Calculations, Wiley-Interscience, New York.

33. De Frees, D. J., Levi, B. A., Pollack, S. K. et al. (1979) Effect of electron correlation on theoretical equilibrium geometries. Journal of the American Chemical Society, 101, 4085–89.

34. Davidson, E. R. and Feller, D. (1986) Basis set selection for molecular calculations. Chemical Reviews, 86, 681–96.

35. Feller, D. and Davidson, E. R. (1990) Basis sets for ab initio molecular orbital calculations and intermolecular interactions, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1, pp. 1–43.

36. Boyd, D. B. (1990) Aspects of molecular modeling, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1, pp. 321–54.

37. Kunz, R. W. (1991) Molecular Modelling fur Anwender, Teubner Studienbucher, Stuttgart.

38. Dewar, M. J. S., Zoebisch, E. G., Healy, E. F., and Stewart, J. J. P. (1985) The development and use of quantum mechanical molecular models. 76. AM1: a new general purpose quantum mechanical molecular model. Journal of the American Chemical Society, 107, 3902–9.

39. Stewart, J. J. P. (1990) Semiempirical molecular orbital methods, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1, pp. 45–81.

40. Stewart, J. J. P. (1989) Optimization of parameters for semiempirical methods. 1. Method. Journal of Computational Chemistry, 10, 209–20.

41. Stewart, J. J. P. (1989) Optimization of parameters for semiempirical methods. 2. Applications. Journal of Computational Chemistry, 10, 221–64.

42. Warshel, A., and Levitt, M. (1976) Theoretical studies of enzymic reactions — dielectric, electrostatic and steric stabilization of carbonium-ion in reaction of lysozyme. Journal of Molecular Biology, 103, 227–49.

43. CHARMM, Harvard University, Cambridge, http://www.charmm.org.

Глава 2. Малые молекулы

41

44. QSite, Schrodinger Inc., Portland, http://www.schrodinger.com. 45. QuantaMM, Accelrys, http://www.accelrys.com. 46. Bash, P. A., Field, M. J., Davenport, R. C. et al. (1991) Computer simulation and analysis of the reaction pathway of triosephosphate isomerase. Biochemistry, 30, 5826–32.

47. Mulholland, A. J. and Richards, W. G. (1997) Acetyl-CoA enolization in citrate synthase: a quantum mechanical (QM/MM) study. Proteins, 27, 9–25.

48. Hermann, J. C., Hensen, C., Ridder, L. et al. (2005) Mechanisms of antibiotic resistence: QM/MM modeling of the acylation reaction of a class A b-lactamase with benzylpenizillin. Journal of the American Chemical Society, 127, 4454–65.

2.3. Конформационный анализ Молекулы не являются абсолютно жесткими структурами: при комнатной температуре их кинетическая энергия достаточно велика для того, чтобы все атомы в молекуле находились в постоянном движении. Это означает, что, во-первых, абсолютные положения атомов в молекуле, равно как и всей молекулы в целом, не могут быть зафиксированы, и, во-вторых, относительное положение заместителей при ординарной химической связи со временем может изменяться. Таким образом, соединение, содержащее одну или несколько ординарных связей, в каждый момент времени существует в виде смеси (ансамбля) так называемых ротамеров, или конформеров. Количественный и качественный состав этой смеси постоянно меняется, причем с большой вероятностью могут быть обнаружены лишь наиболее низкоэнергетические конформеры. Переход из одной конформации в другую связан прежде всего с изменением торсионных углов при ординарных химических связях; в этом случае изменение длин связей и валентных углов намного менее значительно. Изменению молекулярной конформации соответствует перемещение на многомерной поверхности, описывающей зависимость потенциальной энергии молекулы от некоторых ее геометрических параметров. Каждая точка этой потенциальной поверхности представляет собой энергию единственной конформации; в частности, стабильные конформации соответствуют локальным минимумам поверхности потенциальной энергии. Относительная заселенность конформации зависит от ее статистического веса, который определяется не только потенциальной энергией, но и энтропией. Как следствие, глобальный минимум поверхности потенциальной энергии (конформация, обладающая наименьшей потенциальной энергией) не обязательно соответствует структуре с максимальным статистическим весом (более подробно см. в [1]). Хорошо известны такие примеры молекулярных конформаций, как заторможенная и заслоненная формы этана, анти-транс- и гош-формы н-бутана, конформации циклогексана «кресло» и «ванна». Изменение потенциальной энергии в молекуле этана при вращении вокруг связи

42

Молекулярное моделирование

C 3 - C 3 описывается периодической функцией, близкой к синусоиде sp sp (рис. 2.3.1). Минимумы энергии, расположенные при 60, 180 и 300°, соответствуют заторможенной конформации этана, а максимумы при 120, 240 и 360° — заслоненной. Структуры, отвечающие максимуму потенциальной энергии, неустойчивы, поэтому все данные, касающиеся химических свойств этана, относятся лишь к его устойчивой, заторможенной форме. Ситуация значительно усложняется в случае больших и более гибких молекул, которые при комнатной температуре существуют в виде нескольких возможных конформеров. Например, приблизительно 70% молекул н-бутана при комнатной температуре находится в анти-транс-форме, тогда как остальные 30% — в гош-форме [2]. Следовательно, при изучении свойств этой алифатической молекулы с линейной углеродной цепью в рассмотрение должны приниматься и антитранс-, и гош-форма. Примером может служить циклогексан, для которого должны рассматриваться две формы — и «кресло», и «ванна».1 Предполагается, что биологическая активность лекарственного вещества определяется одной, так называемой «биоактивной» конформацией его молекул, которую необходимо обнаружить среди множества всех низкоэнергетических конформаций [3]. Поиск молекул с такой конформацией для многих химических соединений составляет одну из главных задач медицинской химии. Основываясь на сведениях об активной конформации, можно сконструировать новые активные лиганды для конкретной рецепторной системы. Считается, что биоактивная конформация может не совпадать с глобальным минимумом. Тем не менее, она не может быть настолько выше его по энергии, чтобы ее содержание в растворе оказалось исчезающе мало (обсуждение см. в [4]). Та-

Рис. 2.3.1. Зависимость потенциальной энергии молекулы этана от угла поворота вокруг связи C–C (торсионного угла H–C–C–H) 1

Конформация «ванны» циклогексана соответствует переходному состоянию в процессе псевдопревращения (взаимопревращения двух конформеров с конформацией «твист» шестичленного цикла). Поэтому для циклогексана в качестве парной к основной конформации «кресло» следует рассматривать именно конформацию «твист»; см. разд. 2.3.3.

Глава 2. Малые молекулы

43

ким образом, установление низкоэнергетических конформаций имеет важное значение для понимания корреляции между структурой и биологической активностью молекул. Экспериментальные методы, такие как ЯМР, предоставляют информацию лишь об одной или о нескольких конформациях. Полная картина конформационного пространства молекулы может быть получена исключительно теоретическими методами, многочисленные приложения которых нашли отражение в литературе [5–12]. Наиболее общими являются методы, позволяющие обнаружить все минимумы на поверхности потенциальной энергии. Поскольку их число быстро увеличивается с увеличением числа связей со свободным вращением, исчерпывающее определение всех минимумов превращается в трудную и требующую длительных расчетов задачу. Конечно, затраты времени на конформационный анализ прямо зависят от выбора метода расчета энергии. Конформационная энергия может рассчитываться с привлечением квантово-механических методов или методов молекулярной механики. Поскольку квантово-механические расчеты требуют значительного времени, их крайне трудно применять для больших или подвижных молекулярных систем. По этой причине в подавляющем большинстве программ конформационного поиска для оценки энергий используются методы молекулярной механики. В данной главе, кроме процедур систематического поиска, мы рассматриваем также применение методов Монте-Карло и молекулярной динамики для конформационного анализа молекул.

2.3.1. Конформационный анализ методом систематического поиска Систематический поиск [6, 7, 13] дает наилучшие результаты при конформационном анализе. Он производится путем систематического изменения каждого из торсионных углов молекулы с целью получения всех возможных конформаций. Если шаг изменения угла достаточно мал, то такая процедура дает полную картину конформационного пространства любой молекулы. Шаг, который используется при систематическом поиске, чаще всего равен 30°. Это означает, что за полный поворот на 360° генерируется 12 конформаций. В непосредственной близости от оптимального значения может потребоваться уменьшение шага до 5° для точного определения положения минимума. Число порождаемых конформаций зависит не только от шага, но и от числа свободно вращающихся связей в молекуле. Если n — число свободно вращающихся связей, то число конформаций быстро растет с увеличением n: n

æ 360° ö число конформаций = ç ÷ è шаг ø ми

Например, для молекулы с шестью свободно вращающимися связяпри шаге поиска в 30° число конформаций составляет

44

Молекулярное моделирование

126 = 2 985 984. Такой объем данных невозможно обрабатывать вручную, следовательно, необходимо его уменьшить. Первый шаг — отбор по критерию ван-дер-ваальсовых объемов, или проверка пересечения. Он также проводится перед точным вычислением потенциальной энергии конформации. Процедура отбора исключает все конформации, в которых обнаруживается пересечение ван-дер-ваальсовых объемов атомов, не связанных непосредственно. Математическим критерием определения пригодности конформации, таким образом, оказывается сумма ван-дер-ваальсовых радиусов для двух несвязанных атомов. Жесткость ван-дер-ваальсовых сфер может регулироваться введением так называемого ван-дер-ваальсова множителя, влияющего на взаимопроникновение атомов; его уменьшение «смягчает» межатомные контакты, в результате чего увеличивается число отобранных конформаций. Для конформеров, отобранных в ходе проверки пересечения, вычисляется потенциальная энергия методом молекулярной механики. В общем случае конформационная энергия вычисляется без оценки электростатических взаимодействий — заряды на атомах не принимаются во внимание, конформационный анализ проводится in vacuo. Положения, лежащие в основе подобного подхода, обсуждаются в разд. 2.2. В случае, когда необходимо включение в конформационный анализ электростатических взаимодействий, вся процедура значительно усложняется. Атомные заряды зависят не только от связности, но чувствительны и к пространственному окружению атомов. Поэтому величины атомных зарядов, рассчитанные для начальной конформации, нужно обновлять после каждого изменения торсионного угла. В дополнение к этому может оказаться необходимым имитировать влияние растворителя, который ослабляет электростатические взаимодействия, установившиеся между атомами in vacuo. Очевидно, что подобная процедура потребовала бы значительного увеличения расчетного времени даже для малых молекул. При этом важно отметить, что такое усложнение системы не прибавляет глубины постижения конформационного поведения молекулы в растворе за исключением того, что ослабляются внутримолекулярные взаимодействия. Аналогичный результат мы получаем при анализе in vacuo, полностью пренебрегая зарядами на атомах. Кроме того, в активном центре рецептора или фермента уменьшается значимость внутримолекулярных контактов лиганда. После расчета конформационной энергии для всех конформеров, сохранившихся после проверки пересечения, число исследуемых конформаций можно снизить с помощью метода «энергетического окна». Лежащая в основе его применения идея заключается в том, что конформации с более высокой энергией по сравнению с формами, соответствующими энергетическим минимумам, встречаются в наборе всех конформаций лишь в пренебрежимо малых количествах; это означает, что их влияние на биологическую активность данной молекулы крайне невелико. Величина «энергетического окна» зависит от размера исследуемой молекулы и применяемого силового поля; обычно она составляет от 5 до 15 ккал/моль [11–15].

Глава 2. Малые молекулы

45

Структуры, прошедшие отбор — все они представлены энергетически достижимыми конформациями данной молекулы. Однако во многих случаях их число все еще слишком велико, что не позволяет эффективно применять надежные методы исследования. Многие из этих конформаций схожи друг с другом, различаясь, например, лишь одним шагом угла вращения вокруг единственной связи. Очевидно, что конформации с выраженным сходством могут быть объединены в одно семейство. Описание конформационных свойств молекулы не потеряет общности, если в дальнейшем исследовании из каждого семейства конформаций будет участвовать лишь конформер с минимальной энергией. Предложено несколько способов для разбиения совокупности конформаций на семейства [15–17], основанных на значениях торсионных углов. Известные методы классификации конформаций различаются процедурой отнесения конформации к семейству. В другом способе обработки больших массивов данных, накопленных в процессе систематического поиска, используются методы математической статистики, в частности, кластерный или факторный анализ. Более подробное рассмотрение см. в [18]. Проведение систематического конформационного анализа продемонстрировано на примере проведенного нашей группой исследования двух антигистаминных препаратов, действующих на рецепторы H2, тиотидина и ICI127032 (рис. 2.3.2) [19]. Для этого использовался модуль SEARCH пакета молекулярного моделирования SYBYL [16].

Рис. 2.3.2. Строение молекул антагонистов гистаминовых рецепторов H2 тиотидина и ICI127032. Атомы серы обозначены желтым цветом

46

Молекулярное моделирование

Шаг приращения углов выбран в 15°; метильный заместитель в цианогуанидиновой группе из-за симметрии вращали с шагом в 30° в интервале от 0 до 120°. Теоретическое число конформаций 3,98 · 107 было уменьшено в ходе отбора по ван-дер-ваальсовым радиусам до 4,6 · 106, то есть по результатам отбора пригодные к исследованию конформации составили приблизительно 10%. «Энергетическое окно» в 15 ккал/моль дало дополнительное уменьшение числа конформаций на 90%; в итоге было отобрано 453 393 конформации, однако и это число конформаций с трудом поддается анализу. Поэтому оставшиеся структуры были разбиты на семейства с помощью разработанной в нашей группе программы IXGROS [17]. Было получено 227 семейств, каждое из которых было представлено единственной структурой с минимальной энергией. Уменьшение числа конформаций с 4,6 · 106 до 227 впечатляет, однако нельзя не признать, что и это (последнее) число еще слишком велико. Невозможно определить, какой из 227 конформеров является биологически активным — а ведь нас интересует только это. Решение не может быть найдено, если нет жесткой или хотя бы полужесткой сходной структуры, обладающей подобной биологической активностью. Должно быть доказано также, что эта структура взаимодействует с тем же са-

Рис. 2.3.3. Результаты конформационного поиска для тиотидина и ICI127032 (изображены наложенные друг на друга конформеры с минимальной энергией). Локальные минимумы для конформационных семейств обозначены крестиками, соответствующими центрам концевой цианогуанидиновой группировки тиотидина и ICI127032 (зеленого и красного цвета соответственно). Расчет проводился с помощью программ SYBYL 6.1 [16] и IXGROS [17]

Глава 2. Малые молекулы

47

мым центром связывания рецептора по аналогичному механизму. Как правило, для нахождения биоактивной конформации подвижной молекулы требуются похожие по активности, но более жесткие родственные структуры. В случае антагонистов H2 таким сходным соединением оказалось ICI127032. После отбора немногочисленных низкоэнергетических конформаций этой жесткой матрицы и дальнейшего использования IXGROS были отобраны всего восемь конформационных семейств. Они были успешно использованы для выявления биологически активной конформации тиотидина (рис. 2.3.3). Очень полезно использовать конформационно жесткие молекулы при конформационном поиске для родственных, но более подвижных структур: структурно жесткие биологически активные соединения служатматрицей для более гибких. Маршалл [7] расширил этот подход, включив в исследования также жесткие неактивные структуры. При этом конформационное пространство можно сузить еще сильнее, и таким образом на один или несколько порядков сократить время, которое требуется для полного поиска. Этот подход получил название метода активного аналога.

2.3.2. Конформационный анализ методом МонтеКарло Совершенно другой подход к исследованию конформационного пространства реализуется в методе Монте-Карло, также именуемого «методом случайного поиска». Этот метод имеет стохастическую природу [20]: на каждом шаге поиска рассматриваемая конформация изменяется случайным образом, превращаясь в другую. Случайный поиск начинается с оптимизированной структуры. На каждом шаге итерационной процедуры молекуле случайным образом присваиваются новые значения торсионных углов [11] или декартовых координат [8, 9]. Получившаяся конформация минимизируется, и итерация повторяется вновь. Минимизированная конформация сравнивается с предыдущими и отбирается лишь в том случае, если она уникальна. Теоретически случайный процесс покрывает все конформационное пространство, но в действительности это происходит после весьма длительных вычислений, поскольку вероятность обнаружить новую конформацию резко падает с ростом числа обнаруженных конформеров. Кроме того, даже при очень длительном расчете невозможно гарантировать полноту исследования конформационного пространства, поэтому очень важно иметь способ проверки полноты анализа. Эффективным может оказаться запуск в параллельном режиме нескольких расчетных задач с различными начальными конформациями. Если результаты одинаковы или очень близки, тогда можно предположить, что поиск был исчерпывающим. Другая мера оценки полноты исследования основана на частоте возвращения к любой из низкоэнергетических конформаций, поскольку случайный процесс такого рода обязан многократно воспроизводить это возвращение. Главным преимуществом метода случайного поиска является принципиальная возможность исследовать молекулы любого размера. На

48

Молекулярное моделирование

практике в исследованиях высокоподвижных молекул часто отсутствует сходимость результатов из-за очень большого объема соответствующего конформационного пространства. Метод Монте-Карло успешно применяется для исследования молекул, содержащих циклы, поскольку циклические системы в общем случае трудно исследовать с помощью систематического поиска. Эффективность методов случайного поиска была показана на следующем примере. Молекулу циклогептадекана изучали с использованием нескольких методов, включая и методы случайного поиска [12]. Сопоставление результатов позволило выявить 262 различные конформации с минимальной энергией. Ни один из использованных методов не позволил выявить все конформеры, однако один из вариантов случайного поиска оказался способен обнаружить 260 из них. Таким образом, можно с уверенностью сказать, что методы случайного поиска могут быть крайне полезными для анализа конформационного поведения, хотя могут при этом потребовать значительного расчетного времени для обеспечения полноты покрытия конформационного пространства. Другой метод нахождения выборки конформаций, широко применяющийся в сложных задачах конформационного поиска, называется методом полюсов [21]. Изменения конформации организуются посредством добавления к стандартному молекулярно-механическому силовому полю так называемой «функции полюсов», которая изменяет поверхность потенциальной энергии так, чтобы «штрафовать» участки конформационного пространства вблизи конформеров («полюсов»), обнаруженных на предыдущих этапах. Как следствие, такой метод увеличивает разнообразие конформаций и избавляет от избыточных в пределах, которые определяются самой функцией. Метод полюсов реализован в программе CATALYST [22], он может быть использован для поиска в больших молекулярных базах данных.

2.3.3. Конформационный анализ методами молекулярной динамики Систематический конформационный поиск является важным методом обнаружения большого количества минимумов на поверхности потенциальной энергии гибкой молекулы. В принципе можно провести построение всех разрешенных конформаций и с высокой вероятностью достигнуть полноты конформационного поиска, однако область применимости такого метода имеет очевидные ограничения. Задача для множества минимумов может быть решена только в случае достаточно небольших молекул с ограниченным числом свободно вращающихся связей. Как упоминалось в разд. 2.3.1, систематический конформационный поиск для молекулы с шестью вращающимися связями сопряжен с большими трудностями в обработке данных из-за слишком большого числа конформеров. В связи с этим изучение подвижных молекул, например арахидоновой кислоты (рис. 2.3.4), которая содержит 15 враща-

Глава 2. Малые молекулы

Рис. 2.3.4.

49

Одна из разрешенных по энергии конформаций арахидоновой

кислоты

ющихся связей, становится практически невозможным. Даже после применения нескольких методов уменьшения массива конформационных данных систематический поиск дает для нее почти 500 000 различных конформеров. Программа автоматически останавливается из-за переполнения массива данных, не успев закончить перебор полного конформационного пространства. Метод случайного поиска для данной молекулы также оказывается неэффективным, поскольку требует слишком много времени для выполнения расчета. Кроме того, немалые сложности возникают при систематическом конформационном поиске для насыщенных или частично ненасыщенных циклических систем. Для нахождения некоторых конформаций требуется разрывать отдельные химические связи. Эффективность и надежность подобной процедуры рассмотрена в обзорах [13, 14]. Обычным путем преодоления вышеупомянутых трудностей является использование методов молекулярной динамики для исследования конформационного пространства. Цель молекулярной динамики — воспроизвести движение молекулы во времени. В основе молекулярной динамики лежит молекулярная механика. Предполагается, что атомы в молекуле взаимодействуют между собой в соответствии с типом используемого в данном случае силового поля, как описано в разд. 2.2.1. В процессе моделирования через равные промежутки времени t находят решение классического уравнения движения (второй закон Ньютона): Fi (t) = mi × ai (t),

(1)

гдe Fi(t) — сила, действующая на i-ый атом в момент времени t; mi — масса i-го атома; ai(t) — ускорение i-го атома в момент времени t. Для расчета силы, действующей на атом, используется градиент потенциальной энергии, а начальные скорости присваиваются атомам случайным образом. Исходя из начальных координат атомов в системе рассчитываются новые положения атомов и их скорости для момента времени t, а затем атомы перемещаются в новые положения. В результате этих перемещений образуется новая конформация. Далее этот цикл повторяется во времени для некоторого предварительно заданного чис-

50

Молекулярное моделирование

ла шагов. Совокупность энергетически доступных конформаций, появляющихся в результате данного расчетного процесса, называется ансамблем. Уравнения движения Ньютона (1) применяются во всех методах молекулярной динамики; методы различаются используемыми алгоритмами интегрирования. Наиболее распространенными методами интегрирования уравнений движения являются алгоритм Верле [23], а также его относительно простые модификации: алгоритмы Бимана [24] и схема «прыжок лягушки» (leapfrog) [25]. В данной книге углубленное обсуждение теории молекулярной динамики вряд ли возможно, однако заинтересованному читателю можно предложить более подробные обзоры [26–29]. Перед тем как использовать молекулярную динамику в целях конформационного поиска, необходимо обратить внимание на некоторые особенности данного подхода. В отличие от консервативных процедур оптимизации геометрии, молекулярная динамика позволяет преодолевать энергетические барьеры, разделяющие различные конформации. Таким образом можно найти на потенциальной поверхности не только ближайшие локальные минимумы. Однако, если энергетический барьер высок или число степеней свободы молекулы очень велико, то весьма возможно, что для исследуемой системы не будут найдены некоторые конформеры из числа существующих. Учитывая большую размерность конформационного пространства, оказывается трудным обеспечить полноту конформационного поиска за фиксированный отрезок времени. Для наращивания числа конформаций, отобранных в процессе моделирования молекулярной динамики, обычно применяется повышение температуры модельного вещества [29]. При высокой температуре возрастают шансы достичь полноты поиска, поскольку молекулы становятся способными преодолевать даже высокие энергетические барьеры, разделяющие некоторые конформации. Можно самостоятельно убедиться в том, что оптимальный выбор температуры и времени моделирования сильно завиcит от исследуемой молекулы. Для иллюстрации мы изложим подробное исследование зависимости конформационной подвижности молекулы от температуры моделирования. Данные были предоставлены Ф. С. Йоргенсеном (Датская королевская школа фармакологии, Копенгаген, Дания). Моделирование молекулярной динамики проводилось для хорошо изученной экспериментально молекулы циклогексана при использовании различных начальных температур и стартовых конформаций1 (рис. 2.3.5). Конформация «твист» циклогексана (T1 = 0°), использованная в качестве начального приближения, переходит при 400 К лишь в ближай1

Программа SYBYL (версия 6.0.3) от Tripos Associates Inc., St. Louis, USA. Минимизация энергии: силовое поле Tripos, частичные атомные заряды PM3, диэлектрическая проницаемость 20 D, порог сходимости 0,005 ккал/(моль·C). Молекулярная динамика: 1000 пс при различных температурах с сохранением полной энергии. Запись одной конформации за пикосекунду.

Глава 2. Малые молекулы

51

Рис. 2.3.5. Изменение торсион-

ного угла T1 (T1 = C1 – C2 – C3 – C4) в циклогексане. При температуре 400 К происходит переход между двумя конформациями «твист», что выражается в значительной флуктуации значения торсионного угла. Повышение температуры до 600 К приводит к образованию одной из более стабильных конформаций «кресло». Моделирование динамики при 1000 К показывает наличие «кресла» при одновременном наличии и конформации «твист», и конформации «ванны»

шие «твист»-формы, тогда как при 600 К молекуле хватает кинетической энергии для превращения в одну из конформаций «кресло» (T1 = 300°). Дальнейшее увеличение температуры до 1000 К приводит к образованию «кресла» из «твиста» (T1 = 300° ® 60°), при этом также наблюдаются конформационные переходы типа «кресло»—«кресло». Через 800 пс существует только одна из форм «кресла» (T1 = 60°). Второе исследование посвящено динамике трех ди- и тетраметилзамещенных циклогексанов (1,1-диметил-, 1,1,3,3- и 1,1,4,4-тетраметил-

52

Молекулярное моделирование

циклогексанов) при различных температурах. Наблюдаемые при определенной температуре превращения типа «кресло»—«кресло» сравнивали с экспериментально определяемой энергией барьера инверсии циклогексанового кольца [30] (табл. 2.3.1). В итоге сравнения можно заключить, что моделирование средствами молекулярной динамики позволяет качественно оценить относительные величины барьеров инверсии кольца, определяемых экспериментально. Этот пример высокотемпературной молекулярной динамики ясно показывает важность проверки, достаточна ли текущая температура моделирования для того, чтобы предотвратить «запирание» системы в отдельно взятой области конформационного пространства. В методе молекулярной динамики при поиске конформаций их обычно отбирают через фиксированный интервал времени и минимизируют по алгоритму локальной оптимизации. Такая процедура использовалась в ряде конформационных исследований для небольших молекул, содержащих полициклическую систему [14, 31]. Ярким примером в данном случае может служить конформационный анализ полигидроксильного аналога сесквитерпеноидного лактона тарпсигаргина (рис. 2.3.6), также выполненный в лаборатории Ф. С. Йоргенсена. C целью исследования конформационного поведения циклической системы данной молекулы было проведено моделирование молекулярной динамики при температуре 1200 К1. Семичленный цикл в процессе моделирования принимал несколько различных конформаций, кроме того, происходили разнообразные изменения формы цикла, что ясно показало значительное покрытие конформационного пространства.

Таблица 2.3.1. Существование двух возможных конформаций «кресло»

для трех метилзамещенных циклогексанов при разных температурах моделирования в сравнении с экспериментально полученными величинами барьеров инверсии цикла

1

600 К

800 К

1000 К

1200 К

DG (ккал/моль)

кресло

кресло+ кресло¢

кресло+ кресло¢

кресло+ кресло¢

9,6

кресло

кресло

кресло+ кресло¢

кресло+ кресло¢

10,6

кресло

кресло

кресло

кресло+ кресло¢

11,7

Программа SYBYL (версия 6.5) от Tripos Associates Inc., St. Louis, USA. Минимизация энергии: силовое поле Tripos, частичные атомные заряды PM3, диэлектрическая проницаемость 20 D, порог сходимости 0,005 ккал/(моль·C). Молекулярная динамика: 1000 пс при 1200 К с сохранением полной энергии. Запись одной конформации за пикосекунду. — Прим. автора.

Глава 2. Малые молекулы

53

Рис. 2.3.6. Структурная формула

полигидроксильного аналога тарпсигаргина

Каждая полученная конформация была затем оптимизирована путем минимизации энергии. Конформеры сравнивались только по конформации семичленного цикла, конформации со среднеквадратичным отклонением менее 0,1 C рассматривались как тождественные. В итоге были получены пять различных конформеров. Спектр ЯМР тарпсигаргина [32] соответствовал одной из теоретически найденных конформаций трициклической системы, которая показана на рис. 2.3.7. В некоторых случаях для нахождения конформации с минимальной энергией недостаточно просто минимизировать все структуры выборки. Задача высокотемпературного моделирования молекулярной динамики — снабдить молекулу достаточным количеством кинетической энергии для преодоления барьеров между конформациями. Однако в процессе моделирования молекулярная структура может быть искажена настолько, что для ее релаксации будет недостаточно простой процедуры минимизации.

Рис. 2.3.7. Одна из найденных теоретически конформаций полигидроксильного аналога тарпсигаргина. Конформация цикла согласуется с данными ЯМР

54

Молекулярное моделирование

В подобном случае рекомендуется проводить молекулярно-динамическое моделирование методом отжига (annealing) [33]. Согласно такому подходу, все конформации выборки после высокотемпературного молекулярно-динамического эксперимента сначала оптимизируются, затем для них проводят моделирование динамики при более низкой температуре, например 300 К, чтобы снять внутренние напряжения в молекуле. В конце низкотемпературного этапа проводится оптимизация, результаты которой — конформации, имеющие более низкую энергию по сравнению с высокотемпературными конформациями; в дальнейшем ансамбль конформаций окончательно оптимизируется до достижения локального минимума. Метод моделирования отжига представляет собой модификацию метода отжига (simulated annealing). В этом варианте система ступенчато охлаждается через постоянные интервалы времени путем постепенного понижения температуры моделирования. Когда температура приближается к абсолютному нулю, молекула оказывается «запертой» вблизи одной из конформаций с минимальной энергией. Эта структура записывается по окончании цикла отжига и в дальнейшем служит исходной для нового этапа высокотемпературного моделирования. Для получения ряда конформаций с минимальной энергией этот цикл необходимо неоднократно повторить. Поскольку конечная структура уже близка к потенциальному минимуму, нет необходимости в ее дальнейшей минимизации. Метод и его приложения были рассмотрены в работах [35, 36]; там же можно почерпнуть дополнительную информацию по данному вопросу.

2.3.4. Какой метод выбрать? При таком разнообразии доступных методов исследования конформационного пространства порой бывает трудно принять правильное решение. Каждый метод имеет свои сильные и слабые стороны. Систематический поиск подвержен «комбинаторному взрыву» числа конформаций и не может применяться к исследованию циклических молекул. Методы случайного поиска требуют долгого времени для подтверждения полноты покрытия конформационного пространства. В дополнение к этому, из результатов необходимо удалять повторы конформаций. Проверка адекватности методов конформационного поиска чаще всего проводится путем сравнения со стандартными тестовыми наборами. В одном подходе сравниваются и число конформеров, и их энергии. Альтернативой является сравнение сгенерированных конформаций с экспериментально определенными структурами из Кембриджской базы кристаллографических данных (CCDB). В работе [38] сообщается, что программа CORINA, написанная для преобразования структурных формул в пространственные структуры, для массива данных из 639 молекул правильно воспроизвела конформацию более чем в половине случаев. В настоящее время, когда в Банке данных белковых молекул (PDB) [39] быстро возрастает число структур высокого разрешения для комплексов белков и лигандов, появляется новый подход к тестированию

Глава 2. Малые молекулы

55

процедур конформационного поиска. Стало возможным проверить, содержится ли биологически активная конформация в конформационных ансамблях, построенных разными методами. Не так давно программы-генераторы конформеров были исследованы с целью показать, насколько точно генерированные ими конформации соответствуют минимальной энергии. Однако некоторые исследователи подвергают сомнению предположение, что биологически активная конформация должна быть вблизи глобального минимума энергии [40–47]. Энергетический уровень связанных с белком конформеров часто бывает значительно выше глобального минимума. В структурах лиганд-белковых комплексов, получаемых путем рентгеноструктурного анализа монокристалла, обе молекулы испытывают некоторые конформационные затруднения; в итоге структура связанного лиганда отличается от той, что наблюдается для него в кристаллах чистого вещества. Бострем и др. провели сравнение различных методов построения конформационных выборок на тестовом множестве лиганд-белковых комплексов из PDB [41, 42]. Авторы исследовали, до какой степени результаты, полученные с помощью некоторых программ конформационного поиска, близки к экспериментальным. Методы систематического и случайного конформационного поиска были применены к 32 структурам лигандов, для которых известны структуры комплексов с белками. Согласно этому исследованию, заметно лучше других проявил себя низкомодовый конформационный поиск (low-mode conformational search), реализованный в программе MacroModel [48]. И при введении модели растворителя, и при пренебрежении атомными зарядами уменьшение роли электростатических взаимодействий способствует успешному поиску биоактивной конформации. Во всех методах возникли затруднения при обработке структур, содержащих восемь и более связей, вокруг которых возможно внутримолекулярное вращение. Результаты свидетельствуют о том, что ряд молекул лигандов в минимальной по энергии конформации не в состоянии взаимодействовать с белком. Недавно было опубликовано еще более общее исследование [49], в ходе которого сравнивали способность различных конформационных генераторов воспроизводить биоактивные конформации. Алгоритм конформационного разделения, реализованный в программе Catalyst [22], сравнивался с конформационным генератором Omega 2.0 компании OpenEye. Исследование основывалось на обширной (778 структур) библиотеке молекул лекарств и фармакологически значимых веществ, извлеченной из PDB. Были опробованы два протокола для двух вариантов генерации конформеров: 1) высокопроизводительный (для обработки больших баз данных) и 2) высококачественный (для исследования центров связывания и улучшения описания ведущей структуры). Исследование показало, что качество конформационных моделей всегда диктуется компромиссом между плотностью покрытия конформационного пространства и сложностью вычислений по используемому алгоритму. С увеличением размера и подвижности исследуемой молекулы необходимо увеличить размер ансамбля для эквивалентного качества

56

Молекулярное моделирование

представления молекулы. В программе CATALYST более чем для 80% исследованных случаев совмещение конформера с минимальной энергией и биоактивного конформера давало среднеквадратичное отклонение менее 1,50 C, а в 93% — менее 2,0 C. В итоге Omega и CATALYST дали очень хорошие результаты при построении конформационных моделей. Программа Omega показала себя лучше в качестве генератора высококачественных моделей, а CATALYST — для высокопроизводительной генерации. В заключение можно сказать, что существует много методов исследования конформационного пространства и поиска конформаций. Пользователю следует тщательно подбирать подходящие методы и условия моделирования, чтобы гарантировать полноту охвата конформационного пространства и адекватность результатов. Не следует забывать, что каждый из подходов имеет сильные и слабые стороны, так что всегда, когда это возможно, следует сверять результаты с имеющимися экспериментальными данными.

Цитированная литература 1. Scheraga, H. A. (1971) Theoretical and experimental studies of conformations of polypeptides. Chemical Reviews, 71, 195–217.

2. Rademacher, P. (1987) In Strukturen Organischer Molekule (ed. M. Klessinger), VCH Publishers, Weinheim, New York, p. 139.

3. Ghose, A. K., Crippen, G. M., Revankar, G. R. et al. (1989) Analysis of the in vitro antiviral activity of certain ribonucleosides against para-influenza virus using a novel computer-aided receptor modeling procedure. Journal of Medicinal Chemistry, 32, 746–56.

4. Jorgensen, W. L. (1991) Rusting of the lock and key model for protein-ligand binding. Science, 254, 954–55.

5. Howard, A. E. and Kollman, P. A. (1988) An analysis of current methodologies for conformational searching of complex molecules. Journal of Medicinal Chemistry, 31, 1669–75.

6. Smellie, A., Kahn, S. D., and Teig, S. L. (1995) Analysis of conformational coverage. 1. Validation and estimation of coverage. Journal of Chemical Information and Computer Sciences, 35, 285-94.

7. Dammkoehler, R. A., Karasek, S. F., Shands, E. F. B., and Marshall, G. R. (1989) Constrained search of conformational hyperspace. Journal of Computer-Aided Molecular Design, 3, 3–21.

8. Saunders, M. (1987) Stochastic exploration of molecular mechanics energy surfaces — hunting for the global minimum. Journal of the American Chemical Society, 109, 3150–52.

9. Saunders, M. (1989) Stochastic search for the conformations of bicyclic hydrocarbons. Journal of Computational Chemistry, 10, 203–8.

10. Ferguson, D. M. and Raber, D. J. (1989) A new approach to probing conformational space with molecular mechanics — random incremental pulse search. Journal of the American Chemical Society, 111, 4371–78.

Глава 2. Малые молекулы

57

11. Chang, G., Guida, W. C., and Still, W. C. (1989) An internal coordinate MonteCarlo method for searching conformational space. Journal of the American Chemical Society, 111, 4379–86.

12. Saunders, M., Houk, K. N., Wu, Y.-D. et al. (1990) Conformations of cycloheptadecane — a comparison of methods for conformational searching. Journal of the American Chemical Society, 112, 1419–27.

13. Ghose, A. K., Jaeger, E. P., Kowalczyk, P. J. et al. (1993) Conformational searching methods for small molecules. 1. Study of the Sibyl search method. Journal of Computational Chemistry, 14, 1050–65.

14. Bohm, H.-J., Klebe, G., Lorenz, T. et al. (1990) Different approaches to conformational analysis — a comparison of completeness, efficiency, and reliability based on the study of a 9-membered lactam. Journal of Computational Chemistry, 11, 1021–28.

15. Taylor, R., Mullier, G. W., and Sexton, G. J. (1992) Automation of conformational analysis and other molecular modeling calculations. Journal of Molecular Graphics, 10, 152–60.

16. SYBYL Theory Manual, Tripos Associates, St. Louis, http://www.tripos.com. 17. Sippl, W. (1997) Theoretische Untersuchungen zum Bindungsverhalten von Histamine H2- and H3-Rezeptor Liganden, Ph. D. Thesis, Heinrich-Heine-University, Duesseldorf, Germany.

18. Shenkin, P. S. and McDonald, D. Q. (1994) Cluster analysis of molecular conformations. Journal of Computational Chemistry, 15, 899–916.

19. Holtje, H.-D. and Batzenschlager, A. (1990) Conformational analyses on histamine H2 receptor antagonists. Journal of Computer-Aided Molecular Design, 4, 391–402.

20. Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N. et al. (1953) Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21, 1087–92.

21. Smellie, A., Kahn, S. D., and Teig, S. L. (1995) Analysis of conformational coverage. 2. Applications of conformational models. Journal of Chemical Information and Computer Sciences, 35, 295–304.

22. Catalyst, Accelrys Inc., San Diego, http://www.accelrys.com. 23. Verlet, L. (1967) Computer experiments on classical fluids. 1. Thermodynamical properties of Lennard-Jones molecules. Physical Review, 159, 98–103.

24. Beeman, D. (1976) Some multistep methods for use in molecular dynamics calculations. Journal of Computational Physics, 20, 130–39.

25. Hochney, R. W. and Eastwood, J. W. (1981) Computer Simulation Using Particels, McGraw-Hill, New York.

26. van Gunsteren, W. F. and Berendsen, H. J. C. (1990) Molekhldynamik-Computersimulationen: Methodik, Anwendungen und Perspectiven in der Chemie. Angewandte Chemie, 102, 1020–55.

27. Lybrand, T. P. (1990) Computer simulation of biomolecular systems using molecular dynamics and free energy perturbation methods, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 1, pp. 295–320.

58

Молекулярное моделирование

28. Karplus, M. and Kuriyan, J. (2005) Molecular dynamics and protein function. Proceedings of the National Academy of Sciences of the United States of America, 102, 6679–85.

29. Leach, R. A. (1991) A survey of methods for searching the conformational space of small and medium-sized molecules, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 2, pp. 1–47.

30. Friedolin, H., Schmid,H. G., Kabu8 S., and Fai8t, W. (1969) Konformative Beweglichkeit Flexibler Ringsysteme-XI Untersuchungen mit Hilfe der Protonenresonanzspektroskopie Ringinversion bei Methyl- und Alkoxylcyclohexanen. Organic Magnetic Resonance, 1, 147–62.

31. Kawai, T., Tomioka, N., Ichinose, T. et al. (1994) High-temperature simulation of dynamics of cyclohexane. Chеmical & Pharmaceutical Bulletin, 42, 1315–21.

32. Christensen, S. B. and Schaumburg, K. (1983) Stereochemistry and C-13 nuclear magnetic resonance spectroscopy of the histamine-liberating sesquiterpene lactone thapsigargin — a modification of Horeau method. The Journal of Organic Chemistry, 48, 396–99.

33. Auffinger, P. and Wipff, G. (1990) High-temperature annealed molecular dynamics simulations as a tool for conformational sampling — application to the bicyclic-222 cryptand. Journal of Computational Chemistry, 11, 19–31.

34. Kirkpatrick, S., Gelatt, C. D., and Vecchi, M. P. (1983) Optimization by simulated annealing. Science, 220, 671–80.

35. Salvino, J. M., Seoane, P. R., and Dulle, R. E. (1993) Conformational analysis of bradykinin by annealed molecular dynamics and comparison to MMR-derived conformations. Journal of Computational Chemistry, 14, 438–44.

36. Laughton, C. A. (1994) A study of simulated annealing protocols for use with mo-

lecular dynamics in protein structure prediction. Protein Engineering, 7, 235–41.

37. Olga Kennard, F. R. S., Cambridge Structural Database, Cambridge Crystallographic Data Centre, http://www.ccdc.cam.ac.uk.

38. Sadowski, J., Gasteiger, J., and Klebe, G. (1994) Comparison of automatic threedimensiional model builders using 639 X-ray structures. Journal of Chemical Informatiion and Computer Sciences, 34, 1000–8.

39. Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., et al. (1977) Protein data bank — computer-based archival file for macromolecular structures. Journal of Molecular Biology, 112, 535–42.

40. Bostrom, J. (2001) Reproducing the conformations of protein-bound ligands: a critical evaluation of several popular conformational searching tools. Journal of Computer-Aided Molecular Design, 15, 1137–52.

41. Bostrom, J., Greenwood, J. R., and Gottfries, J. (2003) Assessing the performance of OMEGA with respect to retrieving bioactive conformations. Journal of Molecular Graphics & Modelling, 21, 449–62.

42. Vieth, M., Hirst, J. D., and Brooks, C. L. (1998) Do active site conformations of small ligands correspond to low free-energy solution structures? Journal of Computer-Aided Molecular Design, 12, 563–72.

Глава 2. Малые молекулы

59

43. Bostrom, J., Norrby, P.-O., and Liljefors, T. (1998) Conformational energy penalties of protein-bound ligands. Journal of Computer-Aided Molecular Design, 12, 383–96.

44. Kirchmair, J., Laggner, C., Wolber, G., and Langer, T. (2005) Comparative analysis of protein-bound ligand conformations with respect to catalyst's conformational space subsampling algorithms. Journal of Chemical Information and Modeling, 45, 422–30.

45. Nicklaus, M. C., Wang, S. M., Driscoll, J. S., and Milne, G. W. A. (1995) Conformational changes of small molecules binding to proteins. Bioorganic & Medicinal Chemistry, 3, 411–28.

46. Perola, E. and Charifson, P. S. (2004) Conformational analysis of drug-like molecules bound to proteins: an extensive study of ligand reorganization upon binding. Journal of Medicinal Chemistry, 47, 2499–510.

47. Sadowski, J. and Bostrom, J. (2006) MIMUMBA revisited: torsion angle rules for conformer generation derived from X-ray structures. Journal of Chemical Information and Modeling, 46, 2305–9.

48. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MacroModel — an integrated software system for modeling organic and bioorganic molecules using molecular mechanics. Journal of Computational Chemistry, 11, 440–67.

49. Kirchmair, J., Wolber, G., Laggner, C., and Langer, T. (2006) Comparative performance assessment of the conformational model generators Omega and Catalyst: a large-scale survey on the retrieval of protein-bound ligand conformations. Journal of Chemical Information and Modeling, 46, 1848–61.

50. Omega, Version 2.0, OpenEye Scientific Software, Santa Fe, http://www.eyesopen.com.

2.4. Потенциалы молекулярных взаимодействий Начальным этапом образования любого комплекса, например, комплекса между лекарственным веществом и рецептором, является акт распознавания. Рецептор должен распознать, обладает ли приближающаяся молекула свойствами, необходимыми для специфического и сильного связывания. Этот процесс происходит на довольно значительном расстоянии и предшествует образованию комплекса. Трехмерное электростатическое поле, окружающее каждую молекулу, играет решающую роль в распознавании. Другие молекулярные характеристики, такие как поляризуемость и гидрофобность, становятся значимыми, когда расстояние между взаимодействующими поверхностями уменьшается. Понятно, что молекулярные поля, определяемые путем систематических вычислений и сравнений энергий взаимодействия между изучаемыми молекулами и различными химическими зондами (пробными частицами), имеют большое значение для понимания межмолекулярных взаимодействий в интересующем нас молекулярном ансамбле любой сложности. В последующих разделах дается описание и оценка методов расчета и анализа этих молекулярных свойств.

60

Молекулярное моделирование

2.4.1. Молекулярный электростатический потенциал Информация о молекулярном электростатическом потенциале (МЭП) оказывается критически важной для изучения взаимодействий молекул и химических реакций. При сближении молекул сначала контакт между ними достигается благодаря дальнодействующим электростатическим силам. Эти силы можно разделить на три типа: собственно электростатические, индуктивные и дисперсионные. Первый тип взаимодействия возникает между полярными молекулами, обладающими зарядом или постоянным дипольным моментом. Второй тип обнаруживается при взаимодействии полярной и неполярной молекул. В этом случае диполь полярной молекулы порождает электрическое поле, которое изменяет распределение электронной плотности в неполярной молекуле, индуцируя таким образом дипольный момент. Наконец, в третьем случае, если обе молекулы неполярны и гидрофобны, то непрерывные флуктуации электронного распределения в одной молекуле могут индуцировать мгновенный дипольный момент в соседней молекуле. Этот тип взаимодействия называется дисперсионным. Дисперсионные силы слабы и резко уменьшаются с увеличением расстояния между взаимодействующими молекулами (см. разд. 2.2.1). Тем не менее именно они определяют взаимодействие между нейтральными неполярными молекулами. Дисперсионные силы также называют лондоновскими или ван-дер-ваальсовыми силами. Электростатическое взаимодействие может приводить как к притяжению, так и к отталкиванию, так что электроположительная часть приближающейся молекулы будет стремиться сблизиться с электроотрицательной областью другой, в то время как одинаково заряженные части будут отталкивать друг друга. Очевидно, что нековалентное взаимодействие особенно велико между заряженными фрагментами молекул. Присутствие в молекуле зарядов и постоянных дипольных моментов порождает в окружающей среде трехмерное электростатическое поле. Поэтому на небольших расстояниях от полярных или даже нейтральных молекул всегда существует значительный МЭП. Этот электростатический потенциал (ЭСП) может быть определен как энергия взаимодействия между электронным облаком в молекуле и положительным точечным зарядом, который располагается в узлах трехмерной решетки, окружающей молекулу. Для расчета МЭП необходимо знание точных электронных характеристик молекулы. Поэтому в следующих разделах нам придется иметь дело с методами расчета плотности заряда в молекулах. 2.4.1.1. Методы расчета частичных атомных зарядов

Электронные свойства молекулы определяются распределением электронной плотности вокруг положительно заряженных ядер. Подробная информация о молекулярной электронной плотности может быть получена как экспериментально, например, методом дифракции рентгеновских лучей, так и путем расчета с использованием различных квантово-механических методов. Однако результатом расчета может являться

Глава 2. Малые молекулы

61

лишь пространственная плотность вероятности нахождения электрона. Для вычисления энергии взаимодействия чаще всего требуется знать величины точечных зарядов, расположенных в центре атома. Безусловно, это является крайним упрощением картины распределения электронной плотности в молекуле. Подобное преобразование достигается путем преобразования пространственной функции распределения электронной плотности в совокупность дискретных величин — частичных или точечных зарядов. Это может быть сделано путем «конденсации» всей распределенной в пространстве электронной плотности атома в одну точку — в место расположения атомного ядра, и именно благодаря этому появилось представление молекулы как системы точечных атомов, несущих определенные заряды. Введение таких эмпирических атомных зарядов несколько произвольно, поскольку распределение электронов в молекуле приписывается отдельным атомным центрам, иначе говоря, молекулярная характеристика описывается как совокупность атомных свойств. Частичные заряды нельзя определить экспериментально, поэтому метод приписывания таких зарядов уместен и научно обоснован только в тех случаях, когда он используется для корреляций или предсказания физико-химических свойств молекул. Как указывалось ранее, электростатическая составляющая полной энергии межмолекулярного взаимодействия очень велика, поэтому большинство широко используемых программ молекулярной механики включают соответствующий энергетический вклад, зависящий от частичных атомных зарядов. Применение эмпирических методов делает возможным быстрый расчет электростатической энергии даже для макромолекул, состоящих из сотен атомов. Для этих целей разработаны различные методики расчета частичных атомных зарядов, обзор которых дан в работе [1]. Следует различать два методологически различных подхода:

1. к первому относятся топологические методы [2–6]1, такие как метод Гастайгера—Хюккеля [2];

2. ко второму — способы вычисления атомных зарядов квантово-химических волновых функций, такие как анализ заселенностей [7] или извлечение зарядов из рассчитанного электростатического потенциала [8–11]. Топологические методы

Топологические методы основаны на понятии электроотрицательности. Распределение атомных зарядов по непосредственно связанным атомам осуществляется по определенным правилам с использованием электроотрицательностей атомов и экспериментальных структурных данных о связях, соединяющих эти атомы. В топологических методах 1

Значительный прогресс в разработке топологических методов для молекулярного моделирования достигнут российскими учеными под руководством академика РАН Н. С. Зефирова. См. дополнительную литературу (с. 80).

62

Молекулярное моделирование

такого рода не нужно знание геометрии или конформационного состояния молекулы: расчет ведется исходя из матрицы связности атомов. Метод Дель Ре [3], первоначально разработанный для насыщенных молекул, был в дальнейшем усилиями Пюльман и др. распространен на сопряженные системы [4]. Оба эти метода до сих пор используются в некоторых программах для моделирования. Предложенный позднее метод, дающий результаты, более близкие к экспериментальным, — это метод Гастайгера—Хюккеля. Он является комбинацией метода Гастайгера— Марсили [2] для расчета s-компоненты атомного заряда и хорошо известной теории Хюккеля для сопряженных систем [12]. Теория Хюккеля позволяет быстро и эффективно вычислять p-компоненту атомного заряда; полный заряд получается как сумма s- и p-компонент. Формальные заряды на атомах, входящих в p-систему, считаются делокализованными по всей p-системе. Поэтому сначала рассчитываются заряды по Хюккелю, а затем — по Гастайгеру. Основным преимуществом топологических методов является быстрота расчета и хорошее соответствие с экспериментально наблюдаемыми свойствами во многих случаях. Однако этим результатам можно доверять, только если метод протестирован для изучаемой группы молекул. Часто такими процедурами валидации пренебрегают, что полностью обесценивает подобное исследование. Топологические методы часто включаются в коммерческие программные пакеты как стандартные инструменты расчета зарядов. Квантовохимические методы

В зависимости от требуемой точности и доступных вычислительных ресурсов волновая функция может быть получена либо полуэмпирическими методами, либо «из первых принципов» (first-principles calculations). Зарядовые плотности могут быть выведены из волновых функций с использованием различных процедур. Наиболее часто используемым подходом является анализ заселенностей по Малликену1 [7], который включен как стандартный метод в различные квантово-механические программы [13–15]. Анализ заселенностей распределяет электронную плотность, получаемую из волновой функции, по отдельным атомам на основе величин занятости соответствующих атомных орбиталей. Несмотря на широкую применимость, в литературе уже давно признано, что успех метода Малликена сильно зависит от используемого базиса. В работах [16, 17] отмечается, что метод часто дает результаты, не соответствующие экспериментальным данным (также см. табл. 2.4.1). Улучшенным методом, в котором отсутствует большинство проблем, возникающих в методе Малликена, является анализ натуральных заселенностей [18], но он эффективен только при использовании неэмпирических волновых функций. 1

Роберт Малликен (1896–1986) — выдающийся американский физикохимик, один из создателей метода молекулярных орбиталей, лауреат Нобелевской премии по химии 1966 г. В 1983 г. награжден медалью Пристли — высшей наградой Американского химического общества.

0,66

0,735

1,470

Фуран

Метилсилан

Аммиак

Диметиловый 1,31 эфир

1,61±0,03 1,466

Тиазол

1,764

0,593



0,599

3,118

3,8±0,4

Имидазол

Гастайгер— Хюккель

Эксперимент (газ)

Вещество Мал- ESP ликен

SCF

Мал- ESP ликен

SCF

3-21G* Мал- ESP ликен

SCF

Мал- ESP ликен

6-31G**





0,702 1,572 0,238 0,672 0,027 0,658

1,429 1,052 1,473 1,254 0,854 1,3194 1,333 1,181 1,384 1,847 3,109 1,901 1,475 2,512 1,531

1,848 0,644 1,793 1,550 0,011 1,499 1,876 0,902 1,869 1,752 1,189 1,869 1,839 1,384 1,867

0,374 0,276 0,331 0,432 0,175 0,402 —

0,493 0,354 0,484 0,216 0,066 0,234 0,532 0,675 0,498 1,101 2,222 3,936 0,772 1,813 0,738

2,012 2,680 2,041 1,249 1,463 1,259 1,986 2,554 1,989 1,683 3,556 1,709 1,435 2,594 1,507

3,508 2,129 3,575 3,861 2,412 3,869 3,535 2,213 3,494 4,025 2,855 3,962 3,855 2,822 3,810

SCF

SCF

Мал- ESP ликен

PM3

AM1

STO-3G

методами: топологическим (методом Гастайгера—Хюккеля) и квантово-механическим (вычисление дипольного момента непосредственно из волновой функции (SCF), по Малликену, а также из молекулярного электростатического потенциала (ESP))

Таблица 2.4.1. Сравнение экспериментальных и теоретических значений дипольных моментов. Расчет проводился несколькими

64

Молекулярное моделирование

Другой, разработанный недавно метод, основанный на волновых функциях, вычисляет точечные заряды путем подгонки значений молекулярного электростатического потенциала (МЭП; англ. ESP fit). В рамках квантовой механики молекул электронная плотность, в отличие от системы частичных атомных зарядов, представляет собой непротиворечиво определяемую функцию [19], содержащую подробную и важную информацию о молекуле в целом, поскольку все электроны вносят свой вклад в это распределение. В эксперименте электронная плотность находится из результатов измерения дифракции рентгеновских лучей [20], однако данный метод требует значительных временных и вычислительных ресурсов, так что не может выступать в роли стандартной процедуры. Набор атомных зарядов, способных воспроизводить трехмерную электронную плотность, является хорошим способом отображения электронных свойств любой молекулы. Математический аппарат, на котором основан метод подгонки ЭСП, включает в себя подгонку атомных зарядов по методу наименьших квадратов так, чтобы они наилучшим образом воспроизводили плотность заряда, которая вычисляется квантовомеханически в узлах трехмерной решетки, окружающей молекулу. Это позволяет получить лучшие результаты [9, 11] по сравнению с анализом заселенностей по Малликену. Надежность распределения зарядов в молекуле позволяет иметь представление о реальных электронных характеристиках соответствующих атомов путем сравнения с экспериментальными данными. Одним из легко определяемых экспериментально свойств молекулы является дипольный момент. С другой стороны, дипольный момент можно легко и быстро вычислить из частичных атомных зарядов и сравнить с имеющимися экспериментальными значениями, которые приведены в справочной литературе для многих соединений (см., например, [21]). Так как дипольный момент сильно зависит от конформации молекулы, для сравнения могут быть использованы только дипольные моменты для жестких молекул. Для того чтобы определить применимость какого-либо метода расчета зарядов к серии молекул, часто проводится исследование не всей конформационно подвижной молекулы, а лишь ее небольших и жестких фрагментов. В табл. 2.4.1 приведены расчетные и экспериментальные значения дипольных моментов для представительной выборки небольших жестких структур. Их значения были получены с использованием различных методов и базисов, а также рассмотренных выше процедур. Дипольный момент можно определить квантово-механическим расчетом с использованием волновых функций (которые в табл. 2.4.1 обозначены как самосогласованные, SCF). Наиболее хорошо согласуются с экспериментальными значениями результаты, полученные для базисов, подобных 6-31G**. Выбор метода для исследования отдельной молекулярной системы зависит от нескольких факторов. С одной стороны, важное значение имеет размер молекул, с другой — при выборе метода роль сдерживающего фактора играет доступность вычислительных ресурсов.

Глава 2. Малые молекулы

65

Топологические методы превосходят квантово-химические по быстроте; кроме того, с их помощью получается приемлемая оценка физических свойств, связанных с зарядом. Дипольные моменты, полученные с помощью этих методов, обычно соответствуют экспериментальным данным отчасти вследствие того, что методы параметризованы по экспериментальным данным. Главным их недостатком следует признать независимость от геометрии и конформации молекул. Кроме того, топологические методы неспособны дать результат в случае, если молекула содержит те атомы, которые не поддерживаются параметризацией (см., например, данные для метилсилана в табл. 2.4.1 — параметры для кремния не включены в метод Гастайгера—Хюккеля). Вычисление атомных зарядов из электронной плотности — лучший метод в том случае, если результаты в дальнейшем используются для вычисления энергии взаимодействия с помощью эмпирического потенциала. Из табл. 2.4.1 видно, что при этом совсем не обязательно использовать неэмпирические расчеты с большим базисом. На относительно небольших базисах даже с помощью полуэмпирического метода AM1 получаются значения дипольных моментов, хорошо согласующиеся с экспериментальными данными. Однако качество такого расчета очень сильно зависит от способа определения частичных атомных зарядов. Результаты, основанные на распределении электронной плотности в молекуле, более реалистичны, чем те, которые получаются из анализа заселенностей по Малликену; последние для ряда приближений очень грубы и неточны (см. табл. 2.4.1). Если исследуемая структура состоит более чем из 100 атомов, точное вычисление волновой функции для молекулы в целом представляет значительную трудность. Это препятствие можно преодолеть, разделяя молекулу на перекрывающиеся фрагменты, результаты для которых можно впоследствии перенести на всю структуру при условии, что свойства фрагментов правильно отражают свойства исходной структуры. Даже если точечные заряды для целого ряда молекул рассчитаны при помощи высокоточных методов, их значения не позволяют достоверно судить о степени подобия молекул. Намного большее значение для адекватного установления подобия молекул имеет пространственное распределение заряда. Самым удачным подходом к оценке этой важной величины является использование МЭП. 2.4.1.2. Методы расчета МЭП

МЭП представляет собой энергию взаимодействия единичного точечного положительного заряда (протона) с плотностью заряда, создаваемой совокупностью ядер и электронов молекулы в любой точке пространства вблизи молекулы. На практике используют пороговое значение потенциала для ограничения числа рассчитываемых точек этой функции. В молекулярном моделировании МЭП оказывается очень полезным: он описывает электростатические особенности молекулы, так что его можно использовать для анализа и предсказания межмолекулярных взаимодействий. Для его расчета используются два различных метода.

66

Молекулярное моделирование

Очень привлекательной выглядит возможность вычислять МЭП непосредственно из волновых функций в рамках квантовой механики. Этот подход является более точным и поэтому требует большего расчетного времени. Более простым является вычисление МЭП из частичных атомных зарядов, которыми задано распределение электронной плотности молекулы. Таким образом, МЭП можно рассчитать при применении закона Кулона. Несомненно, первый метод предпочтителен, и именно им следует пользоваться, если для данной молекулы можно получить достаточно точную волновую функцию. Существует множество работ по зависимости квантового МЭП от базисного набора [22–25]; показано также, что электростатический потенциал, вычисляемый методом AM1, хорошо соответствует неэмпирическому потенциалу [22]. Таким образом, в тех случаях, когда проведение неэмпирических расчетов затруднено из-за значительного размера системы, возможно использование полуэмпирического метода AM1. Для отображения МЭП используются разнообразные процедуры. Главным препятствием для быстрого и легкого использования МЭП при сравнении различных молекул является большой объем данных, связанных с этим свойством. Широко используется визуализация МЭП в виде двумерной контурной карты изолиний на плоскости, заданной на основе геометрии молекулы. Такая карта впоследствии может быть отображена на цветном графическом мониторе, с ней можно работать в режиме реального времени. Каждая контурная линия соответствует значениям с одинаковой энергией. Области с высоким вкладом электростатического влияния ядер характеризуются положительными значениями поля, соответствующими отталкиванию точечного положительного заряда, области со значительным влиянием электронной плотности обладают отрицательным значением поля, соответствующим притяжению такого заряда. Следующим уровнем сложности является переход в отображении от плоскости (2D) к пространству (3D). Принципиальных отличий при этом не возникает: молекула полностью покрывается множеством эквипотенциальных оболочек. В каждой точке такой оболочки ЭСП имеет один и тот же знак, одну и ту же абсолютную величину. С помощью этого метода можно очень ясно представить общее расположение положительно и отрицательно заряженных областей вокруг молекулы. Двумерные карты, конечно, далеко не всегда дают полное представление МЭП, тогда как трехмерное изображение эквипотенциальных поверхностей можно качественно интерпретировать и сравнивать с его помощью различные соединения. Третий метод отображения МЭП связан с расчетом и изображением молекулярных поверхностей. Рассмотрим различные способы определения молекулярных поверхностей. В формальном представлении положения атомов представляются точками, а электронам соответствуют «электронные облака» сферической формы с центром в этих точках. Если у таких атомно-центрированных сфер радиусы равны ван-дерваальсовым для данного элемента, то их совокупность называется ван-дер-ваальсовой поверхностью или поверхностью ван дер Ваальса

Глава 2. Малые молекулы

67

для данной структуры. Такая поверхность обычно представляется как граница той области пространства, которую занимает данная молекула. Другим типом поверхностей, часто используемым в молекулярном моделировании, является поверхность, доступная для молекул растворите-

Рис. 2.4.1. Визуализация МЭП нифедипина разными методами. (а) Двумерные

изолинии потенциала в плоскости дигидропиридинового кольца. МЭП рассчитан из неэмпирической волновой функции в базисе 6-31G**; контуры проведены от –50 ккал/моль (красный) до 90 ккал/моль (синий). (б) МЭП в виде эквипотенциальной поверхности. Потенциал вычислен в приближении точечных зарядов (заряды подогнаны под неэмпирический ЭСП, рассчитанный в базисе 6-31G**). Показаны области –5 ккал/моль (синим) и 5 ккал/моль (красным). Расчет был проведен в программе SPARTAN 3.0 [14]. (в) и (г) демонстрируют электростатический потенциал нифедипина на поверхности Коннолли. Потенциал рассчитан из подогнанных под ЭСП зарядов аналогично случаю (б) и показан в виде триангулированной (в) и простой непрозрачной (г) поверхностей. Синий цвет отвечает участкам с отрицательными, красный — с положительными значениями потенциала. Расчет проведен с помощью программы MOLCAD [27]

68

Молекулярное моделирование

ля, часто называемая также поверхностью Коннолли [26]. Она определяется как поверхность, описываемая центром пробной молекулы растворителя, представленной в виде шарика, в то время как эта пробная молекула перемещается по ван-дер-ваальсовой поверхности молекулы. ЭСП на поверхности Коннолли или Ван дер Ваальса может отображаться с помощью цветового кода: различный цвет в точках поверхности соответствует различным значениям потенциала. Это позволяет одновременно отобразить форму молекулы и ее электростатические свойства. Однако при исследовании больших молекул подобное изображение может быть очень сложным. Удачным решением иногда оказывается комбинирование различных методов отображения: области, скрытые при использовании одного метода, оказываются явными в другом исполнении (см. рис. 2.4.1). МЭП в качестве электростатического индикатора реакционной способности намного более надежен, чем точечные заряды. Доказана эффективность анализа МЭП и его пространственных отображений при изучении и предсказании взаимодействия лигандов с их рецепторами. МЭП различных молекул, связывающихся с одним и тем же рецептором одним и тем же образом, должны иметь одни и те же особенности. Показано, что во многих случаях совмещение молекул, основанное на МЭП, дает приемлемое наложение, в то время как совмещение «атом-на-атом» не приводит к удовлетворительному результату (см. разд. 2.5.3). Приведем в качестве примера исследование ЭСП гистаминэргических антагонистов рецептора H2 [28]: показано, что фрагменты имидазола в составе молекулы циметидина и гуанидинтиазола в тиотидине могут быть совмещены на основе их электростатического потенциала, что хорошо видно на рис. 2.4.2.

Рис. 2.4.2. Электростатический потенциал имидазола (а) и гуанидинтиазола (б). Неэмпирический электростатический потенциал (базис 6-31G**), контуры от –50 ккал/моль (красный) до 90 ккал/моль (синий). Программа SPARTAN 3.0 [14]

Глава 2. Малые молекулы

69

2.4.2. Поля молекулярного взаимодействия Многие биологические процессы определяются невалентными взаимодействиями между структурами молекул: лиганд-рецепторное взаимодействие, реакция фермента и субстрата, сворачивание белковой структуры. В кристаллических структурах силы невалентного взаимодействия в значительной степени определяют геометрию и симметрию расположения и окружения молекул. Общей закономерностью является возникновение связывания лишь в том случае, когда выделившаяся при этом энергия компенсирует силы ван-дер-ваальсова отталкивания. Еще одним методом исследования энергетики сближения молекул является построение полей молекулярного взаимодействия. Эти поля представляют собой распределение энергии взаимодействия между целевой молекулой и химическим зондом (пробным атомом), расположенным в узлах окружающей ее пространственной решетки. Зонды моделируют химические характеристики связывающейся молекулы-партнера или ее фрагментов. Компьютерная графика позволяет отобразить поля молекулярного взаимодействия в виде контурных изоэнергетических линий в пространстве. Контуры, соответствующие положительным значениям энергии, обозначают области, откуда зонд будет выталкиваться, а контуры отрицательных значений поля соответствуют областям, в которых связывание энергетически благоприятно. Вычисление полей молекулярного взаимодействия может быть проведено с помощью ряда программ: GRID [29], MOE [30], HINT [31], ISOSTAR/SUPERSTAR [32–34]. Программа GRID является одной из наиболее широко применяемых для исследования полей молекулярного взаимодействия как для малых молекул, так и для больших белковых молекул, например ферментов. На входе она требует только декартовы координаты атомов и предлагает возможность исследования с помощью большого числа различных зондов. Энергия взаимодействия рассчитывается на регулярной решетке вокруг молекулы. Решетку, если требуется, можно ограничить отдельным фрагментом молекулы. Результаты расчета энергии помещаются в файл и могут быть проанализированы или визуализированы с помощью большинства программ молекулярного моделирования [35–38]. Изоповерхности могут быть построены для любого выбранного значения и отображаться вместе с целевой молекулой в системе машинной графики. Построение изолиний и изоповерхностей — быстрая процедура, которая позволяет пользователю интерактивно управлять процессом графического вывода. В данном разделе мы сосредоточимся на вычислении полей взаимодействия для малых молекул. Исследование соответствующих полей для макромолекул будет рассмотрено ниже (см. разд. 4.6). 2.4.2.1. Вычисление полей с помощью программы GRID

Зонды, используемые для расчета молекулярных полей, представляют собой малые молекулы, фрагменты молекул или отдельные атомы, например молекула воды, гидроксильная группа или ион кальция. Такие

70

Молекулярное моделирование

зонды моделируют химические свойства взаимодействующих молекулпартнеров: центр связывания белка-рецептора или соседнюю молекулу в кристалле. В ходе вычислений с помощью GRID зонд систематически перемещается по точкам регулярной пространственной решетки, заданной вокруг целевой молекулы. В каждой точке вычисляется полная энергия взаимодействия зонда и молекулы Etot в виде суммы трех компонент: Etot = Evdw + Eel + Ehb ,

(1)

где Evdw — энергия ван-дер-ваальсова взаимодействия; Eel — электростатическая энергия; Ehb — энергия образования водородных связей. Энергия ван-дер-ваальсова взаимодействия рассматривается как комбинация сил отталкивания и притяжения между несвязанными атомами. Атомы зонда не могут приблизиться к атомам целевой молекулы из-за межатомного отталкивания и перекрывания электронных оболочек. Силы отталкивания могут оцениваться в виде эмпирической энергетической функции, которая становится положительной и быстро возрастает, когда расстояние между атомами при сближении становится меньше суммы их ван-дер-ваальсовых радиусов. Силы притяжения в рамках дисперсионного взаимодействия возникают благодаря электронной корреляции — согласованному движению электронов в поле ядер, что приводит к возникновению и взаимодействию так называемых «индуцированных диполей». Для неполярных молекул баланс между дисперсионным притяжением и отталкиванием на малых расстояниях описывается с помощью потенциала Леннард-Джонса [38] (см. уравнение (5) в разд. 2.2); именно он используется в программе GRID. Электростатические взаимодействия в значительной степени определяют притяжение молекул лиганда и рецептора, так как являются дальнодействующими. В молекулярной механике для вычисления электростатической составляющей чаще всего используется закон Кулона (уравнение (6) в разд. 2.2). Его недостатком, очевидно, является отсутствие точного учета гетерогенности системы, состоящей из молекул с различными диэлектрическими свойствами. Разрывность свойств системы при переходе от растворителя к молекуле растворенного вещества учитывается в расширенной и обобщенной форме закона Кулона [29], которая используется в программе GRID. Свойство направленности водородных связей в подавляющем большинстве случаев определяет специфический характер межмолекулярных взаимодействий. Таким образом, для правильной оценки энергии взаимодействия крайне важно корректное описание этой составляющей сил межмолекулярного притяжения. Водородная связь может быть представлена как взаимодействие на средних расстояниях положительно заряженного атома водорода и электроотрицательного атома — акцептора водородной связи [39]. Итоговое расстояние между акцептором и донором водородной связи оказывается меньше суммы их ван-дер-ваальсовых радиусов. В отличие от других нековалентных взаимодействий — дисперсионного и электростатического — взаимодействие пу-

Глава 2. Малые молекулы

71

тем образования водородной связи обладает свойством направленности, т. е. зависит от ориентации неподеленных электронных пар атома-акцептора и их способности образовывать эту связь. Для соответствия этим требованиям программа GRID включает в себя выражение энергии водородных связей в явном виде [40]. Функциональная форма этого потенциала подбиралась для соответствия экспериментальным значениям: ее параметры основываются на классификации соответствующих кристаллографических данных (таких, как направленность, тип и энергия связи). Для зондов программы GRID определено большое число параметров, например возможность образования водородной связи, радиус ван дер Ваальса, атомный заряд. Такое подробное описание делает их достаточно специфичными для повышения реалистичности модели той или иной функциональной группы, важной для формирования активного центра в макромолекулах. Свойства и параметры трех зондов приведены в табл. 2.4.2. GRID также включает в себя таблицы параметров, описывающих каждый тип атомов, встречающийся в целевой молекуле. Они определяют для атома данного типа силу ван-дер-ваальсова и электростатического взаимодействия, возможность образования и прочность водородной связи. Тщательная параметризация и большое количество зондов сдела-

Таблица 2.4.2. Примеры параметров, необходимых для определения групп-зондов в методе GRID

Зонд

Параметр

Метил

Гидроксил

Карбоксил

Радиус ван дер Ваальса, C

1,950

1,650

1,600

Эффективное число электронов

8

7

6

Поляризуемость, C3

2,170

1,200

2,140

Электрический заряд

0

–0,100

–0,450

Энергия оптимальной водородной связи, ккал/моль

0

–3,500

–3,500

Радиус образования водородной связи



1,400

1,400

Число доноров водородной связи

0

1

0

Число акцепторов водородной связи

0

2

2

Тип водородной связи

0

4

8

72

Молекулярное моделирование

ли GRID весьма распространенным и достаточно точным методом исследования полей взаимодействия как для малых молекул, так и для макромолекулярных структур. Вычисление полей молекулярного взаимодействия выполнено в ходе ряда исследований по молекулярному моделированию [41–46]. Стратегия их использования зависит от доступной информации о лигандах и мишенях. Если известна пространственная структура макромолекулы, поля взаимодействия позволяют точно локализовать области предпочтительного связывания лигандов. В дальнейшем эти области используются в качестве отправной точки при конструировании новых лигандов для данного рецептора. Ряд успешных приложений программы GRID можно найти в работе [47]. Чаще встречается ситуация, когда отсутствует информация о структуре рецептора, а имеются лишь данные о свойствах лигандов. В этом случае поля молекулярного взаимодействия могут помочь в создании более или менее подробного представления о строении центра связывания в рецепторе. Предварительным условием в данном случае является требование, чтобы все лиганды связывались в одном и том же месте по одному и тому же механизму: только в этом случае можно ожидать одну и ту же схему связывания. Значение энергии сравниваемых контуров сильно зависит от выбранного зонда. На рис. 2.4.3 в качестве примера приведены два разных поля взаимодействия молекулы нифедипина — блокатора кальциевых каналов.

Рис. 2.4.3. Визуализация полей молекулярного взаимодействия нифедипина. (а) Области предпочтительного образования водородных связей (метод GRID с гидроксильным зондом), контурная линия –3,5 ккал/моль. (б) Области предпочтительного гидрофобного взаимодействия, найденные с помощью метильного зонда, контурная линия –1,4 ккал/моль

Глава 2. Малые молекулы

73

Поля взаимодействия отмечают участки области связывания, обладающие особыми физическими и химическими свойствами. Эти особенности можно перенести в модель области связывания полимерной мишени. Если мишень — белок, модель должна состоять из отдельных аминокислот, остатки которых расположены в областях, соответствующих типу взаимодействия. Например, поле гидрофобного взаимодействия отражает расположение гидрофобных аминокислот: фенилаланина, триптофана, валина, лейцина, изолейцина. Для установления точного типа аминокислот в каждом случае, конечно, требуются дополнительные исследования [48]. Сведения о полях взаимодействия для совокупности наложенных друг на друга молекул различных лигандов можно использовать для уточнения так называемых «моделей псевдорецептора» (разд. 2.6.3) или моделей белков, построенных по гомологии (разд. 4.3). При изучении большой выборки соединений порой трудно распознать все возможные схемы взаимодействия. Одно из возможных решений состоит в расчете общих для различных молекул областей взаимодействия для каждого типа зонда. Общие области находятся математически путем поточечного сравнения полей. Для поиска общих областей взаимодействия используется файл, содержащий структуры только соединений-хитов [49]. Применение методов хемометрики [50–53] позволяет достичь более значимых результатов количественного анализа полей молекулярного взаимодействия. Подробно этот аспект освещается в разд. 2.6. 2.4.2.2. Гидрофобные взаимодействия

Уже упоминалось, что межмолекулярное притяжение — отталкивание обусловлено различными типами взаимодействия. До сих пор мы не рассматривали так называемые «гидрофобные взаимодействия» между молекулами, которые представлены сложными процессами и управляются в наибольшей степени энтропийными факторами, изменяющими не только ориентацию молекул растворителя в сольватной оболочке вокруг молекул растворенного вещества, но и свойства растворителя в целом. Для проявления гидрофобных взаимодействий необходим тесный контакт между взаимодействующими гидрофобными поверхностями [54, 55]. Суть гидрофобного связывания состоит в следующем. Неполярная часть глубокой полости связывания в белке непосредственно не сольватирована. Расположенные поблизости молекулы воды экранируют полость и формируют структуру, подобную структуре льда, стабилизированную межмолекулярными водородными связями. Взаимодействие гидрофобных поверхностей полости связывания и входящей в нее молекулы субстрата приводит к разрушению упорядоченной льдоподобной структуры. Это разрушение увеличивает энтропию системы, что и приводит в итоге к уменьшению свободной энергии системы [55]. При этом необходимо учитывать также то, что десольватация субстрата приводит к появлению дополнительных свободных молекул растворителя. На се-

74

Молекулярное моделирование

годняшний день энтропийными эффектами в большинстве случаев пренебрегают из-за отсутствия простого метода их оценки. В то же время общепринято мнение о значительности вклада этих эффектов при взаимодействии лекарственных веществ с рецептором [57], а также при сворачивании белка [58]. Поэтому включение гидрофобных взаимодействий в энергетический баланс подобных процессов вполне закономерна. Гидрофобность может рассматриваться как эмпирическое свойство вещества, в котором скрыта термодинамическая информация о взаимодействии молекулы вещества с ее окружением. На основе экспериментальных данных известен целый ряд оценок влияния гидрофобных эффектов. Самой важной экспериментальной мерой гидрофобности соединения является коэффициент распределения P в системе вода—неполярный органический растворитель; обычно используется логарифмический параметр — logP. Поскольку коэффициент распределения Р можно определить экспериментально, он является весьма удобной характеристикой и, в частности, может быть использован для улучшения эмпирических методов [27, 58]. Оценка logP проводится путем обработки экспериментальных данных для рядов веществ в систему так называемых «гидрофобных вкладов фрагментов». Эти константы характеризуют относительную липофильность каждого отдельного структурного фрагмента молекул, входящих в обучающую выборку; общая липофильность данной молекулы в виде logP получается суммированием вкладов для входящих в ее состав фрагментов. На сегодняшний день известны значения липофильных вкладов большого числа фрагментов, входящих в молекулы разнообразных биологически важных органических соединений. Следует отметить, что logP представляет собой простейшее «одномерное» представление гидрофобности, отражая это свойство в целом, чего явно недостаточно для более подробного, детального рассмотрения взаимодействий между лигандом и макромолекулой. По этой причине предпринимались попытки использовать коэффициент распределения Р для построения пространственного представления гидрофобности молекулы. Один из подходов состоит в построении поля гидрофобности по аналогии с электростатическим полем. Он применяется в программе HINT [31], а также при использовании зонда DRY в программе GRID [29]. Модель гидрофобных взаимодействий в программе HINT основана на том, что данные о растворимости являются всего лишь еще одним физическим свойством, отражающим взаимодействие между молекулами растворителя и частицами растворенного вещества. В рамках этой теории константы гидрофобности фрагментов молекулы преобразуются к атомным вкладам в гидрофобность молекулы [59]. Эти вклады, приписываемые отдельным атомам исследуемой молекулы, являются характеристическими параметрами в теории гидрофобного взаимодействия. Поскольку эти параметры выводятся из экспериментальных величин, то включают в себя не только собственно гидрофобные взаимодействия,

Глава 2. Малые молекулы

75

но и другие типы взаимодействия, такие как электростатические и ван-дер-ваальсовы. Получающееся поле, называемое гидропатическим, содержит как гидрофобные, так и гидрофильные параметры взаимодействия. Вычисления проводятся с помощью эмпирического выражения, функциональная форма которого представлена в работе [59]. В вычислениях используются константы гидрофобности атомов, доля доступной растворителю поверхности отдельных атомов, а также расстояние, которое необходимо для точного учета зависимых гидрофобных взаимодействий в окружении биомолекулы. HINT генерирует отображения для решеток из точек в пространстве аналогично тому, как это было рассмотрено выше для подобных программ. Результатом моделирования в программе HINT является контурная карта полей гидрофобности/гидрофильности вокруг молекулы: положительные значения поля соответствуют гидрофобной области, отрицательные — гидрофильной (полярной). Из-за эмпирической природы полей трудно заранее сделать рекомендации для построения контуров и изоповерхностей. Выбранный уровень энергии определяет размер визуализируемой части поля. Для формирования изображения, сбалансированного по размеру гидрофильных и гидрофобных областей, изоповерхность гидрофильного участка рекомендуется строить для значений, в 2–5 раз больших по абсолютной величине, чем соответствующий уровень гидрофобности [60]. Гидрофильные и гидрофобные участки поля молекулы уже упоминавшегося блокатора кальциевых каналов нифедипина изображены на рис. 2.4.4, а.

Рис. 2.4.4. а — Карта гидропатического поля нифедипина. Зеленым обозначе-

ны гидрофобные области (контур для значения 4), красным — гидрофильные (контур для значения –8). Программа HINT, версия 2.02. б — Молекулярный липофильный потенциал нифедипина, отображенный на поверхность Коннолли. Коричневым обозначены липофильные участки, голубым — гидрофильные. Программа MOLCAD [33]

76

Молекулярное моделирование

Результаты анализа гидропатического поля можно использовать по-разному. Качественная картина распределения гидрофобных и полярных областей для окрестностей ряда молекул может использоваться для создания пространственной карты активного центра рецептора с неизвестным пространственным строением. Если исследуемый ряд веществ велик, а результаты сложно интерпретировать, следует провести более точный и тщательный анализ с помощью метода CoMFA [60]. Если структура рецептора известна, то значения гидропатического поля могут использоваться для оптимизации структуры лигандов для поиска веществ с большей биологической активностью. Более подробный обзор приложений можно найти в [61].

2.4.3. Отображение свойств на молекулярную поверхность Отображение распределения гидрофобных и гидрофильных свойств можно провести с использованием молекулярных поверхностей. Программа MOLCAD [62] использует поверхность Коннолли [26] для отображения на нее в виде цветового кода локальных свойств молекулы, таких как липофильность. Для корректного учета влияния отдельных атомов или фрагментов на локальную липофильность необходимо ввести функциональную зависимость от расстояния. Реализация такого подхода была выполнена в виде определения потенциала молекулярной липофильности [63], который может рассматриваться в качестве дополнения к МЭП. Как и в случае с МЭП, отображение данного локального свойства на некоторую поверхность в пространстве улучшает восприятие и облегчает интерпретацию распределения свойства. Главным преимуществом отображения гидрофобности на поверхность оказывается легкость анализа (по сравнению с вычислением гидропатических полей) даже для больших белковых молекул. В основе обоих методов лежит одно и то же теоретическее обоснование, поэтому их результаты должны находиться в качественном соответствии. Для обоих методов надежность расчета проверяется путем корреляции результа расчетов для веществ с известным значением logP. Однако коэффициент распределения, подобно распределению заряда, зависит от конформации молекулы; более того, ситуация усложняется возможным изменением конформации при переходе из водной фазы в органическую и обратно. Это обстоятельство ограничивает совокупность молекул, пригодных для валидации методов, до небольшого количества жестких или по крайней мере полужестких молекул. Пример изображения поверхности гидрофобности, полученный в программе MOLCAD, приведен на рис. 2.4.4, б.

Цитированная литература 1. Williams, D. E. (1991) Net atomic charge and multipole models for the ab initio molecular electric potential, in Reviews in Compitational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 4, pp. 219–71.

2. Gasteiger, J. and Marsili, M. (1980) Iterative partial equalization of orbital electronegativity — a rapid access to atomic changes. Tetrahedron, 36, 3219–28.

Глава 2. Малые молекулы

77

3. Del Re, G. (1958) A simple MO-LCAO method for the calculation of charge distributions in saturated organic molecules. Journal of the Chemical Society, 4031–40.

4. Berthod, H. and Pullman, A. (1965) Sur le calcul des caracteristiques du squelette sigma des molecules conjuguees. Journal de chemie physique, 62, 942–46.

5. Abraham, R. J. and Hudson, B. (1985) Charge calculations in molecular mechanics. 3. Aminoacids and peptides. Journal of Computational Chemistry, 6, 173–81.

6. Mullay, J. (1986) A simple method for calculating atomic charge in molecules. Journal of the American Chemical Society, 108, 1770–75.

7. Mulliken, R. S. (1955) Electronic population analysis on CAO—MO all caps molecular wave function. 1. Journal of Chemical Physics, 23, 1833–40.

8. Momany, F. A. (1978) Determination of partial atomic charges from ab initio molecular electrostatic potentials — application to formamide, methanol, and formic acid. Journal of Physical Chemistry, 82, 592–601.

9. Cox, S. R. and Williams, D. E. (1981) Representation of the molecular electrostatic potential by a net atomic charge model. Journal of Computational Chemistry, 2, 304–23.

10. Singh, U. C. and Kollman, P. A. (1984) An approach to computing electrostatic charges for molecules. Journal of Computational Chemistry, 5, 129–45.

11. Chirlian, L. E. and Francl, M. M. (1987) Atomic charges derived from electro-

static potentials — a detailed study. Journal of Computational Chemistry, 8, 894–905.

12. Purcell, W. P. and Singer, J. A. (1967) A brief review and table of semiempirical parameters used in the Hueckel molecular orbital method. Journal of Chemical and Engineering Data, 12, 235–46.

13. Frisch, M., Binkley, J. S., Schlegel, H. B. et al. GAUSSIAN, Department of Chemistry, Carnegie Mellon University, Pittsburgh, http://www.gaussian.com.

14. JAGUAR, Schrodinger Inc., http://www.schrodinger.com. 15. Schmidt, M. W., Boatz, J. A., Baldrige, K. K. et al. GAMESS, Program No. 115, Quantum Chemistry Program Exchange, Indiana University, Bloomington, http://www.qcpe.chem.indiana.edu.

16. Williams, D. E. and Yan, J. M. (1987) Point charge models for molecules derived from least squares fitting of the electric potential. Advances in Atomic and Molecular Physics, 23, 87–130.

17. Wiberg, K. B. and Rablen, P. R. (1993) Comparison of atomic charges derived via different procedures. Journal of Computational Chemistry, 14, 1504–18.

18. Reed, A. E., Weinstock, R. B., and Weinhold, F. (1985) Natural population analysis. Journal of Chemical Physics, 83, 735–46.

19. McWeeney, R. (1989) Methods of Molecular Quantum Mechanics, 2nd Edition, Academic Press, San Diego.

20. Destro, R., Bianchi, R., and Morosi, G. (1989) Electrostatic properties of L-alanine from X-ray diffraction at 23 K and abinitio calculations. Journal of Physical Chemistry, 93, 4447–57; Destro, R., Bianchi, R., Gatti, C., and Merati, F. (1991) Total electronic charge density of L-alanine from X-ray diffration at 23 K. Chemical Physics Letters, 186, 47–52.

78

Молекулярное моделирование

21. McClellan, A. L. (1974) Tables of Experimental Dipole Moments, Rahara Enterprise, Vol. 2, El Cerrito.

22. Ferenczy, G. G., Reynolds, C. A., and Richards, W. G. (1990) Semiempirical AM1 electrostatic potentials and AM1 electrostatic potential derived charges — a comparison with abinitio values. Journal of Computational Chemistry, 11, 159–69.

23. Rodriguez, J., Manaut, F., and Sanz, F. (1993) Quantitative comparison of molecular electrostatic potential distributions from several semiempirical and ab initio wave functions. Journal of Computational Chemistry, 14, 922–27.

24. Ford, G. P. and Wang, B. Z. (1993) New approach to the rapid semiempirical calculation of molecular electrostatic potentials based on the AM1 wave function — comparison with ab initio HF/6-31G* asterisk results. Journal of Computational Chemistry, 14, 1101–11.

25. Price, S. L., Harrison, R. J., and Guest, M. F. (1989) An ab initio distributed multipole study of the electrostatic potential around an undecapeptide cyclosporine derivative and a comparison with point charge electrostatic models. Journal of Computational Chemistry, 10, 552–67.

26. Connolly, M. L. (1983) Solvent accessible surfaces of proteins and nucleic acids. Science, 221, 709–13.

27. Rekker, R. F. and Mannhold, R. (1992) Calculation of Drug Lipophilicity, VCH Publishers, Weinheim.

28. Holtje, H.-D. and Batzenschlager, A. (1990) Conformational analysis on histamine H2 receptor antagonists. Journal of Computer-Aided Molecular Design, 4, 391–402.

29. Goodford, P. J. (1985) A computational procedure for determining energetically favorable binding sites on biologically important macromolecules. Journal of Medicinal Chemistry, 28, 849–57.

30. MOE, Chemical Computing Group, Montreal, http://www.chemcomp.com. 31. Kellogg, G. E., Semus, S. F., and Abraham, D. J. (1991) HINT — a new method of empirical hydrophobic field calculation for CoMFA. Journal of Computer-Aided Molecular Design, 5, 545–52.

32. Bruno I. J., Cole, J. C., Lommerse, J. P. et al. (1997) IsoStar: a library of information about nonbonded interactions. Journal of Computer-Aided Molecular Design, 11, 525–37.

33. Verdonk, M. L., Cole, J. C., and Taylor, R. (1999) SuperStar: a knowledge based approach for identifying interaction sites in proteins. Journal of Molecular Biology, 289, 1093–108.

34. Boer, D. R., Kroon, J., Cole, J. C. et al. (2001) SuperStar: comparison of CSD and PDB-based interaction fields as a basis for the prediction of protein-ligand interactions. Journal of Molecular Biology, 312, 275–87.

35. INSIGHT/DISCOVER, Accelrys Inc., San Diego, http://www.accelrys.com. 36. SYBYL, Tripos Associates, St. Louis, http://www.tripos.com. 37. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MACROMODEL — an integrated software system for modeling organic and bioorganic molecules using molecular mechanics. Journal of Computational Chemistry, 11, 440–67.

38. Jones, J. E. (1924) On the determination of molecular fields. II. From the equation of state of a gas. Proceedings of the Royal Society of London, 106A, 463–77.

Глава 2. Малые молекулы

79

39. Dean, P. M. (1986) Molecular Foundations by Drug-Receptor Interaction, Cambridge University Press, Cambridge.

40. Wade, R. C. (1993) Molecular interaction fields, in 3D QSAR in Drug Design — Theory Methods and Application (ed. H. Kubinyi), ESCOM Science Publishers B. V., Leiden, pp. 486–505.

41. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hydrogen bond functions for use in determining energetically favorable binding sites on molecules of known structure. 1. Ligand probe groups with the ability to form 2 hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.

42. Sippl, W., Contreras, J. M., Parrot, I. et al. (2001) Structure based 3D QSAR and design of novel acetylcholinesterase inhibitors. Journal of Computer-Aided Molecular Design, 15, 395–410.

43. Meng, E. C., Shoichet, B. K., and Kuntz, I. D. (1992) Automated docking with grid based energy evaluation. Journal of Computational Chemistry, 13, 505–24.

44. Jendretzki, U. K., Elz, S., and Holtje, H.-D. (1994) Computer aided molecular

analysis of 5-HT2A agonists. Pharmaceutical and Pharmacological Letters, 3, 260–63.

45. Wade, R. C. (1988) The use of molecular graphics in the design of anti-influenza agents. British Journal of Pharmacology, 95, (Suppl.), 588.

46. Cruciani, G. and Watson, K. A. (1994) Comparative molecular field analysis using GRID force field and GOLPE variable selection methods in a study of inhibitors of glycogen-phosphorylase-B. Journal of Medicinal Chemistry, 37, 2589–601.

47. Cruciani, G. (2005) Molecular Interaction Fields, in Methods and Principles in Medicinal Chemistry (Series eds H. Kubinyi, G. Folkers and R. Mannhold), VCH Publishers, New York.

48. H`ltje, H.-D. and Jendretzki, U. K. (1995) Construction of a detailed serotoninergic 5-HT2A receptor model. Archiv der Pharmazie, 328, 577–84.

49. H`ltje, H.-D., and Anzali, S. (1992) Molecular modeling studies on the digitalis binding site of the Na+/K+ATPase. Die Pharmazie, 47, 691–97.

50. Baroni, M., Costantino, G., Cruciani, G. et al. (1993) Generating optimal linear PLS estimations (GOLPE) — an advanced chemometric tool for handling 3D-QSAR problems. Quantitative Structure-Activity Relationships, 12, 9–20.

51. Wold, S., Johansson, E., and Cocchi, M. (1993) PLS — partial least squares projections to latent structures, in 3D QSAR in Drug Design — Theory Methods and Applications, (ed. H. Kubinyi), ESCOM Science Publishers B.V., Leiden, pp. 523–50.

52. Klebe, G. and Abraharm, U. (1993) On the prediction of binding properties of drug molecules by comparative molecular field analysis. Journal of Medicinal Chemistry, 36, 70–80.

53. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA: scope and limitations, in 3D-QSAR in Drug Design — Theory, Methods and Application (ed. H. Kubinyi), ESCOM Science Publishers B. V., Leiden, pp. 583–618.

54. Tanford, C. (1978) Hydrophobic effect and the organization of living matter. Science, 200, 1012–18.

80

Молекулярное моделирование

55. Tanford, C. (1980) The Hydrophobic Effect., 2nd Edition, John Wiley & Sons, New York.

56. Suzuki, T. and Kudo, Y. (1990) Automatic log P-estimation based on combined

additive modeling methods. Journal of Computer-Aided Molecular Design, 4, 155–98.

57. Nicholls, A., Sharp, K. A., and Honig, B. (1991) Protein folding and association — insights from the interfacial and thermodynamic properties of hydrocarbons. Proteins, 11, 281–96.

58. Hansch, C. and Fujita, T. (1964) p-s-p analysis. Method for correlation of biological activity and chemical structure. Journal of the American Chemical Society, 86, 1616–26.

59. Kellogg, G. E., Joshi, G. S., and Abraham, D. J. (1992) New tools for modeling and understanding hydrophobicity and hydrophobic interactions. Medicinal Chemistry Research, 1, 444–53.

60. Kellogg, G. E. and Abraham, D. J. (1992) Key, lock, and locksmith — complementary hydropathic map predictions of drug structure from a known receptor structure from known drugs. Journal of Molecular Graphics, 10, 212–17.

61. Abraham, D. J., and Kellogg, G. E. (1993) Hydrophobic fields, in 3D QSAR in Drug Design — Theory Methods and Applications (ed. H., Kubinyi), ESCOM Science Publishers B. V., Leiden, pp. 506–22.

62. Heiden, W., Moeckel, G., and Brickmann, J. (1993) A new approach to analysis and display of local lipophilicity hydrophilicity mapped on molecular surfaces. Journal of Computer-Aided Molecular Design, 7, 503–14.

63. Furetm, P., Sele, A., and Cohen, N. C. (1988) 3D molecular lipophilicity potential profiles — a new tool in molecular modeling. Journal of Molecular Graphics, 6, 182–89.

Дополнительная литература Ghose, A. K. and Crippen, G. M. (1986) Atomic physicochemical parameters for 3-dimensional structure directed quantitative structure-activity relationships. 1. Partition coefficients as a measure of hydrophobicity. Journal of Computational Chemistry, 7, 565–77.

Дополнительная литература по топологическим методам Кирпиченок М. А., Зефиров Н. С., ДАН СССР, 1989, 304, 887. Oliferenko, A. A.; Palyulin, V. A.; Pisarev, S. A.; Neiman, A. V.; Zefirov, N. S. J. Phys. Org. Chem. 2001, 14, 355–369. Oliferenko, A. A.; Krylenko, P. V.; Palyulin, V. A.; Zefirov N. S. SAR QSAR Environ. Res. 2002, 13, 297–305. Oliferenko, A. A.; Pisarev, S. A.; Palyulin, V. A.; Zefirov, N. S. Adv. Quantum Chem. 2006, 51, 139–146. Yakovenko A, Oliferenko A. A, Bdzhola V., Palyulin V. A., Zefirov N. S. J. Comput. Chem., 2008, 29, 1332–1343. Shulga D. A., Oliferenko, A. A.; Palyulin, V. A.; Pisarev, S. A.; Zefirov, N. S. SAR QSAR Environ. Res. 2008, 19, 153–165.

Глава 2. Малые молекулы

81

2.5. Фармакофорный поиск 2.5.1. Совмещение молекул В предыдущих разделах данной главы мы описали, каким образом можно рассчитать и визуализировать физико-химические характеристики молекул. Теперь мы перейдем к тому, как это можно применять для понимания или предсказания фармакологических свойств соединения. В основе фармакобиологического действия, как правило, лежит взаимодействие вещества с белком, обладающим физиологическим эффектом, скажем, с ферментом или рецептором. В обоих случаях существует высокоспецифичная полость — место связывания молекулы лекарства. Вещества, проявляющие сходную активность по отношению к одному и тому же рецептору или ферменту, должны обладать и сходными свойствами связывания, т. е., в связывании с белком должны участвовать структурные элементы этих молекул со сходной химической функциональностью в положениях, стерически согласованных со строением полости. Иными словами, в одну и ту же фармакологическую группу входят соединения, содержащие один и тот же фармакофор, поэтому одной из главных задач молекулярного моделирования становится определение структуры фармакофора для рядов близкородственных молекул лекарственных веществ. Пространственное строение многих рецепторов до сих пор неизвестно, так что достоверная информация о соответствующем рецептору фармакофоре крайне важна для понимания взаимодействия лекарственного вещества и рецептора на молекулярном уровне. После тщательного изучения физико-химических характеристик остается еще вопрос, каким образом необходимо совмещать молекулы данного ряда, чтобы выявить фармакофор? Чтобы ответить на этот вопрос, вначале необходимо найти фармакофорные элементы, то есть решить, какие именно атомы и функциональные группы требуется совместить. Конечно, с помощью автоматических процедур нельзя ответить на этот вопрос, поскольку предварительно необходимо решить вопрос о парном соответствии атомов между молекулами. На данном этапе можно получить огромный объем совершенно бесполезной информации, если пренебрегать ранее полученными данными о связи структуры и активности; такие знания существенно ускоряют процедуру совмещения, сильно ограничивая число возможных решений. Нужно отметить, что при этом структурное сходство между различными лигандами может не быть полным, поскольку далеко не все лиганды при взаимодействии с соответствующим центром мишени оказываются целиком внутри полости связывания. Если рассматривать способность к образованию водородных связей как существенное свойство фармакофора, то в шаблон модели исследуемого ряда молекул необходимо ввести описание числа и расположения неподеленных электронных пар. Одним из вариантов реализации такого описания является добавление к модели соответствующим образом расположенных фиктивных атомов. Эти последние затем помечаются

82

Молекулярное моделирование

как места расположения акцепторов либо доноров водородной связи (в качестве последних могут выступать только атомы водорода, связанные с гетероатомами). Эта разметка затем может быть использована в качестве предварительного шаблона для проверки на совмещение, например, в программе AUTOFIT [1]. Более того, планарные структурные фрагменты, в частности ароматические циклические системы, также могут рассматриваться как отдельные структурные единицы. В последнем случае совмещение проводится для центров колец вместо подгонки по всей системе; аналогичным образом можно подходить и к совмещению других планарных подструктур. Если исходная выборка состоит лишь из очень подвижных структур, поиск общего фармакофорного фрагмента оказывается не просто трудным, долгим и утомительным — он может закончиться безрезультатно или дать произвольное, а значит, совершенно бесполезное совмещение. Процесс поиска значительно ускоряется, а его результат оказывается гораздо более значимым, если в распоряжении имеется лиганд с жесткой или хотя бы полужесткой структурой; несомненно, он должен обладать высокой активностью, так как в противном случае его структуру нельзя использовать в качестве матрицы для более гибких лигандов. К тому же включение в исследование высокоактивных молекул с малой конформационной подвижностью снимает необходимость в дополнительных затратах на доказательство того, что мы будем совмещать именно биоактивные конформации молекул лигандов. Выбор совмещаемых молекул очень важен для получения значимых результатов. Наиболее простой случай, который, однако, не особо результативен — это совмещение структурно схожих молекул, но при этом мы не получаем из итогового совмещения никакой новой информации. Намного более эффективным может оказаться наложение молекул с различными скелетами. Естественным образом это приводит к более интересной ситуации, когда невозможно совместить между собой молекулы путем простого наложения «атом-на-атом»; вместо этого необходимо провести наложение одинаковых функциональных групп или молекулярных полей. Следует рассмотреть и другой случай: необходимо ли учитывать неактивные молекулы или молекулы, которые обладают низкой активностью? Кажется разумным рассмотреть сначала суперпозицию одних лишь высокоактивных молекул. Менее активные и неактивные молекулы могут быть в дальнейшем включены в проверку на соответствие найденному фармакофору, и сам фармакофор может быть при необходимости изменен. Аналогичная ситуация имеет место и при исследовании агонистов и антагонистов одного и того же типа рецепторов: наложение необходимо проводить отдельно в каждой группе, однако впоследствии две модели могут быть соотнесены, поскольку конкурентные антагонисты зачастую взаимодействуют и с центром связывания агонистов. Важно отметить, что общие элементы в строении центров связывания агонистов и антагонистов, часто проявляющиеся в ходе исследования, не обязательно являются таковыми.

Глава 2. Малые молекулы

83

Следует также помнить, что непрямые подходы обладают серьезными ограничениями. Во-первых, лиганды должны связываться с одной и той же областью белковой мишени одинаковым образом. Если это условие не выполняется, то результаты совмещения могут оказаться неоднозначными (см., например [2, 3]). Далее, модели фармакофоров обычно строят на основе низкоэнергетических конформаций. Число таких конформаций резко возрастает с увеличением пороговой энергии, так что при формировании фармакофора невозможно учитывать все возможные конформации. Таким образом, при моделировании фармакофоров из рассмотрения исключаются напряженные конформации, возникающие, в частности, как переходные состояния при химических реакциях. Недавно опубликовано подробное сравнение энергий для конформаций лигандов, связанных с мишенью; такие лиганды генерированы in silico1 и найдены экспериментально [4, 5]. Известно несколько методов совмещения молекул. Они основаны на «ручной» или автоматизированной подгонке с помощью операций вращения жесткой модели молекулы, а также гибкой подгонке, в ходе которой одновременно минимизируются среднеквадратичное отклонение длин связей с участием парных (одинаковых) атомов и конформационная энергия молекул. Другой важный класс методов совмещения позволяет выравнивать молекулы, совмещая эквивалентные области, которые могут быть выделены на молекулярных поверхностях или в молекулярных полях.

2.5.2. Совмещение «атомнаатом» При наложения молекул наиболее часто применяется метод наименьших квадратов. Две молекулы совмещают путем минимизации среднеквадратичного отклонения расстояний между парами соответствующих атомов в этих молекулах, значение которого является мерой качества совмещения. Сильной стороной метода является возможность обнаружения различия между молекулами, которые на первый взгляд кажутся похожими. Слабое место метода — в том, что пары совмещаемых атомов должны быть определены заранее; очевидно, что для различных наборов атомов, используемых для совмещения, будут получены различные результаты. Такой метод неприменим для тех молекулярных систем, где невозможно предварительно указать соответствие атомов. С другой стороны, для взаимодействия различных молекул с одним и тем же рецептором не требуется очень строгого соответствия молекулярных структур. Таким образом, для большого числа случаев, когда данные фармакологии и исследования связи структура — активность свидетельствуют о едином механизме действия для совокупности несходных между собой молекул, обычный метод наименьших квадратов для совмещения молекул оказывается неадекватным. 1

Термин in silico (искаж. лат. «в кремнии») предполагает компьютерное моделирование биологического процесса в отличие от лабораторных экспериментов на целом организме (in vivo) или вне его (in vitro).

84

Молекулярное моделирование

В случае небольших выборок молекул этой ситуации можно избежать путем проведения «ручного» (интерактивного) совмещения. В принципе любое число молекул можно исследовать и совместить прямо на графическом дисплее при визуальной оценке качества подгонки. Это, несомненно, очень творческий процесс, который может привести к появлению новых идей о механизме, лежащем в основе связи экспериментально наблюдаемой активности со структурой. С другой стороны, такая процедура очень необъективна и часто не может быть воспроизведена, поскольку не подчиняется строгим критериям оптимальности. Метод активного аналога [6, 7] — быстрая и эффективная процедура поиска, которая может успешно использоваться для построения моделей фармакофора. В методе используется алгоритм систематического поиска для генерации представительной совокупности стерически и энергетически разрешенных конформаций ряда родственных молекул. Для каждой конформации вычисляется множество расстояний между фармакофорными группами, взаимодействия которых с рецептором считаются важными для распознавания. Если с целью поиска соответствий сравнивать каждое такое множество расстояний для одной молекулы со всеми другими аналогичными множествами, вычисленными для других молекул, это позволит решить данную задачу только для небольших молекул. Однако в рамках задачи поиска фармакофора мы сосредотачиваемся не на общем для всех молекул конформационном пространстве, а лишь на его областях, одновременно доступных для всех лигандов. Выше мы уже обсуждали, какую пользу приносит введение в выборку конформационно жесткого или полужесткого аналога при конформационном анализе гибких лигандов. По этой причине конформационный поиск начинают с наиболее жесткой молекулы. После определения для данного соединения карты соответствующих расстояний их значения используются как ограничения для последующего конформационного поиска в более гибких молекулах. Именно таким образом на основе результатов конформационного поиска для активной и конформационно жесткой молекулы проводятся исследования конформационного пространства для всех ее более гибких аналогов из исследуемой совокупности. Поскольку все активные молекулы должны соответствовать модели взаимодействия с рецептором, поиск конформаций можно ограничить только теми областями конформационного пространства, которые соответствуют модели взаимодействия, сформированной на предыдущем этапе. Например, если условие состоит в том, что расстояние между двумя конкретными атомами согласно некоторой модели должно лежать в определенном интервале, из множества конформаций, получаемых вращением вокруг всех связей, расчеты проводятся только для таких вращений, которые удовлетворяют данному условию. Пример, демонстрирующий успешное применение метода активного аналога, включал 28 ингибиторов ангиотензин-превращающего фермента (angiotensin-converting enzyme, ACE) с целью предсказать строение его центра связывания [8]. При применении этого метода время поиска уменьшилось на три порядка по сравнению с обычным методом система-

Глава 2. Малые молекулы

85

тического поиска, который использовал ранее для этих же целей и с этими же соединениями. Другой способ отображения, в котором не используется совмещение «атом-на-атом» явным образом, реализуется программой SEAL [9]. Эта программа позволяет быстро попарно сравнивать непохожие молекулы. Индекс сходства (индикатор качества подгонки) суммируется по всем возможным парам атомов в молекулах. Каждой паре атомов соответствует статистический вес, связанный с относительным расстоянием между этими атомами. Таким образом, функция выравнивания в процессе сравнения учитывает все возможные пары атомов в молекулах, а не только одну, как при совмещении «атом-на-атом». В результате при этом итоговом совмещении до определенной степени учитываются свойства, связанные с общей формой молекулы. Программа также предлагает возможность учитывать в процессе выравнивания физико-химические свойства. Таким образом, слагаемые, возникающие при попарном суммировании, могут сочетаться с физико-химическими величинами, которые считаются важными для проявления биологической активности. В исходной версии для оптимизации выравнивания были использованы ван-дер-ваальсовы радиусы — учет стерических факторов, а также точечные атомные заряды — учет электростатических составляющих. Расширенная версия программы SEAL была разработана Клебе и др. [10]. В ней предлагаются различные методы структурного выравнивания, в том числе методы совмещения жестких тел на основе оптимизации эффективного перекрывания. Различные молекулярные поля описываются наборами гауссовых функций. В программе также имеется возможность оценки внутримолекулярной энергии конформационного напряжения, а также процедура «гибкой» подгонки [11]. Существуют методы отображения, которые включают автоматическое (следовательно, воспроизводимое) распознавание атомов лиганда или фрагментов центра связывания как точек соответствия для их дальнейшего совмещения на ранних стадиях вычислительной процедуры. Фрагменты центра связывания могут соответствовать точкам молекулярной поверхности, представляющей такие свойства, как способность выступать донором или акцептором водородной связи. Такие же возможности предоставляются некоторыми коммерческими программными пакетами (например, Catalyst [12]). Другие пакеты — DISCO [13], RECEPS [14], AUTOFIT [1] — были рассмотрены в недавно вышедшем обзоре программ выравнивания [15]. Как описано выше, совмещение в них проводится путем сближения пар атомов, считающихся соответствующими, а также фрагментов центра связывания во всех возможных сочетаниях. Подавляющее большинство современных программ выравнивания совмещают молекулы как гибкие при условии, что существует одна жесткая опорная молекула. Известная программа FlexS [16] использует такое «гибкое» совмещение на основе комбинаторной процедуры совмещения конформаций. Выравнивание проводится для пары молекул, одна из которых рассматривается как жесткая, а вторая «гибко» подго-

86

Молекулярное моделирование

няется по структуре к первой. Этот метод создан на основе программы молекулярного докинга FlexX [17]. Перед началом поиска фармакофорных структур FlexS пытается разложить структуру на ряд относительно жестких фрагментов; в ходе итеративной процедуры наращивания формируется молекула в целом. Степень сходства между совмещенными молекулами определяется с помощью оценочных параметров, сходных по форме с парными компонентами энергии межмолекулярного взаимодействия, и оценок перекрывания с использованием гауссовых функций. Проверка данного подхода проводилась на экспериментальных рентгеноструктурных данных. Этот метод является весьма быстрым и благодаря своей эффективности позволяет сканировать значительные массивы данных.

2.5.3. Совмещение молекулярных полей Решение задач молекулярного подобия должно проходить с учетом молекулярных полей, поскольку молекулы распознают друг друга по характеристическим свойствам не на уровне атомного скелета, а на ван-дер-ваальсовой поверхности или снаружи ее. Следовательно, методы совмещения молекул должны быть основаны на отображении и сравнении именно этих свойств. С целью приведения молекул в соответствие друг другу их структуры располагают внутри равномерной пространственной решетки, состоящей из точек, на которых определено данное поле. Каждая точка несет информацию о величине некоторого характеристического свойства, например плотности заряда, гидрофобного потенциала или просто стерического объема. Для приведения процедуры к однозначному и осмысленному результату могут быть заданы пороговые значения меры молекулярного подобия. Отдельным точкам либо группам (кластерам) соседствующих точек могут быть приписаны значения весов, чтобы отразить связь структура — активность. Одна молекула, предпочтительно конформационно жесткая, выбирается в качестве шаблона; величины, которые в этом случае отображаются на решетку, характеризуют различные свойства. Решетки для других молекул подгоняются с помощью перемещений и вращений до совпадения этих величин с шаблонными. Такой процесс подгонки требует огромных вычислительных ресурсов. Описано большое количество процедур, отличающихся по сложности, в которых для повышения эффективности используются свойства самих полей. Опубликован эффективный метод максимизации меры подобия молекулярных поверхностей с использованием МЭП [19]. Другие авторы — Кларк [20], Дин [21] — вычисляли молекулярные поля физико-химических свойств с использованием потенциала Леннард-Джонса, либо в процессе определения МЭП заменяли вычисления с помощью регулярных решеток интегрированием гауссовых функций. В качестве оценки качества подгонки можно вычислить, например, отношение числа точек, «занятых» всеми молекулами, к общему числу точек решетки. Подведем итог. Существуют методы совмещения молекулярных поверхностей. Они могут быть успешно применены к задаче совмещения

Глава 2. Малые молекулы

87

структурно несходных молекул, поскольку не требуют построения парных соответствий атомов между различными молекулами. Однако эти методы могут стать общепринятыми только тогда, когда можно будет достаточно быстро проводить сложные вычисления с целью совмещения значительного числа конформаций каждой из исследуемых молекул. Подробное сравнение методов совмещения молекул «атом-на-атом» и суперпозиции молекулярных полей изложено в соответствующей литературе [15, 22, 23]. В работе [24] рассмотрено большое количество статей и обзоров, посвященных фармакофорам.

Цитированная литература 1. Kato, Y., Inoue A., Yamada, M. et al. (1992) Automatic superposition of drug molecules based on their common receptor site. Journal of Computer-Aided Molecular Design, 6, 475–86.

2. Klebe, G. and Abraham, U. (1993) On the prediction of binding properties of drug molecules by comparative molecular field analysis. Journal of Medicinal Chemistry, 36, 70–80.

3. B`hm, H. J., Klebe, G., and Kubibyi, H. (1996) Wirkstoffdesign, Spektrum Akademischer Verlag.

4. Bostr`m, J. (2001) Reproducing the conformations of protein-bound ligands: a critical evaluation of several popular conformational searching tools. Journal of Computer-Aided Molecular Design, 15, 1137–52.

5. Bostrom, J., Norrby, P.-O., and Liljefors, T. (1998) Conformational energy penalties of protein-bound ligands. Journal of Computer-Aided Molecular Design, 12, 383–96.

6. Marshall, G. R., Barry, C. D., Bosshard, H. E. et al. (1979) The conformational parameter in drug design: the active analog approach, in Computer-Assisted Drug Design, ACS Monograph, Vol. 112 (eds E. C. Olsen and R. E. Christoffersen), American Chemical Society, Washington, DC, pp. 205–26.

7. Dammkoehler, R. A., Karasek, S. F., Shands, E. F. B., and Marshall, G. R (1989) Constrained search of conformational hyperspace. Journal of Computer-Aided Molecular Design, 3, 3–21.

8. Mayer, D., Naylor, C. B., Motoc, I., and Marshall, G. R. (1987) A unique geometry of the active site of angiotensin converting enzyme consistent with structure-activity studies. Journal of Computer-Aided Molecular Design, 1, 3–16.

9. Kearsley, S. K., and Smith, G. M. (1990) An alternative method for the alignment of molecular structures: maximizing electrostatic and steric overlap. Tetrahedron Computer Methodology, 3, 615–33.

10. Klebe, F., Mietzner, T., and Weber, F. (1994) Different approaches toward an automatic structural alignment of drug molecules — applications to sterol mimics, thrombin and thermolysin inhibitors. Journal of Computer-Aided Molecular Design, 8, 751–78.

11. Klebe, G., Mietzner, T., and Weber, F. (1999) Methodological developments and strategies for a fast flexible superposition of drug-size molecules. Journal of Computer-Aided Molecular Design, 13, 35–49.

12. Catalyst Accelrys Inc., San Diego, http://www.accelrys.com.

88

Молекулярное моделирование

13. Martin, Y. C., Bures, M. G., Danaher, E. A. et al. (1993) A fast new approach to pharmacophore mapping and its application to dopaminergic and benzodiazepine agonists. Journal of Computer-Aided Molecular Design, 7, 83–102.

14. Kato, Y., Itai, A., and Iitaka, Y. (1987) A novel method for superimposing molecules and receptor mapping. Tetrahedron, 43, 5229–36.

15. Lemmen, C. and Lengauer, T. (2000) Computational methods for the structural alignment of molecules. Journal of Computer-Aided Molecular Design, 14, 215–32.

16. Lemmen, C. and Lengauer, T. (1997) Time efficient flexible superposition of medium-sized molecules. Journal of Computer-Aided Molecular Design, 11, 357–68.

17. Rarey, M., Kramer, B, Lengauer, T., and Klebe, G. (1996) A fast flexible docking method using an incremental construction algorithm. Journal of Molecular Biology, 261, 470–89.

18. Lemmen, C., Lengauer, T., and Klebe, G. (1998) FLEXS: a method for fast flexible ligand superposition. Journal of Medicinal Chemistry, 41, 4502–20.

19. Manaut, M., Sanz, F., Jose, J., and Milesi, M. (1991) Automatic search for maximum similarity between molecular electrostatic potential distributions. Journal of Computer-Aided Molecular Design, 5, 371–80.

20. Clark, M., Cramer, R. D. III, Jones, D. M. et al. (1990) Comparative molecular field analysis (CoMFA). 2. Toward its use with 3D-structural databases. Tetrahedron Computer Methodology, 3, 47–59.

21. Dean, P. M. (1990) Molecular recognition the measurement and search for molecular similarity in ligand-receptor interaction, in Concepts and Applications of Molecular Similarity (eds M. A. Johnson and G. M. Maggiora), John Wiley & Sons, New York, pp. 211–38.

22. Mason, J. S., Good, A. C., and Martin, E. J. (2001) 3-D Pharmacophores in drug discovery. Current Pharmaceutical Design, 7, 567–97.

23. Good, A. C. and Mason, J. S. (1995) Three-dimensional structure database search, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 7, pp. 73–95.

24. Langer, R. and Hoffmann, R. (2006) In Pharmacophores and Pharmacophore Concepts, Methods and Principles in Medicinal Chemistry, Series (eds H. Kubinyi, G. Folkers and R. Mannhold), VCH Publishers, New York.

2.6. Методы 3DQSAR Методы исследования количественных соотношений «пространственная структура — активность» (three-dimensional quantitative structure — activity relationship, 3D-QSAR) получили наибольшее распространение при проведении вычислений на основе химической информации в ходе исследований по разработке лекарств, действующих на мишени, структура которых неизвестна. Основная цель этих методов заключается в установлении соответствия между биологической активностью ряда структурно и биологически охарактеризованных соединений и пространственными особенностями различных молекулярных полей, таких как стерические, липофильные и электростатические. Обычное исследование 3D-QSAR позволяет выявить расположение фармакофорных

Глава 2. Малые молекулы

89

фрагментов молекулы в пространстве и сформулировать указания для конструирования следующего поколения соединений с улучшенными биологическими свойствами. Число исследований методами 3D-QSAR в последнее десятилетие увеличивалось экспоненциально, поскольку множество различных методов реализовано в коммерчески доступном, легко осваиваемом программном обеспечении [1–3]. Помимо доступности основной причиной неизменного интереса к 3D-QSAR служит доказанная возможность правильно прогнозировать биологическую активность новых соединений [4]. Однако простота программы 3D-QSAR может вдохновить начинающего исследователя на использование всех доступных наборов данных при моделировании этими методами. Цель данной главы состоит не только в ознакомлении читателя с возможностями различных методов 3D-QSAR, но и в анализе их ограничений.

2.6.1. Метод CoMFA Метод сравнительного анализа молекулярных полей (Comparative Molecular Field Analysis, CoMFA) [1] был разработан для проведения количественных исследований (3D-QSAR). В различных реализациях 3D-QSAR используются статистические (хемометрические) методы нахождения связи биологической активности и химических свойств с информацией о трехмерной структуре соединений. Анализ CoMFA начинается с традиционного моделирования фармакофора, в результате которого определяются биоактивные конформации молекул и способы их наложения. Это не тривиальная задача. Идея CoMFA заключается в том, что различия в исследуемом свойстве, например биологической активности, зачастую соотносятся с эквивалентными изменениями формы и энергии полей нековалентных взаимодействий, окружающих молекулы. Иными словами, стерические и электростатические поля содержат всю информацию, необходимую для понимания биологических свойств набора соединений. Как и в методе GRID, молекулы помещают в кубическую решетку и для каждой точки решетки рассчитывают энергию взаимодействия между молекулой и определенным пробным атомом. Обычно в методе CoMFA используют лишь два потенциала, а именно стерический потенциал в виде функции Леннард-Джонса и электростатический потенциал в виде кулоновской функции. Очевидно, что ни описание молекулярного подобия, ни описание процесса взаимодействия лигандов с соответствующими биологическими мишенями вовсе не тривиальная задача. Потенциалы, используемые в стандартном варианте метода CoMFA, описывают только энтальпийный вклад в свободную энергию связывания [5], хотя многие эффекты, сопровождающие связывание, обусловлены гидрофобным и энтропийным вкладами. Поэтому необходимо вдумчиво характеризовать ожидаемые вклады различной природы и анализировать, может ли в данных условиях использование метода CoMFA привести к реалистичным результатам.

90

Молекулярное моделирование

2.6.1.1. Биологические данные, используемые в 3DQSAR

При использовании любого метода QSAR весьма важно знать, все ли данные по биологической активности исследуемых соединений имеют сравнимое качество. Наиболее предпочтителен вариант, когда данные получены в одной лаборатории в одних и тех же условиях. Все исследуемые соединения должны иметь один и тот же механизм действия (способ связывания), для неактивных соединений должно быть показано, что они действительно неактивны. Следует рассматривать только результаты испытаний in vitro, поскольку только в этом случае проводится истинно равновесный эксперимент; все остальные системы подвержены изменениям во времени, поскольку в них протекает множество параллельных биохимических процессов, а механизм транспорта и градиенты диффузии лежат в основе почти всех этих процессов. Следует помнить, что метод CoMFA разрабатывался лишь для описания процесса взаимодействия, а не всего цикла существования лиганда. Во всех случаях, когда возникают нелинейные явления, связанные с транспортом и распределением лекарств, любой метод 3D-QSAR следует применять с осторожностью. В идеальном случае диапазон параметров биологической активности, используемых для исследования с применением метода CoMFA, должен охватывать не менее трех порядков. Для всех исследуемых молекул необходимо знание трехмерной структуры. Если отсутствует точная информация о стереохимии соединений (данные приведены для смесей энантиомеров или диастереомеров), то такие соединения не следует включать в исследование CoMFA. 2.6.1.2. Построение модели CoMFA

После проверки биологической активности и наложения предполагаемых биоактивных конформаций молекул в ходе анализа CoMFA вычисляются поля межмолекулярных взаимодействий, окружающие каждую молекулу. Это осуществляется с помощью создания решетки, окружающей все молекулы, в узлах которой вычисляются энергии электростатического и ван-дер-ваальсова взаимодействия с помощью выбранного пробного атома. В большинстве случаев выбор решетки, простирающейся по умолчанию на 4 C в каждом направлении от всех молекул выборки, достаточен для большинства моделей CoMFA [4]. Расстояние между узлами решетки обычно выбирают равным 2 C, хотя в литературе идет полемика относительно такого выбора расстояния [6], поскольку зачастую при шаге решетки 2 C получаются результаты лучшие, чем при более точно описывающем пространство шаге решетки 1 C. Кроме того, программа CoMFA предоставляет пользователю возможность настройки ряда других параметров, например пробных атомов, зарядов, масштаба и граничного значения энергии и др. Эта гибкость настройки параметров позволяет пользователю подогнать метод к задаче насколько возможно близко, что, впрочем, увеличивает шанс случайных корреляций. Интересно отметить, что почти все исследова-

Глава 2. Малые молекулы

91

ния, с успехом проведенные методом CoMFA, были выполнены с использованием стандартных параметров. Обсуждение всех результатов изменения параметров CoMFA выходит за рамки данной главы; заинтересованный читатель может обратиться к двум статьям, посвященным широкому анализу параметров и их влиянию на модели CoMFA [6, 7]. 2.6.1.3. Статистическое качество моделей CoMFA

Количественные соотношения между биологической активностью и построенными полями взаимодействий вычисляют с помощью особого многомерного статистического метода регрессии частичных наименьших квадратов (Partial Least Squares, PLS)1. Детальное описание математических основ метода можно найти в литературе [8, 9]. Метод PLS позволяет построить статистическую модель даже в тех случаях, когда число значений энергии в узлах решетки превышает число соединений, поскольку многие значения энергии коррелируют друг с другом или не имеют отношения к биологической активности. Эти особенности дают возможность извлекать слабый сигнал, распределенный по многим переменным. Для построения реалистичной модели необходимо обычно не более пяти-шести линейных комбинаций значений энергии. Поскольку PLS обрабатывает огромное число переменных (значений энергии взаимодействия), всегда существует опасность переучивания модели, поэтому за качеством модели следят с помощью перекрестного контроля методом исключения по одному ('leave-one-out', LOO). При использовании этого метода строится столько моделей, сколько соединений в выборке, причем для каждой модели соединения поочередно исключаются из построения модели и их активность прогнозируется с помощью полученной модели. После того как активность каждого соединения предсказана по одному разу, с использованием экспериментальных и спрогнозированных значений активности каждого соединения рассчитываются значения Q2 (квадрата коэффициента корреляции перекрестного контроля) и стандартной ошибки прогноза (Standard Deviation of Error Prediction; SDEP):

å (yobs - y pred ) , = 12 å (yobs - ymean ) 2

2

Q

(yobs - y pred )

(1)

2

SDEP =

å

N

,

(2)

где yobs — экспериментальное значение; ypred — предсказанное значение; ymean — среднее значение; N — число объектов. 1

В последнее время встречается также другое название метода — проекция на латентные структуры (Projection to Latent Structures), которое, как считается, лучше отражает суть метода. В русскоязычной хемометрической терминологии чаще употребляется прежнее наименование.

92

Молекулярное моделирование

Значение SDEP обычно уменьшается для нескольких первых латентных переменных, затем достигает минимума и начинает увеличиваться, что свидетельствует о переучивании модели. Следует весьма взвешенно подходить к выбору числа латентных переменных для использования в модели. Если добавление одной переменной уменьшает SDEP менее чем на 5%, следует предпочесть более простую модель, потому что она содержит большую часть информации при меньшем числе переменных. Использование большего числа переменных создает в модели информационный шум. Значения Q2 > 0,3 обычно считаются статистически значимыми и приемлемыми для метода CoMFA [6], хотя некоторые исследования показали, что в статистической достоверности моделей CoMFA следует надежно удостовериться. Для исследования риска случайной корреляции обычно выполняют проверку методом перемешивания: молекулам обучающей выборки случайным образом присваивают значения биологической активности (также из обучающей выборки), после чего строят модели методом CoMFA и вычисляют для них Q2. Если слишком многие перемешанные модели сравнимы по качеству с исходной моделью, то это является весьма надежным доказательством случайной корреляции как исходного, так и перемешанного набора данных. Кристек и др. использовали проверку методом перемешивания для определения риска случайной корреляции в их CoMFA-модели 36 лигандов эндотелинового рецептора подтипа А (ETA) [10]. Для модели на одной латентной переменной с использованием перемешанных значений биологической активности Q2 = 0,43, в то время как для модели с правильно отнесенными активностями Q2 = 0,70. Значения R2 для правильной и перемешанной моделей были вполне сравнимы, что указывает на недопустимость использования значения коэффициента корреляции для валидации модели CoMFA. Полученные результаты свидетельствуют также о том, что при случайной корреляции невозможно предложить точное граничное значение Q2. Исходя из нашего опыта, для надежных предсказательных моделей значение Q2 должно составлять как минимум 0,5 [7, 11–13]. Предложены и некоторые другие стратегии решения проблемы случайной корреляции [6]. Например, можно применять более надежные способы перекрестного контроля, выбирая случайным образом 10, 20 или 50% соединений, строя модель на оставшихся 90, 80 или 50% и предсказывая по ней активность остальных соединений. Для получения статистически достоверных результатов эту процедуру повторяют несколько раз [12–14]. 2.6.1.4. Интерпретация результатов

Одно из важнейших преимуществ 3D-QSAR перед традиционными методами QSAR состоит в возможности графической интерпретации результатов. Коэффициенты уравнений можно визуализировать в областях, окружающих лиганды, и при визуальном анализе легко обнаружить области пространства, вносящие наибольший вклад в активность. Графическая интерпретация результатов позволяет с легкостью удосто-

Глава 2. Малые молекулы

93

вериться в надежности модели или предложить новые модификации соединений, приводящие к повышению активности или селективности. Такие методы 3D-QSAR, как CoMFA или GRID—GOLPE (Graphic Retrieval and Information Display — General Optimal Linear PLS Estimation), оказались очень удобными для этой цели. Обычно изображают контурные трехмерные представления полей, вносящих наибольший вклад в модель. Стерические и электростатические вклады изображают разными цветами отдельно друг от друга. Интерпретация стерических контуров достаточно проста: положительные контуры ограничивают область пространства, заполнение которой приводит к увеличению активности, а отрицательные контуры — область, заполнение которой приводит к уменьшению активности. Интерпретация электростатических карт более сложна из-за требования электронейтральности и того, что к увеличению активности могут приводить как положительные, так и отрицательные заряды. Если в анализе CoMFA обнаруживаются значительные электростатические эффекты, следует внимательно изучить лежащие в их основе электронные эффекты соответствующих функциональных групп и установить, является ли это истинным эффектом или искусственной корреляцией. Обычно контурные карты CoMFA не рассматриваются как эквиваленты соответствующих свойств белка-мишени, и такое сравнение следует проводить с крайней осторожностью. Однако если выравнивание лигандов основано на конформациях лигандов в области связывания, контурные стерические и электростатические карты CoMFA могут до некоторой степени соответствовать стерическому и электростатическому окружению места связывания. Например, Опреа и др. [15] использовали рентгеноструктурные данные для комплексов ферментов с ингибиторами не только для выравнивания молекул, но и для оценки результатов CoMFA путем сравнения контурных карт со структурой центра связывания. Было обнаружено, что различные важные для связывания лиганда аминокислотные остатки соответствуют определенным стерическим и электростатическим полям, однако обнаружились и некоторые ограничения модели, поскольку не все ключевые остатки соответствуют полям CoMFA. Похожие наблюдения были сделаны и в наших исследованиях этим методом [11–13].

2.6.2. Другие методы, подобные CoMFA 2.6.2.1. CoMSIA

Из-за сложностей, связанных с формой потенциала Леннард-Джонса, используемого в большинстве методов CoMFA [16], Клебе и др. [2] разработали метод, родственный CoMFA, но основанный на индексах подобия, назвав его сравнительным анализом индексов молекулярного подобия (Comparative Molecular Similarity Indices Analysis, CoMSIA). В этом методе вместо традиционных потенциалов CoMFA используются гауссовы функции. В их исследовании классической тестовой выборки стероидов, используемой фирмой Tripos, были использованы три различных

94

Молекулярное моделирование

типа индексов, относящихся к стерическому, электростатическому и гидрофобному потенциалу. С помощью метода CoMSIA были построены модели сравнимого статистического качества как по внутреннему перекрестному контролю обучающей выборки, так и по предсказательной способности для контрольной выборки. Преимущество метода заключается в функциях, используемых для описания молекул, и в получающихся контурных картах, которые легче интерпретировать, чем карты CoMFA. Кроме того, в методе CoMSIA отсутствуют граничные значения, используемые в методе CoMFA для ограничения функций потенциалов сверху. Детальное описание метода и его приложений читатель может найти в литературе [17, 18]. Недавно авторы CoMSIA разработали новый дескриптор водородной связи, с помощью которого можно преодолеть проблему недооценки водородных связей в CoMFA [19]. 2.6.2.2. GRID и GOLPE

Программа GRID [20, 21] использовалась многими авторами [22, 23] для расчета полей взаимодействий в качестве альтернативы методу CoMFA. Важным преимуществом метода GRID, помимо большого числа различных пробных атомов, является использование для вычисления в точках решетки потенциалов функции типа 6–4, которая меняется не так резко, как функция леннард-джонсовского типа 6–12. Хорошие статистические результаты были получены, например, Кручиани и др. [24]при анализе ингибиторов гликогенфосфорилазы b. Они использовали силовое поле GRID в сочетании с программой GOLPE [25] для выполнения хемометрического анализа. Данная выборка представляет особый интерес потому, что для всех лиганд-рецепторных комплексов имеются рентгеноструктурные данные. Это позволило авторам исследовать выборку с помощью некоторых новых методов, в том числе методов 3D-QSAR. Дальнейшее улучшение оригинальной методологии CoMFA было достигнуто при использовании концепции отбора и уменьшения числа переменных. Как говорилось в разд. 2.6.1.3, большое число переменных (энергий взаимодействия) в матрице дескрипторов представляет собой статистическую проблему метода CoMFA. С ростом числа переменных при использовании методов многомерных проекций, таких как PLS, становится все труднее отделить полезную информацию, содержащуюся в дескрипторной матрице, от менее полезной или шума, поэтому необходимы способы поиска значимых переменных среди большого количества незначимых. Статистическая процедура под названием GOLPE была разработана Барони и др. [3] для улучшения предсказательной способности моделей QSAR. В эту программу включены различные методы отбора переменных, такие как метод D-оптимального предварительного отбора и план факторного эксперимента с дробными репликами (Fractional Factorial Design, FFD). Предсказательная способность каждой переменной определяется путем построения большого числа 3D-QSAR-моделей, для каждой из которых рассчитывается SDEP. После завершения расчета методом FFD каждая переменная оценивается и помещается в одну из трех категорий: улучшающих предсказательную

Глава 2. Малые молекулы

95

способность, ухудшающих предсказательную способность или неоднозначных. Окончательный анализ методом PLS проводится только для переменных из первой категории. При использовании отбора переменных обычно получаются модели с лучшими значениями Q2, чем соответствующие модели, построенные традиционными методами CoMFA [11–13, 24, 26]. Детальное описание метода см. в [3, 24, 26]. Несмотря на широкое применение методов, подобных CoMFA, следует сделать ряд предостережений. В процессе использования метода на практике возникает множество проблем. Результаты сильно зависят от выбранной конформации лиганда, достоверности выравнивания, химических параметров описания полей взаимодействия и от выбранного метода статистической оценки [14]. Читателю следует помнить, что программа представляет собой мощный инструмент в руках опытного пользователя, однако новичок может испытать с ней определенные трудности. 2.6.2.3. Методы, не зависящие от выравнивания

Наиболее важным и сложным этапом CoMFA-подобного анализа является построение реалистичного выравнивания изучаемых молекул. Недавно несколькими группами был описан вариант метода CoMFA, позволяющий избавиться от этой проблемы [27–29]. Сильверман и Платт [27] использовали в своем методе сравнительного анализа молекулярных моментов (Comparative Molecular Moment Analysis, CoMMA) дескрипторы, которые характеризуют форму с помощью главных моментов инерции, а распределение зарядов — на основе параметров, полученных из дипольных и квадрупольных моментов. Авторы исследовали большое число различных выборок и получили модели с хорошей внутренней согласованностью и предсказательной способностью. Подобный подход, эксплуатирующий для построения главных моментов силовое поле GRID, был разработан Кручиани и др. [28] и интегрирован в коммерчески доступные программы VOLSURF и ALMOND [30, 31]. Детальное описание этих относительно новых методов можно найти в литературе [28, 29].

2.6.3. Другие методы 3DQSAR За последние несколько лет были разработаны и другие методы 3D-QSAR. Некоторые из них не основаны на расчете свойств в узлах решетки, характерном для всех CoMFA-подобных подходов. Методы GERM [32], Compass [33], поверхности рецептора [34] и QUASAR [35] основаны на расчете свойств в дискретных точках пространства, расположенных на общей поверхности активных лигандов или рядом с ней. Построенная таким образом «поверхность рецептора» должна моделировать свойства активного центра макромолекулы. Этот подход достаточно надежен в случае, когда все молекулы выборки не слишком сильно искажают расположение аминокислотных остатков в области связывания. Надежность подхода подтверждается наличием достоверных

96

Молекулярное моделирование

моделей, построенных с его помощью. Тем не менее существуют два недостатка атомно-молекулярных моделей и моделей поверхности рецептора, основанных на обобщенных представлениях об изменении формы области связывания из-за индуцированного соответствия и образования водородных связей. Если энергия лиганд-рецепторного взаимодействия определяется для усредненной модели рецептора, небольшие изменения, связанные с адаптацией рецептора к определенным молекулам лиганда, остаются неучтенными. Кроме того, аминокислотные остатки биологического рецептора, содержащего конформационно подвижный донор или акцептор водородной связи, могут образовывать разнонаправленные водородные связи с различными лигандами. Этот эффект также невозможно смоделировать с помощью усредненной структуры рецептора. Другой путь построения моделей QSAR заключается в создании так называемых моделей псевдорецепторов — моделей центра связывания. Суть данного подхода заключается в построении трехмерной модели области связывания белка-мишени с неизвестной структурой на основе наложения структур известных лигандов в биоактивной конформации с учетом экспериментально определенных значений аффинности. В основе концепции псевдорецептора лежит идея об участии связанной формы лиганда в таком специфическом нековалентном связывании, которое бы имитировало существенные лиганд-белковые взаимодействия в истинном биологическом рецепторе (см., например, [36–39]). На первом этапе построения псевдорецептора идентифицируются потенциальные точки связывания (якорные точки) для каждой молекулы. Затем выбираются подходящие партнеры взаимодействия (например, аминокислоты, ионы металлов, молекулы воды) и располагаются соответствующим образом в пространстве. Ансамбль партнеров, полученный после оптимизации, представляет собой псевдорецептор для лигандов, использованных при его построении. В общем случае тип и расположение элементов псевдорецептора, окружающих модель фармакофора, не будет структурно подобно реальной биомишени. Псевдорецептор следует рассматривать как чисто гипотетическую модель связывающей полости, в которой расположены структурно родственные лиганды, а не как воспроизведение сложной структуры взаимодействующего с лигандом белка. Оценка аффинности лиганда складывается из энергии взаимодействия лиганда с псевдорецептором, энергии десольватации лиганда и изменения внутренней энергии и энтропии лиганда в процессе связывания. Концепция псевдорецептора, реализованная в программе PrGen [40], была проверена при конструировании псевдорецепторов карбоангидразы человека, дофаминэргических и b2-адренэргических рецепторов. Значения свободной энергии связывания лиганда, предсказанные с помощью модели и определенные экспериментально, согласуются в пределах 1,2 ккал/моль [41]. Преимущества концепции псевдорецептора заключаются в использовании направленного силового поля, которое может корректно описывать водородные связи и взаимодействия между белками, лигандами и ионами металлов, играющими зачастую важнейшую роль в связывании моле-

Глава 2. Малые молекулы

97

кул лекарств, а также в возможности учета сольватации и энтропии, чего лишены многие другие методы 3D-QSAR [42].

2.6.4. 3DQSAR, основанный на рецепторе Такие методы, основанные на структуре мишени, как докинг, позволяют определить положение и ориентацию потенциального лиганда в центре связывания белка с достаточной точностью. Существуют различные методы и программы докинга (см. гл. 5), успешно используемые для конструирования лекарств (см., например, [43–47]). Методы докинга дают важную информацию о пространственной ориентации лигандов в области связывания и о других лигандах, взаимодействующих с той же мишенью. Основным недостатком современных методов докинга является отсутствие возможности точного вычисления свободной энергии связывания для оценки биологической активности. Проблема предсказания аффинности пробудила интерес к созданию методов достоверного вычисления аффинности лигандов для обширных серий разнообразных молекул, взаимодействующих с одной и той же биомишенью, структура которой известна [48–52]. Большинство способов вычисления свободной энергии связывания основано на молекулярно-механических силовых полях, в которых ван-дер-ваальсовы и кулоновские взаимодействия представлены в виде эмпирических потенциалов. В других методах используются более простые оценочные функции, не связанные с вычислением аффинности с помощью молекулярной механики (подробный обзор см. в [52]), а базирующиеся на экспериментальных данных при выводе параметров относительно простых функций, позволяющих быстро оценивать энергию связывания. Оценочные значения энергии связывания широко используются для различения активных и неактивных лигандов, например, при виртуальном скрининге баз данных, но в большинстве своем они недостаточно надежны для точного предсказания биологической активности. Основная сложность при предсказании биологических свойств заключается в том, что лежащие в их основе молекулярные взаимодействия сложны и для оценки свободной энергии взаимодействия следует учитывать различные факторы. Правильное предсказание аффинности возможно лишь с использованием точных методов, таких как метод возмущения свободной энергии (Free Energy Perturbation, FEP) или метод термодинамического интегрирования (Thermodynamic Integration, TI), требующих значительных вычислительных ресурсов (более подробную информацию об этих методах можно найти в [53] и [54]). Программы докинга, использующие информацию о белке и методы 3D-QSAR при построении предсказательных моделей для родственных молекул, сочетают сильные стороны обоих подходов в автоматизированной помехоустойчивой («несмещенной») процедуре, получившей название «3D-QSAR, основанный на рецепторе» [11–13, 55–67]. В данном контексте трехмерная структура белка-мишени и протокол докинга используются при построении выравнивания для дальнейшего исследования методом CoMFA [11]. С помощью этого метода были получены

98

Молекулярное моделирование

достоверные предсказательные модели. Помимо хорошей предсказательной способности модели могут указать на точки взаимодействия в области связывания, которые могут отвечать за изменение биологической активности. В работе [68] приведены примеры успешного применения 3D-QSAR, основанного на модели рецептора. Другой интересный метод, позволяющий преодолеть проблему пренебрежения информацией о белке в методах 3D-QSAR, был недавно предложен Гольке и Клебе [69]. Суть метода адаптации полей для сравнения молекул (Adaptation of Fields for Molecular Comparison, AFMoC) заключается в построении потенциальных полей в области связывания белка-мишени с помощью оценочной функции DrugScore. Данная программа методологически близка к CoMFA и CoMSIA, но имеет перед ними преимущество — учет белкового окружения в анализе 3D-QSAR. Вместо кулоновского или леннард-джонсовского потенциала расчет AFMoC начинает с предварительно приписанных по точкам решетки значений потенциала DrugScore. На основе лигандов, для которых известен способ связывания и биологическая активность, отдельным значениям потенциалов приписывается определенный вес. Получающиеся поля взаимодействий обрабатываются с помощью PLS. Было показано, что для моделей AFMoC наблюдается значительно лучшая корреляция между расчетными и экспериментальными значениями активности, чем для функции DrugScore [70].

2.6.5. Надежность моделей 3DQSAR Качество и надежность моделей 3D-QSAR сильно зависят от внимательной проверки каждого этапа анализа. Как и для любого другого метода, для QSAR принципиально важно, все ли значения биологической активности соединений одинакового качества (см. также разд. 2.6.1.1). Поиск биологически активной конформации и построение выравнивания молекул является важнейшей задачей при любом исследовании 3D-QSAR, поскольку это один из основных источников ложных заключений и ошибок. Риск использования неверной геометрии можно уменьшить, рассматривая жесткие аналоги. Но даже в этом случае могут возникнуть затруднения, поскольку имеются примеры различных способов связывания, казалось бы, для близкородственных соединений. Впрочем, если способы связывания похожи, но использованы неправильные конформации лигандов, результаты анализа 3D-QSAR могут оказаться вполне надежными. Проблемы построения конформаций и их корректного выравнивания можно избежать, если использовать конформации из трехмерных структур лиганд-белковых комплексов, полученных с помощью РСА, ЯМР или моделирования по гомологии, как описывалось в разд. 2.6.4. Последней стадией анализа 3D-QSAR является статистическая валидация, в ходе которой определяется предсказательная способность модели — способность предсказывать биологическую активность новых соединений. В большинстве исследований для этой цели использовали перекрестный контроль методом исключения по одному (LOO). С по-

Глава 2. Малые молекулы

99

мощью этого метода рассчитываются Q2 и SDEP, которые обычно рассматриваются как основные критерии надежности и предсказательной способности модели. LOO — это простейший метод перекрестного контроля, заключающийся в извлечении одного объекта и предсказании его активности; более надежным методом перекрестного контроля считается метод исключения группы. Например, при перекрестном контроле методом исключения 20%-я выборка разделяется на 5 групп приблизительно равного размера; таким образом, 80% выборки используются для построения модели, с помощью которой предсказывается активность оставшихся соединений. Эту операцию следует повторить несколько раз для получения надежных статистических результатов. Методы исключения по 20 и 50% (более требовательные к ресурсам) являются значительно более надежными индикаторами качества модели, чем обычно используемый метод LOO [7, 12, 46], который зачастую слишком оптимистично оценивает модели, не обладающие предсказательной способностью для молекул истинной контрольной выборки. Несмотря на известные ограничения метода LOO, до сих пор далеко не всегда исследователи проверяют возможность модели 3D-QSAR правильно предсказывать биологическую активность молекул внешней контрольной выборки. Многие авторы заявляют, что их модели, имеющие высокое значение Q2 для метода LOO, обладают высокой предсказательной способностью, но не проводят валидацию с помощью внешней контрольной выборки (детальное обсуждение этой проблемы см. в [14, 71–76]). Эти ожидания совершенно не оправданы, поскольку в нескольких исследованиях было показано, что корреляция между значением Q2 и значением коэффициента корреляции R2 для наблюдаемых и предсказанных значений активности контрольной выборки отсутствует [72, 75]. Поэтому мы настойчиво рекомендуем использовать надежные методы перекрестного контроля и внешние контрольные выборки для валидации моделей 3D-QSAR.

Цитированная литература 1. Cramer, R. D., Patterson, D. E., and Bunce, J. D. (1988) Comparative molecular field analysis (CoMFA). 1. Effect of shape on binding of steroids to carrier proteins. Journal of the American Chemical Society, 110, 5959–67.

2. Klebe, G., Abraham, U., and Mietzner, T. (1994) Molecular similarity indexes in a comparative analysis (CoMSIA) of drug molecules to correlate and predict their biological activity. Journal of Medicinal Chemistry, 37, 4130–46.

3. Baroni, M., Constantino, G., Cruciani, G. et al. (1993) Generating optimal linear РLS estimations (GOLPE) — an advanced chemometric tool for handling 3D-QSAR problems. Quantitative Structure-Activity Relationships, 12, 9–20.

4. Martin, Y. C. (1998) 3D- QSAR current state, scope, and limitations. Perspectives in Drug Discovery and Design, 12, 3–23.

5. Klebe, G. and Abraham, U. (1993) On the prediction of binding properties of drug molecules by comparative molecular field analysis. Journal of Medicinal Chemistry, 36, 70–80.

100

Молекулярное моделирование

6. Kim, K. H., Greco, G., and Novellino, E., (1998) A critical review of recent CoMFA applications. Perspectives of Drug Discovery and Design, 12, 257–315.

7. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA: scope and limitations, in 3D QSAR in Drug Design: Theory, Methods and Applications (ed. H. Kibinyi), ESCOM, Leiden, pp. 583–618.

8. Wold, S. (1991) Validation of QSARs. Quantitative Structure Activity Relationship, 10, 191–93.

9. Wold, S., Johansson, E., and Cocchi, M. (1993) PLS — partial least squares projections to latent structures, in 3D-QSAR in Drug Design: Theory, Methods and Applications (ed. H. Kubinyi), ESCOM, Leiden, pp. 523–50.

10. Krystek, S. R., Hunt, J. T., Stein, P. D., and Stouch, T. R. (1995) 3-dimensional quantitative structure-activity relationships of sulfonamide endothelin inhibitors. Journal of Medicinal Chemistry, 38, 659–68.

11. Sippl, W. (2000) Receptor-based 3D QSAR analysis of estrogen receptor ligands — merging the accuracy of receptor-based alignments with the computational efficiency of ligand-based methods. Journal of Computer-Aided Molecular Design, 14, 559–72.

12. Sippl, W., Contreras, J.M., Parrot, I. et al. (2001) Structure-based 3D QSAR and design of novel acetylcholinesterase inhibitors. Journal of Computer-Aided Molecular Design, 15, 395–410.

13. Sippl, W. (2002) Binding affinity prediction of novel estrogen receptor ligands using receptor-based 3D-QSAR methods. Bioorganic & Medicinal Chemistry, 10, 3741–55.

14. Oprea, T. I. and Garcia, A. E. (1996) Three-dimensional quantitative structureactivity relationships of steroid aromatase inhibitors. Journal of ComputerAided Molecular Design, 10, 186–200.

15. Oprea, T. I., Waller, C. L., and Marshall, G. R. (1994) 3-dimensional quantitative structure-activity relationship of human-immunodeficiency-virus-(i) protease inhibitors. 2. Predictive power using limited exploration of alternate binding modes. Journal of Medicinal Chemistry, 37, 2206–15.

16. Norinder, U. (1998) Recent progress in CoMFA methodology and related techniques. Perspectives in Drug Discovery and Design, 12, 25–39.

17. Klebe, G. and Abraham, U. (1999) Comparative molecular similarity index analysis (CoMSIA) to study hydrogen-bonding properties and to score combinatorial libraries. Journal of Computer-Aided Molecular Design, 13, 1–10.

18. Bohm, M., Sturzebecher, J., and Klebe, G. (1999) Three-dimensional quantitative structure-activity relationship analyses using comparative molecular field analysis and comparative molecular similarity indices analysis to elucidate selectivity differences of inhibitors binding to trypsin, thrombin, and factor Xa. Journal of Medicinal Chemistry, 42, 458–77.

19. Bohm, M. and Klebe, G. (2002) Development of new hydrogen bond descriptors and their application to comparative molecular field analyses. Journal of Medicinal Chemistry, 45, 1585–97.

20. Goodford, P. J. (1985) A computational procedure for determining energetically favorable binding sites on biologically important macromolecules. Journal of Medicinal Chemistry, 28, 849–57.

Глава 2. Малые молекулы

101

21. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hydrogen-bond functions for use in determining energetically favorable binding sites on molecules of known structure. 1. Ligand probe groups with the ability to form 2 hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.

22. Davis, A. M., Gensmantel, N. P., Johansson, E., and Marriott, D. P. (1994) The use of the GRID program in the 3D-QSAR analysis of a series of calcium channel agonists. Journal of Medicinal Chemistry, 37, 963–72.

23. Kim, K. H., Greco, G., Novellino, E. et al. (1993) Use of the hydrogen-bond potential function in a comparative molecular field analysis (CoMFA) on a set of benzodiazepines. Journal of Computer-Aided Molecular Design, 7, 263–80.

24. Cruciani, G. and Watson, K. A. (1994) Comparative molecular field analysis using GRID force field and GOLPE variable selection methods in a study of inhibitors of glycogen-phosphorylase-B. Journal of Medicinal Chemistry, 37, 2589–601.

25. GOLPE, Multivariate Infometric Analysis, Perugia. http://www.miasrl.com. 26. Cruciani, G., Clementi, S., and Partor, M. (1998) GOLPE-guided region selection. Perspectives in Drug Discovery and Design, 12, 71–86.

27. Silverman, B. D. and Platt, D. E. (1996) Comparative molecular moment analysis (CoMMA): 3D-QSAR without molecular superposition. Journal of Medicinal Chemistry, 39, 2129–40.

28. Cruciani, C., Crivori, P., Carupt, P. A., and Testa, B. (2000) Molecular fields in quantitative structure-permeation relationships: the VolSurf approach. Theochem, 503, 17–30.

29. Pastor, M., Cruciani, G., McLay, I. et al. (2000) Grid-Independent descriptors (GRIND): a novel class of alignment-independent three-dimensional molecular descriptors. Journal of Medicinal Chemistry, 43, 3233–43.

30. VOLSURF, Molecular Discover Ltd., Oxford, http://www.moldiscovery.com. 31. ALMOND, Multivariate Infometric Analysis, Perugia. http://www.miasrl.com. 32. Walters, D. E. (1998) Genetically evolved receptor models (GERM) as a 3D-QSAR tool. Perspectives in Drug Discovery and Design, 12, 159–66.

33. Jain, A. N., Koile, K. and Chapman, D. (1994) Compass: predicting biologicalactivities from molecular surface properties — performance comparisons on a steroid benchmark. Journal of Medicinal Chemistry, 37, 2315–27.

34. Hahn, M. and Rogers, D. (1998) Receptor surface models. Perspectives in Drug Discovery and Design, 12, 117–33.

35. Vedani, A. and Zbinden, P. (1998) Quasi-atomistic receptor modeling: a bridge between 3D-QSAR and receptor fitting. Pharmaceutica Acta Helvetiae, 73, 11–18.

36. Sippl, W., Stark, H., and Holtje, H.-D. (1998) Development of a binding site model for histamine H-3-receptor agonists. Pharmazie, 53, 433–37.

37. Holtje, H.-D. and Jendretzki, U. K. (1993) Construction of a detailed serotoninergic 5-HT2A receptor model. Archiv der Pharmazie, 328, 577–84.

38. Greenidge, P. A., Merz, A., and Folkers, G. (1995) A pseudoreceptor modeling study of the varicella-zoster virus and human thymidine kinase binding sites. Journal of Computer-Aided Molecular Design, 9, 473–78.

102

Молекулярное моделирование

39. Schmetzer, S., Greenidge, P. A., Kovar, K. A. et al. (1997) Structure-activity relationships of cannabinoids: a joint CoMFA and pseudoreceptor modeling study. Journal of Computer-Aided Molecular Design, 11, 278–92.

40. PrGen, Biographics Laboratory, Basel. http://www.biograf.ch. 41. Vedani, A., Zbinden, P., Snyder, J. P., and Greenidge, P. A. (1995) Pseudoreceptor modeling — the construction of 3-dimensional receptor surrogates. Journal of the American Chemical Society, 117, 4987–94.

42. Schleifer, K. J. (2006) in Concepts and Applications of Pseudoreceptors, Series: Methods and Principles in Medicinal Chemistry — Pharmacophores and Pharmacophore Concepts (eds T. Langer, R. Hoffmann, H. Kubinyi et al.), VCH Publishers, New York, pp. 117–30.

43. Kramer, B., Rarey, M., and Lengauer, T. (1997) CASP2 experiences with docking flexible ligands using FLEXX. Proteins, 28, (Suppl. 1), 221–25.

44. Bohm, H. J. (1994) The development of a simple empirical scoring function to estimate the binding constant for a protein-ligand complex of known three-dimensional structure. Journal of Computer-Aided Molecular Design, 8, 243–56.

45. Verdonk, M. L., Cole, J. C., Hartshorn, M. J. et al. (2003) Improved proteinligand docking using GOLD. Proteins, 52, 609–23.

46. Meng, E. C., Shoichet, B. K., and Kintz, I. D. (1992) Automated docking with grid-based energy evaluation. Journal of Computational Chemistry, 13, 505–24.

47. Kontoyianni, M., McClellan, I. M., and Sokol, G. S. (2004) Evaluation of docking performance: comparative data on docking algorithms. Journal of Medicinal Chemistry, 47, 558–65.

48. Tame, J. R. H. (1999) Scoring functions: a view from the bench. Journal of Computer-Aided Molecular Design, 13, 99–108.

49. Bohm, H. J. (1998) Prediction of binding constants of protein ligands: a fast method for the prioritization of hits obtained from de novo design or 3D database search programs. Journal of Computer-Aided Molecular Design, 12, 309–23.

50. Wang, R., Lu, Y., Fang, X., and Wang, S. (2004) An extensive test of 14 scoring functions using the PDBbind refined set of 800 protein-ligand complexes. Journal of Chemical Information and Computer Sciences, 44, 2114–25.

51. Perola, E., Walters, W. P., and Charifson, P. S. (2004) A detailed comparison of current docking and scoring methods of systems of pharmaceutical relevance. Proteins, 56, 235–49.

52. Gohlke, H. and Klebe, G. (2002) Approaches to the description and prediction of the binding affinity of small molecule ligands to macromolecular receptors. Angewandte Chemie International Edition, 41, 2644–76.

53. Masukawa, K. M., Kollman, P. A., and Kuntz, I. D. (2003) Investigation of neuraminidase-substrate recognition using molecular dynamics and free energy calculations. Journal of Medicinal Chemistry, 46, 5628–37.

54. Huang, D. and Caflisch, A. (2004) Efficient evaluation of binding free energy using continuum electrostatics salvation. Journal of Medicinal Chemistry, 47, 5791–97.

55. Sippl, W., Contreras, J. M., Rival, Y., and Wermuth, C. G. (2000) In molecular Modelling and Predicting of Bioactivity (eds K. Gundertofte and F. S. Jorgensen). Plenum Press, New York, pp. 53–58.

Глава 2. Малые молекулы

103

56. Sippl, W. (2002) Development of biologically active compounds by combining 3D-QSAR and structure-based design methods. Journal of Computer-Aided Molecular Design, 16, 825–30.

57. Cinone, N., Holtje, H.-D., and Carotti, A. (2000) Development of a unique 3D interaction model of endogenous and synthetic peripheral benzodiazepine receptor ligands. Journal of Computer-Aided Molecular Design, 14, 753–68.

58. Hammer, S., Spika, I., Sippl. W. et al. (2003) Glucocorticoid receptor interactions with glucocorticoids: evaluation by molecular modeling and functional analysis of glucocorticoid receptor mutants. Steroids, 68, 329–39.

59. Pastor, M., Cruciani, G., and Watson, K. A. (1997) A strategy for the incorporation of water molecules present in a ligand binding site into a three-dimensional quantitative structure-activity relationship analysis. Journal of Medicinal Chemistry, 40, 4089–102.

60. Tervo, A. J., Nyronen, T. H., Ronkko, T., and Poso, A. (2003) A structureactivity relationship study of catechol-O-methyltransferase inhibitors combining molecular docking and 3D-QSAR methods. Journal of Computer-Aided Molecular Design, 17, 797–810.

61. Pandey, G. and Saxena, K. A. (2006) 3D QSAR studies on protein phosphatase 1B inhibitors: Comparison of the quality and predictivity among 3D-QSAR models obtained from different conformer-based alignments. Journal of Chemical Information and Modeling, 46, 2579–90.

62. Waller, C. L., Oprea, T. I., Giolitti, A., and Marshall, G. R. (1993) 3-dimensional QSAR of human-immunodeficiency-virus-(1) protease inhibitors. 1. A CoMFA study employing experimentally determined alignment rules. Journal of Medicinal Chemistry, 36, 4152–60.

63. De Priest, S. A., Mayer, D., Naylor, C. B., and Marshall, G. R. (1993) 3D-QSAR of angiotensin-converting enzyme and thermolysin inhibitors — a comparison of CoMFA models based on deduced and experimentally determined active-site geometries. Journal of the American Chemical Society, 115, 5372–84.

64. Cho, S. J., Garsia, M. L. S., Bier, J., and Tropsha, A. (1996) Structure-based alignment and comparative molecular field analysis of acetylcholinesterase inhibitors. Journal of Medicinal Chemistry, 39, 5064–71.

65. Vaz, R. J., McLean, L. R., and Pelton, J. T. (1998) Evaluation of proposed modes of binding of (2S)-2-4-(3S)-1-acetimidoyl-3-pyrrolidinyloxyphernyl-3-(7-amidino2-naphthyl)propanoic acid hydrochloride and some analogs to Factor Xa using a comparative molecular field analysis. Journal of Computer-Aided Molecular Design, 12, 99–110.

66. Ortiz, A. R., Pisabarro, M. T., Gago, F., and Wade, R. C. (1995) Prediction of drug-binding affinities by comparative binding energy analysis. Journal of Medicinal Chemistry, 38, 2681–91.

67. Lozano, J. J., Pastor, M., Cruciani, G. et al. (2000) 3D-QSAR methods on the basis of ligand-receptor complexes. Application of COMBINE and GRID/GOLPE methodologies to a series of CYP1A2 ligands. Journal of Computer-Aided Molecular Design, 14, 341–53.

68. Sippl, W. (2006) In Application of Structure-based Alignment Methods for 3D-QSAR, Series: Methods and Principles in Medicinal Chemistry —

104

Молекулярное моделирование Pharmacophores and Pharmacophore Concepts (eds T. Langer, R. Hoffmann, H. Kubinyi et al.), VCH Publishers, New York, pp. 223–49.

69. Gohlke, H. and Klebe, G. (2002) DrugScore meets CoMFA: adaptation of fields for molecular comparison (AFMoC) or how to tailor knowledge-based pair-potentials to a particular protein. Journal of Medicinal Chemistry, 45, 4153–70.

70. Silber, K., Kurz, T., Heidler, P., and Klebe, G. (2005) AFMoC enhances predictivity of 3D QSAR: a case study with DOXP-reductoisomerase. Journal of Medicinal Chemistry, 48, 3547–63.

71. Golbraikh, A., and Tropsha, A. (2002) Beware of q(2)! Journal of Molecular Graphics & Modelling, 20, 269–76.

72. Kubinyi, H., Hamprecht, F. A., and Mietzner, T. (1998) Three-dimensional quantitative similarity-activity relationships (3D QSiAR) from SEAL similarity matrices. Journal of Medicinal Chemistry, 41, 2553–64.

73. Golbraikh, A., Shen, M., Xiao, Z. Y. et al. (2003) Rational selection of training and test sets for the development of validated QSAR models. Journal of Computer-Aided Molecular-Design, 17, 243–53.

74. Norinder, U. (1996) Single and domain mode variable selection in 3D QSAR applications. Journal of Chemometrics, 10, 95–105.

75. Doweyko, A. M. (2004) 3D-QSAR illusions. Journal of Computer-Aided Molecular Design, 18, 587–96.

Дополнительная литература Vedani, A., Zbinden, P., and Snyder, J. P. (1993) Pseudo-receptor modeling — a new concept for the 3-dimensional construction of receptor-binding sites. Journal of Receptor Research, 13, 163–77.

3

Пример моделирования малых молекул: антагонисты дофаминового рецептора подтипа D3

В этой главе мы опишем построение модели фармакофора и последующий анализ 3D-QSAR (разд. 2.6.2.2) для антагонистов дофаминового рецептора подтипа D3. При построении модели фармакофора мы использовали стерические и электростатические параметры, полученные на основании данных для структур частично жестких высокоаффинных лигандов. После выявления особенностей фармакофора модель была проверена путем более тщательного исследования молекулярных полей, создаваемых лигандами, наложенными друг на друга в фармакофорных конформациях. На последнем этапе поля молекулярных взаимодействий, построенные программой GRID, были использованы для установления соотношений 3D-QSAR путем их корреляции с энергией связывания по методу частичных наименьших квадратов (PLS). Эта модель была проверена различными методами перекрестного контроля, а ее предсказательная способность продемонстрирована с помощью внешней контрольной выборки лигандов. Для построения модели фармакофора были использованы конформационно ограниченные антагонисты рецептора D3, исследованные нами [1], и антагонисты, известные из литературы [2–4]. Для последующего анализа методом GRID—GOLPE были использованы только 40 лигандов (табл. 3.1—3.3), полученных от нашего коллеги (профессора Х. Штарка (Университет Франкфурта-на-Майне, Германия), чтобы обеспечить согласованность данных об их связывании.

3.1. Модель фармакофора антагонистов D 3 рецептора Пять антагонистов D3-рецептора были детально исследованы для выявления их биоактивной конформации (табл. 3.4). Их молекулярную структуру можно рассматривать как композицию трех фрагментов: основно-ароматического элемента, амидно-ароматического элемента и ароматического или алифатического спейсера. На рис. 3.1 они показаны для вещества BP897 [2]. Варианты этой структуры, а также их константы связывания приведены в табл. 3.1.

H

OCH3

OCH3

OCH3

ST-65

ST-67

ST-69

ST-71

R2

H

R1

ST-63

Соединение

4

4

3

4

4

n

8,41

8,11

6,52

8,00

7,59

D3 pKi

ST-82

ST-70

ST-68

ST-66

ST-64

Соединение

R1

Таблица 3.1. Антагонисты D3-рецептора с различной длиной спейсера и различными заместителями

OCH3

OCH3

OCH3

OCH3

H

R2

4

4

3

3

4

n

8,55

8,04

6,40

6,67

7,37

D3 pKi

OCH3

OCH3

OCH3

OCH3

OCH3

ST-84

ST-86

ST-92

ST-95

ST-98

7,49

4

4

8,18

8,60

7,54

4

4

7,42

4

ST-99

ST-96

ST-93

ST-88

ST-85

4

4

3

3

4

8,83

9,00

6,97

6,25

7,63

(Окончание таблицы на следующей странице)

OCH3

OCH3

OCH3

OCH3

OCH3

OCH3

OCH3

OCH3

OCH3

ST-144

ST-152

ST-168

ST-189

R2

OCH3

R1

ST-100

Соединение

Таблица 3.1. (Окончание)

4

4

4

4

4

n

8,67

9,21

8,20

8,74

8,02

D3 pKi

ST-317

ST-188

ST-167

ST-150

ST-101

Соединение

R1

OCH3

OCH3

OCH3

OCH3

OCH3

R2

4

4

4

4

4

n

7,99

9,16

9,30

7,38

8,53

D3 pKi

Глава 3. Пример моделирования малых молекул

109

Таблица 3.2. Антагонисты D3-рецептора с различными спейсерами

Соединение

R

D3 pKi

Соединение

ST-81

7,40

ST-176

7,00

ST-177

6,12

ST-205

7,43

R

D3 pKi

Таблица 3.3. Антагонисты D3-рецептора с аминотетралинами в качестве основно-ароматических элементов

Соединение

X

D3 pKi

Соединение

X

D3 pKi

ST-124

6,63

ST-125

7,32

ST-126

7,55

ST-127

7,22

ST-185

7,42

Большинство антагонистов D3-рецептора подходит под эту схему. Тем не менее у некоторых лигандов, подобных соединению 1 (табл. 3.4), амидные фрагменты заменены на различные группы, которые способны быть акцепторами водородных связей. Поэтому все лиганды могут быть

110

Молекулярное моделирование

Таблица 3.4. Антагонисты D3-рецептора, использованные для построения модели фармакофора

Соединение

Структурная формула

D3 pKi

1 [3]

7,59

2 [4]

9,00

ST-205

7,43

ST-84

7,42

ST-85

7,63

приближенно описаны так, как показано на рис. 3.2. Поскольку все исследованные лиганды содержат одни и те же фармакофорные элементы (например, основный атом азота, ароматические группировки, акцепторы водородных связей), мы предполагаем, что они связываются похо-

Рис. 3.1.

Разделение структуры BP897 на три фрагмента: a — основноароматический фрагмент, б — спейсер, в — амидно-ароматический фрагмент

Глава 3. Пример моделирования малых молекул

111

Рис. 3.2. Общая схема антагонистов D3-рецептора жим образом с одной и той же областью D3-рецептора. Чтобы определить биоактивную конформацию, в которой они находятся в месте связывания, мы сконцентрировались на анализе конформационного пространства лигандов с жесткими фрагментами структуры. Поскольку ни один из исследованных лигандов не является абсолютно жестким, но некоторые из них конформационно ограничены, на первом этапе мы разбили каждую из этих молекул на три фрагмента и изучали конформационно ограниченные фрагменты по отдельности. Выбранные фрагменты частично перекрывались для того, чтобы определить биоактивную конформацию связывающих их частей. После определения предполагаемых биоактивных конформаций фрагментов была заново выполнена сборка структур для определения конформаций, в которых молекулы могли бы участвовать в связывании.

3.1.1. Основноароматический фрагмент Большинство соединений выборки (табл. 3.1—3.4) обладает довольно подвижной N-4-(2-метоксифенил)пиперазин-1-иловой группировкой, вследствие чего циклическая система может принимать различные энергетически выгодные конформации. Напротив, конформация соединения 2 зафиксирована, поскольку структуры эта часть содержит циклическую систему без подвижных связей. На первом этапе было детально исследовано конформационное пространство октагидробензохинолинового фрагмента соединения 2 с помощью метода моделирования отжига (см. разд. 2.3.3): 10 раз имитировали нагрев 4-метил-1,2,3,4,4a,5,6,10b-октагидробензо[f]хинолин-7-олового фрагмента до 2000 К и охлаждение до 0 К. Низкотемпературные конформации подвергали визуальному анализу. Были обнаружены два кластера очень похожих низкоэнергетических конформаций циклической системы (рис. 3.3). 1-(2-Метоксифенил)-4-метилпиперазиновая система была наложена на обе структуры, показанные на рис. 3.4, с помощью программы FlexS [5] (см. разд. 2.5.2), которая не только учитывает стерические и электростатические требования фрагментов в процессе наложения, но и предлагает виртуальные точки взаимодействия, которые могут представлять собой противоионы или принимать участие в водородных связях. На рис. 3.4 изображены наложения фенилпиперазиновой системы на обе конформации трициклической системы соединения 2. В обоих случаях конформация фенилпиперазина одинакова. Легко видеть, что

112

Молекулярное моделирование

Рис. 3.3.

Структура октагидробензохинолинового фрагмента

Рис. 3.4. Наложение 1-(2-метоксифенил)-4-метилпиперазина (атомы углерода белые) на оба низкоэнергетических конформера 4-метил-1,2,3,4,4a,5,6,10bоктагидробензо[f]хинолин-7-ола (атомы углерода серые) с помощью программы FlexS. Точки виртуального взаимодействия изображены в виде оранжевых шариков различные фрагменты могут взаимодействовать с одними и теми же предполагаемыми донорами водородной связи или образовывать аналогичные солевые мостики.

3.1.2. Спейсер Спейсерные фрагменты являются наиболее гибкими в имеющемся наборе, поэтому достаточно сложно понять, в какой конформации они связываются с рецептором. К счастью, соответствующие спейсеры соединений 1 и ST-205 конформационно ограничены (рис. 3.5) и потому были детально исследованы. На первом этапе было исследовано конформационное пространство спейсера ST-205. Для бициклической системы было проведено модели-

Рис. 3.5. Соединения 1 и ST-205.

Выделены фрагменты, детально исследованные при изучении конформации спейсера

Глава 3. Пример моделирования малых молекул

113

Рис. 3.6. Фрагмент ST-205. Для бициклической системы возможны три кон-

формации

Рис. 3.7. Расширенный спейсер ST-205. Отмеченные связи поворачивали с шагом 10°

Рис. 3.8. Фрагменты соединений 1 и ST-205. Показана конформация с наивысшей оценкой FlexS

рование отжига, результатом которого явились три различных конформации, изображенные на рис. 3.6. Затем в рассмотрение были включены соседние фрагменты молекулы. Подвижные связи этих фрагментов исследовали методом систематического поиска (рис. 3.7). В результате моделирования отжига для бициклической системы в комбинации с систематическим поиском получили 992 возможные конформации расширенного спейсерного фрагмента ST-205. Аналогичный фрагмент соединения 1 накладывали на каждую из этих 992 конформаций, полученные наложения ранжировали по значению оценочной функции FlexS. Наложение, получившее лучшую оценку, предположительно соответствует конформации, в которой эти фрагменты связываются с рецептором. Эта конформация показана на рис. 3.8.

114

Молекулярное моделирование

3.1.3. Амидноароматический фрагмент В некоторых соединениях, связывающихся с рецептором D3 с высокой аффинностью, так называемый «амидно-ароматический фрагмент» представлен жесткой фталимидной группировкой, поэтому определить фармакофорную конформацию этой части лиганда достаточно легко. Для определения фармакофорной конформации амидно-ароматического фрагмента антагонистов.были использованы планарные фталимидные системы соединений ST-84 и ST-85.

3.1.4. Конечная модель фармакофора После определения предпочтительной конформации всех фрагментов лиганды были собраны заново. Окончательный фармакофор изображен на рис. 3.9; обозначены расстояния между элементами фармакофора. На рис. 3.10 показано наложение четырех лигандов в их предполагаемых биоактивных конформациях. Лиганды принимают вытянутую конформацию. Элементы фармакофора, которые могут вступать в на-

Рис. 3.9. Модель фармакофора антагонистов D3-рецептора

Рис. 3.10.

Наложение четырех лигандов в фармакофорных конформациях: ST-127 (синий), ST-205 (желтый), ST-84 (голубой) и ST-86 (красный)

Глава 3. Пример моделирования малых молекул

115

правленные взаимодействия с рецептором, — акцепторы водородной связи и основные атомы азота — расположены примерно в 6,5 C друг от друга. Ароматическая область амидно-ароматического фрагмента может быть значительно удлинена.

3.1.5. Поля молекулярных взаимодействий Как уже упоминалось в разд. 2.5.3, распознавание молекул происходит по характеристическим свойствам, среди которых — их ван-дер-ваальсов объем. Поэтому при построении наложений фармакофоров следует не только строить наложение атомных скелетов, но также анализировать создаваемые ими поля взаимодействий. На рис. 3.11 изображено наложение 4 высокоаффинных лигандов в фармакофорных конформациях. Поля молекулярных взаимодействий каждого лиганда вычислены средствами программы GRID [6] с использованием различных пробных атомов (зондов). Во время проведения анализа оснoвные атомы азота были протонированы для точного соответствия физиологическим условиям. Как можно видеть на рис. 3.11, б–г, протонированные атомы азота всех лигандов могут вступать во взаимодействие с зондами «ионизированная алифатическая карбоксильная группа» (рис. 3.11, в) и «sp2-NH с неподеленной парой» (рис. 3.11, б), а также вступать в липофильные взаимодействия с зондом «sp2-CH» (рис. 3.11, г). Во всех случаях соответствующие поля находятся в аналогичных областях. Описанные взаимодействия критичны для связыва-

Рис. 3.11.

Лиганды ST-205 (атомы углерода желтые), ST-84 (фиолетовые), ST-127 (оранжевые) и ST-86 (зеленые) изображены вместе с контурами полей GRID в соответствующих цветах. a — Контуры GRID, полученные с помощью зонда «карбонильный кислород». Контур энергии –2,5 ккал/моль. б — Контуры GRID, полученные с помощью зонда «sp2-NH с неподеленной парой». Контур энергии –4 ккал/моль. в — Контуры GRID, полученные с помощью зонда «ионизированная алифатическая карбоксильная группа». Контур энергии –3,5 ккал/моль. г — Контуры GRID, полученные с помощью зонда «ароматический sp2-CH». Контур энергии –1,2 ккал/моль

116

Молекулярное моделирование

ния с рецептором. Некоторые другие выгодные взаимодействия лигандов и пробных атомов возникают лишь для отдельных членов ряда. Это поведение показано на рис. 3.11, а, изображающем взаимодействие лигандов с зондом «карбонильный кислород» — акцептором водородной связи. Только амидные фрагменты лигандов ST-127 и ST-205 могут быть донорами водородной связи, поэтому данное взаимодействие для них выгодно. Тем не менее, поскольку все лиганды, изображенные на рис. 3.11, связываются с рецептором с высокой аффинностью, это взаимодействие кажется менее важным. Информация, полученная из полей GRID, может быть использована для предположений о строении центра связывания в рецепторе. В нашем случае с антагонистами D3-рецептора скорее всего взаимодействует аминокислота — донор водородной связи, аминокислота, образующая солевой мостик, а также липофильные аминокислоты. Относительное пространственное расположение этих аминокислот может соответствовать расположению соответствующих полей GRID.

3.2. Анализ 3DQSAR Для сорока антагонистов рецептора D3 (табл. 3.1—3.3) было построено наложение фармакофорных конформаций методом FlexS. Уточнение наложения производилось утилитой Multifit из программного пакета SYBYL (детальное описание методологии см. в [1]). Полученное наложение 40 лигандов изображено на рис. 3.12. Затем были вычислены поля взаимодействий GRID с использованием различных пробных атомов, расположенных в каждом узле решетки, в которую заключены все лиганды. Размер решетки был выбран таким образом, чтобы она простиралась примерно на 4 C от структур лигандов. Поля рассчитывались с использованием шага решетки 1 C, в результате чего для каждого соединения были получены 14580 значений энергии взаимодействия лиганда и пробных атомов.

Рис. 3.12. Наложение всех антагонистов D3-рецептора в фармакофорной кон-

формации

Глава 3. Пример моделирования малых молекул

117

3.2.1. Уменьшение числа переменных и регрессия частичных наименьших квадратов Прежде всего в программе GOLPE с помощью главных компонент мы проанализировали, взаимодействие с каким пробным атомом GRID лучше всего описывает выборку антагонистов D3-рецептора. Было обнаружено, что таким атомом является гидроксильный (OH) зонд. В связи с этим дальнейший анализ проводили для гидроксильной модели. Как уже говорилось в разд. 2.6.2.2, большое число переменных (т. е. энергий взаимодействия) в дескрипторной матрице проблематично для статистического анализа в методах многомерных проекций. Лишь немногие полученные значения энергии взаимодействия несут полезную информацию, в то время как другие лишь приводят к шуму в статистическом анализе. Поэтому был проведен отбор переменных и построена модель методом PLS в программе GOLPE [7]. Предварительная обработка данных началась с удаления тех из 14580 переменных, которые принимали только два или три значения или имели абсолютное значение < 10–7 ккал/моль. После проведения такого отбора остались 13556 переменных. Они были разбиты на классы с помощью анализа главных компонент, после чего была построена предварительная модель PLS с перекрестного контролем методом LOO. Процедуру уменьшения числа переменных повторили несколько раз методом D-оптимального предварительного отбора, реализованным в программе GOLPE, после чего получили модель PLS на 1682 переменных, которая не отличалась от первой модели по качеству, контролируемому методом LOO. Для окончательного уменьшения числа переменных и построения рабочей модели был выбран метод плана факторного эксперимента с дробными репликами (FFD) в комбинации с интеллектуальным определением областей (Smart Region Definition, SRD) [8]. Как уже упоминалось в разд. 2.6.2.2, этот метод отбора переменных позволяет эффективно отбирать те из них, которые способствуют увеличению предсказательной способности моделей. Валидацию окончательной модели проводили как методом LOO, так и исключением 20% соединений. Методы исключения группы (например, исключение 20%) приводят к более высокой надежности модели, чем обычная процедура LOO.

å (yobs - ycalc ) , 2 å (yobs - ymean ) 2

R2 = 1-

SDEC =

å

(yobs - ycalc )2 N

å (yobs - y pred ) = 12 å (yobs - ymean )

,

(1)

(2)

2

2

Q

(3)

118

Молекулярное моделирование

Таблица 3.5. Модели PLS (три главные компоненты) Число переменных

Метод отбора

R2

SDEC

Q2

SDEP

Метод валидации

13665



0,9545

0,1863

0,7041

0,4753

LOO

6728

D-оптимальный

0,9545

0,1863

0,7041

0,4753

LOO

3364

D-оптимальный

0,9545

0,1863

0,7041

0,4753

LOO

1682

D-оптимальный

0,9545

0,1683

0,7044

0,4751

LOO

799

SRD—FFD

0,9673

0,1580

0,8743

0,3098

LOO

799

SRD—FFD

0,9673

0,1580

0,8549

0,3328

«исключение 20%»

(yobs - y pred )

2

SDEP =

å

N

(4)

где: yobs — экспериментальное значение; ycalc — расчетное значение; ypred — предсказанное значение; ymean — среднее значение; N — число объектов. Результаты анализа 3D-QSAR представлены в табл. 3.5. Методы LOO и исключения 20% дают высокие значения Q2, что свидетельствует о надежности и внутренней предсказательной способности модели. Для построения моделей были использованы три главных компоненты. Качество моделей описывается такими характеристиками, как число переменных, значения коэффициента корреляции R2 (уравнение (1)), стандартной ошибки коррекции SDEC (Standard Error of Correction) (уравнение (2)), коэффициента корреляции перекрестного контроля Q2 (уравнение (3)) и стандартной ошибки прогноза SDEP (уравнение (4)). На рис. 3.13 изображена корреляция между предсказанными и экспериментально определенными значениями pKi для окончательной модели после перекрестного контроля методом LOO.

3.2.2. Валидация модели На следующем этапе была проверена правильность выбора метода 3D-QSAR. Как говорилось в разд. 2.6, обработка больших объемов данных статистическими методами может привести к случайной корреляции. Для того чтобы убедиться в неслучайности корреляции, была проведена проверка методом перемешивания: значения констант связывания были перемешаны и отнесены к лигандам случайным образом. Для этой системы была построена модель PLS и проведена процедура умень-

Глава 3. Пример моделирования малых молекул

119

Рис. 3.13. Модель PLS после перекрестного контроля методом LOO шения числа переменных способом, описанным выше. Итоговая модель была подвергнута перекрестному контролю методом LOO. Процедуру перемешивания и построения модели повторили 10 раз. Характеристики полученных моделей приведены в табл. 3.6.

Таблица 3.6. Модели, построенные после перемешивания значений констант связывания

Модель

R2

SDEC

Q2

SDEP

1

0,7449

0,4413

–0,4612

1,0562

2

0,7871

0,4032

0,1757

0,7923

3

0,7874

0,4028

0,2367

0,7634

4

0,8521

0,3360

0,3356

0,7122

5

0,8066

0,3843

0,2233

0,7700

6

0,8719

0,3129

0,3979

0,6780

7

0,7481

0,4385

–0,4564

1,0545

8

0,8176

0,3732

–0,2714

0,9852

9

0,9128

0,2581

–0,1091

0,9202

10

0,8010

0,3898

–0,0810

0,9085

120

Молекулярное моделирование

Интересно, что для каждой модели получены достаточно высокие значения коэффициента корреляции, но ни одна из них не проходит перекрестный контроль: значения Q2 лежат в диапазоне от –0,4564 до 0,3979. Значения SDEC и SDEP также высоки по сравнению с исходной моделью. Такие результаты означают, что этим методом можно строить хорошие модели только для соединений с правильными значениями констант связывания.

3.2.3. Прогноз для внешней выборки лигандов На последней стадии необходимо проверить предсказательную способность модели на лигандах, не использованных для ее построения (табл. 3.7). Для 12 лигандов, синтезированных и испытанных в тех же лабораториях, что и лиганды обучающей выборки [9–11], было проведено предсказание значений констант связывания и сравнение их с реальными величинами. Поскольку эти соединения были синтезированы и испытаны позже и не были использованы при построении модели, они

Таблица 3.7. Структуры лигандов внешней контрольной выборки Соединение

Структурная формула

Предсказанное значение pKi

Наблюдаемое значение pKi

ST-73

7,33

6,62

ST-75

7,10

6,66

ST-76

7,32

6,71

ST-78

7,02

6,39

Соединение

Структурная формула

Предсказанное значение pKi

Наблюдаемое значение pKi

ST-87

7,91

7,62

ST-104

8,04

8,69

ST-106

7,57

7,12

ST-109

7,70

6,97

ST-111

7,32

6,75

ST-115

7,59

7,13

ST-128

7,50

7,66

ST-129

8,10

8,55

122

Молекулярное моделирование

представляют собой истинно внешнюю контрольную выборку. Химические структуры этих соединений приведены в табл. 3.7. Для прогноза на внешней выборке значение SDEP составляет 0,57. Обычно pKi находится в пределах ±0,5 от экспериментальных значений, поэтому в данном случае мы получили разумный результат. Как часто бывает при предсказании для внешней выборки с помощью моделей 3D-QSAR, разница между истинными и предсказанными значениями максимальна для наиболее и наименее активных соединений: для наиболее активных антагонистов прогноз занижает активность, а для наименее активных — завышает ее.

Цитированная литература 1. Hackling, A., Ghosh, R., Perachon, S. et al. (2003) N-(omega-(4-(2-methoxyphenyl)piperazin-1-yl)alkyl)carboxamides as dopamine D2 and D3 receptor ligands. Journal of Medicinal Chemistry, 46, 3883–99.

2. Pilla, M., Perachon, S., Sautel, F. et al. (1999) Selective inhibition of cocaineseeking behaviour by a partial dopamine D3 receptor agonist. Nature, 400, 371–75.

3. Moore, K. W., Bonner, K., Jones, E. A. et al. (1999) 4-N-linked-heterocyclic piperidine derivatives with high affinity and selectivity for human dopamine D4 receptors. Bioorganic & Medicinal Chemistry Letters, 9, 1285–90.

4. Avenell, K. Y., Boyfield, I., Coldwell, M. C. et al. (1998) Fused aminotetralins: novel antagonists with high selectivity for the dopamine D3 receptor. Bioorganic & Medicinal Chemistry Letters, 8, 2859–64.

5. Lemmen, C., Lengauer, T., and Klebe, G. (1998) FLEXS: a method for fast flexible ligand superposition. Journal of Medicinal Chemistry, 41, 4502–20.

6. GRID, Molecular Discovery Ltd., London, http://www.moldiscovery.com. 7. GOLPE, Multivariate Infometric Analysis, Perugia, http://www.miasrl.com/golpe.htm.

8. Cruciani, G., Clementi, S., and Pastor, M. (1998) GOLPE-guided region selection. Perspectives in Drug Discovery and Design, 12, 71–86.

9. Mach, U., Hackling, A. E., Perachon, S. et al. (2004) Development of novel 1,2,3,A-tetrahydroisoquiniline derivatives and closely related compounds as potent and selective dopamine D3 receptor ligands. Chembiochem, 5, 508–18.

10. Hackling, A. E. and Stark, H. (2002) Dopamine D3 receptor ligands with antagonist properties. Chembiochem, 3, 946–61.

11. Ghosh, R. (2002) Molecular Modelling Untersuchungen am Dоpamin D3 Rezeptor and Seinen Liganden, Ph. D. Thesis, Heinrich-Heine-University Dusseldorf, Germany.

Моделирование белков. Введение

4

4.1. Где и как получить информацию о белках Вплоть до этой главы мы рассматривали малые молекулы; далее книга будет посвящена биополимерам. Поскольку большинство известных рецепторов и молекулярных мишеней представляют собой полипептиды, мы будем обсуждать преимущественно моделирование белковых структур. Достоверность каждой модели сильно зависит от качества экспериментальных данных, на которых базируется процедура построения гипотетической модели. Поэтому первым этапом построения модели всегда должно быть внимательное изучение литературных данных и баз данных и четкое уяснение уровня знаний о структуре исследуемого биополимера. Весьма ценной, например, может быть информация о полной трехмерной структуре рецептора или фермента, полученная методом РСА или ЯМР. После соответствующей обработки такая структура может быть непосредственно использована для определения различных свойств белка или исследования лиганд-белковых взаимодействий. Число исследованных трехмерных структур белков быстро увеличивается, но скорость накопления данных об аминокислотных последовательностях значительно выше, и именно поэтому для подавляющего большинства последовательностей трехмерная структура неизвестна. С начала 1990-х гг. многие лаборатории проводят полный анализ геномов таких организмов, как бактерии, дрожжи, мыши и человек. Благодаря этим усилиям в общедоступных базах данных хранится огромное количество информации. Главной задачей этих баз данных является не столько хранение и поиск информации, сколько предоставление исследователям возможности сравнения нуклеотидных или аминокислотных последовательностей для выявления подобий и различий. Поскольку количество опубликованных последовательноcтей и объем информации о структурах быстро увеличиваются, эффективный поиск может быть выполнен лишь с использованием специализированного программного обеспечения. К настоящему времени разработаны и внедрены различные алгоритмы взаимодействия графических пользовательских интер-

124

Молекулярное моделирование

фейсов с имеющимися базами данных, благодаря которым сравнение вновь обнаруженной последовательности с имеющимися в базе может быть проведено за считанные минуты. Тем не менее всегда очень важно внимательно анализировать результаты и в случае необходимости изменять критерии поиска по базе. С помощью программ анализа последовательностей можно быстро определять различия между белками разных биологических видов, а также белками здорового и больного индивидуумов. Одна из широко известных программ такого рода GCG [1] разработана Генетической компьютерной группой из Висконсина (Genetic Computer Group) и включена в программный пакет фирмы Accelrys [2]. Эта программа позволяет работать с несколькими базами данных, которые могут быть использованы для поиска структуры индивидуального белка или ДНК. Настройка критериев поиска производится с помощью ключевых слов (например, имен авторов, названий журналов или семейств белков). Многие базы нуклеотидных и белковых последовательностей поддерживаются научным сообществом и доступны через интернет. База нуклеотидных последовательностей Европейской лаборатории молекулярной биологии (European Molecular Biology Laboratory, EMBL) [3], также известная как EMBL-банк, представляет собой основное европейское хранилище нуклеотидных последовательностей, которое создается в сотрудничестве с GenBank (США) и Базой данных ДНК Японии (DNA Database of Japan, DDBJ). Каждая из этих трех групп собирает часть публикуемых во всем мире данных о последовательностях; обмен данными производится ежедневно. Главными источниками знаний о последовательностях нуклеиновых кислот являются данные отдельных исследователей, проектов по секвенированию генома и заявок на патенты. Центральное хранилище данных о последовательностях и функциях белков — база данных Универсального белкового ресурса (Universal Protein Resource, UniProt, http://www.uniprot.org) [4]. В ней содержатся точно аннотированные белковые последовательности; бесплатно доступен для научного сообщества широкий спектр перекрестных ссылок и интерфейсов запроса. База Uniprot поддерживается консорциумом, состоящим из Европейского института биоинформатики (European Bioinformatics Institute, EBI), Швейцарского института биоинформатики (Swiss Institute of Bioinformatics, SBI) и Ресурса белковой информации (Protein Information Resource, PIR). Каждый член консорциума многие годы занимается поддержкой и аннотацией белковых баз данных: EBI и SBI совместно создали базу Swiss-Prot & TrEMBL (Swiss-Protein and Translated European Molecular Biology Laboratory), а PIR создал базу белковых последовательностей (Protein Sequence Database, PIR-PSD) [5, 6]. Ранее эти базы существовали параллельно, различаясь количеством белковых последовательностей и приоритетами в аннотации. Swiss-Prot считалась «золотым стандартом» аннотации, поскольку имела всеохватную сеть перекрестных ссылок, содержала ссылки на литературу и результаты компьютерного анализа, проведенного экспертами. Поскольку скорость накопления экспериментальных данных превышала

Глава 4. Моделирование белков. Введение

125

возможности экспертов Swiss-Prot, была создана база TrEMBL на основе банка EMBL, в которую автоматически помещались аннотации для белков, не вошедших в Swiss-Prot. В то же время PIR занимался поддержкой PIR-PSD и сопряженных баз, таких как база особо важных белковых семейств (curated families). Впоследствии членами консорциума было принято решение об объединении данных и совместном использовании ресурсов. Наиболее важной базой данных о трехмерных структурах макромолекул является Банк белковых данных (Protein Data Bank, PDB) [7], доступный через интернет (http://www.rcsb.org). В нем содержатся атомные координаты структур белков и нуклеиновых кислот. Поскольку число экспериментально определенных структур постоянно увеличивается, база данных непрерывно обновляется (примерно 41 000 структур в конце 2006 г.)1. В ней возможен поиск информации по ключевым словам, таким как имя автора, название журнала или часть последовательности. На основе PDB были созданы несколько меньших структурных баз данных, например HSSP (Homology-Derived Secondary Structure of Protein) [8] и SCOP (Structural Classification Of Proteins) [9]. В HSSP находится информация о вторичной структуре белков, полученная путем исследования гомологии между структурами из PDB и последовательностями из Swiss-Prot. В базе SCOP упорядочены все известные структуры белков на основе их эволюционных и структурных взаимоотношений; белковые домены группируются по видам и иерархически разделяются на семейства, суперсемейства, укладки (folds) и классы. Формат и организация информации в различных файлах структурных данных имеют общие черты. Поскольку весьма широко используется формат PDB, мы кратко опишем этот стандартный формат файла данных о белке. Заголовок файла содержит общую информацию о белке; после заголовка следует информация об атомных координатах. Атомы, относящиеся к стандартным аминокислотам, помечены в начале строки ключевым словом ATOM; для различения индивидуальных белковых цепей между блоками ATOM вводят ключевое слово TER. При чтении файла программой моделирования связи между атомами типа ATOM обычно достраиваются автоматически. Атомы, не относящиеся к стандартным аминокислотам, помечаются ключевым словом HETATM; они могут относиться к нестандартным аминокислотам или в случае комплексов к молекуле лиганда или кофактора. Для этих молекул нет внутренних стандартов связности, поэтому в конец файла добавляется матрица связности, помеченная ключевым словом CONECT. При чтении PDB-файла стандартными программами моделирования определение типов атомов в блоке HETATM зачастую происходит некорректно. Следует уделять особое внимание правильному построению этого блока. Многие программы предлагают возможность автоматического определения типов атомов, но пользователь должен осознавать, что эта процедура часто приводит к ошибочным молекулярным 1

По состоянию на ноябрь 2011 г. — 77 000 структур.

126

Молекулярное моделирование

структурам. Поэтому необходимо внимательно проверять структуры во избежание ошибок, приводящих к неверной геометрии лигандов (эта проблема обсуждалась в разделе 2.1.2). Обычно структуры из PDB не содержат атомов водорода. В некоторых исследованиях ими можно пренебречь, однако при изучении лиганд-белковых взаимодействий добавлять атомы водорода необходимо. Для молекул лиганда также необходимо проверять правильность определения состояния гибридизации (тип атома) и протонирования (формальный заряд), в особенности в случае кислых и основных молекул. Координаты атомов водорода также по умолчанию неизвестны для молекул воды, вследствие чего они представлены в виде одиночных атомов кислорода. Молекулы воды могут представлять собой кристаллизационную воду, находящуюся рядом с поверхностью белка, либо находиться в активном центре. В последнем случае имеет смысл использовать их координаты в дальнейших исследованиях, поскольку они могут быть так же критичны для конфигурации активного центра, как и катионы, встречающиеся в кристаллической структуре, которые могут играть важную роль в связывании лиганда или ферментативной активности, если они находятся в активном центре. Подавляющее большинство программ моделирования могут без каких-либо проблем читать файлы данных, полученные непосредственно из PDB, и трансформировать структурную информацию в трехмерное изображение белка. Тем не менее при использовании экспериментальной информации стоит уделить внимание некоторым вещам. Разрешение кристаллической структуры должно быть не хуже 2,5 C, иначе структурная информация не слишком надежна. Процесс очистки белка — сложная задача, требующая больших временных затрат, и может случиться так, что из-за протеолитической активности часть информации потеряется до того, как закончится процесс кристаллизации. Как следствие, иногда аминокислотные остатки могут отсутствовать в структурном файле, что приводит к неполноте содержащейся в нем информации. Некоторые белки выполняют свою биологическую функцию только в димерной или мультимерной форме. Нет никакого смысла исследовать функциональность активного центра димерного белка, если в PDBфайле присутствует лишь структура мономера. Новая версия интернетсайта PDB содержит информацию о биологической единице (biological unit) и кристаллической форме каждой записи, позволяющую восстановить структуру мультимера по структуре мономера. С недавних пор метод ядерного магнитного резонанса (ЯМР) широко используется для получения структурной информации о белках. Этот метод особенно плодотворен в тех случаях, когда потерпели неудачу все попытки вырастить достаточно большие кристаллы белка; дополнительное преимущество метода ЯМР заключается в том, что на конформацию белка не оказывают влияния молекулы кристаллического окружения. Поскольку исследование структуры этим методом проводится в растворе, результаты сильно зависят от растворителя. Эксперименты в

Глава 4. Моделирование белков. Введение

127

неполярных растворителях приводят к переоценке роли водородных связей, поэтому исследование водных растворов белков дает более реалистичную картину структуры белка. Объем информации о белках очень велик и постоянно увеличивается, но до сих пор большинство доступных баз данных содержат информацию о первичных структурах. Для того чтобы построить трехмерную модель белка с помощью этих данных, необходимо использовать методы выравнивания и моделирования белков по гомологии. Их подробное обсуждение будет дано в разд. 4.3.

Цитированная литература 1. Devereux, J., Haeberli, P. and Smithies, O. (1984) A comprehensive set of sequence analysis programs for the VAX. Nucleic Acids Research, 12, 387–95.

2. Genetics Computer Group (GCG), Accelrys Inc., San Diego. http://www.accelrys.com.

3. Emmert, D. B., Stoehr, P. J., Stoesser, G. and Cameron, G. N. (2994) The Euro-

pean Bioinformatics Institute (EВI) databases. Nucleic Acids Research, 22, 3445–49.

4. Bairoch, A., Apweiler, R., Wu, C. H. et al. (2005) The universal protein resource (UniProt). Nucleic Acids Research, 33, D154–59.

5. Bairoch, A. and Boeckmann, B. (1994) The SWISS-PROT protein sequence data bank: current status. Nucleic Acids Research, 22, 3578–80.

6. George, D. G., Barker, W. C., Mewes, H.-W. et al. (1994) The PIR-international protein sequence database. Nucleic Acids Research, 22, 3569–73.

7. Berman, H. M., Westbrook, J., Feng, Z. et al. (2000) The Protein Data Bank. Nucleic Acids Research, 28, 235–42.

8. Sander, C, and Schneider, R. (1994) The HSSP database of protein structure-sequence alignments. Nucleic Acids Research, 22, 3597–99.

9. Lo Conte, L., Brenner, S. E., Hubbard, T. J. P. et al. (2002) SCOP database in 2002: refinements accommodate structural genomics. Nucleic Acids Research, 30, 264–67.

4.2. Принципы организации структуры белков. Терминология Выделяют четыре уровня организации трехмерной структуры белков: первичную, вторичную, третичную и четвертичную структуру.

1. Первичная структура — это линейная последовательность аминокислотных остатков в белке.

2. Вторичная структура описывает локальную архитектуру линей-

ных сегментов полипептидной цепи (a-спиралей, b-листов) без учета конформаций боковых цепей. Недавно был предложен новый термин «мотив» (супервторичная структура), описывающий другой уровень организации: ассоциацию элементов вторичной структуры благодаря взаимодействиям боковых цепей.

128

Молекулярное моделирование

3. Третичная структура — общая топология свернутой полипептидной цепи.

4. Четвертичная структура — пространственная (трехмерная) упаковка субъединиц или мономеров в функциональном белке. Благодаря способности полипептидных цепей укладываться в функциональные белки не только in vivo, но и in vitro, в настоящее время считается, что большинство особенностей структуры и организации конкретного белка напрямую зависит от свойств конкретной последовательности аминокислот, составляющих полипептидную цепь, т. е. от первичной структуры. Среди этих свойств — свойства боковых цепей каждого аминокислотного остатка и влияние основной цепи на конформацию белковой молекулы в целом. Эта информация достаточна для понимания трехмерной структуры белка. Детальное описание всех факторов, влияющих на конформацию белка, выходит за рамки данного раздела; основные характеристики изложены в следующих главах. Подробное описание принципов строения белка читатель может найти в литературе [1–4].

4.2.1. Конформационные свойства белков В природных белках чаще всего встречаются всего лишь 20 аминокислот. Они заметно различаются по таким свойствам своих боковых цепей, как размер, форма, гидрофобность, заряд, способность к образованию водородных связей. Однако они не обладают ни высокой реакционной способностью, ни, за исключением пролина, значительными ограничениями степеней свободы. При рассмотрении пространственной структуры белков наиболее важным является вопрос о том, как боковые цепи взаимодействуют друг с другом и с основной цепью, какую роль они играют в различных типах вторичных и третичных структур белка. Кроме линейной связности и стерического объема остатков, определяющее влияние аминокислотной последовательности белка на его конформационные свойства проявляется за счет способности остатков образовывать водородные связи, а также благодаря хиральности всех, за исключением глицина, аминокислотных остатков. Все 19 хиральных аминокислот относятся к L-ряду; по системе Кана-Ингольда-Прелога они обладают S-конфигурацией, за исключением L-цистеина, R-конфигурация которого определяется изменением в приоритете заместителей. Для понимания информации о конкретных белках необходимо знать способы обозначения индивидуальных атомов и структурных элементов белка. Все атомы, углы между связями и торсионные углы обозначаются с помощью букв греческого алфавита. Первый атом углерода от пептидной связи обозначается буквой a, а атомы боковой цепи — b, g, d, e и z в алфавитном порядке, начиная с a-атома. Белковая цепь составлена из повторяющихся последовательностей трех атомов, относящихся к одному аминокислотному остатку — амидного азота N, атома Ca и карбонильного углерода C¢; обычно эти атомы обозначают как Ni, Cia и

Глава 4. Моделирование белков. Введение

129

Рис. 4.2.1. Обозначение атомов и торсионных углов белка

Ci¢ соответственно, где i — это номер остатка, начиная с N-конца белковой цепи. На рис. 4.2.1 приведен фрагмент полипептидной цепи, иллюстрирующий основные соглашения об обозначениях. Торсионные углы белковой цепи называются j («фи»), y («пси») и w («омега»). Вращение вокруг связи N—Ca характеризуется торсионным углом j, вращение вокруг связи Ca—C¢ — углом y, а вращение вокруг пептидной связи — углом w. Торсионные углы боковых цепей обозначаются cj («хи1», «хи2» и т. д.), где j — номер связи, отсчитываемый от Ca-атома. Пептидная связь обычно планарна, поскольку имеет частично природу двойной связи и почти всегда транс-конфигурацию (w = 180°), которая энергетически более благоприятна, чем цис- (w = 0°). Цис-конфигурация иногда (~10% случаев) встречается у остатков пролина. Небольшие отклонения от планарности цис- или транс-формы (Dw < 20°) считаются энергетически приемлемыми. Вариации углов j и y геометрически ограничены из-за взаимодействий с соседними непосредственно не связанными атомами. Разрешенные значения j и y были впервые определены и проанализированы Рамачандраном с сотр. [5]. Они систематически исследовали торсионные углы в компьютерных моделях небольших пептидов, пытаясь выявить стабильные конформации. Для каждой конформации, характеризующейся определенной комбинацией значений j и y, искали близкие межатомные контакты. Была использована достаточно грубая модель, в которой атомы рассматривались как жесткие сферы, а геометрия связей была фиксирована. Только те значения j и y, для которых в этой модели не было обнаружено близких контактов, считаются разрешенными; обычно их представляют в виде двумерной карты, называемой картой Рамачандрана. Поскольку углы j и y позволяют практически исчерпывающе описать конформацию основной цепи, карта Рамачандрана является простым и надежным способом проверки достоверности трехмерной структуры белка.

130

Молекулярное моделирование

Рис. 4.2.2. Карта Рамачандрана для полиаланина

На рис. 4.2.2 в качестве примера приведена карта Рамачандрана для полиаланина. Бoльшая часть карты (белый цвет) относится к конформациям, где атомы полипептидной цепи расположены на расстояниях меньших, чем сумма ван-дер-ваальсовых радиусов. Эти области стерически запрещены для всех аминокислот, за исключением глицина. Для глицина, у которого нет боковой цепи, доступна почти вся поверхность карты. Затененные области относятся к конформациям, для которых нет стерических препятствий, иными словами, это разрешенные области. Область, расположенная непосредственно рядом с границами разрешенной, включает конформации, приемлемые в случае, если допустимы небольшие вариации углов между связями. Карты Рамачандрана для других аминокислот имеют сходную форму областей. Подобласти (j, y)-пространства обычно называют по элементам вторичной структуры, которые возникают при повторении соответствующих углов. Например, правозакрученной a-спирали отвечает область внизу слева около (–60°, –40°); b-листам — обширная область слева вверху вокруг (–120°, 140°); энергетически невыгодным левозакрученным a-спиралям — область справа вверху (60°, 40°). Далее мы опишем конформационные свойства и другие важные параметры элементов вторичной структуры.

4.2.2. Элементы вторичной структуры белков 4.2.2.1. aСпираль

Правая a-спираль — наиболее известный и легко узнаваемый элемент вторичной структуры белков [6, 7]. Примерно 35% аминокислотных остатков известных глобулярных белков находятся в a-спиральной конформации [8]. a-Спирали характеризуются повторяющейся вторичной

Глава 4. Моделирование белков. Введение

131

структурой, что означает, что все Ca-атомы аминокислот a-спиралей находятся в идентичных относительных позициях и поэтому пары торсионных углов (j, y) одинаковы для каждого остатка спирали. Структура a-спирали повторяется каждые 5,4 C вдоль оси спирали, то есть шаг a-спирали p = 5,4 C. На виток a-спирали приходится 3,6 аминокислотных остатка, то есть 10 витков спирали состоят из 36 аминокислотных остатков. a-Спиральная структура стабилизируется повторяющимися водородными связями между карбонильными функциями остатков с номером n и амидными NH остатков с номером (n + 4) (см. рис. 4.2.3), благодаря чему данное конформационное состояние энергетически выгодно и отличается регулярностью структуры. В белках всегда наблюдаются правозакрученные a-спирали, поскольку L-аминокислоты не могут формировать обширные левозакрученные спирали, в которых Cb-атомы контактировали бы со следующим витком спирали. Найдены лишь отдельные остатки, которые обладают парами торсионных углов (j, y), характерными для левых спиралей. Поэтому, говоря об a-спирали, мы обычно имеем в виду правую a-спираль. В природных белках геометрия a-спирали может немного отличаться от идеала в зависимости от окружения. Идеальная a-спираль (j = –57°, y = –47°) — лишь один из представителей семейства схожих структур [6]. Более того, обычно в белках наблюдается несколько иная геометрия a-спирали (j = –62°, y = –41°); эта конформация более выгодна, чем идеальная a-спираль, поскольку она позволяет карбонильному кислороду остатка n образовывать водородные связи не только с NH-группой (n + 4)-го остатка, но и с водой или другими донорами водородной связи. Боковые цепи a-спирали направлены в окружающее пространство. Существуют различные ограничения на их конформации, в особенности

Рис. 4.2.3. Общая архитектура a-спирали

132

Молекулярное моделирование

для разветвленных боковых цепей (Val, Ile, Thr). a-Спиральная конформация неприемлема для остатков пролина, поскольку амидный азот входит в состав цикла, что не позволяет ему выступать в качестве донора при образовании водородной связи. Если одиночный остаток пролина входит в длинную a-спираль (например, в некоторые трансмембранные спирали бактериородопсина), возникает локальное нарушение геометрии спирали. Варианты классической a-спирали, в которой основная цепь белка свернута более плотно или менее плотно (с водородными связями от остатка n к остаткам (n + 3) или (n + 5)), называются, соответственно, 310-спиралью и p-спиралью. В большинстве случаев эти типы спиралей не играют определяющую роль в архитектуре белков. Последний виток классических a-спиралей часто представляет собой 310-спираль. 4.2.2.2. bЛист

b-Лист — это второй часто встречающийся и легко распознаваемый периодический элемент вторичной структуры [9, 10]. b-Листы состоят из b-цепей (b-strands), характеризующихся линейной (развернутой) конформацией полипептидной цепи (j = –120°, y = 140°). Поскольку взаимодействия между аминокислотами одной и той же b-цепи, если эти аминокислоты не соседи, невозможны, она устойчива только во вторичной структуре b-листа. Как и в случае a-спиралей, все доноры и акцепторы белковой цепи участвуют в образовании водородных связей; тем не менее, поскольку эти водородные связи ближе к межмолекулярным, чем к внутримолекулярным, b-листы менее устойчивы по сравнению с a-спиралями. В отличие от a-спиралей, составленных из аминокислотных цепей, b-листы оказывают значительно большее упорядочивающее влияние на структуру белковой молекулы, поскольку несколько b-цепей распределены вдоль полипептидной цепи. Соседние b-цепи могут быть расположены параллельно или антипараллельно друг другу. В параллельных листах цепи направлены в одну и ту же сторону (рис. 4.2.4, а), а в антипараллельных — в противоположные (рис. 4.2.4, б). В b-листах боковые цепи располагаются приблизительно перпендикулярно плоскости водородных связей между отдельными цепями; вдоль цепи их направление чередуется. В случае антипараллельных b-листов обычно одна сторона листа направлена внутрь белка, а другая — в сторону растворителя, поскольку в первичной структуре чередуются гидрофобные и гидрофильные остатки. Обе стороны параллельных b-листов обычно находятся внутри белка, поэтому центральные остатки преимущественно гидрофобны, а гидрофильные расположены главным образом на концах b-цепей. В обоих случаях крайние цепи могут быть значительно более гидрофильны, чем центральные. Структура b-листа широко распространена в глобулярных белках (около 24%) [8]. Они могут состоять как исключительно из параллель-

Глава 4. Моделирование белков. Введение

133

Рис. 4.2.4. Архитектура параллельных (а) и антипараллельных (б) b-листов ных или антипараллельных листов, так и из их смеси. Чисто параллельные листы довольно редки, в то время как чисто антипараллельные встречаются довольно часто; они могут состоять из двух или трех цепей, в то время как параллельные листы состоят минимум из четырех. Число цепей в листах смешанного типа — от 3 до 15. В большинстве случаев периодические структурные элементы белка (a-спирали и b-листы) довольно коротки. Длина a-спирали обычно составляет 10–15 остатков (12–22 C), а одиночная b-цепь обычно состоит из 3–10 остатков (7–30 C). Большинство описанных выше идеальных геометрий спиралей и листов редко встречаются в природе. Реальные листы и спирали более или менее искривлены: очень часто при контакте a-спирали с растворителем происходит искривление оси спирали; большинство b-листов в свернутых белках не планарны, а слегка скручены, угол скручивания между отдельными цепями может быть от 0° до 30°. 4.2.2.3. Петли

Приблизительно треть аминокислотных остатков глобулярных белков находится в петлях (turns). Структурная функция петель — изменять и разворачивать направление полипептидной цепи. Зачастую они нахо-

134

Молекулярное моделирование

дятся на поверхности белка и поэтому преимущественно содержат ионизированные (заряженные) и полярные аминокислотные остатки. Существуют различные типы упорядоченных и неупорядоченных белковых петель. Их характерные особенности зависят, например, от типа вторичных структур, которые они соединяют. Детальное описание различных типов петель читатель может найти в литературе [1–4, 11, 12]. Петли, соединяющие антипараллельные b-цепи, обычно называют b-петлями или шпильками (hairpin bends) [12]. Около 70% шпилек короче семи остатков; чаще всего они состоят из двух остатков. Конформация бoльших петель отличается значительно меньшей определенностью и часто подвергается влиянию со стороны остальной части белка. Во всех петлях пептидные фрагменты не спарены регулярными водородными связями и доступны для растворителя, поскольку петли и шпильки часто встречаются на поверхности белка. В данном разделе описаны лишь самые общие правила организации белковой архитектуры. Каждый природный белок уникален и приобретает свой функциональный и структурный характер благодаря специфичным нековалентным взаимодействиям. Поэтому необходимо сравнивать любую структуру, построенную с помощью компьютера, с реальными трехмерными структурами белков и использовать в процессе моделирования как можно больше информации о реальных белковых структурах. Схемы мотивов вторичной структуры сложного белка весьма полезны для понимания его общей структуры. Обычно при таком изображении белка опускают боковые цепи для того, чтобы получить более четкую картину различных элементов вторичной структуры белка в целом. Спирали часто изображают в виде цилиндров или свернутых лент, а b-цепи — с помощью толстых стрелок, направленных от аминоконца цепи к С-концу. Трехмерная структура триозофосфатизомеразы представлена на рис. 4.2.5.

Рис. 4.2.5. Трехмерная структура триозофосфатизомеразы, представленная в упрощенной форме с использованием программы MOLSCRIPT [13]

Глава 4. Моделирование белков. Введение

135

4.2.3. Гомологичные белки Давно известно, что мутационный механизм молекулярной эволюции приводит к дивергенции и, как следствие, появлению семейств родственных белков с похожими аминокислотными последовательностями и трехмерными структурами. Белки, произошедшие от общего предка, называют гомологичными. Две гомологичных последовательности могут обладать разной степенью подобия: от почти полной идентичности до полной непохожести друг на друга вследствие большого количества мутаций. Подобие последовательностей гомологичных белков в ходе эволюции сохраняется хуже, чем структурное подобие. Другими словами, трехмерные структуры гомологичных белков консервативны, поскольку структурное подобие критично для сохранения функции белка. Консервативность структуры белка была обнаружена во многих белковых семействах. В качестве примера можно привести структуры a-химотрипсина и трипсина — оба относятся к семейству сериновых протеаз. Они очень похожи друг на друга, хотя лишь 44% аминокислотных остатков в обеих последовательностях идентичны. Топологическое подобие этих белков легко видеть на рис. 4.2.6. Другие представители семейства сериновых протеаз изменились в ходе эволюции более радикально: например, бактериальные сериновые протеазы идентичны протеазам млекопитающих (тромбину, трипсину, химотрипсину) лишь на 20%. Тем не менее, если рассматривать подобие трехмерных структур, можно увидеть, что основные особенности структуры сохраняются в ходе эволюции. Вдумчивый исследователь может сразу задаться вопросом: как столь большие различия первичных последовательностей могут быть совместимы с наблюдаемым структурным подобием? Ответ на этот вопрос был найден опытным путем и может быть кратко обобщен следующим образом. Наиболее заметные различия обычно возникают в областях, близких к поверхности белка, в районе петель. В этих областях часто меняются даже физико-химические свойства боковых цепей. Остатки,

Рис. 4.2.6. Трехмерные структуры двух гомологичных белков (красным цветом изображены a-спирали, синим — b-цепи, желтым — основная цепь белка)

136

Молекулярное моделирование

расположенные внутри белка, варьируются реже и менее широко, вследствие чего остов белка и основные элементы вторичной структуры в семействе гомологичных белков остаются высококонсервативными. Элементы вторичной структуры гомологичных белков могут двигаться друг относительно друга, меняться по длине или даже бесследно исчезать. Впрочем, обычно a-спираль не заменяется на b-лист и наоборот. Более того, у различных белков одного семейства ни порядок, ни ориентация (параллельная или антипараллельная) b-цепей не меняется. Подводя итог, можно сказать, что общие конформации гомологичных белков сохраняются в ходе эволюции. На этом факте основан метод моделирования белков по гомологии, который будет описан в следующем разделе.

Цитированная литература 1. Creighton, T. E. (1992) Proteins: Structures and Molecular Properties, 2nd edn, W H. Freeman and Company, New York.

2. Branden, C. and Tooze, J. (1991) Introduction to Protein Structure, Garland Publishing, New York.

3. Schulz, G. E. and Schirmer, R. H. (1979) Principles of Protein Structure, Springer-Verlag, New York.

4. Fasman, G. D. (1989) Prediction of Protein Structure and the Principles of Protein Conformation, Plenum Press, New York.

5. Ramachandran, G. N. and Sasisekharan, V. (1968) Conformation of polypeptides and proteins. Advances in Protein Chemistry, 23, 283–437.

6. Pauling, L., Corey, R. B., and Branson, H. R. (1951) The structure of proteins; two hydrogen-bonded helical configuration of the polypeptide chain. Proceeding of the National Academy of Sciences of the United States of America, 37, 205–11.

7. Barlow, D. J. and Thornton, J. M. (1988) Helix geometry in proteins. Journal of Molecular Biology, 201, 601–19.

8. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen bonded and geometrical features. Biopolymers, 22, 2577–637.

9. Chou, K. C., Pottle, M., Nemethy, G. et al. (1982) Structure of beta-sheets. Origin of the right-handed twist and of the increased stability of antiparallel over parallel sheets. Journal of Molecular Biology, 162, 89–112.

10. Pauling, L. and Corey, R. B. (1951) Configurations of polypeptide chains with favored orientation around single bonds: two new pleated sheets. Proceedings of the National Academy of Sciences of the United States of America, 37, 729–40.

11. Rose, G. D., Gierasch, L. M., and Smith, J. A. (1985) Turns in peptides and proteins. Advances in Protein Chemistry, 37, 1–109.

12. Sibanda, B. L. and Thornton, J. M. (1985) Beta-hairpin families in globular proteins. Nature, 316, 170–74.

13. Kraulis, P. J. (1991) MOLSCRIPT: a program to produce both detailed and schematic plots of protein structures. Journal of Applied Crystallography, 24, 946–50.

Глава 4. Моделирование белков. Введение

137

4.3. Моделирование белков по гомологии Как уже говорилось в разд. 4.1, большой объем информации о первичных и вторичных структурах белков хранится в различных базах данных. Определение последовательности белка — рутинная задача многих молекулярно-биологических лабораторий. В последние годы в рамках проекта «Геном человека» частота и скорость публикаций первичных структур значительно увеличились: в базе данных UniProt доступны последовательности более чем 3 млн белков. Тем не менее переход от последовательностей к установлению («решению») трехмерных структур с помощью рентгеновской кристаллографии или ЯМР требует значительно больше времени. В зависимости от типа белка полное решение его структуры может занять больше года [1], вследствие чего число известных последовательностей значительно превышает число известных структур: в базе данных PDB доступны структуры более чем 40 000 белков (на конец 2006 г.)1. В связи с техническими проблемами, сопряженными с экспериментальным установлением трехмерных структур, ощущается потребность в разработке теоретических методов предсказания трехмерной структуры на основе аминокислотной последовательности. Поскольку на данный момент пока не предложены общие правила укладки белковых цепей, предсказание структуры можно строить на конформациях доступных гомологичных белков [2–4] (принципы, лежащие в основе идеи, см. в разд. 4.2). Если обнаружено, что исследуемый белок гомологичен другому белку с известной трехмерной структурой, то для предсказания структуры исследуемого белка можно использовать метод моделирования по гомологии2. Идея метода состоит в использовании накопленного объема знаний об уже известных структурах белков. Построение модели начинается со сравнения последовательности нового белка с последовательностями всех белков с известной структурой, хранящимися в базе данных. Белки, для которых обнаружена гомология с исследуемым белком, извлекаются из базы и используются в качестве шаблонов для предсказания структуры неизвестного белка. Этот метод был предложен несколькими авторами [5–8] и описан более подробно в следующих разделах. Успех моделирования по гомологии сильно зависит от того, насколько близка структура моделируемого белка к структуре выбранного шаблона [9]. Поскольку наше понимание механизмов укладки белка в настоящее время весьма ограничено, единственным критерием, применимым для определения возможности предсказания структуры, остается мера идентичности последовательностей белков с известными структурами. Многие исследования показали, что структурная гомология сохраняется, даже если сходство последовательностей невозможно обнаружить, но для целей моделирования, основанного на гомологии, наличие сходства последовательностей имеет самое важное значение. 1 2

См. прим. на с. 125. В русскоязычной литературе встречаются также синонимы: гомологическое моделирование и сравнительное моделирование.

138

Молекулярное моделирование

Предсказание структурного сходства между различными белками может базироваться только на определении идентичностей в последовательностях. Поэтому сравнение последовательностей с использованием методов выравнивания является важнейшим шагом моделирования по гомологии и будет описано в деталях в разд. 4.3.1. Традиционное моделирование по гомологии включает следующие шаги: 1. поиск белков, родственных изучаемому белку;

2. идентификация консервативных и вариабельных областей; 3. выравнивание последовательностей исследуемого белка и шаблонного белка (белков) в консервативных областях; 4. конструирование консервативных областей белка-мишени с использованием координат шаблонных структур; 5. конструирование структурно вариабельных областей;

6. моделирование боковых цепей; 7. оптимизация структуры с помощью методов минимизации энергии и молекулярной динамики.

4.3.1. Методы выравнивания последовательностей Первый этап сравнительного моделирования — отнесение белка с неизвестной структурой к определенному семейству. Во многих случаях эта информация уже имеется, поскольку обычно белок принадлежит к хорошо известному семейству. Впрочем, это может быть и не так. В таком случае необходимо сравнить новую последовательность с тысячами последовательностей, хранящихся в базах данных, и выявить гомологичные последовательности, если это возможно. В прошлом идентификация новых белков с помощью поиска в базах данных была сложным и длительным процессом. Компьютерные программы требовали многих часов работы либо значительных ограничений чувствительности или селективности поиска. В последние десятилетия были разработаны эвристические методы решения этой задачи [10-13], которые не всегда гарантируют нахождение наиболее оптимального решения, но на практике редко упускают значительные совпадения. Важнейшими среди этих методов являются FASTA [12] и BLAST [13], реализованные в большинстве коммерчески доступных программных пакетов (например, HOMOLOGY [14], MODELLER [15], COMРOSER [16], WHATIF [17], GCG [18]). Кроме того, они интегрированы в качестве поисковых инструментов в биологические базы данных и интернет-сайты (например, www.expasy.org). Главный метод, используемый для сравнения аминокислотных последовательностей, называется выравниванием последовательностей. В процедуре моделирования по гомологии этот метод важен по нескольким причинам. Во-первых, он используется для поиска родственных последовательностей в базах данных и идентификации консервативных областей найденных белков с помощью упоминавшихся выше программ

Глава 4. Моделирование белков. Введение

139

FASTA, BLAST и PSI-BLAST, что важно для предположения о расположении консервативных областей исследуемого белка. Во-вторых, выравнивание используется для нахождения соответствий между аминокислотами шаблонного и моделируемого белков, которые представляют собой основу для переноса координат шаблона на модель. Для решения этой задачи необходимы более чувствительные и избирательные, чем FASTA и BLAST, методы выравнивания, описанные далее. Наиболее естественной процедурой выравнивания последовательностей могла бы быть простая запись их в табличной форме для визуального анализа. Конечно, такой способ не может быть не только систематичным, но и быстрым, в особенности если надо сравнивать более двух последовательностей. В связи с этим были разработаны программы, способные выполнять выравнивание автоматически [18–21]. Поскольку выравнивание является важнейшим шагом моделирования по гомологии, было опубликовано множество различных методов и программ и до сих пор разрабатываются новые. Их детальное обсуждение выходит за рамки данной книги, но читатель может обратиться к литературе [12, 13, 18, 19]. Одна из первых попыток выяснить, существует ли структурное сходство между белками благодаря гомологии или благодаря случаю, была предпринята Нидлманом и Вуншем [20]. Варианты разработанного ими алгоритма были в дальнейшем развиты другими исследователями и использованы в различных областях. Программы, основанные на этом алгоритме, более чувствительны к нахождению сходства, чем программы поиска в базах данных, но они значительно медленнее находят оптимальное выравнивание. Как следствие, компьютерные программы, основанные на этом методе (например, ALIGN, BESTFIT и GAP, входящие в состав программного пакета GCG [18]), широко используются для сравнения белковых и нуклеотидных последовательностей. В то время как оригинальный алгоритм Нидлмана и Вунша способен выравнивать только две последовательности, большинство современных программ позволяют выравнивать и большее число последовательностей. Методы так называемого множественного выравнивания значительно сложнее, чем методы попарного выравнивания вследствие того, что число возможных выравниваний растет экспоненциально в зависимости от числа сравниваемых последовательностей. Было разработано несколько программ, предлагающих приближенные решения этой проблемы, например ClustalW, ClustalX [18] и MAXHOM [21]. В отличие от описанных выше методов исследования глобального сходства последовательностей методы оптимального локального выравнивания предназначены для поиска локального сходства и базируются на модифицированном алгоритме Нидлмана и Вунша. Они представляют собой важный инструмент сравнения последовательностей, в особенности при необходимости локализации высококонсервативных областей, разбросанных по длинным последовательностям [22–24]. Основная идея этих методов заключается в рассмотрении лишь относительно консервативных подпоследовательностей гомологичных белков; при этом непохожие области не включаются в рассмотрение (рис. 4.3.1).

freundii (CITFR) с пенициллиназами Escherichia coli (MEN1), Bacillus licheniformis (BALI) и Staphylococcus aureus (STAU). Красным цветом отмечены консервативные области

Рис. 4.3.1. Множественное выравнивание последовательностей цефалоспориназ Enterobacter cloacae (ENTCL) и Citrobacter

140 Молекулярное моделирование

Глава 4. Моделирование белков. Введение

141

В процессе сравнения двух последовательностей алгоритмы выравнивания пытаются воспроизвести результаты эволюционного процесса превращения одной последовательности в другую. Для выполнения этой операции требуется схема оценки, которая приписывает вес выравниванию каждой конкретной пары аминокислот с помощью матриц, в которые сведены наиболее вероятные замены аминокислот в зависимости от их физических, химических и статистических свойств. Высокие численные значения элементов матриц означают, что замена вероятна, а низкие — что она вряд ли произойдет. Из многих существующих типов матриц [25–29] наиболее часто используются: — Единичная матрица. Простейшая матрица, в которой вес 1 присвоен парам идентичных остатков и 0 — всем остальным. — Матрица замены кодонов. Для каждой пары аминокислот исследуются все возможные триплеты азотистых оснований ДНК, их кодирующие и число точечных мутаций, необходимых для замены аминокислоты. Идентичные аминокислоты получают вес 9, пара с одной мутацией — 3, пара с двумя мутациями — 1. — Матрица мутаций, также известная как матрица Дэйхоффа или матрица PAM250 [25]. Она получается путем подсчета числа замен каждой конкретной аминокислоты, наблюдаемых в родственных белках у различных видов. Большие веса приписываются идентичным и часто взаимозаменяемым аминокислотам, а низкие веса — редким и ненаблюдаемым мутациям. Такой метод расчета приводит к тому, что некоторые неидентичные пары имеют больший вес, чем некоторые идентичные. Матрица Дэйхоффа, изображенная на рис. 4.3.2, используется чаще всего, в частности, при поиске начального выравнивания двух неизвестных последовательностей. Модификацию матрицы Дэйхоффа предложил Грибсков [26]; максимальный вес в ней всегда приписывается идентичным парам аминокислот. — Матрица физических свойств. Оценочные значения соответствующих матриц основаны на индексах сходства для различных физических свойств аминокислот, таких, как гидрофобность, поляризуемость или тенденция к спиральности [28]. Различия в длине последовательностей и в расположении консервативных областей усложняют процедуру выравнивания. Если возникает одна или обе эти проблемы, в последовательность вставляют разрывы (gaps) так, чтобы достигнуть одновременного выравнивания всех консервативных областей. Большое число разрывов делает выравнивание бесполезным, поэтому для ограничения числа разрывов в алгоритмы выравнивания вводится дополнительный фактор — функция штрафа за разрыв (gap penalty function). Оптимальное выравнивание характеризуется балансом между числом выравненных аминокислот и минимальным числом разрывов. Для оптимального выравнивания двух или большего числа последовательностей необходима и достаточна комбинация алгоритма выравнивания, оценочной матрицы и штрафной функции. Качество конкретного выравнивания описывается специальной величиной — мерой ка-

142

Молекулярное моделирование

Рис. 4.3.2. Матрица эволюционных мутаций Дэйхоффа чества выравнивания. Важно понимать, что оптимальное выравнивание будет таковым только для данного набора параметров; изменение параметров может привести к другому выравниванию и другой величине меры качества. Автоматическое выравнивание последовательностей далеко от идеала, поэтому его следует проверять на допустимость, принимая во внимание всю имеющуюся информацию обо всех уровнях организации белка (первичной, вторичной и третичной структурах). Построенное выравнивание может быть использовано для моделирования белка только в том случае, если оно согласуется со всеми имеющимися структурными данными. Другая фундаментальная проблема аминокислотных выравниваний состоит в том, что распознаваемое подобие последовательностей теряется в ходе эволюции быстрее, чем структурное подобие. В связи с этим трудно сформулировать простые правила для степени подобия, что необходимо для надежной демонстрации гомологичности двух белковых последовательностей. Возможность такой демонстрации зависит от длины и аминокислотного состава последовательностей. За последнее десятилетие было проведено несколько исследований по количественной оценке соотношений между подобием структур и последовательностей [30–32].

Глава 4. Моделирование белков. Введение

143

Дулитл с сотр. сформулировали несколько эмпирических правил, которые могут упростить решение проблемы гомологии [30]. Если последовательности длиннее 100 остатков и идентичны не менее, чем на 25% (с соответствующими разрывами), то весьма вероятно, что эти последовательности родственны. Если идентичность составляет 15–25%, то последовательности могут быть родственны, а могут и не быть. Если же идентичность последовательностей меньше 15%, то скорее всего такие последовательности не родственны. Для того чтобы принять решение в области идентичностей 15–25%, необходимо доказать, что выравнивание статистически значимо. Один из способов сделать это заключается в сравнении меры качества данного выравнивания, отражающей количественное подобие между двумя последовательностями, со средними мерами качества выравнивания последовательностей, которые получают путем случайной перестановки аминокислот в исследуемых последовательностях. Эта процедура сохраняет длину и аминокислотный состав последовательностей, а статистическая вариация случайного сравнения дает меру значимости наблюдаемого подобия. Для каждой последовательности генерируется множество (скажем, n) случайных перестановок, а затем каждая перестановка первой последовательности выравнивается с каждой перестановкой второй последовательности, в результате чего получается n2 выравниваний. Для сравнения с изначальной мерой качества выводятся среднее значение и стандартное отклонение меры качества этих выравниваний. Можно приблизительно руководствоваться следующим правилом: если мера качества выравнивания превосходит среднее значение меры качества для случайных выравниваний хотя бы в 6 раз, то большинство остатков во вторичных структурах правильно выравнено [31]. В середине 1980-х гг. Чотиа и Леск исследовали набор остовов полностью глобулярных белков для оценки отношения между идентичностью последовательности и подобием трехмерной структуры [32]. Они обнаружили, что ожидаемый успех в моделировании трехмерной структуры белка по его последовательности с использованием в качестве шаблона трехмерной структуры гомологичного белка зависит от идентичности последовательностей, причем структура белка является хорошей моделью структуры другого белка, если идентичность их последовательностей превышает 50%. Если идентичность падает до 20%, могут возникнуть большие структурные различия (см. рис. 4.5.4). Выяснилось также, что активные центры дальнородственных белков могут обладать похожими геометриями, поэтому даже в случае низкой идентичности последовательностей возможно правдоподобное моделирование активных центров родственных белков. Множественное выравнивание представляет собой весьма нетривиальную задачу как в биологическом, так и в вычислительном плане. Точность такого выравнивания зависит от выбора последовательностей, целевой функции и использованной эвристики, поэтому алгоритм уточнения выравниваний может быть полезен для выявления возможных проблем. Уточнение выравнивания как операция обработки автомати-

144

Молекулярное моделирование

ческих выравниваний имеет особое значение, поскольку для моделирования по гомологии огромную важность представляет высокое качество выравниваний. Уточнение выравниваний чаще всего базируется на итерационных подходах [33]; кроме того, производительность алгоритмов выравнивания может быть увеличена с помощью включения итерационных шагов в процесс построения выравнивания. Программа выравнивания RASCAL, разработанная Томпсоном с коллегами [34], использует для улучшения выравниваний стратегию, основанную на знаниях: при выравнивании выделяют достоверные и недостоверные области, и только недостоверные области модифицируются. Интересующийся читатель может найти больше информации по этой теме в литературе [35].

4.3.2. Идентификация и моделирование консервативных областей Метод построения модели белка по гомологии предполагает, что существуют области во всех белках одного и того же семейства, трехмерные структуры которых почти идентичны. Эти области расположены в глубине белковой молекулы, там, где различия топологии полипептидной цепи должны сильно влиять на третичную структуру белка [36]. Наблюдения показывают, что элементы вторичной структуры близкородственных белков, прежде всего a-спирали и b-цепи, действительно имеют одинаковые относительные ориентации во всем семействе. Вполне логично, что эти элементы подходят для использования в качестве начального каркаса для присваивания атомных координат при моделировании других белков, входящих в то же семейство. Такие фрагменты называются структурно консервативными. На точность отнесения консервативных фрагментов внутри семейства гомологичных белков влияет ряд факторов. В частности, методы отнесения зависят от количества доступных кристаллических структур родственных белков. Если доступно больше одной структуры с атомным разрешением — это большая удача. В этом случае можно проверить все структуры, чтобы выяснить, где они консервативны. Для этого их необходимо наложить друг на друга с применением метода наименьших квадратов (МНК). Главной проблемой в этом случае является выбор атомных соответствий для подгонки, поскольку априори неизвестно, какую часть белка необходимо накладывать для достижения наилучшего пространственного совмещения. В первом приближении структуры могут быть наложены путем подгонки Ca-атомов [3]. Начальное наложение можно оптимизировать с использованием только тех точек соответствия, которые расположены в консервативных элементах вторичной структуры. Разработано несколько подходов, ориентированных на автоматическое решение проблемы подгонки [37–43]. Россманн и др. [43] предложили метод оптимального наложения по МНК. На первом шаге две структуры белка, которые необходимо наложить, подгоняются друг под друга с использованием начального набора эквивалентных остатков. Этот набор эквивалентностей обновляется исходя из расстояний между потенциально эквивалентными остатками и

Глава 4. Моделирование белков. Введение

145

локальных направлений основной цепи. Наложение и обновление повторяются до тех пор, пока число эквивалентностей не перестает увеличиваться. Обычно получается так, что некоторые части двух белков очень похожи по структуре и потому могут считаться структурно консервативными, в то время как другие части белков заметно различаются. Следует отметить, что применяемые алгоритмы учитывают не только вторичную структуру. Поскольку, по определению, консервативная область обязана заканчиваться в конце элемента вторичной структуры, так, что, например, каждая цепь b-листа представляет собой отдельную консервативную область, то необходимо сделать отнесение элементов вторичной структуры до того, как определять консервативные области. Проще всего получить информацию об элементах вторичной структуры белков из файлов кристаллических данных (например, файлов PDB), в которых содержится информация об элементах вторичной структуры, определенных кристаллографически. Впрочем, поскольку эти отнесения зачастую субъективны и иногда неполны, более общепринятым методом является использование объективных расчетных методов выявления элементов вторичной структуры. Такие программы, как DSSP [44] и STRIDE [45], позволяют определить элементы вторичной структуры на основе геометрических параметров, таких как схема системы водородных связей или торсионные углы основной цепи. С помощью этих программ, доступных на интернет-сайте EMBL в Гейдельберге, можно быстро определять элементы вторичной структуры белков, для которых существуют атомные координаты. Ситуация значительно усложняется, если известен лишь один гомологичный белок, который может быть использован в качестве шаблона для исследуемой последовательности. В этом случае нет возможности сравнения структур и необходимо относить консервативные области вручную, руководствуясь информацией о последовательности и структуре белков. Как говорилось ранее, консервативные области зачастую обнаруживаются в стабильных элементах вторичной структуры. Поэтому представляется разумным внимательно изучить как можно больше таких элементов шаблонного белка с целью обнаружения потенциальных признаков существования структурно консервативных областей. Аминокислоты гидрофобного остова обычно более консервативны, чем последовательность из остатков на поверхности белка. Аминокислоты, участвующие в солевых мостиках, водородных связях и дисульфидных мостиках, а также в активном центре, обычно сохраняются в семействе. Для более точной локализации консервативных фрагментов может быть с успехом использована информация из множественного выравнивания последовательностей. Во многих исследованиях гомологичных белков было показано, что консервативные области отличаются высоким подобием последовательностей, в то время как для вариабельных областей наблюдаются низкая идентичность последовательностей и наличие инсерций и делеций. По этой причине выявленные консервативные фрагменты должны иметь идентичные или близкородственные по-

146

Молекулярное моделирование

следовательности. Для достижения структурного подобия необходимо, чтобы в консервативных областях не было разрывов. В случаях, когда консервативные области шаблонных белков уже известны, необходимо лишь локализовать соответствующие им области моделируемого белка. Это делается с помощью выравнивания последовательности мишени с последовательностями консервативных фрагментов в гомологичных структурах. Процедура выравнивания, которую применяют для этой цели, несколько отличается от той, которая была описана выше. Поскольку консервативные элементы, по определению, не могут содержать инсерций и делеций, необходим алгоритм, который не допускает внедрения разрывов внутри них. К сожалению, стандартный алгоритм Нидлмана—Вунша не может отдельно обрабатывать консервативные области: он вставляет разрыв в любом месте, если это улучшает меру качества выравнивания. По этой причине были разработаны методы, рассматривающие каждый консервативный фрагмент независимо [3, 22, 46]. Соответствующие программы строят выравнивания без разрывов в консервативных областях. Поскольку при моделировании должно быть установлено соответствие между структурами шаблона и мишени, можно приписать координаты консервативным областям на основе координат шаблонных белков. В сегментах, где идентичные боковые цепи обнаружены и в шаблоне, и в мишени, все координаты атомов просто переносятся. В тех местах, где встречается разнообразие боковых цепей, переносятся только координаты основной цепи. Соответствующие боковые цепи добавляются после полного построения основной цепи (см. разд. 4.3.4).

4.3.3. Конструирование вариабельных областей Конструирование вариабельных областей представляет собой более сложную задачу, поскольку заметные различия структур белков наблюдаются в первую очередь в петлях. Инсерции и делеции, возникающие из-за различия в числе аминокислот, дополнительно усложняют процедуру моделирования. Разработано множество методов моделирования петель, подробно описанных в литературе [5–7, 47–49]. Отправной точкой для моделирования отсутствующей области может быть структура сегмента эквивалентной длины в гомологичном белке. Обширные исследования вариабельных областей гомологичных белков показали, что в случаях, когда отдельные петли имеют одинаковую длину и состоят из аналогичных аминокислот, их конформации будут одинаковы. Их координаты могут быть непосредственно перенесены в модель белка, как было описано для консервативных фрагментов. Если же в белковом семействе нет похожих петель, для моделирования вариабельных областей можно использовать две других стратегии: либо извлекать координаты петель из пептидных сегментов других белков, которые подходят к данному пространственному окружению [5–7], либо моделировать петлю de novo [44–46]. Первый способ (метод поиска петель) подразумевает поиск пептидных сегментов, которые удовлетворяют определенному

Глава 4. Моделирование белков. Введение

147

геометрическому критерию. Программы, реализующие этот метод, обычно сканируют базу PDB в поиске необходимых сегментов. Геометрические данные, необходимые для ввода в программу, включают в себя расстояния между ключевыми фрагментами и координаты остатков, в том числе из областей, окружающих петлю. На выходе выдается набор петель, удовлетворяющих заданным геометрическим ограничениям, 10–20 вариантов используются для дальнейшего анализа. Петли ранжируются в зависимости от того, насколько они удовлетворяют желаемой структуре. При отдании предпочтения одной структуре петли по сравнению с другой можно руководствоваться дополнительными критериями, явно не использованными при поиске: соответствием остатков, ограничивающих область петли, идентичности последовательностей оригинальной петли и найденного фрагмента, а также энергетическими критериями для сравнительной оценки стерических взаимодействий. Преимущество метода поиска петель заключается в том, что все найденные петли гарантированно обладают достоверной геометрией и отражают конформации реальных белков. Впрочем, выбранный фрагмент необязательно хорошо подходит к имеющемуся каркасу модели, что может приводить к значительным стерическим препятствиям. Если это происходит, в качестве альтернативы стоит использовать метод построения петель de novo. В этом случае основная цепь белка строится между двумя консервативными сегментами с использованием случайных значений для всех торсионных углов боковой цепи. Разработаны различные алгоритмы оптимизации стратегии поиска и уменьшения расчетного времени. Поскольку этот метод весьма сложен, его использование оправдано только для петель длиной меньше, чем 7 остатков. Все петли, построенные путем поиска в базах данных или случайного поиска (de novo), обычно обладают далеко не оптимальной геометрией. Поэтому все области петель, включая окружающие остатки, следует впоследствии оптимизировать методом минимизации энергии, чтобы устранить стерические препятствия и релаксировать конформации петель (см. разд. 4.4.3).

4.3.4. Моделирование боковых цепей Следующий шаг после конструирования основной цепи белка — добавление боковых цепей. Предсказание многочисленных конформаций боковых цепей — значительно более сложная задача, чем предсказание конформации основной цепи гомологичного белка. Многие боковые цепи имеют хотя бы одну степень свободы и потому могут находиться в одной из нескольких энергетически разрешенных конформаций. Существуют различные стратегии решения проблемы множества локальных минимумов [50–57]. Их общий посыл состоит в том, что идентичные остатки в гомологичных белках находятся в похожих конформациях. Кроме того, если боковые цепи относятся к паре аминокислот со значительным сходством (например, Ile и Val или Gln и Glu), то

148

Молекулярное моделирование

предполагается, что ориентация боковых цепей в них будет аналогичной [50]. Ситуация усложняется, если происходит замена аминокислоты на неродственную. Если рассматриваемая боковая цепь длиннее, чем в гомологичном белке, или структурно непохожа, ей следует придать случайную конформацию так, чтобы избежать невыгодных контактов с другими боковыми цепями [51]. Альтернативой такому подходу может быть выбор конформации, отвечающей расчетному минимуму поверхности потенциальной энергии соответствующего дипептида [52]. Более достоверный метод был разработан с помощью анализа отношений между позициями боковых цепей в гомологичных структурах глобулярных белков. Было обнаружено, что боковые цепи обычно принимают лишь некоторые из многих возможных конформаций [53, 54]. Например, для боковых цепей с двумя углами c наблюдаются от четырех до шести обычных конформаций. Все наблюдаемые ротамеры представляют собой комбинации гош- и анти-форм. На основе этих статистических исследований были созданы библиотеки ротамеров [53, 56]. Некоторые программы моделирования по гомологии используют библиотеку боковых цепей, созданную Пондером и Ричардсом [53], которая содержит 67 ротамеров 17 аминокислот. Выбор наиболее вероятной конформации из библиотеки может быть проблематичен, поскольку в этом случае не учитывается информация об эквивалентной боковой цепи, содержащаяся в шаблонной структуре. Кроме того, правильная конформация боковой цепи зависит от локального окружения аминокислоты в реальном белке, что было показано при исследовании белковых структур с хорошим разрешением [57, 58]. Во внутреннем пространстве белка превалируют гидрофобные взаимодействия, приводящие к плотной упаковке аминокислотных остатков. Такие факторы, как вторичная структура и контакты с другими остатками, также могут влиять на конформацию боковой цепи. Поэтому были разработаны методы определения позиций боковых цепей, учитывающие локальное окружение и другие ограничения. Бланделл с сотр., например, разработали правила взаимной замены для всех 20 природных боковых цепей в областях a-спиралей, b-листов и петель — всего 20 · 20 · 3 = 1200 правил [57]. Чтобы определить, позиции каких атомов сохраняются при замене аминокислоты в топологически эквивалентной позиции, было проведено исследование нескольких наборов гомологичных белков. Все остатки, соответствующие какой-либо конкретной топологически эквивалентной позиции, были выравнены по атомам основной цепи, и было определено, какие атомы соответствуют друг другу. Подход Пондера и Ричардса был в дальнейшем доработан Данбрэком и др. [59]. Их программа SCWRL распознает зависимость конформаций боковых цепей от конформации основной цепи. Тем не менее все имеющиеся методы предсказания конформаций боковых цепей работают в неизменном предположении о фиксации основной цепи. Как уже обсуждалось, существуют различные методы моделирования боковых цепей. Все они помогают исследователю в надежном установлении конформаций боковых цепей. Тем не менее во многих ситуа-

Глава 4. Моделирование белков. Введение

149

циях приходится прибегать к ручной подгонке конформаций. Модификации требуются, например, в случаях, когда аминокислоты участвуют в специфических взаимодействиях — ионных парах, дисульфидных мостиках, внутренних зарядовых взаимодействиях или водородных связях. Варианты могут возникнуть также в случаях, когда остатки расположены на поверхности белка и полностью доступны. Такие исключения должны обрабатываться в индивидуальном порядке. После построения окончательной модели обычно требуется оптимизация структуры. Области соединения консервативных и вариабельных фрагментов обычно страдают от стерических напряжений и должны быть минимизированы. Некоторые боковые цепи могут находиться в позициях, приводящих к плохим ван-дер-ваальсовым контактам. Считается, что лучший результат дает пошаговая оптимизация структуры. Одновременная оптимизация всех боковых цепей может разрушить важные внутренние водородные связи и привести к конформационным изменениям внутри консервативных областей. Чтобы удалить стерические наложения, проводится конформационный поиск для остатков, которые участвуют в «плохих» ван-дер-ваальсовых взаимодействиях. Минимизация энергии и/или молекулярная динамика модели являются полезными способами исследования локального конформационного пространства и могут привести к оптимизированной структуре. Детали проведения минимизации энергии и молекулярной динамики для оптимизации структуры будут описаны в разд. 4.4.3.

4.3.5. Метод дистанционной геометрии В традиционном процессе моделирования по гомологии для построения одной модели часто используется несколько шаблонных структур, однако для конструирования консервативной области может быть использован только один набор координат (см. разд. 4.3.2). Метод дистанционной геометрии в моделировании по гомологии [38, 60, 61] дает возможность одновременного исследования структурных особенностей всех шаблонных белков, которые могут быть использованы для построения конформаций, учитывающих эти особенности. При этом определяются консервативные области и строится выравнивание последовательности белка-мишени с последовательностями известных белков. В случае моделирования белковых молекул метод дистанционной геометрии включает в себя правила, согласно которым из множественного выравнивания могут быть выведены определенные ограничения на расстояния и конфигурацию хиральных центров, которые затем используются в расчете. Таким образом можно получить набор конформаций моделируемой структуры, каждый элемент которого содержит области с аналогичными конформациями, подверженные ограничениям в ходе расчета, и области с различными конформациями, свободные от ограничений. Структуры этого набора затем подвергаются минимизации энергии для удаления артефактов, которые иногда возникают во время расчетов методом дистанционной геометрии. Малое различие между полученными

150

Молекулярное моделирование

конформациями свидетельствует о надежности предсказания структуры. Подробное описание метода дано в работе [62], где данный метод был использован для предсказания структуры флаводоксина Escherichia coli.

4.3.6. Предсказание вторичной структуры Наилучший метод моделирования пространственной структуры белка, для которого она неизвестна, — это уже описанное моделирование на основе белка с известной структурой, то есть основанное на знаниях. Для случаев, когда гомологичной структуры не существует, были разработаны другие методы, концентрирующиеся на предсказании вторичной структуры. В их основе лежит идея, что 90% остатков в большинстве белков находятся в a-спиралях, b-листах и шпильках. Поэтому, если элементы вторичной структуры предсказаны правильно, можно комбинировать предсказанные сегменты и получить полную структуру белка. Конечно же, такой метод следует применять с осторожностью. Тем не менее предсказание вторичной структуры по аминокислотной последовательности широко практикуется (обзоры см. в [63–69]). Для этой задачи чаще всего применяются три метода: статистический, стереохимический и метод, основанный на гомологии и нейронных сетях. Все эти методы так или иначе используют информацию, полученную из известных трехмерных структур, хранящихся в PDB. В связи с этим необходимо правильное отнесение областей вторичной структуры в кристалле (см. разд. 4.3.2) для проверки достоверности методов предсказания. Статистические методы были разработаны одними из первых. В их основе лежит наблюдение, что многие аминокислотные остатки co статистически значимым предпочтением находятся в конкретных вторичных структурах. Например, Ala, Arg, Gln, Glu, Met, Leu и Lys находятся, как правило, в a-спирали, а Cys, Ile, Phe, Thr, Trp, Tyr и Val — в b-листах. Простейший статистический метод предсказания вторичной структуры предложен Чоу и Фасманом [64]: предсказание делается путем вычисления вероятности того, что данная аминокислота относится к конкретному типу вторичной структуры, такому как a-спираль, b-лист или шпилька, на основе частоты появления данной аминокислоты в соответствующем структурном элементе в PDB. Другой часто используемый статистический метод GOR предложен Гарнье, Осгуторпом и Робсоном [65]. Успешное предсказание на основе этих алгоритмов весьма сложно, поскольку они лишь демонстрируют тенденцию к предпочтению определенного типа вторичной структуры вместо абсолютного предсказания. В связи с этим возможны различные интерпретации методов, приводящие к ситуации, когда у разных авторов получаются разные результаты. Возможности и ограничения статистических методов были продемонстрированы Кабшем и Сандером [66] на примере трех широко используемых подходов, которые обеспечили точность менее 56% при предсказании спиралей, листов и петель.

Глава 4. Моделирование белков. Введение

151

Другие методы предсказания вторичной структуры основаны на правилах свертки белков путем интерпретации гидрофобных, гидрофильных и электростатических свойств боковых цепей [67–69]. В методе Лима [67], например, взаимодействия между боковыми цепями, разделенными не более чем тремя остатками в последовательности, учитываются как вероятность их упаковки в a-спиральной или b-листовой конформации. Последовательность с чередующимися гидрофильными и гидрофобными остатками, например, с высокой вероятностью упакована в b-цепь, у которой гидрофильные остатки направлены наружу, а гидрофобные — внутрь белка. Стереохимические методы были успешно использованы для предсказания амфифильных спиралей [68] и мембранных сегментов [69]. Рост и Сандер сообщили об алгоритме, который использует эволюционную информацию из множественных выравниваний на входе нейронных сетей [70, 71]. У нейронных сетей есть потенциальное методическое преимущество перед другими подходами, поскольку их можно обучить. Это означает, что правила, определяющие поведение изучаемых систем, не должны быть сформулированы изначально, а задаются самой сетью на основе известных фактов. Точность нейросетевого метода PHD составляет более 70% при предсказании трех классов вторичной структуры (спираль, лист, петля) на основе лишь одной известной гомологичной структуры [71, 72]. Другие нейросетевые методы предсказания достигли 80%-ной точности [73, 74]. Нейросетевые методы PHD [69] и PSIPRED [73] являются в данный момент рекомендуемыми и интегрированы в различные биоинформационные интернет-сайты. Оценку различных методов предсказания вторичной структуры можно найти на веб-сервере EVA (http://cubic.bioc.columbia.edu/eva/). Информация, полученная путем предсказания вторичной структуры гомологичных белков, часто используется в дополнение к информации, полученной из выравнивания первичных последовательностей, чтобы уточнить локализацию консервативных областей в семействе гомологичных белков. Даже если известна структура лишь одного гомологичного белка, которая может быть использована как шаблон для моделирования по гомологии, а гомологичных последовательностей несколько, — все равно полезно включить в рассмотрение предсказанные элементы вторичной структуры для локализации консервативных фрагментов. Для нахождения наиболее вероятного отнесения элементов вторичной структуры следует использовать все доступные методы. Конечно же, различные методы не дадут абсолютно одинаковых результатов. Это показано на рис. 4.3.3, где 5 различных методов (CHOU, GOR, ALB, JAMSEK, PHD) использованы для предсказания известной вторичной структуры цефалоспориназы из Enterobacter cloacae. Предсказание также сравнивается с результатом работы программы DSSP, которая приписывает вторичную структуру на основе атомных координат. Большинство из описанных методов предсказания внедрены в коммерчески доступные программы молекулярного моделирования или интегрированы в веб-сайты по молекулярной биологии. Более подробную

152

Молекулярное моделирование

Рис. 4.3.3. Сравнение предсказанной различными методами вторичной структуры цефалоспориназы Enterobacter cloacae, для которой имеются кристаллографические данные

Глава 4. Моделирование белков. Введение

153

Рис. 4.3.3. (Продолжение)

информацию о методах предсказания вторичной структуры можно найти на сервере Швейцарского института биоинформатики (http://www. expasy.org) или EMBL (http://www.embl.org).

154

Молекулярное моделирование

4.3.7. Методы протягивания Наилучшая ситуация для моделирования белков возникает, когда для исследуемого белка можно найти другой белок, обладающий высокой гомологией с ним (подобие последовательности не менее 30%) и для которого структура уже была определена экспериментально. В таких случаях описанный выше подход моделирования по гомологии позволяет сконструировать модель белка с достаточной точностью. Другая типичная ситуация возникает, когда с помощью методов обработки последовательностей или протягивания может быть выявлена лишь малая степень подобия [75–79]. Вследствие этого подобие неизвестной трехмерной структуры с данной последовательностью и структуры шаблона не может быть оценено априори. Два белка могут обладать одинаковой топологией, но различаться в вариабельных областях. Кроме того, определенные элементы вторичной структуры могут быть разного размера и возможна различная упаковка этих элементов. Зачастую реальное структурное подобие может быть ограничено лишь частью структуры, имеющей типичный структурный мотив, в то время как остальная часть белка кардинально отличается [79]. В этих случаях традиционные методы моделирования по гомологии не работают, и приходится применять методы распознавания укладки, или протягивания (threading) [75–81]. Самые ранние методы протягивания были созданы для распознавания укладки при полном отсутствии подобия последовательностей, в связи с чем структура шаблонного белка вообще не принималась во внимание. В наши дни методы моделирования по гомологии и методы протягивания зачастую применяются совместно. Методы протягивания родственны методам предсказания структуры белка ab initio [82], однако методы ab initio исследуют все возможные конформации, а методы протягивания ограничиваются лишь конформационным пространством известных структур. Как следствие, методы протягивания бесполезны для моделирования любого белка, обладающего совершенно новым типом упаковки. Общий принцип методов протягивания состоит в сравнении изучаемой последовательности с каждым представителем библиотеки известных белковых структур. Для каждого шаблона необходимо найти оптимальное выравнивание последовательности со структурой на основе оценочной функции или силового поля. Эти выравнивания ранжируются по расчетным значениям оценочных функций и наилучшие из них используются в качестве надежных кандидатов [75, 83]. Часто применяемые методы протягивания описаны в литературе [75–79]. Для методов протягивания было разработано множество оценочных функций [75, 76, 83, 84], обладающих некоторыми общими свойствами. Применяемые функции должны быть простыми, поскольку расчеты по методу протягивания должны рассматривать большое количество вариантов. Многие оценочные функции в методах протягивания используют потенциалы средней силы (Potentials of Mean Force, PMF), которые также называются потенциалами, основанными на знаниях (knowledgebased) [83, 85]. Они отличаются от обычных силовых полей, описанных

Глава 4. Моделирование белков. Введение

155

в разд. 2.2.1: основная идея PMF состоит в том, что молекулярные структуры, определенные рентгеноструктурным методом или с помощью ЯМР, неявно содержат огромное количество информации о стабилизирующих силах внутри макромолекул. С использованием статистических методов были выявлены внутренние правила, управляющие трехмерной структурой белков. В основе всех этих правил лежит принцип Больцмана о том, что наиболее часто наблюдаемые состояния являются состояниями с наименьшей энергией. Поэтому потенциалы PMF составляются путем извлечения относительных частот взаимодействий определенных пар атомов из базы белковых структур [85]. PMF-потенциалы обычно состоят из взаимодействий между определенными парами атомов и между растворителем и белком. Они включают все виды сил (электростатические, дисперсионные и др.), действующие между определенными атомами белка, а также влияние растворителя на взаимодействие, и поэтому могут быть использованы для предсказания структуры макромолекулы по ее первичной последовательности. Потенциалы PMF были использованы для предсказания укладки белков и для поиска ошибок в моделях белков и в экспериментально определенных белковых структурах [83–85]. Полезность модели белка, полученной методом моделирования по гомологии или методом протягивания, зависит от ее предполагаемого использования. Точность моделей, получаемых методами протягивания или ab initio, недостаточна для задач, требующих структуры высокого разрешения, например, традиционной разработки лекарств. Тем не менее модель с низким разрешением, полученная этими методами, может отражать структурные и функциональные отношения между белками, которые не очевидны из их аминокислотной последовательности, а также создавать возможность для анализа пространственных взаимоотношений между консервативными остатками или остатками, для которых экспериментально доказана их важность. Для оценки различных методов предсказания белковых структур в 1994–95 гг. было организовано соревнование по критической оценке методов предсказания структуры белков CASP (Critical Assessment of techniques for protein Structure Prediction) [86]. В этих соревнованиях представителей научного сообщества приглашали предсказать трехмерные структуры новых белков по их аминокислотной последовательности. Структуры были заранее определены методом рентгеновской кристаллографии, но не были опубликованы. К настоящему времени были проведены четыре соревнования CASP; на CASP4 был сделан вывод, что моделирование белковых структур к настоящему времени созрело до уровня практической технологии. В принципе возможно создать полезные модели для более чем половины последовательностей в основных базах данных [82]. Соревнования CASP являют собой надежный базис для оценки достоверности моделей белков и подходов, на основе которых они построены.

156

Молекулярное моделирование

Цитированная литература 1. Blundell, T. L. and Johnson, L. N. (1976) Protein Crystallography, Academic Press, New York.

2. Bashford, D., Chothia, C., and Lesk, A. M. (1987) Determinants of a protein fold. 3. 4. 5. 6. 7. 8.

Unique features of the globin amino acid sequences. Journal of Molecular Biology, 196, 199–326. Greer, J. (1981) Three-dimensional structure of abnormal human haemoglobins Chesapeake and J Capetown. Journal of Molecular Biology, 153, 1027–42. Chothia, C. and Lesk, A. M. ( 1982) Evolution of proteins formed by beta-sheets. I. Plastocyanin and azurin. Journal of Molecular Biology, 160, 309–42. Johnson, M. S., Srinivasan, N., Sowdhamini, R., and Blundell, T. L. (1994) Knowledge-based protein modeling. Critical Reviews in Biochemistry and Molecular Biology,29, 193–316. Sali, A., Overington, J. P., Johnson, M. S., and Blundell, T. L. (1990) From comparisons of protein sequences and structures to protein modeling and design. Trends in Biochemical Sciences, 15, 235–40. Jones, T. A. and Thirup, S. (1986) Using known substructures in protein model building and crystallography. EMBO Journal, 5, 819–22. Dudek, M. J. and Scheraga, H. A. (1990) Protein structure prediction uses a combination of sequence homology and global energy minimization. Journal of Computational Chemistry, 11, 121–51. Levin, R. (1987) When does homology mean something else? Science, 237, 1570.

9. 10. Thornton, J. M. and Gardner, S. P. (1989) Protein motifs and database searching. Trends in Biochemical Sciences, 14, 300–4.

11. Orengo, C. A., Brown, N. P., and Taylor, W. R. (1992) Fast structure alignment for protein databank searching. Proteins Structure Function and Genetics, 14, 139-46.

12. Pearson, W. R. (1990) Rapid and sensitive sequence comparison with FASTP and FASTA. Methods in Enzymology, 183, 63–98.

13. Altschul, S. F., Madden, T. L., Schaffer, A. A. et al. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Research, 25, 3389–402.

14. HOMOLOGY and MODELLER, Accelrys, San Diego. http://www.accelrys.com. 15. Sah, A. and Blundell, T. L. (1993) Comparative protein modeling by satisfaction of spatial restraints. Journal of Molecular Biology, 234, 779–815.

16. SYBYL BIOPOLYMER, Tripos Associates, St. Louis. http://www.tripos.com. 17. Vriend, G. (1990) What If: A molecular modeling and drug design program. Journal of Molecular Graphics, 8, 52–56. http://www.swift.cmbi.ru.hl/whatif.

18. Thompson, J. D., Higgins, D. G., and Gibson, T. J. (1994) CLUSTAL-W - improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Research, 22, 4673–80.

19. Barton, G. J. (1990) Protein multiple sequence alignment and flexible pattern matching. Methods in Enzymology, 183, 403–28.

20. Needleman, S. B. and Wunsch, C. D. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology, 48, 443–53.

Глава 4. Моделирование белков. Введение

157

21. Sander, C. and Schneider, R. (1996) The HSSP database of protein structure-sequence alignments. Nucleic Acids Research, 24, 201–5.

22. Schuler, G. D., Altschul, S. F., and Lipman, D. J. (1991) A workbench for multiple alignment construction and analysis. Proteins Structure Function and Genetics, 9, 1980–90.

23. Vingron, M., Argos, P., and Vogt, G. (1991) Protein sequence comparison: methods and significance. Protein Engineering, 4, 375–83.

24. Boswell, D. R. and McLachlan, A. D. (1984) Sequence comparison by exponentially-damped alignment. Nucleic Acid Research, 12, 457–65.

25. Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1978) A Model of evolutionary change in proteins, in Atlas of Protein Sequence and Structure (ed. M. O. Dayhoff), National Biomedical Research Foundation, Washington, DC, Vol. 5, Suppl. 3, pp. 345–52.

26. Gribskov, M., McLachlan, A. D., and Eisenberg, D. (1987) Profile analysis detection of distantly related proteins. Proceedings of the National Academy of Sciences of the United States of America, 84, 4355–58.

27. Landes, C., Risler, J. L., and Henaut, A. (1992) A comparison of several similarity indices used in the classification of protein sequences: a multivariate analysis. Nucleic Acids Research, 20, 3631–37.

28. Engelman, D. M., Steitz, T. A., and Goldman, A. (1986) Identifying nonpolar transbilayer helices in amino acid sequences of membrane proteins. Annual Review of Biophysics and Biophysical Chemistry, 15, 321.

29. Gonnet, G. H., Cohen, M. A., and Benner, S. A. (1992) Exhaustive matching of the entire protein sequence database. Science, 256, 1443–45.

30. Doolittle, R. (1990) Searching through sequence databases. Method in Enzymology, 183, 736–72.

31. Barton, G. J. and Sternberg, M. J. E. (1990) Flexible protein sequence patterns. A sensitive method to detect weak structural similarities. Journal of Molecular Biology, 212, 389–402.

32. Chothia, C. and Lesk, A. M. (1986) The relation between the divergence of sequence and structure in proteins. EMBO Journal, 5, 823–26.

33. Wang, Y, and Li, K. B. (2004) An adaptive and iterative algorithm for refining multiple sequence alignment. Computational Biology and Chemistry, 28, 141–48.

34. Thompson, J. D., Thierry, J. C., and Poch, O. (2003) RASCAL: rapid scanning and correction of multiple sequence alignments. Bioinformatics, 19, 1155–61.

35. Wallace, I. M., O'Sullivan, O., and Higgins, D. G. (2005) Evaluation of iterative alignment algorithms for multiple alignment. Bioinformatics, 21, 1408–14.

36. Perutz, M. F., Bolton, W., Diamond, R. et al. (1964) Structure of haemoglobin. An X-ray examination of reduced horse haemoglobin. Nature, 203, 687–90.

37. Maggiora, G. M., Rohrer, D. C., and Mestres, J. (2001) Comparing protein structures: a Gaussian-based approach to the three-dimensional structural similarity of proteins, Journal of Molecular Graphics & Modelling, 19, 168–78.

38. Reinhardt, A. and Eisenberg, D. (2004) DPANN: improved sequence to structure alignments following fold recognition. Proteins, 56, 528–38.

39. Eisenberg, D., Marcotte, E., McLachlan, A. D., and Pellegrini, M. (2006) Bioinformatic challenges for the next decade(s). Philosophical Transactions of the Royal Society of London. Series B: Biological Sciences, 361, 525–27.

158

Молекулярное моделирование

40. Ilyin, V. A., Abyzon, A., and Leslin, C. M. (2004) Structural alignment of proteins by a novel TOPOFIT method, as a superimposition of common volumes at a topomax point. Protein Science, 13, 1865–74.

41. Jung, J. and Lee, B. (2000) Protein structure alignment using environmental profiles. Protein Engineering, 13, 535–43.

42. Vriend, G. and Sander, C. (1991) Detection of common three-dimensional substructures in proteins. Proteins Structure Function and Genetics, 11, 52–58.

43. Matthews, B. W. and Rossmann, M. G. (1985) Comparison of protein structures. Methods in Enzymology, 115, 397–420.

44. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers, 22, 2577–637.

45. Frishman, D. and Argos, P. (1995) Knowledge-based protein secondary structure assignment. Proteins Structure Function and Genetics, 23, 566–79.

46. Sanchez, R., Pieper, U., Melo, F. et al. (2000) Protein structure modeling for structural genomics. Nature Structural Biology Supplement, 7, 986–90.

47. Bruccoleri, R. E. and Karplus, M. (1990) Conformational sampling using hightemperature molecular dynamics. Biopolymers, 29, 1847–62.

48. Novotny, J., Bruccoleri, R. E., Davis, M., and Sharp, K. A. (1997) Empirical free energy calculations: а blind test and further improvements to the method. Journal of Molecular Biology, 268, 401–11.

49. Pellequr, J. L. and Chen, S. W. (1997) Does conformational free energy distinguish loop conformations in proteins? Biophysical Journal, 73, 2359–75.

50. Aloy, P., Pichaud, M., and Russell, R. B. (2005) Protein complexes: structure prediction challenges for the 21st century. Current Opinion in Structural Biology, 15, 15–22.

51. Blundell, T. L., Sibanda, B. L., and Pearl, L. (1983) Three-dimensional structure, specificity and catalytic mechanism of rennin. Nature, 304, 273–75.

52. Allen, S. C., Acharya, K. R., Palmer, K. A. et al. (1994) A comparison of the predicted and X-ray structures of angiogenin. Implications for further studies of model building of homologous proteins. Journal of Protein Chemistry, 13, 649–58.

53. Ponder, J. and Richards, F. M. (1987) Tertiary templates for proteins. Use of packing criteria in the enumeration of allowed sequences for different structural classes. Journal of Molecular Biology, 193, 775–91.

54. Summers, N. L., Carlson, W. D., and Karplus, M. (1987) Analysis of side-chain orientations in homologous proteins. Journal of Molecular Biology, 196, 175–98.

55. Islam, S. A. and Sternberg, M. J. (1989) A relational database of protein structures designed for flexible enquiries about conformation. Protein Engineering, 2, 431–42.

56. Nayeem, A. and Scheraga, H. A. (1994) A statistical analysis of side-chain conformations in proteins comparison with ECEPP predictions. Journal of Protein Chemistry, 13, 283–96.

57. Dean, C. M. and Blundell, T. L. (2001) CODA: a combined algorithm for predicting the structurally variable regions of protein models. Protein Science, 10, 599–612.

58. Schrauber, H., Eisenhaber, F., and Argos, P. (1993) Rotamers: to be or not to be? An analysis of amino acid side-chain conformations in globular proteins. Journal of Molecular Biology, 230, 592–612.

Глава 4. Моделирование белков. Введение

159

59. Canutescu, A. A., Shelenkov, A. A., and Dunbrack, R. L. Jr. (2003) A graph theory algorithm for rapid protein side-chain prediction. Protein Science, 12, 2001–14.

60. Havel, T. F. and Snow, M. (1991) A new method for building protein conformations from sequence alignments with homologues of known structure. Journal of Molecular Biology, 217, 1–7.

61. Srinivasan, S., March, C. J., and Sudarsanam, S. (1993) An automated method for modeling proteins on known templates using distance geometry. Protein Science, 2, 277–89.

62. Jang, J. X. and Havel, T. F. (1993) SESAME: a least-squares approach to the evaluation of protein structures computed from NMR data. Journal of Biomolecular NMR, 3, 355–60.

63. Fasman, G. D. (1989) Protein conformational prediction. Trends in Biochemical Sciences, 14, 295–99.

64. Chou, P. Y. and Fasman, G. D. (1974) Prediction of protein conformation. Biochemistry, 13, 211–45.

65. Garnier, J., Osguthorpe, D. J., and Robson, B. (1978) Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. Journal of Molecular Biology, 120, 97–120.

66. Kabsch, W. and Sander, C. (1983) How good are predictions of protein secondary structure. FEBS Letters, 155, 179–82.

67. Lim, V. I. (1974) Algorithms for prediction of alpha-helical and beta-structural regions in globular proteins. Journal of Molecular Biology, 88, 873–94.

68. Rees, D. C. DeAntonio, L., and Eisenberg, D. (1989) Hydrophobic organization of membrane proteins. Science, 245, 510–13.

69. Kyte, J. and Doolittle, R. F. (1982) A simple method for displaying the hydropathic character of a protein. Journal of Molecular Biology, 157, 105–32.

70. Rost, B. and Sander, C. (1993) Prediction of protein secondary structure at better than 70% accuracy. Journal of Molecular Biology, 232, 584–99.

71. Rost, B. and Sander, C. (1994) Combining evolutionary information and neural networks to predict protein secondary structure. Proteins Structure Function and Genetics, 19, 55–72.

72. Rost, B. and Eyrich, V. A. (2001) EVA: large-scale analysis of secondary structure prediction. Proteins Structure Function and Genetics Supplement, 5, 192–99.

73. Bryson, K., McGuffin, L. J., Marsden, R. L. et al. (2005) Protein structure pre-

diction servers at University College London. Nucleic Acids Research, 33, W36–W38.

74. Cuff, J. A., Clamp, M. E., Siddiqui, A. S. et al. (1998) JPred: a consensus secondary structure prediction server. Bioinformatics, 14, 892–93.

75. Geer, L. Y., Domrachev, M., Lipman, D. J., and Bryant, S. H. (2002) CDART: protein homology by domain architecture. Genome Research, 12, 1619–23.

76. Jones, D. T. (1999) Protein secondary structure prediction based on position-specific scoring matrices. Journal of Molecular Biology, 287, 797–815.

77. Wilmanns, M. and Eisenberg, D. (1995) Inverse protein folding by the residue pair preference profile method: estimating the correctness of alignments of structurally compatible sequences. Protein Engineering, 8, 626–35.

160

Молекулярное моделирование

78. Skolnick, J. (2006) In quest of an empirical potential for protein structure prediction. Current Opinion in Structural Biology, 16, 166–71.

79. Panchenko, A. R., Marchler-Bauer, A., and Bryant, S. H. (2000) Combination of threading potentials and sequence profiles improves fold recognition. Journal of Molecular Biology, 296, 1319–31.

80. Kilinski, A., Betancourt, M. R., Kihara, D. et al. (2001) Generalized comparative modeling (GENECOMP): a combination of sequence comparison, threading, and lattice modeling for protein structure prediction and refinement. Proteins Structure Function and Genetics, 44, 133–49.

81. Xu, Y. and Xu, D. (2000) Protein threading using PROSPECT: design and evaluation. Proteins Structure Function and Genetics, 40, 343–54.

82. Moult, J. (1999) Predicting protein three-dimensional structure. Current Opinion in Biotechnology, 10, 583–88.

83. Sippl, M. J. (1990) Calculation of conformational ensembles from potentials of mean force. An approach to the knowledge-based prediction of local structures in globular proteins. Journal of Molecular Biology, 213, 859–83.

84. Jones, D. T. and Thornton, J. M. (1996) Potential energy functions for threading. Current Opinion in Structural Biology, 6, 210–16.

85. Sippl, M. J. (1993) Recognition of errors in three-dimensional structures of proteins. Proteins Structure Function and Genetics, 17, 355–62.

86. Mosimann, S., Meleshko, S., and James, M. N. G. (1995) A critical assessment of comparative molecular modeling of tertiary structures of proteins. Proteins Structure Function and Genetics, 23, 301–17.

87. Ptitsyn, O. B. and Finkelstein, A. V. (1983) Theory of protein secondary structure and algorithm of its prediction. Biopolymers, 22, 15–25.

88. Mrazek, J. and Kypr, J. (1988) Computer program Jamsek combining statistical and stereochemical rules for the prediction of protein secondary structure. Computer Applications in the Biosciences, 4, 297–302.

4.4. Процедуры оптимизации. Уточнение модели. Молекулярная динамика 4.4.1. Силовые поля при моделировании белков Как модели белков, построенные по гомологии, так и их кристаллические структуры нуждаются в уточнении. При построении модели конформации петель и боковых цепей обычно выбираются случайным образом, вследствие чего они могут не соответствовать энергетически выгодным структурам. Кристаллические структуры также нуждаются в релаксации для удаления внутренних напряжений, возникающих из-за влияния упаковки кристалла, или близких контактов между атомами водорода или аминокислотными остатками, которые добавляют уже после экспериментального определения структуры. Поскольку модели белков состоят из сотен и тысяч атомов, единственным подходящим способом обработки систем такого размера явля-

Глава 4. Моделирование белков. Введение

161

ются расчеты методом молекулярной механики. Обычные силовые поля, используемые в молекулярной механике, основываются на функции потенциальной энергии (разд. 2.2.1). Белковые силовые поля отличаются некоторыми характеристиками от силовых полей для малых молекул. Помимо специальной параметризации для белков и ДНК часто вводят упрощения: например, в некоторых силовых полях неполярные атомы водорода не представляют явно, а включают в описание тяжелого атома, с которым они связаны; при этом полярные атомы водорода, которые могут быть потенциальными участниками водородных связей, обрабатываются в явном виде. Этот способ рассмотрения называется моделью объединенных атомов. В силовом поле AMBER [1, 2] могут быть использованы как модель объединенных атомов, так и модель всех атомов, в то время как силовое поле GROMOS [3] оперирует только первой моделью. Важным упрощением также является использование граничного радиуса [4] для уменьшения времени расчета несвязных взаимодействий между атомами, разделенными расстояниями, большими, чем граничный радиус. Метод обработки электростатических взаимодействий также изменяется. Поскольку явное рассмотрение растворителя все еще является проблемой, во многих силовых полях пытаются моделировать эффекты растворителя, вводя зависимость диэлектрической проницаемости от расстояния [1, 2]. Электростатическое поле вокруг системы не может рассматриваться как однородное, в особенности в случае макромолекул, поэтому при вычислении определенных свойств необходима дифференцирующая процедура для учета электростатических эффектов, зависящих от локальной ситуации в месте связывания лиганда или на поверхности белка. Подробное обсуждение этой темы и описание методов решения данной проблемы будет дано в разд. 4.6.1. Модификации белковых силовых полей весьма многочисленны и не могут быть описаны здесь в деталях; исчерпывающее описание подобных упрощений дано в [5]. Следует иметь в виду, что каждое упрощение приводит к потере точности. Решение о выборе силового поля зависит от исследуемой проблемы, и всегда следует выбирать наиболее точное силовое поле, подходящее для выполнения всего исследования. Следует избегать применения различных силовых полей в одном исследовании. В программах моделирования используются несколько общепринятых силовых полей; наиболее часто встречаются AMBER [1, 2], CVFF [6], CHARMM [7] и GROMOS [3].

4.4.2. Оптимизация геометрии При минимизации белков используются те же алгоритмы, что и для малых молекул (разд. 2.2.3). Алгоритмы минимизации, применяемые для оптимизации геометрии, обычно находят лишь локальный минимум на поверхности потенциальной энергии, ближайший к начальным координатам. В случае кристаллической структуры с хорошим разрешением минимизация напрямую приводит к одной энергетически выгодной

162

Молекулярное моделирование

конформации. Обычно релаксация кристаллической структуры вполне очевидна, но иногда даже в качественных структурах встречаются невыгодные взаимодействия атомов, которые создают начальные напряжения, приводящие в свою очередь к искусственным искажениям начальной структуры в процессе минимизации. Общий метод решения данной проблемы — постепенная релаксация структуры белка. На первой стадии минимизации добавляют силовые ограничения ко всем тяжелым атомам кристаллической структуры, фиксирующие координаты атомов на предварительно заданных позициях. Величина допуска может быть задана пользователем и влияет на среднеквадратичное отклонение атомов от начальных координат. При ограничении движения тяжелых атомов атомы водорода и молекулы растворителя двигаются свободно до минимизации общей потенциальной энергии. На этой стадии наиболее подходящим методом минимизации является алгоритм скорейшего спуска. Для начальной релаксации можно применять грубый критерий сходимости или ограничивать число шагов минимизации. На следующей стадии рекомендуется ограничить только движение атомов основной цепи: при этом происходит оптимизация ориентации боковых цепей. В этом случае также подходит метод скорейшего спуска. На последнем шаге силовые ограничения удаляются; окончательный результат представляет собой полностью релаксированную конформацию. В данном случае рекомендуется применять более эффективный метод сопряженных градиентов. Применение силовых ограничений может быть необходимо при моделировании неполных систем, возникающих при рентгеноструктурном исследовании в случае, если части кристалла или молекулы растворителя не могут быть хорошо разрешены. Модели активного центра ферментов или полостей связывания белков, используемые для изучения потенциальных лиганд-белковых взаимодействий, также являют собой примеры типичных неполных систем. Из-за отсутствия соседних аминокислот и молекул растворителя атомы на поверхности белка достаточно подвижны. Как следствие, после минимизации могут появляться большие отклонения от начальных позиций и артефакты в окончательной геометрии. Поэтому атомы на концах боковых цепей привязываются к своим начальным положениям для того, чтобы избежать нереалистичных искажений атомных координат. Чтобы проверить точность оптимизированной модели белка, следует изучить ее отклонение от экспериментальной структуры. Для этого конечную и начальную структуры накладывают друг на друга с использованием метода наименьших квадратов. В качестве реперных точек используются все атомы основной цепи или атомы основной цепи хорошо разрешенных структурных элементов. Качество подгонки можно оценить среднеквадратичным отклонением оптимизированной структуры от начальной геометрии. Его значение сильно зависит от числа и локализации атомов, рассматриваемых при наложении. Из-за высокой подвижности боковых цепей подгонка всех тяжелых атомов должна приво-

Глава 4. Моделирование белков. Введение

163

дить к значительно бoльшим значениям среднеквадратичного отклонения, чем подгонка лишь атомов основной цепи. Если построенная модель базируется только на гомологии, то конформации петель и боковых цепей нуждаются в уточнении. Необходимо внимательно исследовать их конформационное поведение и анализировать поверхность потенциальной энергии для поиска других возможных низкоэнергетических конформаций. Ценным инструментом достижения этой цели является молекулярная динамика. Релаксированная геометрия, полученная в результате минимизации, может быть использована в качестве отправной точки для моделирования молекулярной динамики.

4.4.3. Использование молекулярной динамики для уточнения модели Как говорилось выше, уточнение моделей, построенных по гомологии, совершенно необходимо. Конформации петель и боковых цепей данной модели находятся лишь в одной из возможных конформаций, а структура после минимизации находится лишь в локальном минимуме. Для поиска наиболее выгодной геометрии системы необходима модифицированная стратегия более исчерпывающего исследования конформационного пространства. Моделирование молекулярной динамики является эффективным способом решения данной задачи, в особенности для молекул, содержащих сотни водородных связей. Оно проводится с помощью интегрирования классических уравнений движения молекулярной системы на отрезке времени. Получающаяся траектория молекулы может быть использована для вычисления средних и зависящих от времени свойств системы. Теория метода молекулярной динамики и его приложение к конформационному поиску малых молекул обсуждались в разд. 2.3.3 и проиллюстрированы наглядными примерами. В данном разделе мы сосредоточимся на практике использования метода оптимизации трехмерных структур макромолекул. Молекулярная динамика внесла значительный вклад в понимание динамических процессов в белках на атомном уровне. Тем не менее существуют некоторые базовые ограничения метода и проблемы, связанные с огромным числом степеней свободы больших молекулярных систем. Хотя вычислительные ресурсы стали достаточными для обработки довольно больших систем, все еще необходимо использовать некоторые модификации методов для уменьшения расчетного времени [5]. Очень полезным результатом таких упрощений является возможность моделирования более продолжительных периодов времени. Это позволяет более полно изучать динамическое поведение больших молекулярных систем. Перед детальным обсуждением различных упрощений следует снова упомянуть, что каждая модификация и уменьшение числа степеней свободы вызывает уменьшение точности, и всегда следует внимательно проверять, допустимо ли соответствующее упрощение.

164

Молекулярное моделирование

Одной из наиболее простых и часто применяемых упрощающих процедур является использование функций потенциальной энергии с объединенными атомами. Идея этого метода уже была описана выше. На этом алгоритме базируется большинство белковых силовых полей, например AMBER [1, 2] и GROMOS [3]. Исключение из рассмотрения неполярных атомов водорода значительно уменьшает число частиц в большой биомолекуле. Алгоритм SHAKE [8] предоставляет следующую возможность для уменьшения компьютерного времени. При использовании метода SHAKE вводятся дополнительные силовые ограничения с целью зафиксировать длины связей на уровне их равновесных значений. Это очень полезно по нескольким причинам. Прежде всего для «замороженных» связей можно не вычислять энергетические члены, соответствующие изменению длины связей. Величина шага интегрирования зависит от наиболее быстрых колебаний, наблюдаемых в молекуле. Обычно это высокочастотное колебание, соответствующее растяжению связи C—H; период этого колебания составляет порядка 10–14 с, и поэтому шаг интегрирования должен составлять 10–15 с (1 фс). При применении алгоритма SHAKE к этим связям возможно использование большего шага интегрирования с меньшими вычислительными затратами, что открывает возможность моделирования более длинных отрезков времени. Установление граничного радиуса, за пределами которого пренебрегают несвязными взаимодействиями, имеет тот же эффект. Кроме того, уменьшить расчетное время можно при использовании сбалансированного вычислительного протокола. С этой целью можно зафиксировать некоторые части белка и моделировать молекулярную динамику лишь для подвижных частей, таких как петли и боковые цепи, не принимая в рассмотрение четко сформированные элементы вторичной структуры, такие, как a-спирали или b-листы белкового остова. Доступные данные ЯМР могут также послужить основанием для фиксации атомов, боковых цепей или частей белка во избежание их отклонения от экспериментально определенных позиций. Следует понимать, что ограничения, накладываемые на части гибких молекул, приводят к уменьшению числа степеней свободы. Без всякого сомнения, исчерпывающее исследование конформационного пространства и, следовательно, лучшие результаты получаются только тогда, когда силовые ограничения не используются. Все упомянутые методы увеличивают эффективность моделирования молекулярной динамики. Тем не менее для некоторых проблем доступный масштаб времени слишком мал. Если, например, изучается связывание лиганда с ферментом или рецептором и следующие за этим конформационные изменения, то время, необходимое для этого процесса, может меняться от пикосекунд до наносекунд [9]. Тот же масштаб времени необходим для моделирования укладки белков. Оба типа задач до сих пор до конца неразрешимы. Несколько модификаций моделирования высокотемпературной молекулярной динамики были успешно использованы в конформацион-

Глава 4. Моделирование белков. Введение

165

ном анализе пептидов и оптимизации моделей белков. Два важных метода из этой группы — молекулярно-динамическое моделирование высокотемпературного отжига [10] и моделирование отжига [11] — были описаны в разд. 2.3.3. Это ценные и широко применяемые методы исследования пептидов и белков [12–16]. Во всех протоколах молекулярной динамики весьма важен выбор подходящей температуры моделирования. Обычно моделирование проводится в диапазоне от 300 до 400 К. С одной стороны, температура должна быть достаточно высокой, чтобы не дать системе застрять в одной области конформационного пространства, с другой — она не должна быть слишком высокой, поскольку это может привести к искаженным конформациям даже после минимизации [16]. Часто при использовании высокотемпературной молекулярной динамики возникает и другая проблема — транс-цис-обращение пептидных связей. Этих артефактов можно избежать, используя более низкие температуры или накладывая ограничения на торсионные углы пептидных связей.

4.4.4. Обработка сольватированных систем Окружающая среда сильно влияет на конформационную подвижность белка, особенно на поверхности и в районе петель. Отсутствие соседних атомов приводит к локальному вакууму на поверхности белка; проблемы, с этим связанные, уже упоминались в связи с процессом минимизации. К сожалению, они до сих пор не решены. Разумеется, точность моделирования молекулярной динамики повышается при использовании явно заданных молекул растворителя. Одна из возможностей имитации эффектов растворителя и учета граничных явлений заключается в использовании диэлектрической проницаемости, зависящей от расстояния. Если молекулу заключить в сферу из молекул растворителя, точность моделирования молекулярной динамики должна увеличиться, поскольку таким образом имитируется по крайней мере часть эффектов сольватации. Необходимо отметить, что существуют важные различия между сольватной водой и структурной водой. Структурная вода важна для функции белка и может влиять даже на конформацию его остова. Поэтому в расчетах структурную воду следует всегда учитывать в явном виде. На следующем уровне приближения белок помещают в бокс, заполненный тысячами молекул растворителя, моделируя естественное сольватное окружение. Это не всегда возможно, поскольку требует значительных расчетных усилий. Тем не менее благодаря быстрому росту вычислительных мощностей в последние годы проводится все больше и больше исследований систем с явно заданным растворителем [17–22]. Обширный обзор моделирования молекулярной динамики в различных системах можно найти в работе [23]. Во многих случаях использование реалистичных моделей воды для многих тысяч молекул приводит к большим затратам времени, поэтому

166

Молекулярное моделирование

были разработаны специальные методы, использующие упрощенное представление молекул растворителя [18]. Например, молекулы растворителя могут быть представлены как нейтральные сферические атомы; такой способ обработки значительно уменьшает время расчета. Детальное описание всех методов выходит за рамки данной книги. Тем не менее, важно иметь в виду, что использование сольватной оболочки на любом уровне сложности расчета является важным способом увеличения точности и достоверности моделирования молекулярной динамики, в особенности для больших биомолекулярных систем. Как и все остальные научные исследования, связанные с расчетами, молекулярная динамика становится все мощнее с ростом производительности компьютеров. Вычисления, которые вчера с трудом могли быть сделаны на суперкомпьютерах, завтра можно будет проводить на обычных (так называемых «офисных») рабочих станциях. Рост эффективности вычислений позволяет моделировать все бoльшие и бoльшие системы с более реалистичными граничными условиями и адекватным отбором конформаций благодаря более длительным временам накопления. Недавно стало возможно моделирование таких сложных систем, как трансмембранные каналы и рецепторы [24]. Моделирование сложных систем с «природными» липидными бислоями (например, дипальмитоилфосфатидилхолин (DPPC), пальмитоилолеоилфосфатидилхолин (POPC), димиристоилфосфатидилхолин (DMPC)) все еще искусство, поскольку модель мембраны характеризуется набором параметров силового поля, который специальным образом адаптируется для того, чтобы наблюдать реалистичные физические свойства во время моделирования молекулярной динамики [24].

4.4.5. Комплексы лигандов и центров связывания Модели белков часто используются для исследования лиганд-белковых взаимодействий. Малые молекулы, представляющие обычно фармацевтический интерес как новые лекарства, можно поместить в активный центр белка. За последнее десятилетие было разработано множество программ докинга, которые могут быть использованы для этой цели. Их детальное описание приводится в гл. 5. Поскольку природный процесс связывания нестатичен, а большинство программ докинга до сих пор не учитывают подвижность белка, моделирование свойств лиганд-белкового комплекса можно провести методом молекулярной динамики. Такая ценная информация, как схема водородных связей, среднеквадратичные отклонения и флуктуации положения, может быть получена с помощью молекулярной динамики и помогает различить связывающиеся и несвязывающиеся лиганды. Для того чтобы моделирование молекулярной динамики комплекса имело смысл, должны быть удовлетворены некоторые предварительные требования. Начальные координаты белка и лиганда должны представлять собой конформации с достоверной энергией. Моделируемая система должна включать в себя все интересующие области и быть достаточно большой, чтобы корректно описывать все силы, вносящие вклад в

Глава 4. Моделирование белков. Введение

167

энергию системы. Комплексы, представляющие только активный центр, можно изучать только в том случае, если учтены все возможные лиганд-белковые взаимодействия. Кроме того, все необходимые параметры для атомов белка и лиганда должны быть учтены в силовом поле. Поскольку исторически большинство силовых полей разрабатывалось либо для малых органических молекул, либо для белков, иногда подбор необходимых параметров становится проблематичным. И наконец, время моделирования должно быть достаточно большим для накопления представительного ансамбля данных. Несмотря на известные ограничения, моделирование молекулярной динамики стало мощным инструментом изучения динамического поведения таких объектов, как пептиды, белки, ферменты, рецепторы и мембраны. Совместное использование экспериментальных результатов, полученных методами ЯМР, фотоаффинного маркирования или рентгеновской кристаллографии, и теоретических методов может представлять собой путь к получению детальной трехмерной атомной картины молекулярной системы и изучению до сих пор экспериментально недоступных процессов в белках.

Цитированная литература 1. Weiner, S. J., Kollman, P. A., Case, D. A. et al. (1984) New force field for molecu2.

lar mechanical simulation of nucleic acids and proteins. Journal of the American Chemical Society, 106, 765–84. Weiner, S. J., Kollman, P. A., Nguyen, D. T., and Case, D. A. (1986) An all-atom force field for simulation of proteins and nucleic acids. Journal of Computational Chemistry, 7, 230–52.

3. van Gunsteren, W. F. and Berendsen, H. J. C. (1985) Molecular dynamics simulations techniques and application to proteins, in: Molecular Dynamics and Protein Structure (ed. J. Hermans), Polycrystal Books Service, Western Springs, pp. 5–14.

4. Brooks, C. L. III, Pettitt, B. M., and Karplus, M. (1985) The effects of terminating long-ranged forces in fluids. Journal of Chemical Physics, 83, 5897–908.

5. Van Gunsteren, W. F., Bakowies, D., Baron, R. et al. (2006) Biomolecular modeling: goals, problems, perspective. Angewandte Chemie (International ed. In English), 45, 4064–92.

6. Dauber-Osguthorpe, P., Roberts, V. A., Osguthorpe, D. J. et al. (1988) Structure and energetics of ligand binding to proteins: E. coli dihydrofolate reductasetrimethoprim, a drug-receptor system. Proteins Structure Function and Genetics, 4, 31–47.

7. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a program for macromolecular energy minimization and dynamics calculations. Journal of Computational Chemistry, 4, 187–217.

8. Ryckaert, J. P., Ciccotti, G., and Berendsen, H. J. C. (1977) Numerical integration of the Cartesian equations of motion of a system with constraints: molecular dynamics of n-alkanes. Journal of Computational Physics, 23, 327.

168

Молекулярное моделирование

9. Lybrand, T. P. (1990) Computer simulation of biomolecular systems using molecular dynamics and free energy perturbation methods, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1, pp. 295–320.

10. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MacroModel — an integrated software system for modeling organic and bioorganic molecules using molecular mechanics. Journal of Computational Chemistry, 11, 440–67.

11. Kirkpatrick, S., Gelatt, C. D.,and Vecchi, M. P. (1983) Optimization by simulated annealing. Science, 220, 671–80.

12. Salvino, J. M., Seoane, P. R., and Dolle, R. E. (1993) Conformational analysis of bradykinin by annealed molecular dynamics and comparison to NMR-derived conformations. Journal of Computational Chemistry, 14, 438–44.

13. Wilson, S. R. and Cui, W. (1990) Application of simulated annealing to peptides. Biopolymers, 29, 225–35.

14. Mackey, D. H. J., Cross, A. J., and Hagler, A. T. (1989) The role of energy minimization in simulation strategies of biomolecular systems, in Prediction of Protein Structure and the Principles of Protein Conformation (ed. G. Fasman), Plenum Press, New York, pp. 317–58.

15. Kerr, I. D., Sankararamakrishnan, R., Smart, O. S., and Sansom, M. S. P. (1994) Parallel helix bundles and ion channels: molecular modeling via simulated annealing and restrained molecular dynamics. Biophysical Journal, 67, 1501–15.

16. Bruccoleri, R. E. and Karplus, M. (1990) Conformational sampling using high-temperature molecular dynamics. Biopolymers, 29, 1847–62.

17. Vijayakumar, S., Ravishanker, G., Pratt, R. F., and Beveridge, D. L. (1995) Mo-

lecular dynamics simulation of a class A b-lactamase: structural and mechanistic implications. Journal of the American Chemical Society, 117, 1722–30.

18. Antes, I., Thiel, W.,and van Gunsteren, W. F. (2002) Molecular dynamics simulations of photoactive yellow protein (PYP) in three states of its photocycle: a comparison with X-ray and NMR data and analysis of the effects of Glu-46 deprotonation and mutation. European Biophysics Journal, 31, 504–20.

19. Schlegel, B., Sippl, W., and Holtje, H.-D. (2005) Molecular dynamics simulations of bovine rhodopsin: influence of protonation states and different membrane-mimicking environments. Journal of Molecular Medicine, 12, 49–64.

20. Johren, K., and Holtje, H.-D. (2005) Different environments for a realistic simulation of GPCRs-application to the M2 muscarinic receptor. Archiv der Pharmazie, 338, 260–67.

21. Zhang, Y., Sham, Y. Y., Rajamani, R. et al. (2005) Homology modeling and molecular dynamics simulations of the mu opioid receptor in a membrane-aqueous system. Chembiochem, 6, 853–59.

22. Haider, S., Grottesi, A., Hall. B. A. et al. (2005) Conformational dynamics of the ligand-binding domain of inward rectifier K channels as revealed by molecular dynamics simulations toward an understanding of Kir channel gating. Biophysical Journal, 88, 3310–20.

23. Karplus, M. and McCammon, J. A. (2002) Molecular dynamics simulations of biomolecules. Nature Structural Biology, 9, 646–52.

24. Hansson, T., Oostenbrink, C., and van Gunsteren, W. (2002) Molecular dynamics simulations. Current Opinion in Structural Biology, 12, 190–96.

Глава 4. Моделирование белков. Введение

169

4.5. Валидация моделей белков После того как модель белка построена по гомологии и оптимизирована с помощью молекулярной механики или молекулярной динамики, необходимо убедиться в ее качестве и достоверности. Здесь уместен вопрос о том, как можно проверить правильность и точность модели. Задача эта очень сложная, поскольку качество модели белка, построенной по гомологии, зависит от огромного числа параметров на различных уровнях структурной организации. Они перечислены на рис. 4.5.1.

4.5.1. Стереохимическая корректность Качество трехмерной структурной модели белка сильно зависит от точности использованной шаблонной структуры, иными словами, от качества кристаллической структуры [1]. Очевидно, что модель белка не может быть точнее, чем кристаллическая структура, использованная в качестве шаблона. Рентгеновские структуры белков могут содержать как экспериментальные ошибки, так и ошибки интерпретации результатов [1–3].

Рис. 4.5.1. Алгоритм оценки качества белковых моделей

170

Молекулярное моделирование

Основные меры качества кристаллических структур — это разрешение и R-фактор. Чем лучше разрешение белкового кристалла, чем больше объем дифракционных данных, полученных из экспериментальных наблюдений, тем больше точность структуры белка [4]. Разрешение белковых структур, хранящихся в PDB, обычно находится в диапазоне 1–4 C. R-фактор — это мера согласия между полученной трехмерной структурой кристалла (трехмерная структура, лучше всего соответствующая карте электронной плотности) и «реальной» структурой кристалла. R-фактор можно определить путем сравнения экспериментально наблюдаемых амплитуд рентгеновских отражений и амплитуд, вычисленных по структуре белка, показывающей наилучшее соответствие карте электронной плотности (детальное обсуждение точности в рентгеновской кристаллографии интересующийся читатель может найти в литературе [5]). Чем лучше согласие между наблюдаемыми и вычисленными амплитудами (меньший R-фактор), тем лучше согласие между найденной и реальной кристаллическими структурами. Существуют способы искусственного уменьшения R-фактора, поэтому он может иногда ввести в заблуждение [2]. Общепринято рассматривать структуры с разрешением 2,0 C или лучше как достоверные. Если, помимо этого, R-фактор составляет меньше 20%, можно уверенно предположить, что структура определена правильно. Для проверки стереохимического качества построенной модели необходимо доказать правильность таких параметров, как длины связей, углы между связями, торсионные углы и хиральность аминокислот. Наблюдения показывают, что в трехмерных структурах белков длины связей и углы между ними группируются вокруг «идеальных значений». Иными словами, средние значения для кристаллических структур рассматриваются как хорошие индикаторы стереохимического качества, и значения для моделей белков следует сравнивать с ними (см. табл. 4.5.1) [6] для того, чтобы выявить стереохимические нарушения, которые обнаруживаются у низкокачественных структур. Поскольку ручная проверка всех стереохимических параметров белка — весьма утомительное и длительное занятие, были разработаны программы автоматической проверки всех стереохимических параметров. В качестве примера можно привести PROCHECK [7], WHATCHECK [8] и VADAR [9], которые доступны через интернет (например, http://www.embl.org, http://www.smb.ucl.ac.uk/). Важным индикатором стереохимического качества является распределение торсионных углов j и y основной цепи, которое можно визуализировать с помощью карты Рамачандрана. Как уже говорилось в разд. 4.2.1, выгодные и невыгодные области классической карты Рамачандрана были определены при изучении конформационного поведения изолированных дипептидов. Для сотен хорошо оптимизированных белковых структур торсионные углы обычно лежат в тех же областях. Одно из замеченных свойств повторяющихся вторичных структур в белках состоит в том, что для них наблюдаемые значения j и y близки к тем, которые рассчитаны Рамачандраном для оптимальных конформа-

Глава 4. Моделирование белков. Введение

171

Таблица 4.5.1. Стереохимические параметры, найденные Моррисом и др. при исследовании кристаллических структур с высоким разрешением [6] Среднее значение

Стандартное отклонение

j–y в наиболее благоприятных областях карты Рамачандрана

> 90%



Торсионный угол c1 в конформации гош–

64,1°

15,7°

c1 в конформации транс

183,6°

16,8°

c1 в конформации гош+

-66,7°

15,0°

Торсионный угол c2

177,4°

18,5°

Торсионный угол j для пролина

-65,4°

11,2°

Торсионный угол j для a-спирали

-65,3°

11,9°

Торсионный угол y для a-спирали

-39,4°

11,3°

Длина дисульфидной связи (Disulfide bond separation)

2,0 C

0,1 C

Торсионный угол w

180,0°

5,8°

Отклонение Ca от тетраэдричности: торсионный угол z (виртуальный торсионный угол Ca–N–C¢–Cb)

33,9°

3,5°

Стереохимический параметр

ций дипептидов. Углы j и y для неповторяющихся структур, таких, как петли и шпильки, находятся в благоприятных областях карты Рамачандрана, но распределены по ним шире. В качестве примера на рис. 4.5.2 изображена карта Рамачандрана для кристаллической структуры цефалоспориназы Enterobacter cloacae. На ней представлены торсионные углы для всех остатков, кроме пролина и терминальных аминокислот. Остатки глицина показаны отдельно в виде треугольников, поскольку они не привязаны к какой-либо определенной области карты. Окраска показывает различные главные области карты: чем ближе цвет области к красному, тем более благоприятна данная комбинация j и y. Белые области запрещены для обычных аминокислот, и любой остаток, попавший в эту область, должен быть внимательно исследован. Аминокислоты, попавшие не в очень благоприятные области, специально помечаются номером и названием остатка (на рис. 4.5.2 выделены красным) для облегчения их поиска и проверки. Неблагоприятная стереохимия, характеризующаяся запрещенными значениями торсионных углов, возникает в природных белках исключительно в тех случаях, когда особая геометрия необходима для

172

Молекулярное моделирование

Рис. 4.5.2. Карта Рамачандрана (PROCHECK) функционирования или стабилизации — если, например, остатки белкового остова участвуют в водородных связях или солевых мостиках. Единственные остатки, для которых допустимо расположение вне основных областей карты Рамачандрана, это пролин и глицин. Поскольку они имеют другие благоприятные и неблагоприятные области из-за своей особой стереохимии, зачастую их маркируют особым образом или исключают из общей карты Рамачандрана. Обычно строят отдельные карты для всех остатков глицина, всех пролинов и всех остальных аминокислот. Процент остатков, лежащих в разрешенных областях карты Рамачандрана, является одним из основных способов проверки стереохимического качества белковой модели. В идеальной ситуации следует ожидать более 90% остатков в разрешенных областях [7]. Аналогичным образом можно проверить торсионные углы боковых цепей ci. Торсионные углы c1, наблюдаемые в высококачественных структурах белков [6], обычно близки к одной из трех возможных заторможенных конформаций, при этом наиболее выгодна конформация, в которой самые объемистые группы находятся дальше всего друг от друга (см. табл. 4.5.1: торсионные углы гош–, транс и гош+ для c1). Для торсионных углов c2 было обнаружено предпочтение транс-конформации. Похожее распределение торсионных углов боковых цепей было обнаружено Пондером и Ричардсом [10]. Распределение торсионных углов боковых цепей всех типов аминокислот в белках можно детально иссле-

Глава 4. Моделирование белков. Введение

173

довать с помощью графиков, где по осям отложены углы c1 и c2. Примеры таких графиков для цефалоспориназы E. cloacae изображены на рис. 4.5.3: на каждом из них приведено распределение углов c1 и c2 для определенного типа аминокислот. Зеленые области карты отвечают благоприятным сочетаниям углов, которые были определены по набору высококачественных кристаллических структур [7]. Черные точки соответствуют благоприятным значениям, найденным в структуре цефалоспориназы, а красные точки отвечают неблагоприятным значениям. Некоторые стереохимические параметры одинаковы для всех известных белков. Они являются очень чувствительной мерой качества моделей и должны быть внимательно проверены на соответствие. Это следующие параметры: — Планарность пептидной связи. Ее мерой обычно является среднее значение и стандартное отклонение всех углов w в рассматриваемом белке. Чем меньше стандартное отклонение углов, тем плотнее они группируются вокруг нормального значения 180°, отвечающего плоской транс-конфигурации (распределение углов w для кристаллических структур см. в табл. 4.5.1). Все цис-пептидные связи следует выписывать отдельно и внимательно проверять. Они встречаются с частотой около 5% среди связей, предшествующих остаткам пролина, а среди всех остальных пептидных связей количество цис-связей не превышает 0,05% [11, 12]. — Хиральность Ca-атомов. Одним из ключевых принципов структуры белка является предпочтение одной хиральной конформации другой (например, предпочтение правой конформации для a-спирали). Причиной такого поведения является наличие асимметрического центра — Ca-атома, который обладает L-конфигурацией для всех встречающихся в природе аминокислот. По этой причине модель белка должна быть проверена на правильную хиральность. Для хиральности мерой правильности является торсионный угол z (дзета). Это виртуальный торсионный угол, не связанный ни с одной реальной связью в белке, а определяемый для группы атомов Ca–N–C¢–Cb каждого остатка. Значения угла z должны находиться в интервале от 23° до 45°; отрицательное значение угла свидетельствует о появлении D-аминокислоты [7]. — Длины связей и углы между связями основной цепи. Значение каждой длины связи и угла между связями основной цепи сравнивают с распределением, наблюдаемым для качественных кристаллических структур. Отклонения >0,05 C для длин связей и >10° для углов обычно считаются чрезмерными, и соответствующие фрагменты требуют внимательной проверки [3]. — Ароматические системы (Phe, Tyr, Trp, His) и sp2-гибридизованные концевые группы (Arg, Asn, Asp, Glu, Gln) следует проверить на планарность. Отклонение от этих параметров часто свидетельствует о «плохих» межатомных контактах. Отказ от стерических ограничений и последу-

Рис. 4.5.3. Карты c1–c2 для различных аминокислот (PROCHECK)

174 Молекулярное моделирование

Глава 4. Моделирование белков. Введение

175

ющая оптимизация модели в большинстве случаев приводят к релаксированной структуре с идеальными геометрическими параметрами.

4.5.2. Качество упаковки Считается, что важную роль в структурной специфичности белков играют особые упаковочные взаимодействия [13–15]. Было обнаружено, что глобулярные белки очень плотно упакованы, причем плотность упаковки сопоставима с плотностью кристаллов малых органических молекул [13]. Внутреннее пространство глобулярных белков содержит боковые цепи, сложенные на удивление плотно, подобно элементам трехмерного пазла. Высокая плотность упаковки, наблюдаемая в белках, является следствием того, что фрагменты вторичной структуры упакованы упорядоченно: спираль рядом со спиралью, спираль рядом с цепями b-листов, цепи рядом с цепями разных b-листов [15–18]. Внутренняя упаковка глобулярных белков вносит наибольший вклад в стабильность общей конформации, поэтому качество упаковки в модели белка может быть использовано для оценки ее достоверности. Оно может быть оценено разными методами, которые будут описаны в этом разделе. Первым делом необходимо удостовериться, что в оптимизированной модели белка нет «плохих» ван-дер-ваальсовых контактов. Для этого необходимо проверить, чтобы все межатомные расстояния находились в пределах, характерных для высококачественных кристаллических структур. Существуют различные методы такой проверки расстояний. В простейшем случае изменяются все межатомные расстояния и те из них, которые меньше определенного граничного значения, объявляются «плохими» контактами, которые следует детально изучить (например, в программе PROCHECK используется граничное значение 2,6 C). Более точная оценка межатомных расстояний проводится программой WHATCHECK [8]: для всех высококачественных кристаллических структур, хранящихся в PDB, определяются и записываются все межатомные расстояния, меньшие суммы ван-дер-ваальсовых радиусов атомов + 1,0 C. Расстояние, разделяющее все собранные значения таким образом, что 5% расстояний короче его и 95% длиннее его, объявляется «кратчайшим нормальным расстоянием». Поскольку в природных аминокислотах встречаются 163 различных типа атомов, всего определяется 163 ´ 163 «кратчайших нормальных расстояний». Программа выводит все расстояния в модели, которые короче «кратчайших нормальных расстояний» более, чем на 0,25 C. На следующем шаге производится проверка элементов вторичной структуры белковой модели. Как мы уже говорили в разд. 4.3.2, элементы вторичной структуры наиболее консервативны в гомологичных белках. Поэтому следует доказать, что элементы вторичной структуры, наблюдаемые в шаблонном белке, также обнаруживаются и в модели, иными словами, что вторичная структура сохраняется в процессе построения и оптимизации модели. Для этой цели можно использовать программы DSSP [19] и STRIDE [20] (см. разд. 4.3.2), которые позволя-

176

Молекулярное моделирование

ют произвести более надежное отнесение вторичной структуры, чем ручной анализ a-спиралей и b-листов. Существует значительное число методов, использующих огромное количество информации из кристаллических структур белков для оценки качества упаковки структурных моделей [21–24]. Исходя из предположения, что межатомные взаимодействия являются главным фактором, определяющим конформацию белка, Вриенд и Сандер разработали программу, оценивающую качество модели с помощью так называемого «индекса качества контактов» [21]. Этот индекс является мерой соответствия между распределением атомов вокруг боковой цепи аминокислоты в модели белка и аналогичным распределением для высококачественных кристаллических структур. Исследователи создали базу данных, содержащую распределение вероятности контактов для боковых цепей всех аминокислот. Эта величина описывает вероятность того, что атом определенного типа окажется в определенной области вокруг боковой цепи. Значения этих вероятностей используются для проверки качества контактов в модели белка. Чем выше соответствие между распределениями для модели и кристаллических структур, тем выше индекс качества контактов и тем более выгодна упаковка остатков. Распределение полярных и неполярных остатков между внутренними областями и поверхностью белка весьма характерно для архитектуры глобулярных белков. На простейшем уровне можно рассматривать глобулярный белок как состоящий из гидрофобного ядра, окруженного гидрофильной внешней поверхностью, которая взаимодействует с молекулами растворителя. Общие принципы строения были идентифицированы в большинстве трехмерных структур глобулярных белков и могут быть сформулированы следующим образом: —



Внутренние области глобулярных белков плотно упакованы, лишены больших областей пустого пространства и преимущественно гидрофобны. Там преобладают неполярные боковые цепи; Val, Leu, Ile, Phe, Ala и Gly составляют 63% внутренних аминокислот [11]. Ионизированные пары кислых и оснoвных групп редко встречаются внутри белков, несмотря на то что такие пары не должны иметь суммарного заряда благодаря образованию солевых мостиков. Заряженные и полярные группы находятся на доступной для растворителя поверхности глобулярных белков. Остатки Asp, Glu, Lys и Arg в среднем составляют 27% внешней поверхности белка и только 4% внутренних остатков [11]. (Интегральные мембранные белки отличаются от глобулярных белков преимущественно тем, что области их поверхности, находящиеся в контакте с гидрофобной частью мембраны, неполярны.)

Эти особенности вносят основной вклад в стабильность свернутых белков [15, 25, 26]. В основе такого распределения лежит гидрофобный эффект, состоящий в том, что гидрофобные остатки избегают контакта с водой. Наблюдения показывают, что свободные энергии перехода из воды в органический растворитель для полярных, неполярных и гидро-

Глава 4. Моделирование белков. Введение

177

фобных остатков коррелируют с частотой их появления на поверхности и во внутренних областях белков [27]. Поэтому распределение гидрофильных и гидрофобных остатков в белках может быть использовано для оценки достоверности моделей белков [27–30]. Разработан ряд программ, использующих это распределение как меру качества белковых моделей [8, 29, 30]. Имеются также наблюдения, что гидрофобность аминокислоты, определяемая как свободная энергия переноса из воды в органический растворитель, линейно соотносится с площадью ее поверхности, доступной для растворителя в белке, то есть, чем гидрофобнее аминокислота, тем меньше площадь ее контакта с растворителем [31]. Площадь погруженной поверхности аминокислоты — это разница между доступной для растворителя поверхностью остатка в развернутой полипептидной цепи (обычно определяется в стандартном состоянии для трипептида Gly-Xaa-Gly) и доступной для растворителя поверхностью остатка в свернутом белке. Было показано, что площадь погруженной поверхности, то есть площадь контакта с растворителем, потерянная, когда остаток переносится из стандартного состояния в свернутый белок, пропорциональна гидрофобности остатка. Кроме того, общая погруженная поверхность глобулярных белков коррелирует с их молекулярной массой. Это означает, что при укладке белков становится недоступной для растворителя постоянная доля поверхности [27]. Для оценки качества упаковки глобулярных белков были разработаны различные программы, учитывающие общие свойства поверхностей аминокислот [8, 29, 31]. Детальный обзор темы молекулярных поверхностей и их вклада в стабильность белков можно найти в литературе [15, 32]. Хотя внутренние области белков обычно состоят из неполярных или нейтральных остатков, иногда в них встречаются и полярные остатки, если все полярные группы внутри белка участвуют в образовании водородных связей. Многие из этих полярных групп вступают в водородные связи внутри своих вторичных структур (a-спиралей и b-листов). Другие участвуют в связывании кофакторов, ионов металлов или расположены в активном центре белка. Ионизированные группы, изредка встречающиеся внутри глобулярных белков, почти всегда участвуют в солевых мостиках. Иногда положительный и отрицательный заряд соединяются через мостиковую молекулу воды. Поэтому необходимо проверять, все ли полярные остатки остова белка участвуют в водородных связях и все ли заряженные остатки участвуют в солевых мостиках. Солевые мостики и водородные связи обычно идентифицируются на основе межатомных расстояний [33].

4.5.3. Анализ достоверности укладки Белки с гомологичными последовательностями обычно уложены похожим образом, поэтому пространственные структуры модели и шаблона должны быть в целом схожи. Гомологичные белки должны обладать одинаковыми конформациями, в особенности в структурно консерва-

178

Молекулярное моделирование

тивных областях. В случаях, когда изначально сконструированная модель белка содержит обширные области стерических напряжений из-за неверной архитектуры, трехмерная структура белка может претерпевать соответствующие изменения во время оптимизации. Получающаяся конформация белка недостоверна, поскольку она находится лишь в небольшом соответствии с трехмерной структурой шаблонного белка. При проверке конформаций белка обычно измеряют подобие трехмерной структуры по среднеквадратичным отклонениям (rmsd) координат Ca-атомов или атомов основной цепи после оптимального совмещения двух структур (детали см. в [34]). Большое среднеквадратичное отклонение говорит о том, что структуры не похожи друг на друга, а нулевое его значение говорит о том, что конформации идентичны. Гомологичные белки обычно имеют небольшие среднеквадратичные отклонения для Ca-атомов, но не существует общего индикаторного значения среднеквадратичного отклонения, которое позволило бы сказать, являются ли структуры подобными или нет. Чотиа с сотр. [35] исследовали структурное подобие гомологичных белков, оценивая структурное различие между двумя гомологичными белками путем оптимального наложения общих консервативных областей (так называемый общий остов) и вычисления среднеквадратичного отклонения атомов их основных цепей. Для контрольной выборки из 32 пар гомологичных белков среднеквадратичные отклонения общих остовов варьировались от 0,62 до 2,31 C (см. рис. 4.5.4). При оценке общего структурного подобия между моделью и шаблоном возникает вопрос, имеет ли генерированная конформация неизвестного белка правильную укладку, соответствующую нативной. Как можно доказать, что общая конформация сконструированной модели верна? В поисках критерия, позволяющего различить правильно и неправильно свернутые модели, Новотны с сотр. выполнили интересное исследование [36]. Они изучали два структурно непохожих, но одинако-

Рис. 4.5.4. Зависимость среднеквадратичного отклонения от идентичности последовательностей

Глава 4. Моделирование белков. Введение

179

во больших белка гемэритрин (1HMQ) и вариабельный домен k-цепи мышиного иммуноглобулина (1MCP-L). Эти два белка были модифицированы путем наложения аминокислотной последовательности одного на структуру основной цепи другого и наоборот для того, чтобы получить заведомо неправильные модели. Структуры моделей были оптимизированы для удаления неблагоприятных взаимодействий между боковыми цепями. После минимизации общие энергии природных белков и неверных моделей были приблизительно одинаковы. Авторы заключили, что значения энергии, вычисленные в стандартных силовых полях, непригодны для различения правильных и неправильных конформаций. С другой стороны, исследование показало, что критерии упаковки неверных моделей отличались от тех, которые найдены в нативных белках. В неверных структурах с очевидностью нарушались общие принципы плотной упаковки, наличия водородных связей, минимальной наружной неполярной площади и доступности заряженных групп для растворителя. Проверка внутренних областей белка показала, что упаковка боковых цепей в областях взаимодействия вторичных структур также отличалась от характеристик, обнаруженных в природных белках (например, спиральное расположение выступов и желобков боковых цепей в a-спиралях, преимущественно плоская структура b-листов). Это исследование показало, что надежность моделей может быть доказана только при внимательной проверке структурных особенностей модели белка. По этой причине были разработаны различные методы, позволяющие различить правильно и неправильно сложенные белковые структуры [37–45]. Одним из них является метод трехмерных профилей [37–40], который основывается на предположении, что трехмерная структура белка обязана быть совместимой с его аминокислотной последовательностью. Эта совместимость измеряется путем сведения трехмерной структуры модели белка к упрощенному одномерному представлению, так называемой строке окружения. Строка окружения имеет ту же длину, что и соответствующая аминокислотная последовательность, поэтому ее можно сравнить с этой последовательностью, которая также представляет собой одномерный массов. На первом шаге необходимо конвертировать трехмерную структуру модели белка в одномерный массив. Для этого программа определяет особенности окружения каждого остатка: погруженную площадь боковой цепи, часть площади боковой цепи, контактирующую с полярными областями, и вторичную структуру, к которой относится остаток. На основе этих характеристик каждый остаток относится к одному из 18 различных классов окружения [39]. Таким образом трехмерная структура транслируется в одномерную строку, описывающую класс окружения для каждой аминокислоты модели. Хотя строка окружения и одномерна, она не может быть выравнена с аминокислотной последовательностью без некой меры совместимости каждого класса окружения с каждой из 20 природных аминокислот. Поэтому в программу включена матрица совместимости, разработанная

180

Молекулярное моделирование

на основе наборов известных структур [40] и похожая на оценочные матрицы, описанные в разд. 4.3.1. С применением этой матрицы выравниваются аминокислотная последовательность и строка окружения, и для выравнивания выводится так называемая трехмерно-одномерная оценка. По очевидным причинам более правильно вычислять трехмерно-одномерную оценку для небольших и средних областей длиной от 5 до 30 остатков, а не общую оценку для всего выравнивания. Локальные оценки затем наносятся на график в зависимости от позиций остатков для определения локальных областей низкой или высокой совместимости между трехмерной структурой и аминокислотной последовательностью [39]. Области с необычно низкой оценкой скорее всего имеют неверную конформацию и нуждаются в оптимизации структуры. Надежность упаковки также можно проверить с помощью силовых полей, основанных на знаниях [43–45]. Эти методы основываются на создании потенциалов средней силы (PMF) путем статистического анализа базы известных трехмерных структур белков. Идея заключается в том, что межатомные взаимодействия в белках определяют их правильную укладку. Была разработана программа PROSA-II, использующая PMF для вычисления общей энергии аминокислотных последовательностей во множестве различных укладок [43]. Вычисленная общая энергия определенной конформации белка является количественным критерием качества модели. В этом отличие данного подхода от описанного выше подхода, где энергия конформации вычисляется с помощью стандартных силовых полей молекулярной механики [36]. При проверке предсказательной способности PROSA-II в качестве контрольной выборки были использованы различные природные и некорректно модифицированные конформации белков, и для огромного числа белков было показано, что рассчитанная общая энергия правильно свернутого белка значительно ниже, чем для любой альтернативной (неверной) конформации. Поэтому данная программа может успешно применяться для распознавания неверных упаковок белка или неверных частей структуры моделей белков.

Цитированная литература 1. Br@nden, C. J. and Jones, T. A. (1990) Between objectivity and subjectivity, Nature, 343, 687–89.

2. Jones, T. A., Zou J. Y., and Cowan S. W, (1991) Improved method for building protein models in electron density maps and the location of errors in these models. Acta crystallographica, A47, 110–19.

3. Engh, R. A. and Huber, R. (1991) Accurate bond and angle parameters for X-ray protein structure refinement. Acta Crystallographica, A47, 392–400.

4. Hubbard, T. J. P. and Blundell, T. L. (1987) Comparison of solvent-inaccessible cores of homologous proteins: definitions useful for protein modeling. Protein Engineering, 1, 139–71.

5. Drenth, J. (1994) Principles of Protein X-ray Crystallography, Springer-Verlag, New York.

Глава 4. Моделирование белков. Введение

181

6. Morris, A. L., MacArthur, M. W., Hutchinson, E. G., and Thornton, J. M. (1992) Stereochemical quality of protein structure coordinates. Proteins Structure Function and Genetics, 12, 345–64.

7. Laskowski, R. A., MacArthur, M. W., Moss, D. S.,and Thornton, J. M. (1993) PROCHECK: a program to check the stereochemical quality of protein structures. Journal of Applied Crystallography, 26, 283–91.

8. Hooft, R. W. W., Vriend, G., Sander, C., and Abola, E. E. (1996) Errors in protein structures, Nature, 381, 272.

9. Willard, L., Ranjan, A., Zhang, H. et al. (2003) VADAR: a web server for quantitative evaluation of protein structure quality. Nucleic Acids Research, 31, 3316–19.

10. Ponder, J. and Richards, F. M. (1987) Tertiary templates for proteins. Use of packing criteria in the enumeration of allowed sequences for different structural classes. Journal of Molecular Biology, 193. 775–91.

11. Creighton, T. E. (1993) Proteins: Structures and Molecular Properties, 2nd edn, W. H. Freeman and Company, New York.

12. Stewart, D. E., Sarkar, A., and Wampler, J. E. (1990) Occurrence and role of cis peptide bonds in protein structures. Journal of Molecular Biology, 214, 253–60.

13. Richards, F. M. (1974) The interpretation of protein structures: total volume, group volume distributions and packing density. Journal of Molecular Biology, 82, 1–14.

14. Richards, F. M. (1977) Areas, volumes, packing and protein structure. Annual Review of Biophysics and Bioengineering, 6, 151–76.

15. Chothia, C. (1984) Principles that determine the structure of proteins. Annual Review of Biochemistry, 53, 537–72.

16. Zehfus, M. H. and Rose, G. D. (1986) Compact units in proteins. Biochemistry, 25, 5759–65.

17. Janin, J. and Chothia, C. (1980) Packing of alpha-helices onto beta-pleated sheets and the anatomy of alpha/beta proteins. Journal of Molecular Biology, 143, 95–128.

18. Leszczynski, J. F. and Rose, G. D. (1986) Loops in globular proteins: a novel category of secondary structure. Science, 234, 849–55.

19. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers, 22, 2577–637.

20. Frishman, D. and Argos, P. (1995) Knowledge-based protein secondary structure assignment. Proteins Structure Function and Genetics.

21. Hooft, R. W., Sander, C., and Vriend, G. (1997) Objectively judging the quality of a protein structure from a Ramachandran plot. Computer Applications in the Biosciences, 13, 425–30.

22. Hunt, N. G., Gregoret, L. M., and Cohen, F. E. (1994) The origins of protein secondary structure. Effects of packing density and hydrogen bonding studied by a fast conformational search. Journal of Molecular Biology, 241, 214–25.

23. Laskowski, R. A., Thornton, J. M., Humblet, C., and Singh, J. (1996) X-SITE: use of empirically derived atomic packing preferences to identify favourable interaction regions in the binding sites of proteins. Journal of Molecular Biology, 259, 175–201.

24. Privalov, P. L. and Gili, S. J. (1988) Stability of protein structure and hydrophobic interaction. Advances in Protein Chemistry, 39, 191–234.

182

Молекулярное моделирование

25. Chothia, C. (1976) The nature of the accessible and buried surfaces in proteins. Journal of Molecular Biology, 105, 1–12.

26. Wolfenden, R., Anderson, L., Cullis, P. M., and Southgate, C. B. (1983) Affinities of aminoacid side chains for solvent water. Biochemistry, 20, 849–55.

27. Miller, S., Janin, J., Lesk, A. M., and Chothia, C. (1987) Interior and surface of monomeric proteins. Journal of Molecular Biology, 196, 641–56.

28. Lee, B, and Richards, F. M. (1971) The interpretation of protein structures: estimation of static accessibility. Journal of Molecular Biology, 55, 379–400.

29. Eisenberg, D. and McLachlan, A. D. (1986) Solvation energy in protein folding and binding. Nature, 319, 199–203.

30. Linzaad, P., Berendsen, H. J., and Argos, P. (1996) Hydrophobic patches on the surfaces of protein structures. Proteins Structure Function and Genetics, 25, 389–97.

31. Rose, G. D., Geselowitz, A. R., Lesser, G. L. et al. (1985) Hydrophobicity of aminoacid residues in globular proteins. Science, 229, 834–38.

32. Rose, G. D. and Dworkin, J. E. (1989) The hydrophobicity profile, in Prediction of Protein Structure and Function and the Principle of Protein Conformation (ed. G. D. Fasman), Plenum Press, New York, pp. 625–34.

33. Rashin, A. and Honig, B. (1984) On the environment of ionizable groups in globular proteins. Journal of Molecular Biology, 174, 515–21.

34. Rao, S. T. and Rosman, M. G. (1974) Comparison of super-secondary structures in proteins. Journal of Molecular Biology, 76, 214–28.

35. Chothia, C. and Lesk, A. M. (1986) The relation between the divergence of sequence and structure in proteins. EMBO Journal, 5, 823–26.

36. Novotny, J., Bruccoleri, R. and Karplus, M. (1984) An analysis of incorrectly folded protein models. Implications for structure predictions. Journal of Molecular Biology, 177, 787–818.

37. Fischer, D. and Eisenberg, D. (1999) Predicting structures for genome proteins. Current Opinion in Structural Biology, 9, 208–11.

38. Bowie, J. U., Luthy, R., and Eisenberg, D. (1991) A method to identify protein sequences that fold into a known three-dimensional structure. Science, 253, 164–70.

39. PROFILES-3D. User guide, Accelrys, San Diego, http://www.accelrys.com. 40. Luthy, R., McLachlan, A. D., and Eisenberg, D. (1991) Secondary structure-based profiles: use of structure-conserving scoring tables in searching protein sequence databases for structural similarities. Proteins Structure Function and Genetics, 10, 229–29.

41. Novotny, J., Rachin, J. J., and Bruccoleri, R. E. (1988) Criteria that discriminate between native proteins and incorrectly folded models. Proteins Structure Function and Genetics, 4, 19–25.

42. Hendlich, M., Lackner, P., Weitckus, S. et al. (1990) Identification of native protein folds amongst a large number of incorrect models. The calculation of low energy conformations from potentials of mean force. Journal of Molecular Biology, 216, 167–80.

43. Domingues, F. S., Koppensteiner, W. A., Jaritz, M., et al. (1999) Sustained performance of knowledge-based potentials in fold recognition. Proteins Structure Function and Genetics, 37, 112–20.

Глава 4. Моделирование белков. Введение

183

44. Casari, G. and Sippl. M. J. (1992) Structure-derived hydrophobic potential. Hydrophobic potential derived from X-ray structures of globular proteins is able to identify native folds. Journal of Molecular Biology, 224, 725–32.

45. Watson, J. D., Laskowski, R. A., and Thornton, J. M. (2005). Predicting protein function from sequence and structural data. Current Opinion in Structural Biology, 15, 275–84.

4.6. Свойства белков 4.6.1. Электростатический потенциал Как отмечалось выше, электростатические взаимодействия являются одним из важнейших факторов, определяющих конформацию молекулы в водном растворе и энергию взаимодействия между двумя молекулами. Белок, растворитель, кофакторы и простетические группы почти всегда заряжены или полярны, поэтому электростатические взаимодействия определяют многие их эффекты [1–4]. В отличие от дисперсионных сил электростатические взаимодействия действуют на достаточно больших расстояниях. Из-за их сильного влияния на структуру и функцию макромолекул в водном растворе совершенно необходимо учитывать влияние электростатических взаимодействий в явном виде в любом теоретическом исследовании белков [1]. Для этого необходимы модели, корректно описывающие электростатические свойства белков. Взаимодействие двух зарядов описывается законом Кулона (см. разд. 2.2.1). В своей простейшей форме он применим только для двух точечных зарядов в вакууме. Если заряды погружены в любое другое вещество, частицы вещества поляризуются, и индуцированные диполи частиц взаимодействуют с исходными точечными зарядами. Поэтому общая сила, действующая на каждый из точечных зарядов, уменьшается, и электростатическое взаимодействие ослабевает под влиянием диэлектрической среды. В классических континуальных методах описания электростатических взаимодействий вещества рассматриваются как однородная диэлектрическая среда, которая может быть поляризована зарядами и диполями. Диэлектрическая проницаемость рассматривается как макроскопическая мера поляризуемости среды, не учитывающая явно поляризуемость каждого конкретного атома. Следует помнить, что такое рассмотрение является весьма упрощенным и что концепция диэлектрической проницаемости как истинно макроскопического свойства верна только для однородной среды. Менее однородное окружение необходимо учитывать в явном виде. Отдельные проблемы возникают на границах областей с очень разными диэлектрическими свойствами [5]. Поверхность белка представляет собой как раз такой случай, поскольку она разделяет систему на две области, сильно различающиеся по составу. Внутренняя часть молекулы обладает очень малой диэлектрической проницаемостью и содержит некоторое число зарядов (большинство из которых расположено рядом с поверхностью). Вне белка находится полярная водная среда, которая в обычных условиях со-

184

Молекулярное моделирование

держит значительное количество ионов. Для двух точечных зарядов, разделенных определенным расстоянием в макромолекуле в водном растворе, электростатическая энергия зависит от формы макромолекулы и точных позиций зарядов (более детально данная тема раскрывается в [5–7]). При использовании закона Кулона для вычисления электростатических взаимодействий зависимость от формы учтена не будет. Множество взаимодействий, возникающих между точечными зарядами и диполями белка и растворителя, взаимозависимы и изменяют простое кулоновское соотношение на очень сложное. Электростатическое взаимодействие между молекулами в однородной среде можно усреднить и учесть с помощью обычной диэлектрической проницаемости, но эта концепция неприменима для неоднородного окружения белков, поскольку их электростатические свойства включают взаимодействия между множеством зарядов и диполей белка, а также их взаимодействия с окружающим растворителем и ионами в нем. В этой ситуации взаимодействия между конкретными зарядами и диполями необходимо вычислять отдельно. Это непрактично из-за наличия огромного числа атомов в системе. Основная проблема при исследовании электростатических эффектов для белков состоит в учете эффектов поляризации [4]. Во многих электростатических задачах реальные материалы рассматриваются просто как континуумы, и эффекты микроскопической структуры материала учитываются в макроскопической диэлектрической постоянной. На микроскопическом уровне из-за поляризуемости индивидуальных атомов возникает экранирование зарядов. Поэтому метод, в котором не используется диэлектрическая проницаемость, а рассматриваются индивидуальные атомы и их поляризуемость, является идеальным решением проблемы. Конечно, точная квантово-механическая обработка тоже могла бы быть подходящим решением, но в настоящее время из-за ограничений вычислительных мощностей это непрактично для систем белкового размера. Поэтому для точного вычисления электростатических взаимодействий в белках используются эмпирические подходы [4–12]. В большинстве таких подходов используется приближение точечных зарядов, в котором зарядовое распределение белка описывается путем расположения точечных зарядов в центрах атомов. Существуют различные методы вычисления таких частичных зарядов [13–15], похожие на соответствующие процедуры для малых молекул (см. разд. 2.4.1). Поскольку весь белок слишком велик для квантово-химического расчета, заряды рассчитывают для меньших фрагментов, таких как индивидуальные аминокислоты. Полученные таким образом точечные заряды для конкретных аминокислот хранятся в библиотеках белковых зарядов, откуда их можно извлечь и приписать каждому атому исследуемого белка. Часто используемые заряды Коллмана, например, были выведены путем такого масштабирования точечных зарядов, чтобы они соответствовали молекулярным электростатическим потенциалам ab initio [14]. В случае белков также необходимо учитывать состояние ионизации, поэтому фор-

Глава 4. Моделирование белков. Введение

185

мальные заряды приписываются аминокислотным остаткам, которые должны существовать в заряженном виде в физиологических условиях. Эти заряды локализуются на одном или двух атомах остатка. Например, остаток аспарагиновой кислоты получает формальный заряд –1, который распределен между двумя карбоксильными атомами кислорода. В одном из первых методов более точного учета электростатических взаимодействий внутри белков было предложено использовать зависимость диэлектрической проницаемости от расстояния. Математическое выражение соответствующей функции часто имеет вид e(r) = r, где r — расстояние между рассматриваемыми атомами [16]. Эта концепция базируется не столько на экспериментально измеримом эффекте, сколько на правдоподобии. Предполагается, что на расстояниях порядка атомных размеров диэлектрическая проницаемость соответствует условиям вакуума, в то время как на значительно больших расстояниях она стремится к величине диэлектрической проницаемости воды e = 80. Для промежуточных расстояний предполагается, что диэлектрическая проницаемость меняется линейно. Зависимость e(r) может частично имитировать эффект экранирования электростатического взаимодействия растворителем и успешно стабилизирует макромолекулы при моделировании молекулярной динамики. Тем не менее она не позволяет корректно описать такие свойства, как электростатические силы и электростатический потенциал. Решение электростатической задачи возможно с помощью уравнения Пуассона—Больцмана (ПБ). Это дифференциальное уравнение, типичное для описания граничных явлений. Уравнение ПБ дает точный метод вычисления электростатических эффектов белков, включая электростатический потенциал. Были разработаны различные методы, основанные на этом уравнении. Коммерчески доступны программы DelPhi [17, 18] и UHBD [10, 19]. В рамках метода Пуассона—Больцмана макромолекулярная система рассматривается как состоящая из двух отдельных диэлектрических областей. Поверхность белка представляет собой границу между этими областями. То, что расположено внутри поверхности, расценивается как растворенное вещество, а то, что снаружи, — как растворитель. Молекулы воды, расположенные внутри поверхности, обычно рассматриваются как часть растворенного вещества, а не растворителя. Белок описывается как трехмерная структура с точечными зарядами, локализованными в центрах атомов. Малые значения диэлектрической проницаемости, обычно от 2 до 5, используются для всех точек внутри поверхности. Уравнение ПБ также позволяет рассматривать электростатические эффекты, связанные с ионами, находящимися в растворителе. Таким образом, в расчете могут быть учтены физиологические условия (концентрация соли 0,145 М). При использовании метода ПБ общий электростатический потенциал заряженной молекулы в растворителе описывается следующим упрощенным уравнением: coul . ftot + fself + fcross + fown i = fi i i i

186

Молекулярное моделирование

Молекула растворителя взаимодействует с электростатическим полем, создаваемым каждым точечным зарядом молекулы. Это взаимодействие, состоящее из двух электростатических эффектов — ориентации диполей и электронной поляризации — в свою очередь создает электростатическое поле в позициях исходных точечных зарядов, которое называется ответным полем или полем реакции (reaction field) [20]. Его величина определяется величиной точечного заряда, его расстоянием от молекулярной поверхности, формой поверхности и диэлектрическими проницаемостями молекул растворенного вещества и растворителя. Ответное поле действует на все точечные заряды системы, включая исходный заряд. Общий электростатический потенциал ftot — это сумма i взаимодействий каждого точечного заряда с его собственным ответным , индуцированным другими зарядами ответным полем fcross , полем fself i i прямым кулоновским взаимодействием с другими точечными зарядами и создаваемым каждым точечным зарядом внутренним электростаfcoul i тическим потенциалом fown (детальный обзор темы см. в [5, 7, 21]). i Уравнение Пуассона—Больцмана позволяет построить достоверную модель электростатических взаимодействий в белках, поскольку оно включает в рассмотрение как эффект поляризации, так и ионную силу. К сожалению, это уравнение представляет собой весьма сложное дифференциальное уравнение, имеющее аналитические решения лишь для простых систем. Альтернативой аналитическому решению является численное решение, позволяющее найти приближенные решения даже для больших белковых систем. Для численного решения используется так называемый метод конечных разностей (Finite Difference Methods, FDPB), при использовании которого белок накладывается на трехмерную кубическую решетку. Расчетные значения плотности заряда и электростатического потенциала располагаются в каждом узле решетки. Численное решение уравнения дает значения, которые совпадают с аналитическими решениями, доступными для малых систем, с точностью до 5%. Наиболее критическими областями и, как следствие, областями наибольшей ошибки являются области, расположенные рядом с заряженными остатками на поверхности белка. Для избежания этих ошибок были разработаны различные методы [18]. Вычисление электростатического потенциала молекулы белка — это лишь одна из возможностей, предлагаемых методом Пуассона—Больцмана. С его помощью можно вычислить также такие параметры, как полная электростатическая энергия системы, энергия сольватации и энергия ответного поля. Тем не менее наиболее важным параметром является электростатический потенциал, который может быть изображен разными способами, как описывалось для малых молекул в разд. 2.4.1. Показано, что электростатические потенциалы играют важную роль в молекулярном узнавании и связывании. Например, электростатический потенциал супероксид-дисмутазы ответственен за увеличение скорости внешней диффузии субстратов к активному центру [22]. Иссле-

Глава 4. Моделирование белков. Введение

187

Рис. 4.6.1. Представление электростатического потенциала димера грамицидина А в мембранном окружении. Расчеты выполнены в программе DelPhi. (Цветовое обозначение: фиолетовый — отрицательный потенциал, зеленый — положительный.) дование электростатических потенциалов крысиного и коровьего трипсина дало интересные результаты [23]: хотя эти два фермента имеют один и тот же каталитический механизм, их суммарный заряд отличается на 12,5 единиц. Вычисление электростатических потенциалов по методу Пуассона—Больцмана показало, что оба активных центра эффективно экранированы от зарядов, находящихся на поверхности, что приводит к почти идентичным электростатическим потенциалам внутри активных центров. Грамицидин А, широко известный мембранный транспортер катионов, использован нами в качестве примера для графического представления электростатического потенциала белка (рис. 4.6.1). В мембране грамицидин А образует димер. Вычисление электростатического потенциала выполнялось в программе DelPhi для димера, внедренного в мембранный слой с низкой диэлектрической проницаемостью, который рассматривался как часть растворенной системы.

4.6.2. Потенциалы взаимодействия Другие важные особенности взаимодействия, распознавания и связывания различных субстратов с белком вытекают из оценки полей молекулярных взаимодействий. Как мы уже подробно обсудили в разд. 2.5.4, потенциалы взаимодействия являются полезными индикаторами для предсказания свойств связывания молекул. Такие программы, как описанная ранее GRID [24, 25], могут быть использованы для картирования областей белка, где предпочтительно притягивается молекула воды или субстрата. Поля взаимодействий, построенные с помощью определенного зонда, могут быть использованы в качестве стартовой точки

188

Молекулярное моделирование

для докинга субстратов в активный центр. Методы, применяемые для этих целей, точно такие же, как описано в случае малых молекул в разд. 2.4.2. В литературе можно найти множество примеров успешного применения этих программ для предсказания областей связывания [26–28], для докинга молекул в активные центры [29–32], а также для оптимизации структуры лигандов с целью оптимизации связывания [26, 33, 34]. Превосходное собрание статей и обзоров по этой теме можно найти в [35].

4.6.3. Гидрофобность Обсуждая в разд. 4.5.2 качество упаковки белков, мы говорили о важной роли гидрофобных взаимодействий в процессе укладки белков. Степень связывания малых молекул с белком также часто определяется гидрофобными взаимодействиями. Как уже обсуждалось для малых молекул (разд. 2.4.3), существуют различные методы представления гидрофобных и гидрофильных свойств молекул. Гидрофобность может быть представлена непосредственно на молекулярной поверхности или в виде гидрофобного поля в пространстве, окружающем молекулу. Полезными программами в этом смысле являются GRID [24], HINT [36] и MOLCAD [37]. Детальное описание различных методов и сравнение полученных результатов в исследовании белков можно найти в литературе [38].

Цитированная литература 1. MacArthur, M. W., Laskowski, R. A., and Thornton, J. M. (1998) Validation of protein models derived from experiment. Current Opinion in Structural Biology, 8, 631–37.

2. Honig, B., Hubbel, W., and Fleweling, R.F. (1986) Electrostatic interactions in membranes and proteins. Annual Review of Biophysics and Biophysical Chemistry, 15, 163–93.

3. Matthew, J. B. (1985) Electrostatic effects in proteins. Annual Review of Biophysics and Biophysical Chemistry, 14, 387–417.

4. Schutz, C. N. and Warshel, A. (2001) What are the dielectric «constants» of proteins and how to validate electrostatic models? Proteins Structure Function and Genetics, 44, 400–17.

5. Warshel, A. and Aqvist, J. (1991) Electrostatic energy and macromolecular function. Annual Review of Biophysics and Biophysical Chemistry, 20, 267–98.

6. Gilson, M., Rashin, A., Fine, R., and Honig, B. (1985) On the calculation of electrostatic interactions in proteins. Journal of Molecular Biology, 183, 503–16.

7. Harvey, S. C. (1989) Treatment of electrostatic effects in macromolecular modeling. Proteins Structure Function and Genetics, 5, 78–92.

8. Zauhar, R. J. and Morgan, R. S. (1985) A new method for computing the macromolecular electric potential. Journal of Molecular Biology, 186, 815–20.

9. States, D.J. and Karplus, M. (1987) A model for electrostatic effects in proteins. Journal of Molecular Biology, 197, 122–30.

10. Karplus, M. and McCammon, J. A. (2002) Molecular dynamics simulations of biomolecules. Nature Structural Biology, 9, 646–52.

Глава 4. Моделирование белков. Введение

189

11. Warwicker, J. and Watson, H. C. (1982) Calculation of the electric potential in the active site cleft due to alpha-helix dipoles. Journal of Molecular Biology, 157, 671–79.

12. Warshel, A. and Papazyan, A. (1998) Electrostatic effects in macromolecules fundamental concepts and practical modeling. Current Opinion in Structural Biology, 8, 211–17.

13. Jorgensen, W. L. and Tirado-Rives, J. (1988) The OPLS-potential functions for proteins. Energy minimization for crystals of cyclic peptides and crambin. Journal of the American Chemical Society, 110, 1657–66.

14. Weiner, P. K. and Kollman, P. A. (1981) AMBER: assisted model building with energy refinement. A general program for modeling molecules and their interactions. Journal of Computational Chemistry, 2, 287–99.

15. Abraham, R. J., Grant, G. H., Haworth, I. S., and Smith, P. E. (1991) Charge calculations in molecular mechanics. Part 8. Partial atomic charges from classical calculations. Journal of Computer-Aided Molecular Design, 5, 21–39.

16. McCammon, J. A.,Wolyness, P. G., and Karplus,M. (1979) Picosecond dynamics of tyrosine side chains in proteins. Biopolymers, 18, 927–42.

17. DelPhi User Guide, Accelrys, San Diego, http://www.accelrys.com. 18. Luo, R., David, L., and Gildon, M. K. (2002) Accelerated Poisson-Boltzmann calculations for static and dynamic systems. Journal of Computational Chemistry, 23, 1244–53.

19. Antosiewicz, J., McCammon, J. A., and Gilson, M. K. (1994) Prediction of pH-dependent properties of proteins. Journal of Molecular Biology, 238, 415–36.

20. Bottcher, C. J. F. (1973) Theory of Electric Polarization, Elsevier Press, Amsterdam. 21. Gilson, M. K., McCammon, J. A., and Madura, J. D. (1995) Molecular dynamics simulation with a continuum electrostatic model of the solvent. Journal of Computational Chemistry, 9, 1081–95.

22. Sharp, K., Fine, R., and Honig, B. (1987) Computer simulations of the diffusion of a substrate to an active site of an enzyme. Science, 236, 1460–63.

23. Soman, K., Yang, A., Honig, B., and Fletterick, R. (1989) Electrical potentials in trypsin isozymes. Biochemistry, 28, 9918–26.

24. Goodford, P. J. (1985) A computational procedure for determining energetically favourable binding sites on biologically important macromolecules. Journal of Medicinal Chemistry, 28, 849–57.

25. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hydrogen bond functions for use in determining energetically favourable binding sites on molecules of known structure. 1. Ligand probe groups with the ability to form two hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.

26. Windshugel, B., Jyrkkarinne, J., Poso, A. et al. (2005) Molecular dynamics simulations of the human CAR ligand-binding domain: deciphering the molecular basis for constitutive activity. Journal of Molecular Modeling, 11, 69–79.

27. Von Itzstein, M., Dyason, J. C., Oliver, S. W. et al. (1996) A study of the active site of influenza virus sialidase: an approach to the rational design of novel anti-influenza drugs. Journal of Medicinal Chemistry, 39, 388–91.

28. Wade, R. C. (1997) Flu' and structure-based drug design. Structure, 5, 1139–46. 29. Meng, E. C., Shoichet, B. K., and Kuntz, I. D. (1992) Automated docking with grid-based energy evaluation. Journal of Computational Chemistry, 13, 505–24.

190

Молекулярное моделирование

30. Byberg, J. R., Jorgensen, F. S., Hansen, S., and Hough, E. (1992) Substrate-enzyme interactions and catalytic mechanism in phospholipase C: a molecular modeling study using the GRID program. Proteins Structure Function and Genetics, 12, 331–38.

31. Stoddard, B. L. and Koshland, D. E. (1993) Molecular recognition analyzed by docking simulations: the aspartate receptor and isocitrate dehydrogenase from Escherichia coli. Proceedings of the National Academy of Sciences of the United States of America, 90, 1146–53.

32. Bitomsky, W. and Wade, R. C. (1999) Docking of glycosaminoglycans to heparin-binding proteins. Journal of the American Chemical Society, 121, 3004–13.

33. Varney, M. D., Marzoni, G. P., Palmer, C. L. et al. (1992) Crystal-structurebased design and synthesis of benzdindole-containing inhibitors of thymidylate synthase. Journal of Medicinal Chemistry, 35, 663–76.

34. Ocain, T. D., Deininger, D. D., Russo, R. et al. (1992) New modified heterocyclic phenylalanine derivatives. Incorporation into potent inhibitors of human rennin. Journal of Medicinal Chemistry, 35, 823–32.

35. Cruciani, G. (2005) In Molecular Interaction Fields, Methods and Principles in Medicinal Chemistry, Series (eds H. Kubinyi, G. Folkers, and R. Mannhold), VCH Publishers, New York.

36. Kellogg, G. E., Semus, S. F., and Abraham, D. J. (1991) HINT: a new method of empirical hydrophobic field calculation for CoMFA. Journal of Computer-Aided Molecular Design, 5, 545–52.

37. Heiden, W., Moeckel, G., and Brickmann, J. (1993) A new approach to analysis and display of local lipophilicity/hydrophilicity mapped on molecular surfaces. Journal of Computer-Aided Molecular Design, 7, 593–14.

38. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA as a tool for active site modeling, in Trends in QSAR and Molecular Modelling (ed. C. G. Wernuth), ESCOM Science Publishers B. V., Leiden, Vol. 92, pp. 233–44.

Виртуальный скрининг и докинг

5

Высокопроизводительный скрининг (High-Throughput Screening, HTS) является эффективным методом поиска новых ведущих соединений (lead compounds)1 при разработке лекарств. Тем не менее, поскольку доступные библиотеки соединений становятся все больше и больше, стоимость такого скрининга возрастает, а доля хитов уменьшается. Этой проблемы можно избежать, если экспериментально проверять не всю базу данных, а небольшую ее часть, обогащенную соединениями, которые с высокой вероятностью связываются с мишенью. Вычислительный метод выбора перспективных соединений из электронной базы данных для экспериментального скрининга называется виртуальным скринингом (ВС, virtual screening) [1]. ВС можно проводить путем поиска в базах данных молекул, удовлетворяющих ограничениям, заданным пользователем, таким как соответствие набору активных молекул [2], фармакофору [3], пространственной структуре макромолекулярной мишени [4]. Эта глава не посвящена обзору всех вычислительных процедур скрининга электронных баз данных; мы уделим внимание в основном ВС по структурам белков-мишеней (структурный виртуальный скрининг). Четыре важнейших этапа ВС (подготовка, докинг, оценка, фильтрация; см. рис. 5.1) будут подробно описаны в дальнейшем.

5.1. Подготовка системы 5.1.1. Подготовка библиотеки соединений Помимо корпоративных библиотек имеются также коммерчески доступные коллекции соединений для скрининга, существующие как в электронном виде, так и физически (почти исчерпывающий список поставщиков см. в табл. 5.1). Из таких библиотек соединений следует сначала отбросить те соединения, которые в любом случае не только не пройдут, но и не достигнут клинических испытаний из-за своих нежелательных свойств. Критерии фильтрации всегда следует адаптировать к 1

В русскоязычной литературе часто встречается термин «соединение-лидер». Мы считаем этот термин неудачным.

192

Рис. 5.1.

Молекулярное моделирование

Схема виртуального скрининга по структуре биомишени: 1 — настройка трехмерной библиотеки, 2 — докинг, 3 — оценка, 4 — обработка результатов и выбор окончательного хита

Глава 5. Виртуальный скрининг и докинг

193

Таблица 5.1. Химические библиотеки, пригодные для виртуального скрининга

Производитель Физически доступные соединения AKos screening samples Ambinter AMRI (Comgenex) ASDI Biosciences Asinex Synergy Asinex Gold Asinex Platinum Asinex building blocks Bionet ChemBridge Express-Pick ChemDiv new chemistry ChemDiv discovery chemistry ChemStar CNRS National Library Enamine Exclusive chemistry Innovapharm InterBioScreen natural compounds InterBioScreen synthetic compounds LifeChemicals Maybridge MDD NCI DTP Otava Peakdale Molecular Pharmeks Princeton BioMolecular Research Specs TimTec Stock TosLab Tripos Leadquest Vitas-M STK Vitas-M Tulip Интернет-базы данных ChemDB ChemMine ChemNavigator PubChem MDL screening compounds directory ZINC 1

Размер

Веб-сайт

700 000 500 000 241 000 105 600 11 000 227 480 130 646 5908 44 546 435 000 28 300 620 200 60 086 29 356 857 000 1906 680 000 40 000 340 000 208 000 66 000 33 000 127 000 109 00 8500 165 000 530 000 240 000 225 000 20 500 52 000 234 000 24 700

http://www.akosgmbh.de http://www.ambinter.com http://www.albmolecular.hu http://www.asdibiosciences.com http://www.asinex.com http://www.asinex.com http://www.asinex.com http://www.asinex.com http://www.keyorganics.ltd.uk http://chembridge.com/ http://www.chemdiv.com http://www.chemdiv.com http://www.chemstaronline.com http://chimiotheque-nationale.enscm.fr http://www.enamine.relc.com http://www.exchemistry.com http://www.innovapharm.com http://www.ibscreen.com http://www.ibscreen.com http://www.lifechemicals.com http://www.maybridge.com http://www.worldmolecules.com http://dtp.nci.nih.gov http://www.otava.com.ua http://www.peakdale.co.uk http://www.pharmeks.com http://www.princetonbio.com http://www.specs.net http://www.timtec.net http://www.toslab.com http://www.tripos.com http://www.vitasmlab.com http://www.vitasmlab.com

4 100 000 5 800 000 24 000 000 4 000 000 3 500 000 3 381 5811

http://cdb.ics.uci.edu/CHEM/Web http://bioweb.ucr.edu/ChemMineV2 http://www.chemnavigator.com http://pubchem.ncbi.nlm.nih.gov http://www.mdli.com http://zinc.docking.org

Более 13 млн структур по состоянию на ноябрь 2011 г.

размеру электронной базы данных и задачам исследователя (нахождение хита, ведущего соединения либо фармакологического инструмента). Существуют два способа удаления ненужных молекул из базы данных. Первый из них основан на использовании различных фильтров, каждый из которых исключает соединения с определенными свойства-

194

Молекулярное моделирование

ми [5]. Излишне реакционноспособные и токсичные соединения можно удалить на основании наличия в них таких группировок, как ацилгалогенидная, сульфонилгалогенидная, акцептор Михаэля и т. д. Широко известны также «правила пяти» Липински1 [6]: плохая абсорбция или проникающая способность будет у соединений, имеющих молекулярную массу >500, вычисленный коэффициент распределения октанол — вода (clogP) >5, >10 акцепторов водородной связи и >5 доноров водородной связи. Все соединения, удовлетворяющие двум и более из этих условий, с высокой вероятностью обладают плохой проникающей способностью и должны быть удалены из базы данных. В настоящее время разрабатываются более сложные фильтры [7] для предсказания специфичных свойств соединения — абсорбции, распределения, метаболизма и выделения (Absorption/Distribution/Metabolism/Excretion, ADME), а также растворимости в воде, мембранной проницаемости и коэффициента метаболического выведения. Второй способ отсечения неподходящих соединений состоит в создании систем бинарной классификации, основанных на знаниях (например, нейронные сети, генетические алгоритмы, деревья решений), которые автоматически различают подходящие и неподходящие соединения [8]. Помимо «непохожих на лекарства» соединений часто бывает желательно отсечь молекулы, взаимодействующие с большим количеством различных белковых мишеней, вследствие чего их часто называют неразборчиво связывающимися (promiscuous binders) [9]. Они могут вносить погрешность в пробу или метод детектирования (например, флуоресцентные молекулы) или специфично взаимодействовать с различными макромолекулярными мишенями путем агрегации или денатурации [10]. Поскольку коммерческие и корпоративные библиотеки изменяются с течением времени, огромную важность имеет по возможности автоматическая подготовка библиотеки для упрощения будущих обновлений. С использованием вышеупомянутых правил можно легко настраивать автоматические технологические процессы для выполнения следующих задач (рис. 5.2): — чтение начальных данных от различных производителей (обычно с использованием файлов формата SD); — первичная подготовка данных: удаление ошибочных и сложных структур и противоионов (обычно с использованием файлов одномерных форматов SMILES или SMARTS); — фильтрование по заранее определенным свойствам; — поиск дубликатов; — конвертация из одномерного формата в трехмерный с потенциальным перечислением конформеров, стереоизомеров и таутомеров; — ионизация при физиологическом pH; — вычисление физико-химических и топологических дескрипторов; — сохранение в реляционных базах данных для целей будущего поиска. 1

Кристофер Липински — американский физикохимик, руководитель одной из исследовательских лабораторий фирмы Pfizer, лауреат премий международных научных обществ.

Рис. 5.2. Автоматический процесс подготовки библиотек Pipeline Pilot [11]. 1 — Чтение начальных данных от различных производителей; 2 — первичная подготовка данных: удаление ошибочных и сложных структур и противоионов; 3 — фильтрование по заранее определенным свойствам; 4 — поиск дубликатов; 5 — конвертация в трехмерный формат с потенциальным перечислением конформеров, стереоизомеров и таутомеров; 6 — ионизация при физиологическом pH; 7 — вычисление физико-химических и топологических дескрипторов; 8 — конвертация в двумерный формат и сохранение в реляционных базах данных

196

Молекулярное моделирование

На некоторых общедоступных интернет-ресурсах (например, ZINC [12], ChemDB [13], табл. 5.1) эти задачи уже были выполнены; получившиеся библиотеки от разных производителей готовы для скрининга. На других ресурсах (например, ChemNavigator) подготовку библиотеки необходимо выполнять самостоятельно.

5.1.2. Представление белков и лигандов Воспроизведение конформационного пространства, доступного для макромолекулы, является весьма сложной задачей и требует неизбежной аппроксимации. В связи с этим методы построения моделей лиганд-белковых комплексов (докинга) можно классифицировать, выделив три категории в зависимости от используемого уровня аппроксимации: (1) жесткий докинг, когда и белок, и лиганд рассматриваются как жесткие тела; (2) полугибкий докинг, когда только лиганд проявляет конформационную гибкость, и (3) полностью гибкий докинг, когда учитывается конформационная подвижность и белка, и лиганда. 5.1.2.1. Гибкость белка

Белки — весьма гибкие молекулы, для которых существует множество конформационных состояний, разделенных низкими энергетическими барьерами. В движениях молекул белка можно выделить три группы.

1. Быстрые движения малого масштаба, преимущественно включающие в себя движение боковых цепей, хотя также присутствуют небольшие движения основной цепи. Места связывания зачастую проявляют большую гибкость, чем другие области поверхности белка.

2. Медленные крупномасштабные движения доменов, например шарнирное вращение жестких доменов, соединенных гибкими сочленениями, которые стягивают и ограничивают их движение. Считается, что шарнирное вращение приводит к «индуцированному соответствию» (induced fit) лиганда.

3. Ренатурация при связывании лиганда происходит для многих белков, находящихся в частично развернутом состоянии либо из-за малого гидрофобного остова, либо из-за наличия некомпенсированных зарядов внутри белка. При связывании лиганда стабилизируется связанная конформация и равновесие сдвигается в ее сторону. При этом конформационные изменения в белке при связывании лиганда могут изменяться от немногочисленных движений боковых цепей до значительных шарнирных вращений. Очевидно, что при докинге лигандов белки необходимо рассматривать как гибкие, особенно если для докинга используется структура, свободная от лиганда. Тем не менее в течение долгого времени это было невозможно сделать при вычислениях. Разработка алгоритмов докинга, учитывающих гибкость белка, началась лишь недавно благодаря экспоненциальному росту скорости компьютеров и емкости оперативной и постоянной памяти.

Глава 5. Виртуальный скрининг и докинг

197

Один из способов учета подвижности белка состоит в том, чтобы начать с определенной трехмерной структуры, а затем позволять определенным подструктурам двигаться. Его можно реализовать путем исследования конформационного пространства боковых цепей белка с помощью библиотеки ротамеров [14] при замораживании атомов основной цепи, допускающем шарнирное движение доменов белка. Альтернативный подход предполагает использование ансамбля из нескольких экспериментально определенных (методами рентгеноструктурного анализа или ЯМР) или расчетных (методами молекулярной динамики или Монте-Карло) конформаций. Конформационный ансамбль затем транслируется в решетку для вычисления поля (решеточного поля) и используется для вычисления потенциала пробного атома в узлах решетки. Во время докинга значения энергии взаимодействия считываются из предварительно сохраненных файлов решеточного поля [15]. Последняя недавно разработанная стратегия использует обобщенное описание белка в виде наложенных структур. Похожие части структур объединяются, в то время как непохожие рассматриваются как отдельные альтернативы [16]. Различные структуры ансамбля можно рекомбинировать с целью получения новых структур белка в процессе докинга. Учет гибкости белка особенно важен при использовании моделей белка с низким разрешением или построенных по гомологии. 5.1.2.2. Гибкость лиганда

Поскольку лекарственные молекулы обычно значительно меньше, чем макромолекулы, гибкость лиганда учитывается значительно легче и на сегодняшний день является стандартным вариантом в методах докинга. Простейший подход состоит в том, чтобы поместить конформации лиганда в базу данных, рассматривая в процессе докинга каждую конформацию как жесткую. Другой способ учета гибкости лиганда заключается в том, чтобы сохранять в базе данных лишь одну конформацию лиганда, но в процессе докинга рассматривать лиганды как гибкие молекулярные объекты. Часто используется метод постепенного конструирования, при использовании которого лиганд разделяется на фрагменты и в процессе докинга постепенно собирается заново в области связывания. При поиске оптимальных решений просматриваются только выгодные торсионные углы. В качестве примеров программ, использующих этот метод, можно привести FlexX и Dock (табл. 5.2). Другая возможность, реализованная, например, в Gold и AutoDock, заключается в том, чтобы кодировать значения торсионных углов в виде «генов» и использовать генетический алгоритм. Генетические операции (скрещивание, мутации), которые применяются к этим «генам», будут воздействовать на конформацию лиганда. В конце концов можно использовать вычислительные методы исчерпывающего исследования конформационного пространства (молекулярная динамика, моделирование отжига, метод Монте-Карло) в случаях, когда скорость алгоритма поиска не является определяющим фактором виртуального скрининга.

198

Молекулярное моделирование

Табл. 5.2. Важнейшие программы докинга Название Adam

Разработчик

Веб-сайт

Institute of Medicinal http://www.immd.co.jp/en Molecular Design, Inc. AutoDock The Scripps Research http://autodock.scripps.edu Institute CDocker Eli Lilly Clix Commonwealth Scientific and Industrial Research Organisation CombiDock University of California, San Francisco (UCSF) Darwin Wistar Institute Divali UCSF Dock UCSF http://dock.compbio.ucsf.edu DockIt Metaphorics L.L.C. http://www.metaphorics.com DockVision Alberta University http://www.dockvision.com Dream++ UCSF eHiTS SimBioSys Inc. http://www.simbiosys.ca Eudoc Mayo Clinic Cancer Center FDS Southampton University FFLD Zurich University http://www.biochem-caflish.unizh.ch FlexScreen Forschungszentrum http://iwrwww1.fzk.de/biostruct Karlsruhe GmbH FlexX BioSolveIT http://www.biosolveit.de Flog Merck Research Laboratories Fred OpenEye http://www.eyesopen.com FTDock Imperial Cancer Research http://www.sbg.bio.ic.ac.uk/docking Fund GAsDock Dalian University of Technology Glide Schrodinger http://www.scrodinger.com Gold Cambridge Crystallographic http://www.ccdc.cam.ac.uk Data Center Hammerhead Arris Pharmaceutical Corporation HierDock California Institute of Technology ICM Molsoft http://www.molsoft.com LibDock Accelrys http://www.accelrys.com LigandFit Accelrys http://www.accelrys.com Ligin Weizmann Institute http://swift.cmbi.kun.nl/swift/ligin of Science MCDock Georgetown University Medical Center MOE-Dock Chemical Computing Group http://www.chemcomp.com MolDock Molegro ApS http://www.molegro.com PAS-Dock Norwegian University of Science and Technology

Ссылка 17 18 19 20

21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

46 47

Глава 5. Виртуальный скрининг и докинг Название PhDock Ph4Dock ProDock Pro_Leads ProPose Psi-Dock Q-fit QXP RiboDock Sandock SDocker Seed SFDock SkelGen

Разработчик

Slide

Wyeth Research Ryoka Systems Inc. Cornell University Proteus Molecular Design Ltd. 4SC Peking University University College, London Novartis Pharmaceuticals Vernalis Edinburgh University Lilly Research Labs Zurich University Peking University De Novo Pharmaceuticals Ltd. Michigan State University

Surflex

Biopharmics

199 Веб-сайт

http://www.4sc.de

http://www.biochem-caflish.unizh.ch http://www.denovopharma.com http://www.bch.msu.edu/~kuhn/ projects/slide/home.html http://www.biopharmics.com

Ссылка 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

Наиболее современные алгоритмы докинга учитывают гибкость лиганда во время выполнения процедуры, что дает заметное преимущество — уменьшение дискового пространства, необходимого для хранения базы данных. Тем не менее всегда можно воспользоваться качественными генераторами конформаций (например, CATALYST, OMEGA, CORINA), которые в наборе предполагаемых конформеров обычно генерируют конформацию, близкую к биоактивной [64]. При использовании любой стратегии общим советом является оптимизация структуры лиганда с помощью быстрого протокола минимизации энергии методом молекулярной механики. Координаты лигандов хранят обычно в форматах mol2 (Tripos), SD (MDL) или mae (Schrodinger).

5.2. Алгоритмы докинга Многочисленные программы докинга (см. табл. 5.2) различаются между собой в таких аспектах, как описание молекулярных взаимодействий, алгоритмы, используемые для генерации структур лигандов, а также среднее время докинга молекулы. Алгоритмы могут быть классифицированы на детерминированные и стохастические: первые дают полностью воспроизводимые результаты, в то время как вторые включают фактор случайности, вследствие чего их результаты не могут быть полностью воспроизводимы, хотя могут быть сколь угодно близки.

200

Молекулярное моделирование

5.2.1. Методы постепенного конструирования При использовании алгоритма постепенного конструирования (incremental construction) лиганд не вводится в область связывания сразу как целая молекула, а разделяется на отдельные фрагменты и постепенно воссоздается внутри активного центра (рис. 5.3). Первым методом постепенного конструирования был метод Dock [24]. Первый его шаг — идентификация точек в активном центре, где могут быть расположены атомы лиганда. Эти точки расположены в центрах перекрывающихся сфер, заполняющих активный центр. Форма активного центра описывается с помощью минимального набора сфер. Затем лиганд «режут» по каждой гибкой связи так, чтобы получить

Рис. 5.3. Постепенное конструирование лиганда

Глава 5. Виртуальный скрининг и докинг

201

жесткие фрагменты. Из этих фрагментов вручную или автоматически выбирают якорный фрагмент, который ориентируют в активном центре независимо от остальной части лиганда путем установки соответствия между атомами лиганда и центрами сфер (в связи с чем алгоритм Dock иногда называют быстрым алгоритмом соответствия формы). Все возможные расположения якоря оценивают по их взаимодействию с белком (описание оценочной функции Dock см. в разд. 5.3), и лучшие из них используют для дальнейшего «наращивания» лиганда. На последней стадии выбирают расположения лиганда с наилучшими значениями оценочной функции. FlexX [32] также рассматривает белок как жесткий, а лиганд как гибкий. Подобно Dock, этот метод также делит лиганд по вращающимся связям на жесткие фрагменты, затем помещает базовый фрагмент в активный центр и заново присоединяет оставшиеся фрагменты. Главное отличие этого подхода от Dock состоит в методе, используемом для определения положения базового фрагмента. Вместо определения точек, в которых могут располагаться атомы лиганда, FlexX определяет места взаимодействий для каждой возможной взаимодействующей группы активного центра и лиганда. Этим местам приписывается тип взаимодействия (акцептор водородной связи, донор водородной связи и др.) и для них моделируется геометрия взаимодействий, состоящая из центра взаимодействия и сферической поверхности уровня энергии. Базовый фрагмент ориентируется путем поиска расположений, в которых могут возникать три взаимодействия между белком и лигандом. Остальные фрагменты лиганда затем постепенно присоединяются к остову молекулы. На каждом шаге наращивания считывается список предпочтительных значений торсионных углов; лучшие конформации в терминах лиганд-белковых взаимодействий сохраняются для дальнейшего «роста» лиганда (описание оценочной функции FlexX см. в разд. 5.3) [32]. Dock и FlexX в настоящее время являются наиболее используемыми инструментами докинга фрагментарным подходом. Другие программы, например Propose, Slide, Surflex (табл. 5.2), используют похожий способ фрагментирования, хотя стратегии добавления периферических фрагментов и оценки взаимодействий (разд. 5.3) могут различаться.

5.2.2. Генетические алгоритмы Генетический алгоритм — это алгоритм, имитирующий процесс эволюции путем манипуляций с набором структур, именуемых хромосомами (см. рис. 5.4). Каждая хромосома кодирует возможное решение исследуемой задачи. Gold [38] использует генетический алгоритм для докинга лиганда в белок. Каждая хромосома представляет собой возможную конформацию лиганд-белкового комплекса. Хромосоме приписывается оценочное значение на основе относительного качества лиганд-белковых взаимодействий. Начиная со случайным образом построенного «родительского» поколения хромосом, генетический алгоритм циклически применяет два главных генетических оператора, скрещивание и мутацию, получая «дочерние» хромосомы, которые заменяют наихудших

202

Молекулярное моделирование

Рис. 5.4. Главные особенности генетического алгоритма представителей родительской популяции. Оператор скрещивания требует двух родителей и дает двух потомков, в то время как оператор мутации производит единственного потомка от одного родителя. Таким образом, скрещивание комбинирует особенности двух разных хромосом в одной, в то время как мутация вносит случайные изменения. Давление отбора проявляется в форме предпочтительного выбора лучших представителей существующей популяции в качестве «родительских» хромосом. Это условие гарантирует, что со временем популяция будет двигаться к оптимальному решению, то есть к правильному способу связывания. AutoDock [18] использует ламарковский генетический алгоритм (Lamarckian Genetic Algorithm, LGA). При использовании LGA адаптация фенотипа к окружающей среде производится путем его транскрипции в генотип на основе предположения Жана Батиста Ламарка1 о том, что приобретенные фенотипические характеристики могут стать наследственными. В AutoDock для каждого поколения выполняется локальный поиск (минимизация энергии) для определенной пользователем части популяции, и получающиеся координаты лиганда сохраняются в хромосоме вместо родительских. Генетические алгоритмы широко применяются при конформационном поиске, и различные их варианты (например, Darwin, Divali, GAsDock, MolDock, Psi-Dock; см. табл. 5.2) используются для докинга в комбинации со стратегиями локальной минимизации в различных силовых полях.

1

Жан Батист Пьер Антуан де Моне Ламарк (1744–1829) — французский естествоиспытатель, создатель первой полноценной теории эволюции.

Глава 5. Виртуальный скрининг и докинг

203

5.2.3. Табупоиск Алгоритмы табу-поиска были впервые использованы в программе Pro_Leads [51]. Этот подход характеризуется использованием ограничений, позволяющих вести поиск в областях, трудно доступных иными методами (рис. 5.5). Эти ограничения имеют форму запретного списка (табу-списка), в котором содержатся уже исследованные решения. Предотвращая многократное посещение этих областей конформационного пространства, алгоритм стремится к максимально возможному изучению пространства поиска. В процессе поиска рассматривается только текущее решение. В начале поиска текущее решение инициализируется путем выбора случайной позиции и ориентации лиганда в определенной области активного центра. Затем производится определенное пользователем число шагов от текущего решения с помощью процедуры, подобной мутации, результаты которых ранжируются с помощью оценочной функции. Алгоритм табу-поиска оперирует запретным списком, в котором хранятся уже исследованные решения, и шаг считается запрещенным, если он недостаточно отличается (например, среднеквадратичное отклонение < 0,75 C) от элементов запретного списка. Лучший по оценке шаг объявляется новым «текущим решением», если его энергия ниже имеющейся к тому моменту лучшей энергии, и в то же время заменяет предыдущее «лучшее решение». В иных случаях алгоритм выбирает лучший незапрещенный шаг. Если решение не удовлетворяет ни одному из этих критериев, алгоритм останавливается; если найдено новое текущее решение, оно добавляется к запретному списку. Текущее решение просто добавляется в конец списка, пока он не наполнится (например, 25 решений), а затем заменяет существующие элементы списка по при-

Рис. 5.5. Главные особенности табу-поиска

204

Молекулярное моделирование

нципу «первым вошел, первым вышел» ('first-in, first-out'), иными словами, происходит замена самых старых элементов списка. После идентификации нового текущего решения генерируется новый набор шагов и начинается следующая итерация поиска. Генетические алгоритмы и табу-поиск используются совместно в таких программах, как PAS-Dock, Psi-Dock и SFDock (см. табл. 5.2) для ограничения конформационного пространства поиска при докинге малой молекулы в белок. Поскольку генетический алгоритм быстро сходится в близкой окрестности минимума, он может ошибочно сойтись в локальном минимуме. Использование табу-поиска позволяет избежать этого недостатка.

5.2.4. Моделирование отжига и метод МонтеКарло Моделирование отжига — это особый метод моделирования молекулярной динамики, при использовании которого система охлаждается через определенные промежутки времени путем уменьшения температуры моделирования. Таким образом система фиксируется в конформации, отвечающей ближайшему локальному минимуму. Недостатки метода заключаются в том, что результат зависит от начального положения лиганда и алгоритм не исследует пространство решений исчерпывающе. При использовании метода Монте-Карло конформационное пространство исследуется с помощью случайных движений. Возможны различные варианты метода в программах докинга (табл. 5.2). В старой версии AutoDock 2.4 использовался протокол моделирования отжига, совмещенного с методом Монте-Карло (Monte Carlo Simulated Annealing, MCSA). Во время каждого цикла постоянной температуры ориентация и конформация лиганда претерпевают случайные изменения. Новое состояние немедленно принимается, если его энергия ниже энергии предыдущего состояния. В иных случаях конформация принимается или отвергается с вероятностью, основанной на соотношении Больцмана. Вероятность принятия P выражается как P =e

-DE kT ,

(1)

где DE — отличие в энергии от предыдущего шага, T — абсолютная температура, а k — постоянная Больцмана. Это означает, что чем выше температура, тем выше вероятность, что новое состояние будет принято. В программе MCDock метод Монте-Карло используется дважды: сначала происходит чистая геометрическая оптимизация положения лиганда путем случайных движений для минимизации межмолекулярного перекрывания, а затем — моделирование MCSA с использованием силового поля CHARMM. ProDock и ICM (табл. 5.2) используют внутренние координаты для представления молекулярных структур и сочетают случайные движения по Монте-Карло с минимизацией энергии на основе силового поля. Алгоритм DockVision состоит из трех стадий: (1) случайное позиционирование заранее вычисленных конформаций лиганда в определенной пользователем области связывания; (2) провер-

Глава 5. Виртуальный скрининг и докинг

205

ка на стерические конфликты с мишенью с помощью «плавающего» алгоритма (floating algorithm), сочетающего в себе метод Монте-Карло со стерической решеточной оценочной функцией; (3) поиск оптимального способа связывания после удаления потенциальных конфликтов с помощью отбора методом Монте-Карло, основанного на силовом поле. Программа QXP сочетает случайные монте-карловские движения торсионных углов лиганда с минимизацией энергии и промежуточную процедуру быстрой подгонки под шаблон для оптимального расположения лиганда в области связывания. В программе Affinity используется двухшаговая процедура докинга гибкого лиганда в частично гибкий белок: (1) классический метод Монте-Карло применяется для локализации лиганда в месте связывания; (2) расположение лиганда оптимизируется по протоколу моделирования отжига с использованием решеточного силового поля для обработки неподвижной части комплекса и более сложного полного силового поля, включающего неявные эффекты растворителя, для обработки подвижной части системы (лиганд, аминокислоты места связывания). Другой коммерчески доступный продукт Glide использует набор иерархических фильтров для удаления нежелательных решений, начиная с приближений низкого уровня (совпадения по расстояниям) и вплоть до сложных вычислений (полная минимизация методом MCSA с применением силового поля) с оценкой свободной энергии. Glide использует новый алгоритм быстрого построения конформаций, минимизируя вычислительную сложность путем кластеризации якорных областей построенных трехмерных конформаций лиганда и независимой обработки положений концевых вращающихся групп. В программе FDS (табл. 5.2) метод Монте-Карло используется вместе с молекулярно-механическим силовым полем AMBER с континуальной моделью растворителя GB-SA (Generalized Born — Surface Area). Эта модель растворителя не только менее сложна вычислительно, чем его явное представление, но и позволяет выполнять более совершенный отбор конформаций.

5.2.5. Методы подгонки формы Методы подгонки формы — это быстрый докинг для оценки стерической и электростатической комплементарности заранее вычисленных конформаций лиганда и белковой мишени. Программа FTDock (табл. 5.2) использует решеточное представление лиганда и мишени, причем точкам решетки приписываются определенные значения, зависящие от доступности атомов. Затем используется быстрое преобразование Фурье для оптимизации лиганд-белковой комплементарности после глобального вращения и переноса лиганда. Программа Ligin оптимизирует ориентацию лиганда с помощью функции комплементарности, суммирующей площади атомных контактов, которым приписывается специальный вес, зависящий от благоприятности или неблагоприятности взаимодействия. Sandock учитывает стерическую и электростатическую комплементарность лиганда, подогнанного к доступной поверхнос-

206

Молекулярное моделирование

ти белка по алгоритму соответствия расстояний. Наконец, LibDock использует решеточное представление места связывания для постановки соответствия тройки атомов лиганда тройке «горячих точек» (мест предпочтительного взаимодействия). После исключения неподходящих ориентаций возможные совпадения оптимизируются с помощью мягкого атомного парного потенциала.

5.2.6. Другие методы В табл. 5.2 описаны также некоторые другие программно реализованные подходы к построению набора конформаций и оценки положения при докинге. Отбор конформаций с помощью молекулярной динамики вместе с моделированием отжига применен в CDocker, использующем набор скриптов CHARMm [65] для потенциалов с мягким остовом (soft-core potential) с целью улучшения конформационного поиска. Метод дистанционной геометрии для набора межмолекулярных и внутримолекулярных расстояний реализован в DockIt. В Eudoc осуществляются систематические перемещения и вращения лиганда в предварительно заданном пространстве докинга. Наконец, в целом ряде методов (SEED, FFLD, eHiTS) лиганд подразделяется на жесткие фрагменты, которые подвергают раздельному докингу, чтобы использовать их как ограничения при восстановлении структуры полного лиганда с помощью генетического алгоритма (SEED, FFLD) или алгоритма соответствия графов для выбора наиболее совместимых положений этих фрагментов с дальнейшей подгонкой гибких боковых цепей между ограничивающими фрагментами (eHiTS).

5.3. Оценочные функции Свободная энергия связывания выражается уравнением Гиббса—Гельмгольца: DG = DH – TDS, (2) где DG — свободная энергия связывания, DH — энтальпия, T — абсолютная температура и DS — энтропия. Свободная энергия соотносится с константой связывания Ki следующим образом: DG = –RT lnKi,

(3)

где R — универсальная газовая постоянная. Существует огромное количество методов предсказания свободной энергии связывания молекулы лиганда на основе трехмерной структуры лиганд-белкового комплекса. Эти методы значительно различаются по своей точности и скорости. Если нужно предсказать разницу в свободной энергии связывания между лигандом и эталонной молекулой, следует использовать очень точные, но ресурсоемкие методы, например метод возмущения свободной энергии (Free Energy Perturbation, FEP). Если же цель заключается в том, чтобы сравнить свободные энергии сотен или тысяч лиганд-белковых комплексов, построенных с помощью

Глава 5. Виртуальный скрининг и докинг

207

Табл. 5.3. Наиболее популярные оценочные функции Название

Ссылка

Эмпирические функции Chemscore

67

FlexX

32

Fresno

68

Glidescore

37

Hint

69

Ligscore

70

Ludi

71

PLP

72

Screenscore

73

X-Score

74

Силовые поля AutoDock

18

Dock

24

Goldscore

75

Потенциалы средней силы Bleep

76

Drugscore

77

PMF

78

SmoG

79

виртуального скрининга, то необходимо обратиться к значительно более быстрым и, следовательно, менее точным оценочным функциям. Оценочные функции можно в основном разделить на три группы (табл. 5.3): эмпирические, основанные на силовых полях, а также потенциалы средней силы, основанные на знаниях (knowledge-based potentials of mean force). В ходе виртуального скрининга оценочные функции используются двояким образом: (1) в ходе докинга служат мерой качества подгонки при оптимизации расположения лиганда; (2) по завершении докинга позволяют ранжировать все лиганды из базы данных, для которой было успешно найдено решение задачи докинга. В принципе, для двух этих случаев могут использоваться различные оценочные функции, хотя большинство инструментов докинга ограничивается использованием в обоих случаях одной и той же оценки.

5.3.1. Эмпирические оценочные функции Эмпирические оценочные функции используют различные зависимости свойств, важных для связывания лигандов, для конструирования так

208

Молекулярное моделирование

называемого основного уравнения, предсказывающего энергию связывания белка и лиганда. Множественная линейная регрессия служит для оптимизации весовых коэффициентов при вычисленных функциях на основе обучающей выборки лиганд-белковых комплексов, для которых известна аффинность и доступна экспериментально определенная высококачественная структура. Эти функции описывают полярные взаимодействия (водородные связи и ионные взаимодействия), неполярные взаимодействия (липофильные и ароматические взаимодействия), потерю гибкости лиганда (энтропия) и иногда эффекты десольватации. Прорыв в построении эмпирических оценочных функций наметился после того, как Бём разработал функцию для программы дизайна de novo LUDI (табл. 5.3), которая вошла в измененной форме в программу FlexX и представляет собой типичный вид эмпирической оценочной функции: DG = DG0 + DGrotNrot + DGhbåf(DR, Da) + DGioåf(DR, Da) + + DGarf(DR, Da) + DGlipof*(DR).

(4)

Коэффициенты DGi заранее неизвестны и вычисляются с помощью множественной линейной регрессии так, чтобы удовлетворять экспериментально измеренным аффинностям. DG0 — это свободный член. Следующий член учитывает потерю энтропии при связывании лиганда из-за ограничения подвижности вращающихся связей (DGrot — потеря энергии на одну связь, Nrot — число вращающихся связей). DGhb и DGio выражают, соответственно, энергии оптимальной водородной связи и оптимального солевого мостика; f(DR, Da) — это функция масштабирования, описывающая отклонения от идеальной геометрии взаимодействия в терминах расстояния (DR) и угла (Da). Такая же функция используется для ароматических взаимодействий (DGar). Липофильный член (DGlipo) вычисляется как сумма всех попарных межатомных контактов. Функция f*(DR) рассматривает контакты с более или менее идеальным расстоянием и делает невыгодными слишком близкие контакты. Главный недостаток эмпирических функций заключается в необходимости создания обучающей выборки для вывода весовых факторов индивидуальных членов. Можно также ожидать, что эмпирическая функция будет хорошо работать лишь для белков (металлоферментов, протеаз), похожих на использованные в обучающей выборке [80].

5.3.2. Оценочные функции, основанные на силовых полях Силовые оценочные функции, например оценочная функция Dock (табл. 5.3), основываются на нековалентных членах классических силовых полей молекулярной механики (например, AMBER, CHARMm и др.). Ван-дер-ваальсовы взаимодействия описываются потенциалом Леннард-Джонса, а электростатический компонент взаимодействия — законом Кулона. Энергия нековалентных взаимодействий вычисляется по формуле (5):

Глава 5. Виртуальный скрининг и докинг lig rec é A qiqj ù ij Bij ú, E=ååê + 332 12 6 Drij ú r r i =1 j =1 ê ij ij ë û

209

(5)

где Aij и Bij — это параметры ван-дер-ваальсова отталкивания и притяжения между двумя атомами i и j на расстоянии rij соответственно; qi и qj — точечные заряды на этих атомах; D — диэлектрическая функция, а 332 — множитель пересчета электростатической энергии в ккал/моль. Главный недостаток силовых полей заключается в неучете энтропийного компонента свободной энергии связывания1. Поэтому не следует переоценивать тот факт, что большие и полярные молекулы обычно получают наилучшую оценку для энтальпии взаимодействия.

5.3.3. Оценочные функции, основанные на знаниях Главный недостаток эмпирических оценочных функций состоит в том, что неизвестно, в какой мере они применимы к лиганд-белковым комплексам, не представленным в обучающей выборке при выводе основного уравнения. Далее, эмпирические функции делят свободную энергию связывания на физически значимые вклады и оценивают их в явном виде. Тем не менее оценить вклады энтропии и десольватации особенно трудно. Недавно был разработан подход, лишенный этих недостатков. В нем используются оценочные функции с потенциалами средней силы PMF, основанные на знаниях (табл. 5.3). Потенциал PMF кодирует структурную информацию, полученную из рентгеноструктурных данных для лиганд-белковых комплексов, в свободные энергии Гельмгольца взаимодействий пар атомов белка и лиганда. Предполагается, что чем чаще атом белка типа i и атом лиганда типа j находятся на расстоянии rij, тем выгоднее такое взаимодействие. Каждому типу взаимодействия между атомом белка типа i и атомом лиганда типа j на расстоянии rij приписывается свободная энергия лиганд-белкового взаимодействия A(r) в зависимости от его частоты: A(r) = –kBT lngij(r),

(6)

где kB — постоянная Больцмана, T — абсолютная температура и gij(r) — функция распределения пары атомов белка и лиганда (i, j). Функция распределения вычисляется по численной плотности вхождений этой пары (i, j) на расстоянии r в базу лиганд-белковых комплексов (обычно PDB). Оценка определяется как сумма по всем межатомным взаимодействиям в комплексе. Преимущество этого подхода состоит в том, что не требуется подгонка к экспериментальным значениям свободной энергии связывания комплексов в обучающей выборке и вклад сольватации и энтропии учитывается в неявном виде. 1

Энтропия может приближенно учитываться через Nrot.

210

Молекулярное моделирование

5.3.4. Критический обзор быстрых оценочных функций Оценочная функция является ахиллесовой пятой виртуального скрининга по структуре мишени. Несколько недавних независимых исследований показали, что многие быстрые оценочные функции могут в самом деле отличить близкие к нативным ориентации (среднеквадратичное отклонение от ориентации, найденной с помощью рентгеноструктурного анализа, не более 2,0 C) от ошибочных для примерно 70% высококачественных рентгеноструктурных данных для комплексов [81]. Тем не менее, когда докинг применяется к большой базе данных, соответствующая оценочная функция должна быть достаточно чувствительной для того, чтобы расположить предполагаемые хиты в порядке увеличения свободной энергии связывания. К сожалению, точное предсказание энергии связывания до сих пор невозможно вне зависимости от метода, модели расчета зарядов и способа учета сольватации [80]. Предсказание изменения свободной энергии возможно при условии применения специально настроенной оценочной функции к ряду близкородственных лигандов. Для базы, содержащей большое разнообразие соединений, и для мишеней, которые не были включены в калибровку оценочных функций, получаемая точность обычно весьма ограничена (около 7 кДж/моль или 1,5 единицы pK). Исходя из этого наблюдения возможны две стратегии улучшения расчетов: (1) создание более точных оценочных функций и (2) создание более интеллектуальных стратегий обработки результатов докинга (см. следующий раздел). Многие специалисты предпочитают второй вариант. Точность оценочных функций достигла своего предела уже несколько лет назад, поскольку некоторые неизвестные параметры (например, роль связанной воды или гибкость белка) остаются чрезвычайно сложными для предсказания, какие бы физические принципы не использовались для вывода оценочной функции.

5.4. Фильтрование результатов виртуального скрининга Оценочные функции далеки от возможности количественно предсказывать свободные энергии связывания (аффинности), поэтому необходимы продуманные стратегии обработки результатов при выборе виртуальных хитов для дальнейшей экспериментальной проверки. В большинстве случаев исследователи стараются выявить ложные положительные результаты, увеличивая тем самым долю истинных положительных результатов.

5.4.1. Фильтрование по топологическим свойствам Для того чтобы отбросить лиганд-белковые комплексы с непригодными геометриями, можно применять различные фильтры, которые оценивают лиганд-белковые комплексы по их стерическому соответствию. Шталь и др. разработали набор таких фильтров [82], включающий долю объема лиганда, погруженную внутрь полости связывания, размер ли-

Глава 5. Виртуальный скрининг и докинг

211

пофильных карманов на поверхности взаимодействия лиганда с белком, площадь доступной для растворителя поверхности лиганда, а также число близких контактов между атомами лиганда и белка, не связанными водородными связями. Для оптимальной ориентации погруженный объем лиганда должен быть максимален, в то время как размер липофильных карманов, доступных для растворителя неполярных частей лиганда и число близких контактов между полярными атомами, не связанными водородными связями, должны быть минимальны.

5.4.2. Фильтрование с помощью консенсусных подходов Поскольку средний результат повторяющихся испытаний стремится к реальному значению [83], использование различных методов докинга [84] или оценочных функций [85, 86] может открыть путь к удалению ложных положительных результатов. На основе этого предположения можно использовать любую возможную комбинацию методов докинга и оценки, в то же время рискуя значительно уменьшить размер списка хитов из-за увеличения количества ограничений. Поскольку цель виртуального скрининга состоит в нахождении наилучшего компромисса между долей хитов (процент истинно активных соединений в списке хитов) и долей извлеченных в список хитов истинно активных соединений по отношению к их общему количеству в выборке, следует весьма осторожно использовать консенсусные подходы и всегда сравнивать различные стратегии отбора хитов, чтобы получались списки хитов сопоставимого размера [87]. В то же время исследование различных конформаций мишени докинга может помочь в учете гибкости места связывания путем вывода усредненной оценки докинга [88]. Наконец, различные ориентации каждого лиганда (необязательно с лучшим рангом) можно анализировать с использованием всех сценариев консенсусной обработки [89]. Консенсусные подходы обычно требуют значительного объема предварительных знаний (несколько решенных структур, много известных активных соединений) и обычно настраиваются под конкретную мишень, вследствие чего неприменимы для других мишеней.

5.4.3. Фильтрование с помощью комбинированных вычислительных процедур Координаты, полученные с помощью докинга, по крайней мере для наиболее интересных лиганд-белковых комплексов, можно изучать с помощью более сложных вычислительных методов с целью предсказания абсолютных значений свободной энергии связывания. Неправильный учет дальнодействующих электростатических эффектов и десольватации является одним из основных недостатков быстрых оценочных функций. Возможно применение более мощных оценочных методов, основанных на молекулярной механике в сочетании с непрерывными моделями растворителя [90, 91] (например, MM-PBSA (Molecular Mechanics — Poisson—Boltzmann solvent accessible Surface Area) или

212

Молекулярное моделирование

MM-GBSA (Molecular Mechanics — Generalized Born Solvent Accessibility)) или даже квантовую механику [92, 93]. Такие подходы ограничены предварительно отфильтрованным набором виртуальных хитов, поскольку они вычислительно более ресурсоемки, хотя возможно их применение на стандартных вычислительных кластерах за разумное время. Методы машинного обучения, позволяющие извлекать информацию из наборов данных с высоким информационным шумом, могут также помочь в обнаружении интересующих исследователя хитов. Среди наиболее многообещающих методов стоит выделить байесовскую статистику, сравнивающую частоту двумерных подструктурных особенностей для известных активных и неактивных соединений, которая была представлена как весьма мощный фильтр результатов докинга [94]. Наконец, трехмерную информацию об известном способе связывания активных соединений можно закодировать в виде вектора (кодирование по принципу «отпечатков пальцев», fingerprint coding), в котором конечное число элементов будет кодировать или каждый атом лиганда, или аминокислотный остаток области связывания, или межмолекулярное взаимодействие (водородные связи, ионные взаимодействия, гидрофобные контакты) [95]. В предположении, что активные соединения имеют похожие способы связывания (однотипные взаимодействия со строго определенными остатками), построение отпечатков молекулярных взаимодействий для всех предсказанных ориентаций и оценка их по подобию известным активным соединениям является многообещающим методом удаления ложных положительных результатов, для которых схема лиганд-белковых взаимодействий не соответствует экспериментальным данным.

5.4.4. Фильтрование по химическому разнообразию С целью уменьшения числа виртуальных хитов, для которых необходимо провести биологические испытания (докинг 50 000 соединений часто приводит к списку хитов, включающему 1000–2000 соединений), виртуальные хиты часто группируются с учетом их химического разнообразия. Хотя четкого определения молекулярного разнообразия не существует (оно зависит от молекулярных дескрипторов и метрики, использованной для оценки), данная стратегия позволяет меньше фокусироваться на численных значениях (оценках докинга) и больше на том, как эти значения будут распределены в химическом пространстве (рис. 5.6). Если приписывать приоритеты структурным классам, а не индивидуальным соединениям, появляется возможность «спасти» ложные отрицательные результаты, если они относятся к тому же классу, что и истинно положительные результаты.

5.4.5. Визуальное фильтрование Необходимо провести внимательный визуальный анализ предсказанной структуры комплекса белка и хита на как можно более ранней стадии, чтобы убедиться в том, что (1) лиганд размещен именно в активном цен-

Глава 5. Виртуальный скрининг и докинг

213

Рис. 5.6.

Влияние стратегий обработки результатов на извлечение реальных антагонистов вазопрессинового рецептора V1a путем структурного скрининга базы из 990 случайно выбранных соединений, похожих на лекарства, и 10 реальных активных соединений [96]. 1 — 5% лучших лигандов по оценке FlexX; 2 — 5% лучших лигандов по оценке Gold; 3 — хиты, общие для 1 и 2; 4 — расстановка приоритетов с помощью классов программы ClassPharmer [97], которые содержат больше двух соединений, 60% представителей имеют оценку FlexX ниже –22 кДж/моль; 5 — расстановка приоритетов с помощью классов ClassPharmer, которые содержат больше двух соединений, 60% представителей имеют оценку Gold больше 37,5; 6 — расстановка приоритетов с помощью классов ClassPharmer, содержащих больше двух соединений, для которых 60% представителей имеют оценку Gold больше 37,5 и оценку FlexX ниже –22 кДж/моль

тре, а не на периферии, (2) конформация лиганда физико-химически осмысленна, (3) лиганд взаимодействует с ключевыми остатками места связывания. Этот шаг может быть весьма длительным и утомительным, но позволяет убедиться в том, что каждый избранный хит обладает необходимыми свойствами.

5.5. Сравнение различных методов докинга и оценки Существуют различные программы докинга, основанные на различных физико-химических приближениях (см. табл. 5.2). Поскольку любой инструмент докинга представляет собой сочетание метода докинга с быстрой оценочной функцией, в литературе встречается огромное количество сравнительных исследований, фокусирующихся на трех основных аспектах: (1) способность алгоритма докинга воспроизводить ориентацию небольшого лиганда, найденную рентгеноструктурным методом [81, 89]; (2) способность быстрых оценочных функций распознавать близкие к нативным ориентации в наборе неверно предсказанных [98] и предсказывать абсолютные свободные энергии связывания [80];

214

Молекулярное моделирование

(3) отделение связывающихся молекул от набора случайных в экспериментах по виртуальному скринингу [99, 100]. Тем не менее весьма сложно анализировать все эти данные с целью сравнительного анализа инструментов докинга. Во-первых, многие программы труднодоступны. Во-вторых, независимые исследования, касающиеся относительной эффективности алгоритмов докинга и оценочных функций, достаточно редки и концентрируются на использовании немногих методов. В-третьих, качество оценки зависит от исследуемых свойств (качество лучшей по рангу ориентации, качество всех правдоподобных ориентаций, предсказание свободной энергии связывания, полезность виртуального скрининга). В-четвертых, программы докинга используют различные уровни аппроксимации, что приводит, например, к весьма неоднородным скоростям докинга — от нескольких секунд до нескольких часов на одну молекулу. Наконец, многие программы докинга калибровались и проверялись на небольших наборах белков и лигандов; обширные тесты (>100 лиганд-белковых комплексов) публиковались лишь для немногих инструментов докинга. Последние исследования на различных наборах данных показывают, что точность инструмента докинга сильно зависит от мишени, но каждый случай требует отдельного рассмотрения. Glide и Gold считаются наиболее надежными программами, воспроизводящими ориентацию лиганда в кристалле в 75–80% случаев [81] при условии, что исследуется несколько решений. Главная проблема состоит в том, что оценочная функция не всегда, а лишь в 40–50% случаев предсказывает верное решение как наиболее вероятное, что заметно усложняет анализ результатов докинга. Существует несколько причин, объясняющих такое ограничение точности. Некоторые из них легко исправить (например, ошибки в типах атомов белка или лиганда), некоторые сложнее (точность трехмерной структуры белка, гибкость лиганда, точность оценочной функции и др.), а некоторые весьма трудно (гибкость белка, роль связанной воды). Тем не менее предсказать, какая программа докинга лучше всего подходит для выполнения конкретного исследовательского проекта, до сих пор невозможно. Если доступны известные лиганды, лучшим возможным вариантом будет испытание различных комбинаций параметров докинга и оценки с последующим выбором для рутинного скрининга той комбинации, которая лучше всего отделяет истинно активные соединения от истинно неактивных. Если известно очень мало лигандов или они не известны вообще, можно руководствоваться общими соображениями, выбирая инструмент, лучше всего описывающий физико-химические свойства области связывания.

5.6. Примеры успешного применения виртуального скрининга В табл. 5.4 сведены некоторые примеры (2003–2006 гг.) успешного виртуального скрининга по структуре биомишени. В большинстве из них использованы высококачественные структуры, определенные методом РСА [73–79, 101–127], хотя обнадеживающие результаты были получены и

Глава 5. Виртуальный скрининг и докинг

215

Таблица 5.4. Данные успешного виртуального скрининга (2003–2006 гг.) Мишень

Библиотека

Размер

Доля хитова Ссылка

FlexX Dock FlexX FlexX Dock Dock FlexX

ACD NCIб Roche reagents

260 000 249 071 3425 9448 ? 250 000 827 000

55% @ 20 mM 5% @ 100 mM 8% @ 100 mM 21% @ 25 mM 33% @ 20 mM 7% @ 20 mM 55% @ 10 mM

101 135 136 102 103 104 105

FlexX rDock Dock Moe, Glide, Fred, Gold Dock

AstraZeneca Vernalis Novartis база данных MMS ChemDiv

550 000 700 000 450 000 2000

36% @ 68 mM 0,8% @ 50 mM 33% @ 10 mM ?

106 107 108 109

200 000

13% @ 30 mM

110

Dock Gold FlexX FlexX Lidaeus

17% @ 100 mM 5% @ 10 mM 10% @ 20 mM 10% @ 20 mM 5% @ 20 mM

111 112 113 114 115

11% @ 10 mM

116

50% @ 10 mM

117

55% @ 100 nM

137

6% @ 50 mM 7% @ 200 mM

118 119

Gold AutoDock

? 2 000 000 ChemDiv 50 452 ChemBridge 50 000 CMCе + KEGGж 7986 Коммерческие 50 000 соединения ACD + 160 000 Maybridge Комбинаторная 271 библиотека Комбинаторная 320 библиотека NCI 140 000 ACD + MDDR 630 000 + NCI ChemBridge 1700 NCI 1990

43% @ 100 mM 51% @ 20 mM

120 121

Stat3b CytP450 2D6

Dock Dock

TCMк 4 разных

8000 429 000

3% @ 5 mM 1% @ 20 mM

138 139

Gold

SHBGл

Glide

111 5760 23 836

39% @ 10 mM 62% @ 5 mM 7% @ 25 mM

122 123 124

Рецептор тироидного гормона b Фактор отека RmIcм

ICM

поднабор NCI VU Amsterdam Природные соединения ACD

190 000

14% @ 30 mM

125

Dock FlexX

8% @ 100 mM 32% @ 20 mM

126 127

Рибосомный A-сайт

rDock

ACD 205 226 Комбинаторная 3888 библиотека Vernalis 1 000 000

26% @ 500 mM

128

Альдозоредуктаза L-Ксилулозоредуктаза IMPDHв DHFRг DHFR Тимидинфосфорилаза т-РНК-гуанинтрансгликозалаза Киназа Chk-1 Казеинкиназа II

Тирозиновая киназа BCR-ABL P56 Lck EphB2 Протеинкиназа B Тимидинкиназа Cdk2 Ацетилхолинэстераза

Программа

ADAM & EVE AutoDock

Фосфодиэстераза 4D

FlexX

ГТФаза Rac 3C-подобная протеаза SARS CoV Интеграза ВИЧ-1 Трансформилаза AICARз XIAPи

FlexX Dock

ACDe NCI 7 разных

216

Молекулярное моделирование

Таблица 5.4. (Окончание) Мишень Hsp90

Программа

Библиотека

Размер

Доля хитова Ссылка

b-Лактамаза

rDock Dock

Vernalis ZINC

700 000 33 000

? 30% @ 120 mM

129 130

11bHSD-1н

Gold, Glide

114 000

13% @ 20 mM

131

Фалципаин-2 15-Липоксигеназа Рецептор 5-HT1A

Gold Glide Dock

50 000 50 000 1 600 000

28% @ 60 mM 3% @ 10 mM 21% @ 5 mM

132 133 134

Рецептор NK1

Dock

1 600 000

15% @ 5 mM

134

Рецептор D2

Dock

1 600 000

17% @ 5 mM

134

Рецептор CCR3

Dock

1 600 000

12% @ 5 mM

134

Рецептор 5-HT4

Dock

1 600 000

21% @ 5 mM

134

Рецептор A1a Рецептор NK1 Рецептор D3

Gold FlexX LigandFit

Природные соединения ChemBridge ChemBridge > 20 производителей > 20 производителей > 20 производителей > 20 производителей > 20 производителей Aventis 7 разных NCI

? 827 000 250 000

30% @ 1 mM 14% @ 1 mM 40% @ 1 mM

140 141 142

a Доля хитов при данном пороговом значении концентрации: число активных соединений среди протестированных. б База Национального института рака (National Cancer Institute, NCI). в Инозин-5¢-монофосфатдегидрогеназа. г Дигидрофолатредуктаза. д Аvailable Chemicals Directory. е CMC: comprehensive medicinal chemistry database ж База данных KEGG (http://www.genome.jp/kegg/ligand.html). з Аминоимидазолкарбоксамидрибонуклеотидтрансформилаза. и X-связанный ингибитор апоптоза. к База данных традиционных китайских лекарств (http://www.tcm3d.com). л Глобулин, связывающийся с половыми гормонами. м дГТФ-6-деокси-D-ксило-4-гексулозо-3,5-эпимераза. н 11b-Гидроксистероиддегидрогеназа.

для моделей, построенных по гомологии [128–134], что позволило расширить применимость методов скрининга по структуре биомишени на большой массив фармацевтически интересных мишеней. Макромолекулярные мишени с четко выраженным гидрофильным карманом (например, киназы, редуктазы, эстеразы), для которого направленность межмолекулярных взаимодействий играет ключевую роль в распознавании лиганда, достаточно хорошо подходят для виртуального скрининга по той простой причине, что большинство инструментов докинга и оценочных функций было калибровано именно для таких ситуаций. Поэтому совершенно неудивительно, что эти семейства

Глава 5. Виртуальный скрининг и докинг

217

белков широко представлены в списке мишеней, для которых истинные ингибиторы были обнаружены с помощью докинга баз данных [73–79, 101–115] (табл. 5.4). Вторая причина этого успеха заключается в том, что и предварительное фильтрование базы данных, и анализ результатов докинга могут быть ограничены имеющимися данными о предпочтительных химических типах и способах связывания [111]. Тем не менее для некоторых мишеней с помощью высокопроизводительного докинга были обнаружены микромолярные ингибиторы [138, 139], представляющие новые классы, что свидетельствует о мощи метода виртуального скрининга для сложных мишеней. В большинстве случаев были идентифицированы соединения, похожие на лекарства или ведущие соединения. Виртуальный скрининг можно использовать также в так называемых «фрагономических» проектах [135, 136], в которых производится скрининг фрагментов с малой молекулярной массой (обычно 1,2 C). При проведении докинга АЦВ в активный центр без молекул воды качество прогноза геометрии связывания улучшилось, и была получена одна ориентация лиганда (для конформации с наименьшей энергией rmsd — 1,03 C) (рис. 6.3, в). Таким образом, если для дТ предпочтителен докинг в центр с молекулами воды, то для АЦВ более точные результаты дает докинг в пустой центр связывания. Как уже упоминалось, был проведен докинг 26 лигандов с помощью программы FlexX. Учитывая сказанное выше, докинг проводился как в дТ-подобный центр (с молекулами воды), так и в АЦВ-подобный (пустой) центр связывания. Далее были выбраны конформации лигандов с наименьшими энергиями связывания и для них рассчитаны константы связывания Ki по уравнению (1): DGFlexX = –RT ln Ki,

(1)

а

б

в Рис. 6.3. Докинг ацикловира в TK HSV1. Химическая структура ацикловира (а), кластеры результатов докинга молекулы АЦВ (атомы углерода показаны черным цветом) в активный центр HSV1 TK в присутствии воды (красные шарики (б)) и в активный центр без молекул воды (в). Кластер результатов докинга АЦВ с самой низкой энергией близок к расположению лиганда в кристаллической структуре комплекса (шаростержневая модель, атомы углерода показаны зеленым цветом)

Глава 6. Области применения и ограничения молекулярного докинга

235

где DGFlexX — свободная энергия связывания, вычисленная с помощью FlexX. В табл. 6.1 подробно представлены результаты прогнозирования Ki для 6 соединений из серии 26 известных лигандов ТК HSV1. Сравнение предсказанных и экспериментальных значений Ki показало, что в случае пиримидинов лучшее качество прогноза достигалось для дТ-подобного центра связывания. Аналогичное улучшение характерно для пуриновых производных при докинге в АЦВ-подобный активный центр. Таким образом, включение имеющихся в кристалле молекул воды увеличивает качество прогноза констант связывания для производных пиримидина. Напротив, для пуриновых производных, АЦВ и ганцикловира (ГЦВ), такой результат наблюдается для активного центра без молекул воды, что полностью соответствует известным кристаллическим структурам. Очевидно, что для пуриновых производных докинг в активный центр с молекулами воды невыгоден, и переход к пустому активному центру дает выигрыш в энергии связывания. Это полностью соответ-

Таблица 6.1. Предсказанные константы связывания Ki для лигандов TK HSV1

Пиримидиновые производные

Пуриновые производные

Лиганд

а

Экспериментальное значение Ki (мкМ)

по результатам докинга в активные центры с учетом и без учета воды Докинг в дТ-подобный активный центр (вода присутствует)

ПредсказанПредсказанDG DG ное значение ное значение (кДж/моль) (кДж/моль) Ki (мкМ) Ki (мкМ)

АЦВ

200

–19,8

341,0

–20,7

239,1

ГЦВ

47,6

–15,9

1631,3

–20,1

302,1

дТ

0,2

–35,3

0,7

–24,4

54,2

БВДУа

0,1

–33,1

1,6

–19,7

357,9

ИДУб

0,09

–33,7

1,2

–23,9

64,7

N-МКТв

11,54

–26,4

23,5

–12,1

7586,7

Бромвинилдезоксиуридин (БВДУ). Иододезоксиуридин (ИДУ). в N-Метанкарбатимидин (N-МКТ). б

Докинг в АЦВ-подобный активный центр (вода отсутвует)

236

Молекулярное моделирование

ствует выводам, полученным при докинге дТ и АЦВ с помощью AutoDock. Весьма ценно, что с помощью докинга удается ясно определить различия между двумя основными классами лигандов — производными пиримидина и пурина. Применение для виртуального скрининга. Полученные данные о влиянии молекул воды на связывание лигандов были использованы для скрининга 80 000 соединений, похожих на лекарства, из базы данных ACD, что позволило получить интересные результаты. Для 1000 лучших соединений, отобранных по результатам предварительного скрининга, был проведен докинг в центр связывания с молекулами воды. Одно из соединений вошло в число 100 лучших по результатам скрининга для активного центра с молекулами воды, но не попало даже в 1000 лучших при скрининге для пустого центра связывания. При этом экспериментально было показано, что это соединение действительно связывается с TK HSV1 и имеет аффинность на субмикромолярном уровне, тогда как для дТ и производных пиримидина она значительно меньше. Это дополнительно подчеркивает важность учета молекул воды при виртуальном скрининге и показывает, что рассмотрение отдельных молекул воды в активном центре в качестве части мишени докинга позволяет получить уникальные и перспективные соединения-лидеры.

6.2. Докинг в центры связывания, содержащие кофактор В качестве иллюстрации важности учета кофактора1 мы рассмотрим пример докинга в центр связывания дигидрооротатдегидрогеназы (ДГОДГ) человека. Этот пример также подчеркивает, насколько важно анализировать имеющиеся экспериментальные данные, в том числе об условиях кристаллизации и измерениях аффинности in vitro. ДГОДГ человека катализирует четвертую ключевую стадию биосинтеза пиримидинов de novo. Дегидрирование дигидрооротата (ДГО) происходит в большом и преимущественно гидрофобном активном центре фермента, при этом в качестве кофакторов выступают молекулы флавинмононуклеотида (ФМН) и убихинона. Через молекулу убихинона фермент связывается с внутренней митохондриальной мембраной. Быстро делящиеся Т-клетки человека обладают значительной потребностью в пиримидинах, поэтому ингибиторы ДГОДГ перспективно использовать для лечения аутоиммунных заболеваний, иммуносуппрессии, а также при лечении рака [23–25]. Пример ДГОДГ ясно показывает важность учета кофакторов активного центра и их влияние на точность докинга. В базе данных PDB доступны две кристаллические структуры2: комплекс ДГОДГ с аналогом 1

Кофакторы — малые молекулы или ионы, специфически связывающиеся с белком и участвующие в его каталитическом действии. 2 Количество комплексов ДГОДГ в базе данных PDB значительно увеличилось с момента выхода в свет оригинального издания этой книги.

Глава 6. Области применения и ограничения молекулярного докинга

237

ингибитора бреквинара (в структуре аналога отсутствует один атом фтора) (1D3G) [24, 26] и комплекс с активной формой ингибитора лефлуномида, получившей обозначение A771726 (1D3H) [25, 26] (рис. 6.4, а). На примере этих комплексов были показаны особенности докинга в ферменты, содержащие кофакторы. В обоих комплексах есть небольшой участок, связывающий субстрат ДГО, рядом с которым располагается ФМН. Молекула ФМН принимает гидрид-ион и протон от ДГО, а затем восстанавливает второй кофактор — убихинон. Оба ингибитора связываются в гидрофобном участке связывания убихинона и блокируют перенос электронов. Оба комплекса содержат молекулу поверхностно-активного вещества N,N-диметилдециламин-N-оксида (ДДАО), которая имитирует убихинон и располагается с другой стороны активного центра фермента. Исходя из этой структурной информации возникает вопрос о том, какие кофакторы необходимо учитывать при докинге. Маклин и др. [27] показали, что A771726 и бреквинар являются неконкурентными ингибиторами по отношению к ДГО, не влияя на восстановление флавина с помощью ДГО. По этой причине целесообразно сохранить субстрат ДГО и кофактор ФМН в активном центре и сосредоточиться на центре связывания убихинона. Кроме того, было показано, что бреквинар является конкурентным ингибитором по отношению к

Рис. 6.4. Структуры и результаты докинга ингибиторов ДГОДГ. а — химические структуры бреквинара, его аналога лефлуномида и его активной формы A771726. б и в — Гидрофобные остатки активного центра представлены в виде поверхности, некоторые другие — в виде стержневой модели. Для удобства визуализации остатки, находящиеся над и под молекулой бреквинара, не показаны. Водородные связи и электростатические взаимодействия показаны пунктирными линиями. б — Наложение результатов докинга аналога бреквинара (шаростержневая модель) на его экспериментальную структуру в комплексе (стержневая модель). Связывание бреквинара не зависит от наличия или отсутствия ДДАО в активном центре. в — Лефлуномид (шаростержневая модель) при докинге в отсутствие молекулы ДДАО локализуется при входе в карман. Его активная форма A771726 в кристаллической структуре (стержневая модель) расположена около центра связывания ФМН, в глубине убихинон-связывающего кармана. Если ДДАО включен в активный центр, докинг лефлуномида и A771726 не дает хороших результатов

238

Молекулярное моделирование

Рис. 6.4. (Продолжение) убихинону, а A771726 — неконкурентным. Авторы предположили, что положения бреквинара и A771726 в активном центре не отражают реальную картину связывания в физиологических условиях. В обоих случаях кристаллизация проводилась при концентрациях ингибиторов, которые на 4–6 порядков превышают Ki (~100 нМ для A771726 и ~1 нМ для бреквинара) и в 200 раз больше нижнего предела Kd, полученного изотермической калориметрией. Авторы пришли к выводу, что наблюдаемая геометрия комплексов отражает связывание с низкой аффинностью. Они также отмечают, что оба участка связывания ингибиторов накладываются друг на друга, но участок связывания A771726 не расположен рядом с ФМН. Было сделано предположение, что A771726 связывается рядом со входом в карман связывания убихинона, и в результате эта область белка сохраняет значительную подвижность, что позволяет одновременно связать и ингибитор, и гидрофобный «хвост» убихинона. Такая модель отличается от структуры комплексов, опреде-

Глава 6. Области применения и ограничения молекулярного докинга

239

ленной Лю и др. [26]. В связи с этим мы проводили докинг два раза (с сохранением молекулы ДДАО в центре связывания убихинона и без нее), имитируя тем самым экспериментальные условия. В кристаллической структуре карбоксильная группа бреквинара участвует в электростатическом взаимодействии с Gln47 и Arg136, а фенильная группа находится в гидрофобном «туннеле». Докинг аналога бреквинара в активный центр без ДДАО точно воспроизводит положение, определенное методом РСА (rmsd = 0,63 C) (рис. 6.4, а). Интересно отметить, что тот же результат был получен, когда в активном центре присутствовала молекула ДДАО, имитирующая второй кофактор убихинон; иными словами, ДДАО не оказывает влияния на связывание бреквинара. Напротив, при докинге лефлуномида и его активной формы A771726 (неконкурентный ингибитор по отношению к убихинону) была обнаружена зависимость от присутствия ДДАО. При сохранении молекулы ДДАО в активном центре докинг A771726 и лефлуномида оказался невозможным. В отсутствие ДДАО докинг удается выполнить только для лефлуномида, но не его активной формы A771726 (рис. 6.4, в). Определенный кристаллографически способ связывания воспроизводится при докинге только в случае бреквинара, который связывается с высокой аффинностью (Ki = 1 нМ) и является конкурентом убихинона. Результаты докинга лефлуномида показали, что он связывается около входа в активный центр. Это подтверждает предположение о том, что его положение в кристаллической структуре соответствует слабому (низкоаффинному) связыванию. Этот пример демонстрирует, что кофактор в активном центре весьма важен для докинга, и его сохранение или удаление из структуры непосредственно влияет на точность результатов. Кроме того, мы видим, что докинг способен предложить альтернативные варианты связывания лигандов (которые могут оказаться правильными или неправильными), помогая планировать новые экспериментальные исследования. В самом деле, в недавних работах (в частности, в кристаллографическом исследовании Баумгартнера и др. [28]) представлена новая серия ингибиторов ДГОДГ, которые могут связываться двумя разными способами и являются конкурентными по отношению к убихинону. Итак, мы показали, что кофакторы могут существенно влиять на результаты докинга, поэтому важно внимательно анализировать информацию об их наличии в активном центре.

6.3. Влияние таутомерии на результаты докинга Таутомерные формы лигандов часто игнорируются при молекулярном моделировании [29, 30]. Поведение таутомеров в газовой фазе и водных растворах хорошо изучено, однако о таутомерии лигандов в центрах связывания белков известно немного. Таутомеры часто отличаются по форме, набору функциональных групп, особенностям молекулярной по-

240

Молекулярное моделирование

верхности и расположению возможных доноров и акцепторов водородных связей, что может оказывать решающее влияние на распознавание молекулы. Рассмотрим простой пример протонного сдвига. При такой таутомерии структура молекулы лиганда меняется, и в принципе ее можно рассматривать как новую молекулу с иным сродством к мишени. Таким образом, учет таутомерии при лиганд-белковых взаимодействиях может существенно влиять на качество прогноза связывания различными методами докинга. Именно этой проблеме посвящен данный раздел. Окружение молекулы в центре связывания белка имеет особые свойства, отличаясь от окружения в вакууме или в водном растворе. Неполярные и полярные, кислотные и основные аминокислотные остатки создают локальный баланс pH, смещая значения pK соседних полярных аминокислот, и оказывают влияние на функциональные группы лиганда. Присутствие лигандов, катионов металла и молекул воды также влияет на локальные значения pH (и pK) для близко лежащих аминокислотных остатков и на процесс катализа [31]. В таких условиях возможна ионизация лиганда или его переход в другую таутомерную форму. Многие терапевтически значимые ферменты, например киназы нуклеозидов, теломеразы или ДНК-полимеразы, связывают в активном центре производные пурина или пиримидина, поэтому таутомерия нуклеиновых кислот и ее влияние на биологическую функцию хорошо изучены. Например, нарушение комплементарности нуклеотидов вследствие таутомерии является источником ошибок при репликации ДНК [32, 33]. В норме основания нуклеиновых кислот находятся в одной таутомерной форме, обеспечивающей наибольшую стабильность. Способность пиримидиновых и пуриновых структур образовывать водородные связи непосредственно связана с наличием определенных таутомерных форм. Изучена также таутомерия гистаминов и гистидиновых боковых цепей белков [34, 35]. Таутомеры различаются по форме молекул и способности к образованию водородных связей, что существенно влияет на молекулярное распознавание. Тем не менее до недавнего времени при автоматическом молекулярном докинге таутомерные формы лигандов игнорировались. Здесь возникает несколько вопросов. Связывается ли молекула преимущественно в одной таутомерной форме? Будет ли самая стабильная в водной среде таутомерная форма лиганда также наиболее стабильной в активном центре мишени? Чем отличается связывание белка с лигандом в менее стабильной таутомерной форме от связывания с «нормальным» низкоэнергетическим таутомером? Как работать с лигандами, в которых при протонном сдвиге возникает стереоизомерия? К сожалению, влияние таутомерии на результаты докинга плохо освещено в литературе [36]. Хороший пример описан Брандштеттером и др. [37], которые показали, что барбитуратный ингибитор Ro 200–1770 взаимодействует с активным центром матричной металлопротеазы MMP-8 (PDB ID: 1JJ9) в виде енольного изомера (таутомер 1) (рис. 6.5, а). Неподеленная пара кислорода О2 участвует в координации иона Zn2+,

Глава 6. Области применения и ограничения молекулярного докинга

241

Рис. 6.5. Результаты докинга таутомеров барбитурата Ro 200–1770 в структуру MMP8. а — Связывание таутомера 1 с активным центром MMP8 в кристаллической структуре комплекса. б — Структура таутомера 2. Атом углерода C5 из-за протонного сдвига между атомами азота N1 и N3 барбитуратного кольца является псевдохиральным, принимая S- или R-конфигурацию в зависимости от таутомерной формы. в — Наложение результатов докинга таутомера 1 (зеленый) на его положение в кристаллической структуре (оранжевый). г — Результат докинга таутомера 2 (зеленый). Фенильная группа повернута на 180° по сравнению с экспериментальными данными (оранжевый). В случаях в и г при докинге учитывался ион Zn2+ (пурпурный) а водород гидроксильной группы образует водородную связь с Glu198. В результате в белковой матрице именно енольная форма барбитурата (таутомер 1) преобладает над кетоформой (таутомер 2), доминирующей в растворе. Атом водорода на N1 взаимодействует с карбонильной группой Ala161, а кетонный атом O6 — с близлежащими амидными группами Ala160 и Ala161. Фенильная и пиперидиновая группы взаимодействуют с гидрофобными участками центра связывания. Для докинга двух таутомеров барбитуратного ингибитора Ro 200–1770 использовалась программа FlexX. Было обнаружено, что докинг приводит к существенно различным результатам (рис. 6.5, б и в). Положение таутомера 1 после докинга соответствует кристаллической структуре комплекса (rmsd < 1 C), тогда как ароматическое кольцо тау-

242

Молекулярное моделирование

томера 2 оказалось повернуто на 180° (рис. 6.5, в). Это показывает влияние протонного сдвига на результаты докинга различных таутомерных форм лигандов. Как правило, структуры химических соединений помещаются в базы данных в канонической форме, к которой по четко определенным правилам можно свести любую таутомерную или ионизированную форму соединения. Тем не менее многие базы данных содержат пары таутомеров, зарегистрированных с разными названиями и даже ценами [38, 39]. По оценке Трепалина и др., до 0,5% коммерчески доступных соединений в базах данных, предназначенных для биологических испытаний, имеют таутомеры [38]. В то же время значительное количество таутомеров отсутствует в базах данных. Большинство алгоритмов докинга обрабатывает химическую структуру в том виде, в котором она была задана пользователем или импортирована из базы данных, без предварительного анализа возможных таутомеров. Можно считать, что включение различных таутомеров соединений увеличивает число степеней свободы процедуры докинга. Благодаря этому можно быстро и относительно точно преодолеть неопределенность, вызванную изменчивостью эффективных значений pKа в различных участках центра связывания. Если база данных используется для компьютерного поиска ведущих соединений, то включение в нее близких по энергии таутомерных форм может значительно улучшить эффективность разработки лекарств.

Цитированная литература 1. Irwin, J. J., Raushel, F. M., and Shoichet, B. K. (2005) Virtual screening against metaloenzymes for inhibitors and substrates. Biochemistry, 44, 12316–28.

2. Gresh, N. (2005) Development, validation, and applications of anisotropic polarizable molecular mechanics to study ligand and drug-receptor interactions. Current Pharmaceutical Design, 12, 2121–58.

3. Gohlke, H. and Klebe, G. (2002) Approaches to the description and prediction of the binding affinity of small-molecule ligands to macromolecular receptors. Angewandte Chemiе (International ed. In English), 41, 2644–76.

4. Pospisil, P., Scapozza, L., and Folkers, G. (2001) The role of water in drug design: thymidine kinase as case study, in Rational Approaches to Drug Design: 13th European Symposium on Quantitative Structure-Activity Relationship (eds H.-D. Holtje and W. Sippl), Prous Science, Barcelona-Philadelphia, pp. 92–96.

5. Hetenyi, C. and Van Der Spoel, D. (2002) Efficient docking of peptides to proteins without prior knowledge of the binding site. Protein Science, 11, 1729–37.

6. Minke, W. E., Diller, D. J., Hol, W. G., and Verlinde, C. L. (1999) The role of waters in docking strategies with incremental flexibility for carbohydrate derivatives: heat-labile enterotoxin, a multivalent test case. Journal of Medicinal Chemistry, 42, 1778–88.

7. de Graaf, C., Pospisil, P., Pos, W. et al. (2005) Binding mode prediction of cytochrome p450 and thymidine kinase protein-ligand complexes by consideration of water and rescoring in automated docking. Journal of Medicinal Chemistry, 48, 2308–18.

Глава 6. Области применения и ограничения молекулярного докинга

243

8. Rarey, M., Kramer, B., and Lengauer, T. (1999) The particle concept: placing discrete water molecules during protein-ligand docking predictions. Proteins, 34, 17–28.

9. Culver, K. W., Ram, Z., Wallbridge, S. et al. (1992) In vivo gene transfer with retroviral vector-producer cells for treatment of experimental brain tumors. Science, 256, 1550–52.

10. Bonini, C., Ferrari, G., Verzeletti, S. et al. (1997) HSV-TK gene transfer into do-

nor lymphocytes for control of allogeneic graft-versus-leukemia. Science, 276, 1719–24.

11. Elion, G. B, Furman, P. A., Fyfe, J. A. et al. (1977) Selectivity of action of an antiherpetic agent, 9-(2-hydroxyethoxymethyl) guanine. Proceeding of the National Academy of Sciences of the United States of America, 74, 5716–20.

12. Keller, P. M., Fyfe, J. A., Beauchamp, I. et al. (1981) Enzymatic phosphorylation of acyclic nucleoside analogs and correlations with antiherpetic activities. Biochemical Pharmacology, 30, 3071–77.

13. Wild, K., Bohner, T., Aubry, A. et al. (1995) The 3-dimensional structure of thymidine kinase from herpes simplex virus type 1. FEBS Letters, 368, 289–92.

14. Champness, J. N., Bennett, M. S., Wien, F. et al. (1998) Exploring the active site of herpes simplex virus type-1 thymidine kinase by X-ray crystallography of complexes with acyclovir and other ligands. Proteins, 32, 350–61.

15. Bennett, M. S., Wien, F., Champness, J. N. et al. (1999) Structure to 1.9 A resolution of a comlex with herpes simplex virus type-1 thymidine kinase of a novel, non-substrate inhibitor: X-ray crystallographic comparison with binding of acyclovir. FEBS Letters, 443, 121–25.

16. AutoDock. http://autodock.scripps.edu. 17. AMBER. http://ambermd.org. 18. FlexX. http://www.biosolveit.de/FlexX/. 19. ACD. http://www.mdli.com/products/experiment/available.chem.dir/index.jsp. 20. DOCK. http://www.dock.compbio.ucsf.edu/. 21. Wild, K., Bohner, T., Folkers, G., and Schulz, G. E. (1997) The structures of thymidine kinase from herpes simplex virus type 1 in complex with substrates and a substrate analogue. Protein Science, 6, 2097–106.

22. Prota, A., Vogt, J., Pilger, B. et al. (2000) Kinetics and crystal structure of the wild-type and the engineered Y101F mutant of herpes simplex virus type 1 thymidine kinase interacting with (North)-methanocarba-thymidine. Biochemistry, 39, 9597–603.

23. Fairbanks, L. D., Bofill, M., Ruckemann, K., and Simmonds, H. A. (1995) Importance of ribonucleotide availability to proliferating T-lymphocytes from healthy humans. Disproportionate expansion of pyrimidine pools and contrasting effects of de novo synthesis inhibitors. Journal of Biological Chemistry, 270, 29682–89.

24. Chen, S. F., Perrella, F. W., Behrens, D. L., and Papp. L. M. (1992) Inhibition of dihydroorotate dehydrogenase activity by brequinar sodium. Cancer Research, 52, 3521–27.

25. Williamson, R. A., Yea, C. M., Robson, P. A. et al. (1995) Dihydroorotate dehydrogenase is a high affinity binding protein for A771726 and mediator of a range of biological effects of the immunomodulatory compound. Journal of Biological Chemistry, 270, 22467–72.

244

Молекулярное моделирование

26. Liu, S., Neidhardt, E. A., Grossman, T. H. et al. (2000) Structures of human dihydroorotate dehydrogenase in complex with antiproliferative agents. Structure with Folding & Design, 8, 25–33.

27. McLean, J. E., Neidhardt, E. A., Grossman, T. H., and Hedstrom, L. (2001) Multiple inhibitor analysis of the brequinar and leflunomide binding sites on human dihydroorotate dehydrogenase. Biochemistry, 40, 2194–200.

28. Baumgartner, R., Walloschek, M., Kralik, M. et al. (1006) Dual binding mode of a novel series of DHODH inhibitors. Journal of Medicinal Chemistry, 49, 1239–47.

29. Pospisil, P., Ballmer, P., Scapozza, L., and Folkers, G. (2003) Tautomerism in computer-aided drug design. Journal of Receptor and Signal Transduction, 23, 361–71.

30. Kubinyi, H. (2001) Drug research: myths, hype and reality. Nature Review Drug Discovery, 2, 665–68.

31. Fersht, A. (1999) The pH dependence of enzyme catalysis. Structure and Mechanism in Protein Science, 2nd Printing edn, W. H. Freeman and Company, New York, pp. 169–90.

32. Strazewski, P. (1988) Mispair formation in DNA can involve rare tautomeric forms in the template. Nucleic Acids Research, 16, 9377–98.

33. Lutz, W. K. (1990) Endogenous genotоxic, agents and processes as a basis of spontaneous carcinogenesis. Mutation Research, 238, 287–95.

34. Nederkoorn, P. H. J., Vernooijs, P., Denkelder, G. M. D. O. et al. (1994) A new model for the agonistic binding-site on the histamine H-2-receptor — the catalytic triad in serine proteases as a model for the binding-site of histamine H-2-receptor agonists. Journal of Molecular Graphics, 12, 242–56.

35. Boehm, H.-J., Klebe, G., and Kubinyi, H. (1996) Wirkstoffdesign, Spektrum Akademischer Verlag GmbH, Heidelberg, Berlin, Oxford.

36. Todorov, N. P., Monthoux, P. H., and Alberts, I. L. (2006) The influence of variations of ligand protonation and tautomerism on protein-ligand recognition and binding energy landscape. Journal of Chemical Information and Modeling, 46, 1134–42.

37. Brandstetter, H., Grams, F., Glitz, D. et al. (2001) The 1.8-angstrom crystal structure of a matrix metalloproteinase 8-barbiturate inhibitor complex reveals a previously unobserved mechanism for collagenase substrate recognition. The Journal of Biological Chemistry, 276, 17405–12.

38. Trepalin, S. V., Skorenko, A. V., Balakin, K. V. et al. (2003) Advanced exact structure searching in large databases of chemical compounds. Journal of Chemical Information and Computer Sciences, 43, 852–60.

39. Kubinyi, H. (2001) In Virtual screening — problems and success stories, 4th European Workshop in Drug Design, Siena.

Дополнительная литература Williamson, R. A., Yea, C. M., Robson, P. A. et al. (1996) Dihydroorotate dehydrogenase is a target for the biological effects of leflunomide. Transplantation Proceedings, 28, 3088–91.

7

Рациональная разработка лекарственных веществ методами хемогеномики

До полной расшифровки генома человека [1, 2] разработка лекарственных веществ представляла собой междисциплинарную задачу оптимизации свойств лигандов (активности, селективности, фармакокинетики) по отношению к определенной биологической макромолекуле-мишени. По имеющимся оценкам, из 20 000–25 000 генов человека [3] лишь около 3000 связаны с потенциальными мишенями лекарственных средств [4], и только 800 из них исследованы фармацевтическими компаниями [5] (рис. 7.1). Успехи химии за последние годы огромны, однако из 10 млн химических структур, составляющих актуальное химическое пространство (chemical space)1, всего лишь около 1000 соединений одобрены для использования в качестве лекарственных средств. К сожалению, взаимодействие было исследовано лишь для немногих доступных химических веществ и малой части биологических мишеней. Хемогеномика — новая междисциплинарная область исследований, которая ставит целью связать два множества (пространства) — химических веществ и биологических мишеней (target space)2 — и в конечном итоге исследовать активность всех лигандов относительно всех мишеней [6]. Было предложено выделить близкую хемогеномике научную область — химическую генетику, или химическую геномику (см. табл. 7.1). Мы опираемся на более широкое определение хемогеномики, которое включает и задачи хемопротеомики, то есть изучение влияния потенциальных низкомолекулярных лекарств на функции генов и белков. Хемогеномика находится на стыке химии и биологии, а также информатики (обработка данных для получения надежной информации). Важную роль играют области знания, находящиеся на стыке химии и биологии (медицинская химия), химии и информатики (хемоинформатика), биологии и информатики (биоинформатика).

1

Химическое пространство — множество химических соединений, которые синтезированы или могут быть синтезированы. 2 Пространство мишеней — множество всех биологических мишеней, в качестве которых могут выступать как белки, так и нуклеиновые кислоты.

246

Молекулярное моделирование

Рис. 7.1. Поиск человеческих генов, связанных с потенциальными мишенями

лекарств

Хемогеномный анализ требует наличия трех важных составляющих, для реализации каждой из которых необходима трудоемкая экспериментальная работа: (а) библиотека соединений, (б) исследуемая биологическая система (библиотека мишеней, клетка или живой организм

Таблица 7.1. Хемогеномика и связанные с нею дисциплины Термин

Область, изучаемая дисциплиной

Химическая генетика

Влияние химических веществ на функцию генов

Химическая геномика

Влияние мишень-специфичных лигандов на функции генов и белков

Хемогеномика

Влияние мишень-специфичных кандидатов в лекарства на функции генов и белков

Хемопротеомика

Влияние мишень-специфичных кандидатов в лекарства на функции белков

Геномика

Изучение полного генома организма

Метаболомика

Изучение метаболитов малых молекул в биологических образцах (включая организм в целом)

Протеомика

Широкомасштабное исследование структуры и функций белков

Транскриптомика

Изучение матричной РНК (мРНК) одной клетки или группы клеток

Глава 7. Разработка лекарственных веществ методами хемогеномики

247

в целом) и (в) надежные методики эксперимента (данные по экспрессии генов или белков, данные высокопроизводительного скрининга по аффинности лигандов к мишени или функциональному ответу). Предметом настоящего обзора является предсказательная хемогеномика, которая использует подходы in silico для извлечения информации из данных параллельного биологического тестирования множеств соединений и мишеней. По сути анализ хемогеномных данных — это процесс заполнения бесконечной матрицы, где мишени (гены) соответствуют столбцам, а соединения — строкам (рис. 7.2). Данные обычно представлены в виде констант связывания (Ki, IC50) или функциональных эффектов (EC50). Такая матрица является сильно разреженной, поскольку все возможные соединения пока не были протестированы на всех возможных мишенях. Предсказательная хемогеномика пытается заполнить такие пробелы, прогнозируя взаимодействие соединений с генами или белками. Подходы к предсказанию этих данных in silico (селективность мишеней к различным лигандам, и лигандов к различным мишеням) включают методы, использующие информацию о лигандах (сравнение известных лигандов для предсказания вероятных мишеней), информацию о мишенях (сравнение мишеней или центров связывания для предсказания их вероятных лигандов), а в конечном счете информацию о мишенях и лигандах (использование экспериментальных и предсказанных матриц аффинности).

Рис. 7.2. Хемогеномная матрица связывания. Красные квадраты показывают наличие взаимодействия между лигандом и мишенью (связывание), а зеленые квадраты — отсутствие какого-либо взаимодействия (отсутствие связывания). Для большинства пар мишень-«лиганд» такие данные неизвестны, но их можно прогнозировать

248

Молекулярное моделирование

7.1. Описание пространства лигандов и мишеней Все методы хемогеномики опираются на два основных допущения: (а) похожие соединения действуют на одни и те же мишени; (б) биологические мишени с похожими лигандами должны иметь похожие центры связывания. Таким образом, при заполнении теоретической хемогеномной матрицы данные о лигандах для мишеней, лиганды которых неизвестны, можно получить на основе информации о ближайших мишенях с известными лигандами, а данные о неизвестных мишенях лигандов — на основе информации о ближайших лигандах с известными мишенями. Проблема заключается в том, как измерить близость двух лигандов или двух мишеней.

7.1.1. Пространство лигандов Для эффективного анализа множества лигандов необходимо описать соединение с помощью подходящих параметров (дескрипторов), а затем определить схожесть соединений, построив матрицу подобия. Дескрипторы обычно подразделяются по их размерности на одномерные (1D), двумерные (2D) и трехмерные (3D) [7] (рис. 7.3, табл. 7.2). Одномерные дескрипторы подсчитываются легко и быстро. Они описы-

Рис. 7.3. Примеры молекулярных дескрипторов для низкомолекулярных лигандов

Глава 7. Разработка лекарственных веществ методами хемогеномики

249

Таблица 7.2. Молекулярные дескрипторы лигандов Размерность

Природа дескрипторов

Примеры

1D

Глобальные

Молекулярная масса, число атомов, связей, доноров водородной связи, циклов, площадь полярной поверхности, поляризуемость, липофильность

2D

Топологические

Индексы связности и топологические индексы, фрагменты, подструктуры, топологические отпечатки (структурные ключи)

3D

Конформационные

Фармакофор (N точек), форма, поля, спектры, отпечатки

вают глобальные свойства молекулы (например, молекулярную массу или число атомов и связей), которые можно определить по структурной формуле. Различные сочетания таких дескрипторов позволяют не только прогнозировать физико-химические свойства соединений (например, растворимость), но и относить их к различным классам (например, лекарства и нелекарства [8] или лиганды различных биологических мишеней [9]) с помощью линейных или нелинейных методов QSAR. Для быстрого сравнения структур молекул используют их одномерные линейные представления, наиболее популярным из которых является SMILES [10] (рис. 7.4, см. также разд. 2.1.3). Большинство дескрипторов относится к топологическим (двумерным). Таблица связности (список связей между атомами лиганда) используется для кодирования свойств атомов и связей. Самый простой способ представления такой информации — это структурная формула вещества (рис. 7.3), которая может быть использована для визуализации библиотеки лигандов и поиска соединений по подструктуре. Методы, представляющие двумерную структуру молекулы в виде молекулярного графа, широко применяются для подструктурного поиска и разбиения соединений на структурные группы [11], но значительным их недостатком является низкая скорость. Методы, использующие «отпечатки» (fingerprints)1, гораздо быстрее, поскольку наличие или отсутствие заранее заданных структурных элементов (атомов, фрагментов, циклов, подструктур, двумерных фармакофорных фрагментов) кодируется в виде битовой строки (последовательности нулей и единиц), которую легко генерировать, хранить и обрабатывать. Хотя лиганд-рецепторное взаимодействие является трехмерным, двумерные отпечатки в большинстве случаев подходят для поиска по подобию лучше, чем трехмерные. 1

В данном случае разумным может выглядеть ввод нового термина «фингерпринт», поскольку слово «отпечаток» имеет в русском языке слишком широкий спектр значений.

250

Молекулярное моделирование

Рис. 7.4. Распространенные форматы файлов, используемые для одномерного (SMILES, InChI), двумерного (SD-файл) и трехмерного (MOL2) представления молекул Истинные трехмерные дескрипторы кодируют свойства, связанные с конкретной конформацией молекулы, например, координаты атомов, 3D-фармакофоры, форму, потенциалы, поля и спектры (см. табл. 7.2). По этой причине для их сравнения в единой системе координат обычно требуется пространственное выравнивание (особенно при сравнении решеточных полей или потенциалов) и репрезентативная выборка доступного конформационного пространства для каждого из лигандов. Чтобы устранить процедуру выравнивания молекул в пространстве, которая может приводить к ложным положительным результатам виртуального скрининга, трехмерную информацию можно кодировать в виде отпечатков, описывающих присутствие всех возможных фармакофорных сочетаний (пар, троек и четверок) с соответствующими центрами (акцепто-

Глава 7. Разработка лекарственных веществ методами хемогеномики

251

ры водородной связи, потенциально заряженные атомы и т. д.) и расстояниями между ними. Отпечатки гораздо легче сравнивать, чем структуры, поэтому в большинстве методов поиска по подобию используется двоичное представление информации о двумерных и трехмерных свойствах. Самым распространенным индексом подобия является коэффициент Танимото: Tc =

c , a+b+c

(1)

где: a — число битов, которые равны 1 для соединения A, но не для соединения B; b — число битов, которые равны 1 для соединения B, но не для соединения A; c — число битов, которые равны 1 для обоих соединений A и B. Таким образом, коэффициент Танимото изменяется от нуля для двух полностью различных соединений до единицы для двух идентичных соединений.

7.1.2. Пространство мишеней Как правило, классификация белков опирается на их структуру (табл. 7.3). Первичную информацию о них дает аминокислотная последовательность (рис. 7.5), на основе которой можно надежно отнести мишень к тому или иному семейству, например киназам или рецепторам, сопряженным с G-белками (G-protein coupled receptors, GPCR). Тем не менее длина последовательности может значительно варьироваться в пределах семейства (например, для GPCR человека она может составлять от 290 до 6200 остатков), поэтому для анализа сходства и различия мишеней необходимо сначала построить выравнивание аминокислотных последовательностей, что часто затруднительно при большом числе инсерций и делеций (см. разд. 4.3.1). Поэтому лучше сосредоточиться на специфических мотивах [12] — непрерывных фрагментах последовательности, которые характерны для того или иного семейства белков. Чтобы учесть структурную организацию мишени, целесообразно рассматривать двумерную (положение a-спиралей, b-листов, шпилек и

Таблица 7.3. Классификация белков по структуре Размерность 1D

Свойство

Базы данных

Последовательность

UniProt [13], Pfam [14]

Мотив

PRINTS [12], PROSITE [15]

2D

Вторичная структура, укладка

SCOP [16], CATH [17]

3D

Координаты атомов

PDB [18], MODBASE [19]

Центр связывания

BindingMOAD [20], sc-PDB [21]

252

Рис. 7.5.

Молекулярное моделирование

Представления белка на основе свойств различной размерности

(1D–3D)

структурированных фрагментов), а предпочтительно трехмерную структуру белка (координаты атомов, определенные методами ЯМР или РСА) и/или информацию об укладке. В хемогеномике основное внимание уделяется центру связывания, где структурное сходство между родственными мишенями обычно гораздо выше, чем для всей аминокислотной последовательности или трехмерной структуры белка. Классификацию мишеней также можно провести на основе их фармакологических профилей1 (аффинности по отношению к набору лигандов), то есть по характеру лигандов, с которыми они взаимодействуют [5]. Конечно, классификации по структуре и по лигандам дают во многом сходные результаты, поскольку лиганды обычно взаимодействуют лишь с определенным подмножеством белков. Взаимосвязи между подсемействами мишеней особенно интересны при прогнозировании или модификации фармакологического профиля разрабатываемого лекарства. 1

Фармакологический профиль соединения — набор биологических мишеней, на которые действует данное вещество, и спектр фармакологических ответов, которые оно вызывает.

Глава 7. Разработка лекарственных веществ методами хемогеномики

253

7.1.3. Пространство лигандбелковых взаимодействий Пространство лиганд-белковых взаимодействий можно анализировать непосредственно по матрицам, содержащим данные об аффинности или структурную информацию. Экспериментальное тестирование x соединений по отношению к y мишеней (например, измерение аффинности in

Рис. 7.6. Формирование отпечатков структурных взаимодействий (А) и их использование для сравнения лиганд-белковых комплексов. Для удобства восприятия и сравнения наличие взаимодействий (единица в соответствующем положении отпечатка) обозначено цветными квадратами (синий цвет — гидрофобные взаимодействия, зеленый — взаимодействия ароматических фрагментов, красный — водородные связи)

254

Молекулярное моделирование

vitro) дает матрицу из xy чисел (например, значений IC50), которую в дальнейшем можно использовать для предсказания аффинности новых соединений к существующей мишени с помощью различных методов: множественной линейной регрессии [22], оценки сходства зависимостей структура—активность (SAR) для двух мишеней [23] или прогнозирования общего фармакологического профиля молекулы [24]. Явным преимуществом такого подхода является опора на реальные экспериментальные данные, которые обычно позволяют получить более точные результаты, чем расчетные параметры. В то же время для надежного анализа необходимы огромные объемы экспериментальных данных, которые недоступны ученым, работающим в некоммерческих организациях. Учитывая это, экспериментальные значения аффинности можно заменить прогнозируемыми величинами, полученными с помощью докинга (см. гл. 5) или 3D-QSAR (см. гл. 3) [25, 26], хотя узость набора белков ограничивает возможности экстраполяции. Поскольку предсказать свободную энергию связывания крайне сложно, вместо аффинности можно использовать дескрипторы межмолекулярного взаимодействия. Особый интерес представляют отпечатки структурных взаимодействий (Structural Interaction Fingerprints, SIF) [27], которые позволяют перейти от координат атомов лиганд-белкового комплекса (полученных экспериментально или с помощью докинга) к битовой строке, где для каждой аминокислоты центра связывания закодированы межмолекулярные взаимодействия (например, водородные связи, взаимодействия ароматических фрагментов или гидрофобные контакты), в которые она вступает с лигандом. Таким образом, чтобы сравнить ряд комплексов одного белка с несколькими лигандами или одного лиганда с несколькими родственными белками, можно вычислить расстояния между одномерными отпечатками взаимодействий (рис. 7.6) точно так же, как для лигандов (см. разд. 7.1.1).

7.2. Методы хемогеномики, основанные на информации о лигандах 7.2.1. Аннотирование библиотек лигандов Основной принцип хемогеномных подходов, использующих информацию о лигандах, состоит в том, что молекулы, достаточно близкие к существующим лигандам с известными мишенями, будут с большой вероятностью обладать схожим профилем биологической активности (рис. 7.7). По этой причине очень важной задачей является аннотирование биологических свойств (мишеней, аффинности in vitro, абсорбции, распределения, метаболизма, выделения1) в химических библиотеках. В последние годы (главным образом небольшими биотехнологическими компаниями) было предпринято много усилий по сбору этой информации из литературных и патентных данных (табл. 7.4). Поскольку хемо1

ADME — absorption, distribution, metabolism, excretion — абсорбция, распределение, метаболизм, выделение.

Рис. 7.7. Процедура анализа отношений «структура—активность» для близкородственных соединений

256

Молекулярное моделирование

Таблица 7.4. Библиотеки химических соединений с аннотированными биологическими данными

База данных

Описание

Веб-сайт

AurSCOPE

База фармакологических и фармакокинетических данных для 160000 лигандов GPCR и 77000 ингибиторов киназ

Bioprint

Биологический профиль http://www.cerep.fr (данные in vitro и клинических исследований) для 2400 низкомолекулярных соединений — лекарств и веществ, похожих на лекарства

ChemBank

База данных по 50000 сое- http://chembank.broad.harvard.edu динений и их биологическим свойствам (441 тест высокопроизводительного скрининга и анализа на микропанелях)

http://www.aureus-pharma.com

ChemBioBase База данных по лигандам http://www.jubilantbiosys.com определенных мишеней (фосфодиэстеразы, GPCR, киназы) Kinase know- Данные об активности и ledgebase методах синтеза ингибиторов киназ

http://www.eidogen-sertanty.com

MDL Drug Data Report

123000 соединений с известной биологической активностью

http://www.symyx.com

MedChem database

650000 соединений с информацией о биологических и фармакологических свойствах

http://www.gvkbio.com

StARLITe

Проверенная информация о связях структура-активность

http://www.biofocus.com/StARLITe

Wombat

154236 веществ и 307700 измерений активности для 1320 мишеней

http://www.sunsetmolecular.com

геномные подходы обычно ориентированы на определенные семейства мишеней, большинство таких архивов касается наиболее важных для фармакологии семейств (GPCR, киназы, ядерные рецепторы, протеазы, фосфодиэстеразы).

Глава 7. Разработка лекарственных веществ методами хемогеномики

257

Хорошая объединенная база хемогеномных данных с возможностью поиска была создана сотрудниками компании Novartis [28], которые связали пространство мишеней и пространство лигандов, объединив разрозненные химические и биологические базы данных. Более 110 000 фармацевтических соединений были выбраны из базы данных MDDR (Measurement Devices Ltd Drug Data Report, см. табл. 7.4). Аннотирование мишеней выполнялось на основе существующей классификации ферментов и рецепторов. Связав классификацию мишеней с «ключами активности» MDDR, удалось выполнить аннотирование 53 000 соединений в общей сложности по 799 различным ключам активности и мишеням. Благодаря связи между лигандом и аминокислотной последовательностью мишени стал возможен поиск лигандов для гомолога белковой мишени на основе сходства последовательности между ней и мишенью с известными лигандами. Например, аннотированные лиганды определенного GPCR были использованы для поиска новых лигандов этого или похожих на него рецепторов. Интересно, что эффективность виртуального скрининга соответствовала степени филогенетического родства между известным и исследуемым рецептором. Другой естественный пример использования библиотек соединений с известной биологической активностью — дизайн мишень-специфичных комбинаторных библиотек [29], которые ориентированы на химические классы, предпочтительные для исследуемого семейства мишеней. Природные соединения охватывают весьма интересное и биологически значимое подмножество химического пространства, поскольку эволюционное давление обеспечивает их связывание (обычно очень специфичное) с определенными мишенями. Химическое пространство, охватываемое природными соединениями с известной биологической активностью, было описано в виде иерархического структурного дерева [30], которое можно использовать для дизайна библиотек, ориентированных на природные соединения. Библиотеки соединений с известными биологическими данными являются превосходным источником для исследования новых биологических механизмов, которые позволят корректировать фенотип. Рут с сотр. создали библиотеку из 2036 биологически активных соединений, участвующих в 169 различных биохимических механизмах. Авторы показали, что она отличается достаточным структурным разнообразием, а 85 соединений оказались активными в тесте жизнеспособности и пролиферации клеток. Предполагается, что 27 из них проявляют новые биохимические механизмы действия [31].

7.2.2. Привилегированные структуры Термин «привилегированная структура» был введен Эвансом и др. [32], которые заметили, что 1,4-бензодиазепиновый фрагмент встречается в лигандах, действующих на различные биологические мишени (рис. 7.8). Привилегированная структура — это подструктура или тип скелета, которая оказывается сильно предпочтительной для определенной области

258

Молекулярное моделирование

Рис. 7.8. Скелет 3H-1,4-бензодиазепин-2-она (синий) в лигандах различных мишеней. 1 — Ro-5-3335, ингибитор белка tat вируса иммунодефицита человека; 2 — диазепам, лиганд рецептора g-аминомасляной кислоты подтипа А (ГАМКА); 3 — 231023, ингибитор фарнезилтрансферазы; 4 — CI-1044, ингибитор фосфодиэстеразы 4; 5 — праназепид, антагонист рецептора холецистокинина (CCK); 6 — BZ-423, ингибитор АТФазы F1F0; 7 — 171 644, антагонист окситоцинового рецептора; 8 — 309 060, ингибитор b-g-секретазы; 9 — 278 588, антагонист Stat5; 10 — 276 345, блокатор калиевого канала KVS пространства мишеней (например, GPCR) и может использоваться как основа для дизайна библиотек соединений [33]. Однако углубленный анализ похожих на лекарства соединений из базы данных MDDR привел к выводу, что привилегированные структуры появляются лишь при достижении определенного уровня химической функционализации скелета [34]. Например, бифенил — не привилегированная структура, а обычный фрагмент, который участвует в связывании с белками и встречает-

Глава 7. Разработка лекарственных веществ методами хемогеномики

259

Рис 7.9. GPCR

человека, взаимодействующие с привилегированной структурой орто-алкокси-N-фенилпиперазина (http://bioinfo-pharma.u-strasbg.fr/ hGPCRLig/). Примечательно, что с этой подструктурой не в состоянии взаимодействовать никакие другие белки, для которых были получены кристаллы комплексов с похожими на лекарства соединениями (http://bioinfo-pharma. u-strasbg.fr/scPDB/)

ся в самых разных лигандах без какой-либо предрасположенности к определенному семейству мишеней. Однако если перейти от него к структуре 2-тетразолбифенила, то появляется сильная специфичность к определенным семействам GPCR [34]. Примечательно, что многие привилегированные структуры могут взаимодействовать с различными неродственными семействами мишеней (например, GPCR, киназами, ионными каналами, протеазами, ядерными рецепторами), и только небольшая часть из них действительно селективна к определенному семейству мишеней (рис. 7.9). Основная причина высокой специфичности — консервативность центров связывания определенных подструктур в ходе эволюции подсемейств мишеней (рис. 7.10) [35, 36]. Привилегированные структуры, специфичные к определенному семейству мишеней,

Рис. 7.10. Физико-химическая комплементарность фрагментов структуры 2-тетразолбифенила (бифенил — синий, тетразол — красный) и консервативных участков двух подтипов рецептора ангиотензина 2, участвующих в специфическом связывании (синий цвет — ароматический участок, красный — полярный)

260

Молекулярное моделирование

крайне важны при разработке библиотек лигандов, поскольку они позволяют увеличить эффективность экспериментального скрининга лигандов входящих в это семейство белков.

7.2.3. Скрининг in silico с использованием данных о лигандах Основные семейства биологических мишеней можно различить, просто анализируя физико-химические свойства их лигандов (молекулярную массу, липофильность, площадь полярной поверхности, число доноров и акцепторов водородных связей) [9]. Таким образом, можно ожидать, что более сложные дескрипторы (см. разд. 7.2.1) позволят предсказывать общий профиль биологических мишеней любого соединения при условии, что для рассматриваемых мишеней описано достаточное количество лигандов. В последнее время в литературе начали появляться работы по поиску мишеней in silico с использованием данных о лигандах [37–43]. Все они опираются на три основные составляющие: (а) набор эталонных лигандов, для которых рассчитываются и сохраняются в базе данных двумерные (скелет, подструктуры и отпечатки) или трехмерные (фармакофоры) дескрипторы; (б) процедура скрининга на основе методов QSAR, машинного обучения (байесовские классификаторы, метод опорных векторов) или поиска по фармакофору; (в) база данных для скрининга, в которой с помощью указанных дескрипторов выявляются соединения, с большой вероятностью взаимодействующие с той же мишенью или обладающие таким же фармакологическим профилем, что эталонные соединения (рис. 7.11). Местрес и сотр. [38, 39] выполнили аннотирование библиотеки соединений, действующих на ядерные рецепторы. Используя иерархическую классификацию 2000 соединений и 25 мишеней, они получили хемогеномные связи между пространствами лигандов и мишеней, что позволило выделить селективные и неселективные фрагменты. С помощью дескрипторов энтропии Шеннона (SHannon Entropy Descriptors, SHED), основанных на распределении пар фрагментов с определенными центральными атомами, в любом наборе соединений можно провести поиск молекул, для которых SHED-расстояния лежат в заданных пределах и вероятно проявление сходного профиля взаимодействия с ядерными рецепторами. Компания Novartis успешно применила алгоритмы машинного обучения на основе байесовской статистики для прогнозирования биологического профиля соединений из базы данных Wombat с использованием дескрипторов расширенных отпечатков связности (extended connectivity fingerprints) [40]. Для каждого класса активности (мишени) была построена отдельная байесовская модель, способная разделить известные активные и неактивные соединения. Предсказание наиболее вероятных мишеней соединений из контрольной выборки проводилось путем расчета вероятностей того, что каждое из соединений может стать лигандом каждой из мишеней. В среднем при использовании Wombat в качестве обучающей выборки и соединений MDDR для 10 классов ак-

Глава 7. Разработка лекарственных веществ методами хемогеномики

261

Рис. 7.11. Поиск биологических мишеней in silico тивности в качестве контрольного набора правильная мишень была найдена в 77% случаев [40]. Качество предсказания значительно улучшается, если вместо ряда индивидуальных вероятностей рассматривать глобальный профиль всех соединений обучающей выборки, объединяющий все вероятности для мишеней в «байесовский отпечаток аффинности» [41]. При разработке этой методики были опробованы различные двумерные и трехмерные дескрипторы. Прогностическая способность модели, построенной на двумерных дескрипторах, в контрольной выборке соединений, подобных соединениям обучающей выборки, оказалась выше, чем у модели на основе трехмерных фармакофоров. Для одиночных молекул, не обладающих достаточным сходством с молекулами обучающей выборки, лучшее качество обеспечивают трехмерные дескрипторы. Во всех этих подходах первоначально необходимо автоматически классифицировать соединения обучающей выборки в зависимости от их биологической мишени без учета информации о том, действительно ли соединение связывается с мишенью, в каком центре связывания это происходит и к какому отклику приводит (например, агонисты или антагонисты в случае рецепторов). По этой причине всегда существует риск, что алгоритм машинного обучения будет использовать неправиль-

262

Молекулярное моделирование

ные данные и построит ложные правила. Для решения этой проблемы были разработаны более точные, но менее быстрые подходы. Перспективный метод опирается на выделение трехмерных фармакофоров из лиганд-рецепторных комплексов, для которых экспериментально определены атомные координаты и фармакологическая активность [37]. Полученная библиотека фармакофоров известных мишеней может быть использована для поиска мишеней новых соединений с помощью простого фармакофорного поиска. Преимуществом этого метода является опора на исходные данные более высокого качества, однако его применимость ограничивается способом построения фармакофора и пока ограниченным разнообразием лигандов в комплексах, представленных в PDB [21]. Например, метод нельзя использовать для прогнозирования взаимодействия с мембранными рецепторами (GPCR, ионные каналы), поскольку кристаллографические данные для этих семейств белков крайне скудны, хотя теоретически фармакофоры можно построить и на основе моделей, построенных по гомологии.

7.3. Методы хемогеномики, основанные на информации о мишенях На ранних стадиях разработки лекарств важной задачей является контроль селективности лигандов к родственным мишеням белкового семейства. В связи с этим существует растущий интерес к сравнению всех мишеней одного семейства, особенно тех, для которых имеется достаточная структурная информация (полученная методами РСА или ЯМР) для сравнительного моделирования мишеней пока неизвестной структуры в рамках всего протеома (например, киназ). Хемогеномные методы, использующие информацию о мишенях, делятся на две категории в зависимости от того, сравниваются ли аминокислотные последовательности или трехмерные структуры мишеней.

7.3.1. Сравнение аминокислотных последовательностей Подходы, использующие информацию об аминокислотных последовательностях, применимы к любым семействам мишеней при условии, что для всех исследуемых мишеней можно построить множественное выравнивание. Как правило, они используются для семейств, где отсутствуют структурные данные высокого качества. Идеальным объектом для методов сравнения первичных последовательностей являются рецепторы GPCR [36, 44–46], поскольку это семейство чрезвычайно важно для фармацевтики, однако экспериментально определена структура только одного его представителя (родопсина быка) [47]1. После построения выравнивания определяются все ключевые остатки, участвующие в 1

В ноябре 2007 г. была опубликована структура другого представителя семейства b2-адренорецептора (разрешение 3,4–3,7 C) [Rasmussen, S. G., Choi, H. J., et. al. 2007. Nature. 450: 383–387]. К настоящему времени многие кристаллические структуры различных GPCR расшифрованы.

Глава 7. Разработка лекарственных веществ методами хемогеномики

263

связывании большинства лигандов. Они записываются в виде небольшой последовательности (обычно около 30 аминокислотных остатков), которую в дальнейшем используют для построения матрицы расстояний на основе идентичности последовательностей [36], сходства последовательностей [46] или отпечатков физико-химических свойств [45] (рис. 7.12). На основе такого подхода была предложена исчерпывающая

Рис. 7.12. Сравнение аденозиновых рецепторов человека на основе аминокислотных последовательностей [36]. а — определение ключевых аминокислот центров связывания; б — классификация рецепторов на основе информации о консервативных аминокислотах

264

Молекулярное моделирование

классификация 372 GPCR человека, основанная на центрах связывания [36]. Интересно, что данный способ классификации полностью воспроизводит дерево, полученное на основе полных аминокислотных последовательностей. Это позволяет предположить, что для сравнения мишеней внутри семейства действительно важны лишь немногие аминокислотные остатки. Такое упрощение позволяет свести анализ особенностей активных центров, ответственных за селективное или неселективное связывание, к простому анализу консервативных остатков [36, 44]. Классификацию активных центров можно использовать при решении различных задач разработки лекарств. Одна из них состоит в поиске лигандов на основе анализа известных лигандов родственных рецепторов (target hopping). Например, антагонисты рецептора CRTH2 можно найти путем анализа антагонистов рецептора ангиотензина II типа 1 [45]. Кроме того, при создании фокусированных библиотек лигандов, ориентированных на определенные мишени, согласно классификации активных центров, можно использовать связанную с каждой аминокислотой информацию о селективности или ее отсутствии [45, 46].

7.3.2. Сравнение белковых структур Сравнение белковых структур возможно только для семейств, где имеется достаточное количество качественных структурных шаблонов (кристаллических структур) для построения по гомологии моделей других родственных мишеней. В большинстве случаев сравниваются только центры связывания [20, 21], так как основная задача сравнения состоит в изучении особенностей мишеней, которые определяют их селективность или неселективность к известным лигандам. 7.3.2.1. Сравнение молекулярных полей

Одним из способов сравнения трехмерных структур белков является сравнение рассчитанных полей молекулярных взаимодействий для центров связывания (molecular interaction fields, MIF) [48–50]. Для этого сначала проводится выравнивание структур мишеней, а затем рассчитываются энергии взаимодействия пробных атомов (например, sp3-гибридизованного атома углерода) в каждой точке трехмерной решетки, окружающей полость связывания. Полученные значения сводятся в вектор MIF, который помещается в общую матрицу, где строки описывают мишени, а столбцы — энергии взаимодействия в каждой точке решетки (рис. 7.13). Для сравнения MIF-векторов и кластеризации родственных мишеней можно либо обработать матрицу с помощью анализа главных компонент [48, 49], либо вычислить различие между полями и использовать его как дескриптор для иерархической классификации [50]. Очевидно, что этот подход имеет тот же недостаток, что и методы 3D-QSAR (см. разд. 2.6): результаты сильно зависят от качества структурного выравнивания, шага решетки и выбора пробного атома. Кроме того, этим методом нельзя сравнивать мишени, относящиеся к различным семействам. Тем не менее он был с успехом применен для определения участков центра связывания, ответственных за селективное или не-

Глава 7. Разработка лекарственных веществ методами хемогеномики

265

Рис. 7.13. Кластеризация мишеней на основе полей молекулярных взаимодействий

селективное связывание лигандов протеинкиназ [48, 50], сериновых протеаз [50], матричных металлопротеаз [49] и ядерных рецепторов [50], что облегчило разработку библиотек соединений с заданным профилем селективности. 7.3.2.2. Сравнение пространственных структур

Чтобы избежать рассмотренных ранее ошибок, которые обычно возникают при выравнивании белков, были разработаны методы непосредственного сравнения трехмерных координат атомов белков и расчета расстояния между мишенями (табл. 7.5). Методы глобального выравнивания структур (GASH [51], DaliLite [52], CE [53]) обычно подсчитывают количество структурно эквивалентных остатков, сравнивая перекрывающиеся фрагменты. Эти методы плохо работают для последовательнос-

266

Молекулярное моделирование

Таблица 7.5. Название

Программы для сравнения структур белков и центров связывания Метод

Веб-сайт

Ссылка

TESS

Сравнение со структурными шаблонами по расстоянию

http://www.ebi.ac.uk/thorntonsrv/databases/CSA/

ASSAM

— Сравнение пространственных консервативных мотивов с помощью алгоритма изоморфизма подграфов

[55]

eF-site

Сравнение триангулиро- http://ef-site.hgc.jp/eF-site/ ванных поверхностей с информацией об электростатическом потенциале

[56]

SuMo

Сравнение графов из тре- http://sumo-pbil.ibcp.fr/cgiугольников, образованbin/sumo-welcome ных стереоцентрами

[57]

Cavbase

Сравнение псевдоцен— тров с помощью алгоритма поиска клик

[58]

[54]

SiteEngine Сравнение треугольниhttp://bioinfo3d.cs.tau.ac.il/ ков физико-химических SiteEngine/ свойств с помощью геометрического хеширования

[59]

SitesBase

Сравнение троек атомов с http://www.modelling.leeds. помощью геометрическо- ac.uk/sb/ го хеширования

[60]

CPASS

Максимизация оценочhttp://bionmr-c1.unl.edu/ ной функции BLOSUM62 на основе rmsd

[61]

тей с разрывами (центров связывания) и для белков с разной укладкой цепи. Другой подход основан на поиске заданных структурных мотивов или шаблонов (например, каталитической триады Ser—His—Asp в сериновых протеазах), по которым строится выравнивание мишени с известными белками [54, 55]. Однако многие белки (например, киназы, GPCR, ионные каналы) могут содержать одинаковые центры связывания уникальных лигандов (например, АТФ) в отсутствие сходства структурных шаблонов. Более новые подходы к выравниванию структур мишеней описывают белки, опираясь на физико-химические свойства в определенных

Глава 7. Разработка лекарственных веществ методами хемогеномики

267

точках. На молекулярной поверхности белка легко построить дискретный набор изолированных точек с химическими метками [62] или графов [63], который можно использовать для поиска выравнивания, обеспечивающего максимальное совпадение поверхности с эталоном (табл. 7.5). База данных белковых поверхностей eF-site была успешно использована для предсказания функции предполагаемого белка архей MJ0226, в котором удалось выявить центр связывания мононуклеотида [63]. Сравнение поверхностей белка требует довольно много времени, поэтому данный метод неприменим для глобального исследования всех белков. В течение последних нескольких лет были разработаны более быстрые методы (SUMO [57], Cavbase [58], SiteEngine [59], SitesBase [60], CPASS [61]), использующие для представления активного центра так называемые псевдоцентры — виртуальные атомы, расположенные на или рядом с боковыми цепями представляющих интерес аминокислотных остатков. Псевдоцентры кодируют физико-химические свойства соответствующих аминокислот (способность участвовать в водородных связях, ароматичность, гидрофобность, заряд). Они соединяются ребрами и таким образом образуют молекулярный граф. Выравнивание получают, определяя максимально общий подграф [64] или применяя геометрическое хэширование [65] псевдоцентров. Этим способом можно обнаружить локальное сходство центров связывания в белках с совершенно разной укладкой белковой цепи и разной каталитической активностью. Выявленные таким образом сходные активные центры даже можно соединить в общую сеть, чтобы лучше определить положение белка в пространстве мишеней [66]. Интересный пример сходства центров связывания для далеких друг от друга белков был описан Вебером с др. [67]. Опираясь на сходство центров связывания циклооксигеназы-2 (ЦОГ-2) и карбоангидразы человека (HCA), авторы обнаружили способность ингибиторов ЦОГ-2 (арилсульфонамидов) перекрестно ингибировать HCA. Основная проблема этих методов сравнения связана со сложностью интерпретации рассчитанной меры сходства, которая обычно зависит от количества атомов или псевдоцентров либо от соответствия треугольников поверхности. Это особенно характерно для центров связывания различного размера, поскольку большие центры связывания часто дают больше совпадений, чем центры малого размера, даже если сходство между последними выше. Таким образом, как и при сравнении лигандов (см. разд. 7.1.1), необходимо использовать нормированные расстояния. Многообещающий подход предложен Сюрганом и др. [68], которые использовали для дискретизации центра связывания безразмерный сферический многогранник («сферу») из 80 треугольников и спроецировали на поверхность этого многогранника различные топологические и физико-химические дескрипторы, описывающие Cb-атомы аминокислот центра связывания. Расстояние между двумя центрами связывания рассчитывается простым суммированием нормированных разностей в пространстве дескрипторов для всех треугольников сферы (рис. 7.14).

Рис. 7.14. Выравнивание и сравнение белков с помощью сфер [68]. а — Проекция дескрипторов Cb-атомов центра связывания на центр триангулированной сферы (используются: расстояние от центра сферы до атома Cb, ориентация боковой цепи относительно сферы, размер боковой цепи, алифатический характер, ароматический характер, заряд); б — расчет расстояния между двумя центрами связывания путем измерения нормированного расстояния в пространстве дескрипторов после исчерпывающего перебора поворотов и переносов одной из сфер (центр B) для увеличения сходства; в — выравнивание центра B с центром А определяется ориентацией сферы, обеспечивающей наименьшее расстояние

Глава 7. Разработка лекарственных веществ методами хемогеномики

269

В настоящее время высокая скорость таких сравнений позволяет получать матрицы сходства огромного размера («все со всеми») [58—60] и и решать такие задачи, как (а) анализ функций и классификации центров связывания лигандов, (б) прогнозирование потенциальных лигандов, (в) прогнозирование возможных побочных действий лекарств, предназначенных для определенного белка-мишени. Альтернативным способом сравнения активных центров является анализ сходства возможных оболочек центров связывания по известным структурам белков в апо1- или холо-форме2 [69]. Недавно был построен первый вариант человеческого «покетома» («pocketome») — набора всех возможных оболочек лиганд-связывающих центров для 943 рентгеновских структур белков человека — и для него выполнен кластерный анализ на основе подобия оболочек [69]. Интересно, что дерево классификации по оболочкам лишь частично совпало с альтернативными деревьями, построенными на основе аминокислотных последовательностей белков-мишеней или сходства структуры комплексов с лигандами [69]. Недавно был предложен метод сравнения белков одного семейства по дефектам упаковки [70], локализованным на так называемых «дегидронах» — тяжелых атомах основной цепи, у которых отсутствуют водородные связи. Такие участки характеризуют способность белка к взаимодействию с потенциальными лигандами, и их можно предсказать по аминокислотной последовательности. Было показано, что определенные по упаковке расстояния между 32 киназами из PDB практически полностью совпадают с фармакологическими расстояниями, полученными из экспериментальных данных по их аффинности к 17 ингибиторам [71]. Их можно эффективно использовать для разработки ориентированных на дефекты упаковки селективных ингибиторов различных киназ [72].

7.4. Методы хемогеномики, основанные на информации о мишенях и лигандах 7.4.1. Химическое аннотирование центров связывания мишени Многочисленные библиотеки химических соединений, содержащие биологическую информацию (табл. 7.4), устанавливают связь между пространством лигандов и пространством мишеней, позволяя ориентировать разработку с использованием информации о лигандах определенных семейств мишеней [40–42]. Однако в отсутствие информации о центре связывания лиганда существует риск, что в сравнение будут включены лиганды, которые действуют на разные центры связывания одной мишени (например, ортостерический и аллостерический лиганды). По этой причине очень важно качественное аннотирование белко1

Апо-форма белка — неактивная форма белка без связанных лигандов и кофакторов (апофермент). 2 Холо-форма белка — белок со связанным кофактором (ами), но без связанного лиганда (холофермент).

270

Молекулярное моделирование

вых последовательностей и/или центров связывания на основании типов лигандов, которые они распознают [73]. Проект создания базы данных по взаимодействиям малых молекул (Small Molecule Interaction Database, SMID) представляет собой пример аннотирования белковых последовательностей на основе домен-специфичных лигандов [73]. В общей сложности она охватывает 6300 лигандов и около 230 000 экспериментально подтвержденных взаимодействий доменов и малых молекул, которые хранятся в реляционной базе данных и могут использоваться для предсказания наиболее вероятных лигандов белков с неизвестной трехмерной структурой путем сравнения их доменов с помощью процедуры, обратной алгоритму BLAST [74]. Полученная из PDB информация о структуре центров связывания и их лигандах имеется в ряде баз данных [21], но только две базы данных (BindingMOAD, sc-PDB; см. табл. 7.3) учитывают фармакологическое значение лиганда и тем самым представляют интерес для хемогеномики. Эти базы данных могут быть использованы для определения приоритетных лигандов или молекулярных скелетов при создании фокусированных библиотек соединений, действующих на определенный набор мишеней (рис. 7.15).

Рис. 7.15. Поиск низкомолекулярных лигандов киназ, удовлетворяющих правилам Липински (см. разд. 5.1.1), по хемогеномной базе данных sc-PDB (http://bioinfo-pharma.u-strasbg.fr/scPDB/)

Глава 7. Разработка лекарственных веществ методами хемогеномики

271

7.4.2. Двумерный поиск Для исследования и предсказания лиганд-белкового взаимодействия необходимы простые дескрипторы, которые однозначно описывают как белки, так и лиганды, содержащиеся в базах данных (табл. 7.4), что позволит объединить их в единый лиганд-белковый дескриптор. Самым простой способ представления этих данных опирается на матрицы экспериментальной аффинности [22–24], по которым строят модели QSAR для предсказания аффинности новых соединений к определенным мишеням или построения полного виртуального профиля с помощью общего метода моделирования поведения соседей [24]. Другой подход недавно был предложен для решения задачи «деорфанизации»1 (deorphaning) GPCR-рецепторов. В ходе анализа отпечаток лиганда соединяется с отпечатком аминокислотной последовательности мишени, если в базе данных PDSP (Psychoactive Drug Screening Program, http://pdsp.med.unc.edu) описано образование между ними высокоаффинного комплекса (pKi > 7). Алгоритм был обучен по неизбыточному набору 5319 комплексов и применен к 1 911 415 виртуальным комплексам (55 орфанных рецепторов и 34 753 похожих на лекарства соединения из базы данных NCI) для предсказания вероятных связей между ними [75]. Результаты проверки качества модели на внешней контрольной выборке (поиск рецепторов для неселективного лиганда и лигандов для одной мишени) в целом согласуются с литературными данными, а некоторые результаты прогноза еще ожидают экспериментальной проверки.

7.4.3. Трехмерный поиск Одним из самых простых способов предсказания вероятных мишеней лиганда является докинг каждого лиганда из библиотеки соединений в каждый центр связывания из библиотеки мишеней. Эта стратегия была проверена несколькими научными группами. Было показано, что она позволяет правильно идентифицировать известные лиганды для известных мишеней и их побочные мишени, а значит, и вероятные побочные эффекты [76, 77]. К настоящему времени в литературе был описан единственный удачный пример поиска мишеней с помощью обратного молекулярного докинга [78]. Такая процедура требует, во-первых, набора высококачественных данных о трехмерной структуре центров связывания (который очень трудно сформировать автоматически), а во-вторых, точных оценочных функций для правильной приоритизации мишеней. Проблема состоит в том, что энергетические оценочные функции не очень хорошо описывают разнородные лиганд-белковые комплексы и занижают свободные энергии связывания [79], поэтому для эффективного отбора мишеней необходимы другие методы оценки. Одним из наиболее удачных методов такого рода оказался расчет отпечатков взаимо1

«Деорфанизация» — поиск лигандов рецепторов, для которых лиганды ранее не были известны.

272

Молекулярное моделирование

действия (interaction fingerprints, IFP) между белком и лигандом. На практике IFP — это способ преобразования трехмерной информации о лиганд-белковом взаимодействии в одномерные битовые векторы (рис. 7.6), которые можно сравнивать с помощью таких стандартных метрик, как коэффициент Танимото или эвклидово расстояние. Использование IFP позволило улучшить качество прогноза связанных конформаций при докинге [80, 81], провести кластеризацию лиганд-белковых взаимодействий для ряда родственных ингибиторов с учетом различий в их взаимодействии с подсемейством мишеней [81, 82] и разработать библиотеки лигандов, ориентированных на конкретную мишень [83]. В то же время представляют интерес и методы предсказания пространственной структуры лиганд-рецепторных комплексов, не основанные на докинге. Главной проблемой такого подхода является использование сходных дескрипторов для описания лиганда и белка, чтобы один из участников комплекса можно было найти, используя другой в качестве запроса. Удачное решение было предложено в методе CoLiBRI (Complementary Ligands Based on Receptor Information) [84], в котором атомы лиганда и атомы центра связывания описываются аналогичными векторами молекулярных дескрипторов (TAE-RECON), рассчитанных с учетом формы молекул и электронных свойств изолированных атомов. Это позволяет непосредственно соотнести химические особенности центра связывания и его лигандов, устанавливая взаимное соответствие между участками центра связывания и участками лиганда. При проверке на контрольной выборке 800 комплексов (структуры высокого разрешения из PDB) для 90% изученных активных центров соответствующий лиганд был найден среди 1% наилучших результатов из большой библиотеки соединений. Точность прогноза значительно ухудшается для центров связывания, не участвовавших в обучении, однако этот метод можно использовать для предварительного отсева наименее правдоподобных лигандов [84].

7.5. Заключение В последние годы хемогеномные подходы к рациональной разработке лекарств весьма бурно развиваются благодаря появлению данных высокопроизводительных испытаний (структуры, аффинности, функциональные эффекты) для фармакологически важных мишеней и лигандов. Были предложены многочисленные методы поиска связей между ними, основанные на сходстве лигандов или мишеней. Для успешного их применения необходима четкая организация и хранение данных, и для наиболее важных семейств мишеней (например, киназы, GPCR, ядерные рецепторы) такие решения начали появляться. В ближайшем будущем хемогеномные данные помогут еще лучше и быстрее управлять селективностью лигандов. Это не означает, что будут созданы более селективные лиганды, но наблюдаемый профиль их селективности будет согласован с терапевтическим применением. Наконец, изучение новых геномных мишеней будет более эффективным, если определить их место

Глава 7. Разработка лекарственных веществ методами хемогеномики

273

в пространстве мишеней и опереться на соответствующую химическую информацию.

Цитированная литература 1. Venter, J. C., Adams, M. D., Myers, E. W. et al. (2001) The sequence of the human genome. Science, 291, 1304–51.

2. Lander, E. S., Linton, L. M., Birren, B. et al. (2001) Initial sequencing and analysis of the human genome. Nature, 409, 860–921.

3. International Human Genome Sequencing Consortium (2004) Finishing the euchromatic sequence of the human genome. Nature, 431, 931–45.

4. Russ, A. P. and Lampel, S. (2005) The druggable genome: an update. Drug Discovery Today, 10, 1607–10.

5. Paolini, G. V., Shapland, R. H., van Hoorn, W. P. et al. (2006) Global mapping of pharmacological space. Nature Biotechnology, 24, 805–15.

6. Caron, P. R., Mullican, M. D., Mashal, R. D. et al. (2001) Chemogenomic approaches to drug discovery. Current Opinion in Chemical Biology, 5, 464–70.

7. Bender, A. and Glen, R. C. (2004) Molecular similarity: a key technique in molecular informatics. Organic & Biomolecular Chemistry, 2, 3204–18.

8. Sadowski, J. and Kubinyi, H. (1998) A scoring scheme for discriminating between drugs and nondrugs. Journal of Medicinal Chemistry, 41, 3325–29.

9. Morphy, R. (2006) The influence of target family and functional activity on the physicochemical properties of pre-clinical compounds. Journal of Medicinal Chemistry, 49, 2969–78.

10. Weininger, D. (1988) SMILES. 1. Introduction and encoding rules. Journal of Chemical Information and Computer Sciences, 28, 31–36.

11. Baymond, J. W., Blankley, C. J., and Willett, P. (2003) Comparison of chemical clustering methods using graph-and fingerprint-based similarity measures. Journal of Molecular Graphics & Modelling, 21, 421–33.

12. Attwood, T. K., Bradley, P., Flower, D. R. et al. (2003) PRINTS and its automatic supplement, prePRINTS. Nucleic Acids Research, 31, 400–2.

13. Wu, C. H., Apweiler, R., Bairoch, A. et al. (2006) The Universal Protein Resource (UniProt): an expanding universe of protein information. Nucleic Acids Research, 34, D187–91.

14. Finn, R. D., Mistry, K., Schuster-Bockler, B. et al. (2006) Pfam: clans, web tools and services. Nucleic Acids Research, 34, D247–51.

15. Hulo, N., Bairoch, A., Bulliard, V. et al. (2006) The PROSITE database. Nucleic Acids Research, 34, D227–30.

16. Casbon, J. and Saqi, M. A. (2005) S4: structure-based sequence alignments of SCOP superfamilies. Nucleic Acids Research, 33, D219–22.

17. Reeves, G. A., Dallman, T. J., Redfern, O. C. et al. (2006) Structural diversity of domain superfamilies in the CATH database. Journal of Molecular Biology, 360, 725–41.

274

Молекулярное моделирование

18. Berman, H. M., Westbrook, J., Feng, Z. et al. (2000) The protein data bank. Nucleic Acids Research, 28, 235–42.

19. Pieper, U., Eswar, N., Braberg, H. et al. (2006) MODBASE: a database of annotated comparative protein structure models and associated resources. Nucleic Acids Research, 34, D291–95.

20. Hu, L., Benson, M. L., Smith, R. D. et al. (2005) Binding MOAD (mother of all databases). Proteins, 60, 333–40.

21. Kellenberger, E., Muller, P., Schalon, C. et al. (2006) sc-PDB: an annotated database of druggable binding sites from the Protein Data Bank. Journal of Chemical Information and Modeling, 46, 717–27.

22. Kauvar, L. M., Higgins, D. L., Villar, H. O. et al. (1995) Predicting ligand binding to proteins by affinity fingerprinting. Chemistry & Biology, 2, 107–18.

23. Vieth, M., Higgs, R. E., Robertson, D. H. et al. (2004) Kinomics-structural biology and chemogenomics of kinase inhibitors and targets. Biochimica et Biophysica Acta, 1697. 243–57.

24. Krejsa, C. M., Horvath, D., Rogalski, S. L. et al. (2003) Predicting ADME properties and site effects: the BioPrint approach. Current Opinion in Drug Discovery & Development, 6, 470–80.

25. Fukunishi, Y., Kubota, S., Nakamura, H. (2006) Noise-reduction method for molecular interaction energy application to in silico drug screening and in silico target protein screening. Journal of Chemical Information and Modeling, 46, 2071–84.

26. Matter, H. and Schwab, W. (1999) Affinity and selectivity of matrix metalloproteinase inhibitors: a chemometrical study from the perspective of ligands and proteins. Journal of Medicinal Chemistry, 42, 4506–23.

27. Singh, J., Deng, Z., Narale, G., and Chuaqui, C. (2006) Structural interaction fingerprints: a new approach to organizing, mining, analyzing, and designing protein-small molecule complexes. Chemical Biology & Drug Design, 67, 5–12.

28. Shuffenhauer, A., Floershein, P., Acklin, P., and Jacoby, E. (2003) Similarity metrics for ligands reflecting the similarity of the target proteins. Journal of Chemical Information and Computer Sciences, 43, 391–405.

29. Savchuk, N. P., Balakin, K. V., and Tkachenko, S. E. (2004) Exploring the chemogenomic knowledge space with annotated chemical libraries. Current Opinion in Chemical Biology, 8, 412–17.

30. Koch, M. A., Schuffenhauer, A., Scheck, M. et al. (2005) Charting biologically relevant chemical space: a structural classification of natural products (SCONP). Proceedings of the National Academy of Sciences of the United States of America, 102, 17272–77.

31. Root, D. E., Flaherty, S. P., Kelley, B. P., and Stockwell, B. R. (2003) Biological mechanism profiling using an annotated compound library. Chemistry & Biology, 10, 881–92.

32. Evans, B. E., Rittle, K. E., Bock, M. G. et al. (1988) Methods for drug discovery: development of potent, selective, orally effective cholecystokinin antagonists. Journal of Medicinal Chemistry, 31, 2235–46.

33. Klabunde, T. and Hessler, G. (2002) Drug design strategies for targeting G-protein-coupled receptors. Chembiochem, 3, 928–44.

Глава 7. Разработка лекарственных веществ методами хемогеномики

275

34. Schnur, D. M., Hermsmeier, M. A., and Tebben, A. J. (2006) Are target-family-privileged substructures truly privileged? Journal of Medicinal Chemistry, 49, 2000–9.

35. Bondensgaard, K., Ankersen, M., Thogersen, H. et al. (2004) Recognition of privileged structures by G-protein coupled receptors. Journal of Medicinal Chemistry, 47, 888–99.

36. Surgand, J. S., Rodrigo, J., Kellenberger, E., and Rognan, D. (2006) A chemogenomic analysis of the transmembrane binding cavity of human G-protein-coupled receptors. Proteins, 62, 509–38.

37. Steindl, T. M., Schuster, D., Laggner, C., and Langer, T. (2006) Parallel screening: a novel concept in pharmacophore modeling and virtual screening, Journal of Chemical Information and Modeling, 46, 2146–57.

38. Cases, M., Carcia-Serna, R., Hettne, K. et al. (2005) Chemical and biological profiling of an annotated compound library directed to the nuclear receptor family. Current Topics in Medicinal Chemistry, 5, 763–72.

39. Mestres, J., Martin-Couce, L., Gregori-Puigjane, E. et al. (2006) Ligand-based approach to in silico pharmacology: nuclear receptor profiling. Journal of Chemical Information and Modeling, 46, 2725–36.

40. Nidhi, Glick, M., Davies, J. W., and Jenkins, J. L. (2006) Prediction of biological targets for compounds using multiple-category Bayesian models trained on chemogenomics databases. Journal of Chemical Information and Modeling, 46, 1124–33.

41. Bender, A., Jenkins, J. L., Glick, M., et al. (2006) «Bayes affinity fingerprints» improve retrieval rates in virtual screening and define orthogonal bioactivity space: when are multitarget drugs a feasible concept? Journal of Chemical Information and Modeling, 46, 2725–36.

42. Nettles, J. H., Jenkins, J. L., Bender, A. et al. (2006) Bridging chemical and biological space: target fishing using 2D and 3D molecular descriptors. Journal of Medicinal Chemistry, 49, 6802–10.

43. Bhavani, S., Nagargadde, A., Thawani, A. et al. (2006) Substructure-based support vector machine classifiers for prediction of adverse effects in diverse classes of drugs. Journal of Chemical Information and Modeling, 46, 2445–56.

44. Crossley, R. (2004) The design of screening libraries targeted at G-protein coupled receptors. Current Topics in Medicinal Chemistry, 4, 581–88.

45. Frimurer, T. M., Ulven, T., Elling, C. E. et al. (2005) A physicogenetic method to assign ligand-binding relationships between 7TM receptors. Bioorganic & Medicinal Chemistry Letters, 15, 3707–12.

46. Kratochwil, N. A., Malherbe, P., Lindemann, L. et al. (2005) An automated system for the analysis of G protein-coupled receptor transmembrane binding pockets: alignment, receptor-based pharmacophores, and their application. Journal of Chemical Information and Modeling, 45, 1324–36.

47. Palczewski, K., Kumasaka, T., Hori, T. et al. (2000) Crystal structure of rhodopsin: a G protein-coupled receptor. Science, 289, 739–45.

48. Naumann, T. and Matter, H. (2002) Structural classification of protein kinases using 3D molecular interaction field analysis of their ligand binding sites: target family landscapes. Journal of Medicinal Chemistry, 45, 2366–78.

276

Молекулярное моделирование

49. Pirard, B. and Matter, H. (2006) Matrix metalloproteinase target family landscape: a chemometrical approach to ligand selectivity based on protein binding site analysis. Journal of Medicinal Chemistry, 49, 51–69.

50. Hoppe, C., Steinbeck, C., and Wohlfahrt, G. (2006) Classification and comparison of ligand-binding sites derived from grid-mapped knowledge-based potentials. Journal of Molecular Graphics & Modeling, 24, 328–40.

51. Standley, D. M., Toh, H., and Nakamura, H. (2005) GASH: an improved algorithm for maximizing the number of equivalent residues between two protein structures. BMC Bioinformatics, 6, 221.

52. Holm, L. and Park, J. (2000) DaliLite workbench for protein structure comparison. Bioinformatics, 16, 566–67.

53. Shindyalov, I. N. and Bourne, P. E. (1998) Protein structure alignment by incremental combinatorial extension (CE) of the optimal path. Protein Engineering, 11, 739–47.

54. Wallace, A. C., Borkakoti, N., and Thornton, J. M. (1997) TESS: a geometric hashing algorithm for deriving 3D coordinate templates for searching structural databases. Application to enzyme active sites. Protein Science, 6, 2308–23.

55. Artymiuk, P. J., Poirrette, A. R., Grindley, H. M. et al. (1994) A graph-theoretic approach to the identification of three-dimensional patterns of amino acid side-chains in protein structures. Journal of Molecular Biology, 243, 327–44.

56. Kinoshita, K., Furui, J., and Nakamura, H. (2002) Identification of protein functions from a molecular surface database, eF-site. Journal of Structural and Functional Genomics, 2, 9–22.

57. Jambon, M., Imberty, A., Deleage, G., and Geourjon, C. (2003) A new bioinformatic approach to detect common 3D sites in protein structures. Proteins, 52, 137–45.

58. Schmitt, S., Kuhn, D., and Klebe, G. (2002) A new method to detect related function among proteins independent of sequence and fold homology. Journal of Molecular Biology, 323, 387–406.

59. Shulman-Peleg, A., Nussinov, R., and Wolfson, H. J. (2004) Recognition of functional sites in protein structures. Journal of Molecular Biology, 339, 607–33.

60. Gold, N. D. and Jackson, R. M. (2006) Fold independent structural comparisons of protein-ligand binding sites for exploring functional relationships. Journal of Molecular Biology, 355, 1112–24.

61. Powers, R., Copeland, J. C., Germer, K. et al. (2006) Comparison of protein active site structures for functional annotation of proteins and drug design. Proteins, 65, 124–35.

62. Rosen, M., Lin, S. L., Wolfson, H., and Nussinov, R. (1998) Molecular shape comparison in searches for active sites and functional similarity. Protein Engineering, 11, 263–77.

63. Kinoshita, K. and Nakamura, H. (2003) Identification of protein biochemical functions by similarity search using the molecular surface database eF-site. Protein Science, 12, 1589–95.

64. Gardiner, E. J., Artymiuk, P. J., and Willett, P. (1997) Cliique-detection algorithms for matching three-dimensional molecular structures. Journal of Molecular Graphics & Modelling, 15, 245–53.

Глава 7. Разработка лекарственных веществ методами хемогеномики

277

65. Nossinov, R. and Wolfson, H. J. (1991) Efficient detection of three-dimensional structural motifs in biological macromolecules by computer vision techniques. Proceedings of the National Academy of Sciences of the United States of America, 88, 10495–99.

66. Zhang, Z. and Grigorov, M. G. (2006) Similarity networks of protein binding sites. Proteins, 62, 470–78.

67. Weber, A., Casini, A., Heine, A. et al., (2004) Unexpected nanomolar inhibition of carbonic anhydrase by COX-2-selective celecoxib: new pharmacological opportunities due to related binding site recognition. Journal of Medicinal Chemistry, 47, 550–57.

68. Surgand, J. S. (2006) Dеveloppement de Nouvelles Methodes Bioinformatiques Pour l'Etude des Recepteurs Couples aux Proteins G, ThJse de l'Universite Louis Pasteur — Strasbourg 1. France.

69. An, J., Totrov, M., and Abagyan, R. (2003) Pocketome via comprehensive identification and classification of ligand binding envelopes. Molecular & Cellular Proteomics, 4, 752–61.

70. Fernandez, A., Rogale, K., Scott, R., and Scheraga, H. A. (2004) Inhibitor design by wrapping packing defects in HIV-1 proteins. Proceedings of the National Academy of Science of the United States of America, 101, 11640–45.

71. Fernandez, A. and Maddipati, S. (2006) A priori inference of cross reactivity of drug-targeted kinases. Journal of Medicinal Chemistry, 49, 3092–100.

72. Fernandez, A. (2005) Incomplete protein packing as a selectivity filter in drug design. Structure, 13, 1829–36.

73. Snyder, K. A., Feldman, H. J., Dumontier, M. et al. (2006) Domain-based small molecule binding site annotation. BMC Bioinformatics, 7, 152.

74. Feldman, H. J., Snyder, K. A., Ticoll, A. et al. (2006) A complete small molecule dataset from the protein data bank. FEBS Letters, 580, 1649–53.

75. Bock, J. R. and Gough, D. A. (2005) Virtual screen for ligands of orphan G proteincoupled receptors. Journal of Chemical Informations and Modeling, 45, 1402–14.

76. Chen, Y. Z. and Zhi, D. G. (2001) Ligand-protein inverse docking and its potential

use in the computer search of protein targets of a small molecule. Proteins, 43, 217–26.

77. Paul, N., Kellenberger, E., Bret, G. et al. (2004) Recovering the true targets of specific ligands by virtual screening of the protein data bank. Proteins, 54, 671–80.

78. Muller, P., Lena, G., Boilard, E. et al. (2006) In silico guided target identification of a scaffold-focused library: 1,3,5-triazepan-2,6-diones as novel phospholipase A2 inhibitors. Journal of Medicinal Chemistry, 49, 6768–78.

79. Ferrara, P., Gohkle, H., Price, D. J. et al. (2004) 3rd assessing scoring functions for protein-ligand interactions. Journal of Medicinal Chemistry, 47, 3032–47.

80. Deng, Z., Chuaqui, C., and Singh, J. (2004) Structural interaction fingerprint (SIFt): a novel method for analyzing three-dimensional protein-ligand binding interactions. Journal of Medicinal Chemistry, 47, 337–44.

81. Marcou, G. and Rognan, D. (2007) Optimizing scaffold docking by use of molecular interaction fingerprints. Journal of Chemical Information and Modeling, 47, 195–207.

278

Молекулярное моделирование

82. Chuaqui, C., Deng, Z., and Singh, J. (2005) Interaction profiles of protein kinase-inhibitor complexes and their application to virtual screening. Journal of Medicinal Chemistry, 48, 121–33.

83. Deng, Z., Chuaqui, C., and Singh, J. (2006) Knowledge-based design of target-focused libraries using protein-ligand interaction constraints. Journal of Medicinal Chemistry, 49, 490–500.

84. Oloff, S., Zhang, S., Sukumar, N. et al. (2006) Chemometric analysis of ligand receptor complementarity: identifying complementary ligands based on receptor information (CoLiBRI). Journal of Chemical Information and Modeling, 46, 844–51.

8

Пример моделирования белков: ядерный рецептор CAR и его лигандрецепторные комплексы

8.1. Биохимическое и фармакологическое описание проблемы 8.1.1. Суперсемейство ядерных рецепторов Ядерные рецепторы (ЯР) гормонов являются ключевыми элементами внутриклеточной передачи сигналов у многоклеточных организмов. У человека обнаружено 48 представителей этого суперсемейства. Реагируя на различные гормональные и метаболические изменения, они выступают в качестве лиганд-зависимых факторов транскрипции и играют важнейшую роль в регуляции экспрессии генов. Более того, эти рецепторы связаны также с другими сигнальными каскадами, интегрируют различные пути передачи сигналов и таким образом вовлечены во многие физиологические процессы, включая дифференциацию клеток, гомеостаз и репродукцию [1]. ЯР связываются с соответствующими фрагментами ДНК в виде гомодимеров (тип 1) или гетеродимеров (тип 2). Для активации генов необходимы коактиваторы1 и другие белковые факторы, которые присоединяются к связанному с промотором2 ЯР, выступающему в качестве ядра для сборки большого комплекса нескольких белков [2]. Неактивные ЯР (не связанные с лигандами) образуют комплексы с корепрессорами3, такими как SMRT (Silencing Mediator for Retinoid and Thyroid Receptors). Корепрессоры связываются с гистондеацетилазами и белками, участвующими в ремоделинге хроматина, поэтому промотор не инициирует транскрипцию. Коактиваторы, в частности коактиватор стероидного рецептора SRC-1 (Steroid Receptor Coactivator), взаимодействуют с ЯР 1

Коактиватор — белок, повышающий экспрессию генов при связывании с активатором, который содержит ДНК-связывающий участок. Сам коактиватор не может связываться с ДНК. 2 Промотор — участок ДНК, который способствует транскрипции определенного гена. 3 Корепрессор — белок, который уменьшает экспрессию генов, связываясь с транскрипционным фактором, который содержит ДНК-связывающий участок.

280

Молекулярное моделирование

через домен взаимодействия с ядерным рецептором NRID (Nuclear Receptor Interaction Domain), который представляет собой амфифильную спираль с консервативной аминокислотной последовательностью LxxLL. Коактиваторы блокируют область связывания корепрессоров; в то же время неактивные ЯР связываются с антагонистом и изменяют структуру NRID, что предотвращает их связывание с коактиватором и способствует связыванию корепрессора [4].

8.1.2. Молекулярная архитектура и механизмы активации ядерных рецепторов ЯР обладают консервативной структурой и выполняют сходные функции, что позволяет объединить их в одно суперсемейство (рис. 8.1). В структуре рецептора выделяют четыре отдельных домена: N-концевой домен A/B, консервативный домен, взаимодействующий с ДНК (ДВД, область C), домен-линкер D и домен, взаимодействующий с лигандом (ДВЛ, область E) [5]. Пространственная архитектура ДВД и ДВЛ хорошо известна, поскольку в последние годы были исследованы их кристаллические структуры [6–8]. Тем не менее полная структура рецептора до недавнего времени оставалась неизвестной из-за сложностей, связанных с его кристаллизацией. По рентгеноструктурным данным установлено, что консервативная укладка ДВЛ ядерных рецепторов имеет вид трехслойной структуры («сэндвича») из 12–14 спиралей и b-листа из 2–5 цепей [9]. Пример структуры ДВЛ a-эстрогенового рецептора (ERa) представлен на рис. 8.2. Лиганды связываются в преимущественно гидрофобной полости между внешними участками a-спиралей. Размер и форма этой полости у разных представителей семейства значительно различаются (от 220 C3 для ERR3 до 1300 C3 для PPARg), но все они в той или иной степени гидрофобны [10]. Помимо области связывания лиганда в ДВЛ выделяют участок лиганд-зависимой активации 2 (AF-2) в C-концевой спирали H12. Положение и конформация этой спирали зависят от связывания с агонистом или антагонистом и отвечают за взаимодействие с коактиватором и корепрессором. Связывание агониста вызывает изменение конформации H12, которая закрывает центр связывания. Это позволяет коактиватору связаться с возникающей гидрофобной областью, образованной спиралями H3, H4 и H12, через определенные алифатические аминокислотные остатки. При связывании антагонистов спираль H12 приобретает неупорядоченную конформацию, нарушается центр связывания коактиватора и становится возможным присоединение корепрессора (см. рис. 8.2) [11]. Функции некоторых из 48 ЯР

Рис. 8.1. Схематичное изображение архитектуры ЯР

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

281

Рис. 8.2. Домен ЯР (a-эстрогенового рецептора), взаимодействующий с лиган-

дом. а — Неактивная конформация рецептора со связанным антагонистом (4-гидрокситамоксифеном, оранжевый). б — Рецептор после связывания агониста (эстрадиола, оранжевый). Область AF-2 (зеленый) сворачивается в a-спираль и образует центр связывания коактиватора (пурпурный)

пока не известны, как не известны и эндогенные лиганды для них, поэтому такие ЯР относят к орфанным рецепторам [12].

8.1.3. Конститутивноактивный андростановый рецептор человека Конститутивно-активный андростановый рецептор (CAR) был открыт в 1994 г. [13]. В отличие от других известных на данный момент ЯР он обладает конститутивной1 базальной2 активностью в экспериментах на клеточных культурах [14], иными словами, CAR постоянно активен в нативном состоянии. Рецептор локализован в цитоплазме в комплексе с дополнительными белками, такими как белок теплового шока массой 90 кДа (HSP90) и белок, удерживающий андростановый рецептор в цитоплазме (CAR cytoplasmic retention protein, CCRP) (рис. 8.3). Поскольку ядерный рецептор CAR обладает конститутивной активностью, для измерения отклика на соединения-активаторы необходимо подавить лиганд-независимую экспрессию генов. Как правило, классические ЯР постоянно находятся в ядре, поэтому их агонисты и антагонисты действуют, связываясь с рецептором в комплексе с хроматином. Классический механизм активации CAR подразумевает непосредственное взаимодействие агониста с гидрофобным центром связывания рецептора, что ведет к перемещению рецептора в ядре и образованию гетеродимера с 1

Конститутивная активность — постоянная активность биологической мишени, механизмы которой заложены в самой структуре мишени. 2 Базальная активность — ненулевой уровень активности биологической мишени в апо-форме.

282

Молекулярное моделирование

Рис. 8.3. Схема сигнальной системы CAR: рецептор CAR локализован в цито-

плазме и образует комплекс с HSP90 и CCRP. Активированный CAR в виде димера с RXR взаимодействует с ДНК и регулирует экспрессию белков, участвующих в биотрансформациях, например цитохромов P450 (CYP), глюкуронилтрансфераз (UGT), сульфотрансфераз (SULT), белка множественной лекарственной устойчивости (MDR)

другим ядерным рецептором (a-рецептором ретиноида X (RXR, retinoid X receptor)) (рис. 8.3) [15]. CAR принадлежит к подсемейству NR1I суперсемейства ЯР, которое также включает рецептор витамина D (Vitamin D Receptor, VDR) и рецептор прегнана X (pregnane X receptor, PXR). Рецептор CAR является частью системы метаболической защиты человека. Вместе с родственным рецептором PXR он регулирует экспрессию метаболических ферментов (например, цитохромов CYP2B и CYP3A) при ксенобиотическом стрессе [16]. Детальная информация о биохимии CAR хорошо описана в литературе [15].

8.1.4. Лиганды рецептора CAR В настоящее время известно лишь несколько лигандов CAR. Определить тип активности лиганда (агонист или антагонист) зачастую сложно, поскольку в зависимости от используемой для исследований клеточной культуры некоторые соединения могут выступать в качестве агонистов, антагонистов или обратных агонистов. Изменение схемы экспрессии коактиваторов ЯР в различных клеточных линиях может привести к различному ответу ЯР на модуляторы [17]. Например, клотримазол является агонистом в клеточной линии HEK293 [18], но в другой клеточной линии CV-1 проявляет себя как обратный агонист [19]. Помимо стероидных производных существует ряд нестероидных активаторов CAR, например 6-(4-хлорфенил)-имидазо-[2,1b]-[1,3]-тиазол-

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

283

5-карбальдегид-О-(3,4-дихлорбензил)-оксим (CITCO) или три-(п-метилфенил)-фосфат (TMPP) [20]. Для выяснения механизма взаимодействия CAR и его лигандов и разработки новых активных и селективных лигандов необходимо знание трехмерной структуры рецептора. Однако в начале выполнения этого проекта рентгеноструктурные данные еще не были доступны. По этой и ряду других причин молекулярные факторы специфичности лигандов CAR оставались неясными.

8.2. Моделирование рецептора CAR человека по гомологии Отметим следующие особенности данного проекта по разработке лекарств:

1. В начале выполнения проекта не были доступны кристаллографические данные о структуре рецептора, которые могли бы помочь пониманию механизма конститутивной активности CAR. Таким образом, информацию о структуре можно было получить только путем моделирования по гомологии. Процедура моделирования была тесно связана с экспериментальными данными о точечных мутациях, которые помогли проанализировать механизм активации CAR и проверить надежность модели.

2. Было известно лишь несколько лигандов CAR, поэтому получить детальную картину связи их структуры и активности оказалось невозможно. По своим лигандам рецептор CAR совершенно отличается от родственных рецепторов PXR и VDR, поэтому построенная модель CAR должна объяснять особенности связывания лигандов, что является важным условием для разработки в будущем новых лигандов CAR.

8.2.1. Выбор шаблонного белка для моделирования Выбор подходящей структуры шаблона представляет собой важнейший этап моделирования по гомологии, поскольку определяет качество построенной модели. Первоначально необходимо определить белки, которые могут выступать в качестве шаблонов, т. е. обладают достаточной гомологией аминокислотной последовательности достаточно достоверным набором структурных данных (подробно см. разд. 4.3). В случае CAR наибольшим подобием аминокислотной последовательности (40–50% для ДВЛ) обладают родственные ядерные рецепторы VDR и PXR, структуры которых известны. Чтобы оценить качество моделирования по гомологии на основе лишь одного шаблонного белка, для каждого из них была построена модель с использованием другого в качестве шаблона, которая затем сравнивалась с экспериментальными структурами [21–25]. Идентичность последовательностей ДВЛ рецепторов PXR и VDR составляет 37% и считается достаточной для построения надежных моделей. Однако этот критерий оценки качества не единственный.

284

Молекулярное моделирование

VDR и PXR несколько отличаются по топологии от других ЯР, так как содержат дополнительный домен между спиралями H1 и H3. У PXR он состоит из небольшой спирали и двух b-листов, у VDR — из двух спиралей и петли. Дополнительное отличие PXR от обычной топологии ЯР наблюдается в районе спиралей H6 и H8. После построения моделей по гомологии они были оптимизированы, чтобы исключить возможные стерические затруднения, возникшие в ходе моделирования. При наложении моделей VDR и PXR и их экспериментальных структур были обнаружены существенные различия. Это означает, что использование только одного шаблона не позволяет построить качественную модель рецептора. Для моделей PXR и VDR также было выполнено моделирование молекулярной динамики (5 нс), которое выявило значительные отклонения структур обеих моделей от их начальных конформаций. Размер полости связывания лиганда в этих моделях был слишком маленьким для размещения известных лигандов, поэтому они оказались бесполезными для проведения докинга или разработки лекарств. Учитывая это, на следующем шаге модель CAR была построена на основе двух структур-шаблонов с выбором координат VDR и PXR вручную. Нас интересовало изучение механизма конститутивной активности, поэтому модель рецептора CAR строилась в активированном состоянии с использованием кристаллических структур PXR и VDR в комплексе с агонистами. Множественное выравнивание аминокислотных последовательностей CAR, VDR и PXR было осуществлено с помощью известной программы CLUSTALW [26] (рис. 8.4).

Рис. 8.4.

Выравнивание аминокислотных последовательностей шаблонных структур (PXR, VDR) и целевого белка CAR. Вертикальные линии обозначают отсутствующие сегменты. Остатки в последовательности CAR окрашены в зависимости от использованного источника структурной информации (PXR — красный, VDR — зеленый)

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

285

8.2.2. Моделирование рецептора CAR по гомологии Модель CAR была построена на основе двух рассмотренных выше шаблонных белков с помощью модуля Homology программного комплекса INSIGHT II [27]. Для большинства аминокислот использовались координаты из структуры PXR (рис. 8.4). Чтобы получить общую для ЯР укладку, координаты для спиралей H6 и H7 были взяты из структуры VDR (1DB1). Кроме того, координаты из шаблона VDR были использованы для спиралей H10, H11 и C-концевого фрагмента H12. Последовательность в спиралях H10 и H11 рецептора VDR в гораздо большей степени совпадает с CAR по сравнению с PXR. Кроме того, считается, что небольшой размер аминокислот спирали H12 CAR обусловливает меньшее расстояние между нею и ДВЛ, чем в случае PXR [28]. Это же справедливо и для VDR, поэтому координаты спирали H12 были взяты из VDR. Для участка H1–H3 (29 аминокислот) поиск петель и их моделирование de novo не привели к надежной конформации, поэтому укладка его основной цепи была полностью копирована из структуры рецептора VDR, что облегчается одинаковым числом аминокислот в соответствующих сегментах двух структур. Для моделирования координат боковых цепей была использована программа SCWRL [29]. Предсказать многочисленные конформации боковых цепей белка (ротамеры) значительно сложнее, чем для основной цепи гомологичного белка. SCWRL основывается на библиотеке ротамеров, учитывающей особенности основной цепи, и добавляет боковые цепи к основной цепи белка, стараясь избежать их наложения на основную или другие боковые цепи. Чтобы непосредственно использовать в модели конформации боковых цепей консервативных аминокислот из шаблона, определенные аминокислоты можно исключать из процедуры подбора конформаций. Предварительно точность работы SCWRL для ЯР была проверена на имеющихся кристаллических структурах VDR и PXR. Для обоих рецепторов конформации большинства боковых цепей были определены правильно. Таким образом, SCWRL можно считать надежным методом предсказания координат боковых цепей ЯР. Для улучшения качества модели координаты консервативных аминокислот были взяты непосредственно из структур шаблонов. ЯР связываются с коактиватором или корепрессором в строго определенных эпитопах1, играющих ключевую роль в процессе активации или деактивации. Для моделирования влияния коактиватора или корепрессора была построена другая модель CAR, включающая фрагмент коактиватора SRC-1. Координаты для него (аминокислоты 682–696) были полностью перенесены из кристаллической структуры PXR, связанной с SRC-1 (PDB: 1NRL) [30, 31].

1

Эпитоп — характерный участок взаимодействия в структуре белка или полисахарида с комплементарной ему структурой (ДНК, антителом и др.).

286

Молекулярное моделирование

8.2.3. Настройка системы для моделирования молекулярной динамики Как говорилось в разд. 4.4, построенные по гомологии модели обязательно требуют уточнения. Конформации боковых цепей и петель в них представляют собой лишь один из возможных вариантов. Анализ конформационного пространства для определения энергетически выгодной трехмерной структуры системы обычно выполняется путем моделирования молекулярной динамики. Для уточнения отдельных моделей CAR была проведена минимизация энергии, а затем моделирование молекулярной динамики с помощью программы GROMACS [32] в силовом поле GROMOS96, разработанном специально для работы с белками [33]. Для имитации водной среды модели были помещены в куб с молекулами воды, представленными в виде точечных зарядов [32]. Дальние электростатические взаимодействия учитывались с помощью метода PME (Particle Mesh Ewald) [34]. Одним из условий его использования для расчета кулоновских взаимодействий является электронейтральное состояние системы, поэтому были добавлены катионы натрия. Для достижения физиологических условий дополнительно добавляли ионы натрия и хлора, так как было показано, что их учет в явном виде стабилизирует вторичную структуру белка. Полученные структуры после минимизации энергии использовались в качестве исходных для моделирования молекулярной динамики. Для имитации объема растворителя были использованы периодические граничные условия. Температура системы поддерживалась на уровне 310 K с помощью термостата Берендсена с временем взаимодействия 0,1 пс [35]. Постоянное давление поддерживалось с помощью внешнего баростата. Длины связей с участием атомов водорода были зафиксированы на равновесном уровне с помощью алгоритма Lincs [36]. Для приведения системы в состояние равновесия расчет проводили с уменьшающимися силовыми ограничениями на атомы основной цепи (1000–100 кДж/моль), после чего моделировали динамику свободной системы со временем взаимодействия 2,25 нс. Моделирование проводили в течение продолжительного времени, чтобы структуры рецепторов гарантированно достигли равновесного состояния.

8.3. Анализ моделей, полученных в результате моделирования молекулярной динамики 8.3.1. Флуктуации атомов В ходе моделирования молекулярной динамики наблюдалась стабильность общей укладки белковой цепи для обеих моделей (CAR и комплекса CAR—SRC-1). Для основной цепи среднеквадратичное отклонение (rmsd) не превысило 2,5 C (см. рис. 8.5). Небольшая величина отклонения связана с компактностью архитектуры трехслойного спирального сэндвича, допускающей лишь небольшие смещения отдельных доме-

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

287

Рис. 8.5. Среднеквадратичное отклонение положения атомов основной цепи модели CAR (синий) и кристаллической структуры VDR (зеленый) во время моделирования молекулярной динамики нов. Домен AF-2 принимает активную конформацию и образует «крышку», закрывающую полость связывания, которая оказалась значительно меньше (630 C3 до и 480 C3 после моделирования), чем у рецептора PXR (1294 C3). Как и у PXR и VDR, центр связывания лиганда рецептора CAR состоит в основном из гидрофобных аминокислот с небольшим количеством полярных остатков. Анализ стереохимического качества полученных моделей (см. разд. 4.5) выполняли на основе представительных структур из ансамбля, построенного с помощью молекулярной динамики. Для этого полученные траектории были исследованы с помощью программы NMRCLUST [37] путем наложения всех структур по основной цепи и дальнейшей группировки в кластеры со схожей конформацией. Для каждого кластера выбиралась представительная структура и с помощью программы PROCHECK проводился ее анализ [38]. При анализе карт Рамачандрана для моделей рецептора CAR и комплекса CAR-SRC-1 было обнаружено, что соответственно 88,4 и 86,4% углов j и y находятся в благоприятных областях. Эти значения согласуются с оценками качества, полученными по рентгеноструктурным данным высокого разрешения. Тем не менее необходимо помнить, что стереохимические параметры не являются достаточным критерием надежности модели белка. Очень важно использовать дополнительные методы моделирования и всю имеющуюся экспериментальную информацию о самой мишени и родственных ей белках.

288

Молекулярное моделирование

Анализ траекторий молекулярной динамики обеих моделей показал, что домен AF-2 тесно взаимодействует с ДВЛ в течение всего времени моделирования. Наложение основных цепей моделей CAR и CAR—SRC-1 после моделирования приведено на рис. 8.6. Необходимо отметить, что значительных смещений домена AF-2 не следовало ожидать, учитывая небольшое время моделирования молекулярной динамики (2,5 нс), однако высокая стабильность взаимодействия ДВЛ—AF-2 хорошо согласуется с имеющимися экспериментальными данными [39, 40]. Чтобы оценить надежность моделирования молекулярной динамики для CAR, доступные кристаллические структуры PXR и VDR были подвергнуты той же процедуре. Для их основных цепей наблюдались флуктуации атомов, сравнимые с моделью CAR (рис. 8.5).

Рис. 8.6. Наложение представительных структур из полученных по результа-

там моделирования молекулярной динамики ансамблей CAR (серый) и комплекса CAR—SRC-1 (оранжевый). Структурные отличия между моделями наблюдаются в основном в области петель

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

289

Это служит дополнительным подтверждением верности выбранной стратегии моделирования по гомологии, а также моделирования молекулярной динамики.

8.3.2. Взаимодействия домена AF2 Следующим этапом является детальный анализ взаимодействия спирали AF-2 с аминокислотами, образующими центр связывания. В обеих моделях CAR обнаружены значительные взаимодействия между спиралью AF-2 и остатками ДВЛ. Аминокислоты Leu343 и Ile346 спирали AF-2 тесно взаимодействуют с гидрофобными остатками ДВЛ (Val199, Tyr326, Ile330; см. рис. 8.7). Чтобы понять причину связывания гидрофобных аминокислот AF-2 и остатков ДВЛ, с помощью программы GRID (подробнее см. разд. 2.5 и 4.6.2) были выявлены центры оптимального взаимодействия. Для специально построенной модели CAR без фрагмента AF-2 рассчитывались поля GRID для центра взаимодействия с AF-2. Области, благоприятные для гидрофобных и ван-дер-ваальсовых взаимодействий, выявляли с помощью гидрофобного пробного атома DRY и алифатического пробного атома CH3. Полученные контурные карты были наложены на структуру модели CAR (рис. 8.7). Для метильного пробного атома две основных области благоприятного взаимодействия располагались вблизи контакта ДВЛ—AF-2. Положение и размер областей на контурных картах идеально соответствуют расположению гидрофобных остатков Leu343 и Ile346 спирали AF-2. Более подробный анализ показал, что несколько ароматических аминокислот ДВЛ взаимодействуют с остатками AF-2. В частности, остаток Tyr326 находится очень близко к алифатическим остаткам домена AF-2. Он окружен клас-

Рис. 8.7. а — Аминокислоты, расположенные в области взаимодействия AF-2

и ДВЛ. Спираль AF-2 (H12) показана в виде ленты с аминокислотными остатками; остатки ДВЛ окрашены голубым цветом. б — Благоприятные области гидрофобного взаимодействия (желтый) для ДВЛ без AF-2 (GRID, пробный атом CH3, контурный предел –2,5 ккал/моль). Показана поверхность MOLCAD для ДВЛ, окрашенная в соответствии с глубиной полости

290

Молекулярное моделирование

тером ароматических и гидрофобных остатков (Val199, His203, Phe234, Phe238, Ile330), фиксирующим координаты его боковой цепи, которая частично видна на рис. 8.7. Каждое из описанных взаимодействий между ДВЛ и AF-2 также наблюдается и в модели CAR—SRC-1, однако к концу процесса моделирования молекулярной динамики (2,5 нс) спираль AF-2 оказалась расположена ближе к ДВЛ, подобно модели CAR без SRC-1 (рис. 8.6). При моделировании по гомологии и проверке его качества очень важна информация о точечных мутациях, поэтому сначала были изучены результаты экспериментальных исследований, описанные в литературе. Показано, что замена Leu343 или Ile330 на аланин значительно уменьшает базальную активность [39]. Это подтверждает наше наблюдение, что Leu343 является единственной аминокислотой AF-2, которая находится в постоянном взаимодействии с ДВЛ во время моделирования молекулярной динамики. Ее замена на аланин вызывает нарушение взаимодействий с Tyr326, а остаточного взаимодействия между Ile346 и ДВЛ недостаточно, чтобы удержать AF-2 в активной конформации. Замена Ile330 на аланин не только уменьшает гидрофобную поверхность и число потенциальных взаимодействий с Leu343, но также дестабилизирует положение Tyr326, поскольку Ile330 входит в число аминокислот, ограничивающих подвижность боковой цепи Tyr326, и при такой замене гибкость этой цепи увеличивается.

8.3.3. Структурные основы конститутивной активности рецептора CAR человека Домен AF-2, находящийся в C-концевом домене ЯР (в том числе CAR), является ключевым элементом их активации. Агонисты и антагонисты вызывают конформационные изменения AF-2, что приводит к образованию комплекса с белками-коактиваторами или корепрессорами. При связывании агониста домен AF-2, подобно крышке, закрывает полость связывания лиганда. Согласно построенным по гомологии моделям, аминокислоты Leu342, Leu343, Ile346, Cys347 и Ser348 домена AF-2 вносят вклад в базальную активность CAR благодаря стабилизации взаимодействий со спиралями H11, H5 и H4. В отличие от других ЯР рецептор CAR проявляет конститутивную активность. Среди всех остатков, участвующих в этих взаимодействиях, особую роль играет Tyr326. Окружающий его кластер гидрофобных и ароматических аминокислот фиксирует боковую цепь, делая возможными ван-дер-ваальсовы взаимодействия с доменом AF-2 (рис. 8.7). Обнаружено, что находящийся рядом остаток Phe238 препятствует повороту боковой цепи Tyr326 и таким образом блокирует его. Находящиеся над и под плоскостью боковой цепи Tyr326 аминокислотные остатки Val199, His203, Phe234 и Ile330 также фиксируют его позицию. Таким образом, Tyr326 при содействии окружающих аминокислот выступает в качестве центрального партнера взаимодействия для AF-2, тесно связывая его с ДВЛ. Такая схема взаимодействия уникальна среди ЯР и убеди-

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

291

Рис. 8.8.

Результаты направленного мутагенеза: относительная активность для свободной среды (GAL), рецептора CAR дикого типа и мутанта Tyr326Ala рецептора CAR

тельно объясняет конститутивную активность CAR. Чтобы проверить эту гипотезу, был экспрессирован и исследован Ala326-мутант CAR человека. Как и предполагалось, мутантный рецептор утратил базальную активность (рис. 8.8), но активировался трис-n-метилфенилфосфатом (TMPP) и другими активаторами, которые, как было показано, непосредственно взаимодействуют с доменом AF-2 [41]. На основе этих данных можно предположить, что ван-дер-ваальсовы взаимодействия между ДВЛ и AF-2 являются ключевым фактором конститутивной активности CAR. Эта гипотеза дополнительно подтверждается анализом кристаллических структур таких ЯР, как рецептор мыши LRH-1 (Liver Receptor Homolog 1) и рецептор человека ERR-3 (Estrogen-Related Receptor 3) [42]. Оба рецептора конститутивно активны и характеризуются стабилизацией спирали AF-2 гидрофобными остатками ДВЛ, подобно модели CAR. Кроме того, в структурах комплексов PXR и VDR с агонистами наблюдаются ван-дер-ваальсовы взаимодействия агонистов с доменом AF-2 [23, 24]. Считается, что они способствуют взаимодействию AF-2 с ДВЛ и таким образом обеспечивают возможность связывания коактиватора. Модель CAR показывает, что аминокислотный остаток Tyr326 образует похожие ван-дер-ваальсовы контакты с доменом AF-2 и играет для него ту же роль, что агонисты рецепторов PXR и VDR (рис. 8.9). Исходя из этого мы предположили, что конститутивная активность CAR объясняется «молекулярной мимикрией» остатка Tyr326, который имитирует связанную молекулу агониста. В активных ЯР домен AF-2 принимает конформацию, которая позволяет ему вместе с остатками ДВЛ образовать гидрофобную полость для связывания коактиваторов. Домен AF-2 в рецепторе CAR способен образовать такую гидрофобную бороздку даже в отсутствие каких-либо связанных агонистов.

292

Молекулярное моделирование

Рис. 8.9. Молекулярная мимикрия: взаимодействие между спиралью H12 и доменом AF-2 (зеленый) и ДВЛ (фиолетовый) для VDR (а), PXR (б) и CAR (в). Лиганды PXR (SR12813) и VDR (витамин D3), а также Tyr326 рецептора CAR показаны коричневым

8.3.4. Связывание коактиватора Активация ЯР требует связывания с коактиваторами, например SRC-1 в случае CAR. Экспериментальные данные показывают, что ЯР обладают специфическими фрагментами связывания коактиваторов [43], которые, видимо, существенны для их функционирования. Таким образом, описание взаимодействия между ДВЛ и коактиватором является необходимым критерием надежности модели, построенной по гомологии. В известных кристаллических структурах ЯР домен, взаимодействующий с коактиватором, представлен a-спиралью с консервативным участком LxxLL. Он взаимодействует с остатками, расположенными в гидрофобной полости рядом с доменом AF-2. Детальный анализ модели CAR—SRC-1 показал, что эта гидрофобная бороздка образована 11 аминокислотными остатками. Известно, что участвующая во взаимодействии спираль белка SRC-1 представляет собой электрический диполь, который стабилизирован двумя консервативными аминокислотными остатками, взаимодействующими с ее N- и С-концевыми аминокислотами и образующими так называемый «зарядовый зажим». Такой консервативный мотив присутствует и в модели комплекса CAR—SRC-1, где в качестве остатков «зажима» выступают Lys177 (H3) и Glu345 (AF-2) (рис. 8.10). Остаток Lys177 образует водородную связь с карбонильной группой основной цепи SRC-1, тогда как Glu345 взаимодействует с амидными группами основной цепи Ile689 и Leu690. Чтобы проанализировать стабильность комплекса рецептор—коактиватор, мы провели моделирование молекулярной динамики комплекса CAR—SRC-1 по методике, описанной в разд. 8.2.3. Пептид SRC-1, имитирующий коактиватор, оставался стабильно связанным на протяжении всего времени моделирования (5 нс). Все водородные связи, обнаруженные в модели по гомологии, присутствовали и после моделирования молекулярной динамики, что указывает на высокую стабильность комплекса SRC-1 и активного CAR. Таким образом, построенная по гомологии модель позво-

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

293

Рис. 8.10. Взаимодействие между ДВЛ и SRC-1: а — Ряд аминокислот из спиралей H3, H3¢, H4 и AF-2 (атомы углерода оранжевого цвета) образует гидрофобную бороздку, с которой связывается SRC-1 (голубой). Остатки лейцина мотива LxxLL показаны в явном виде. б — Связывание SRC-1 с ДВЛ фиксирует остаток Leu342 домена AF-2 (зеленый) в гидрофобной полости, образованной аминокислотами ДВЛ (оранжевый) и SRC-1 (голубой). в — Спиральный диполь SRC-1 стабилизирован аминокислотами Lys177 (H3) и Glu345 (AF-2), которые расположены на ДВЛ и образуют «зарядовый зажим». Lys177 образует водородную связь с карбонильной группой Leu693 основной цепи, тогда как Glu345 взаимодействует с атомами азота Ile689 и Leu690 основной цепи

ляет объяснить структурные механизмы сильного связывания SRC-1 с активной формой CAR. В заключение следует подчеркнуть, что автоматическое моделирование по гомологии с использованием одного шаблонного белка дает неприемлемые модели рецептора, в то время как модель, построенная вручную на основе двух шаблонов, более надежна и лучше соответствует известным биохимическим данным.

294

Молекулярное моделирование

8.4. Анализ мутантных вариантов рецептора CAR 8.4.1. Определение аминокислот, значимых для активации рецептора CAR Опираясь на модели CAR и результаты моделирования молекулярной динамики, необходимо исследовать молекулярные факторы специфичности лигандов, а также роль аминокислотных остатков центра связывания. Чтобы определить важнейшие аминокислоты для анализа мутаций, в построенной по гомологии модели CAR—SRC-1 были найдены остатки, образующие полость связывания и поверхность контакта со спиралью AF-2. Таким образом были выбраны 22 аминокислоты, для которых проведены эксперименты по мутациям с заменой на аланин. Активность и специфичность лигандов была измерена для полученных мутантных рецепторов, экспрессированных в клеточных линиях животных. Дополнительно методом дрожжевой двухгибридной системы было изучено влияние мутаций на взаимодействие ДВЛ и SRC-1 (детали метода описаны в литературе) [41]. Базальную активность 22 мутантов CAR проанализировали и сравнили с активностью рецептора. Построенная модель комплекса CAR—SRC-1 показывает, что даже без связанного лиганда спираль H12 (AF-2) принимает активированную конформацию благодаря гидрофобным взаимодействиям Leu343 и Ile346 AF-2 с остатками Val199, Tyr326 и Ile330 ДВЛ. Обнаружена также водородная связь между Asn165 и Tyr326, которая стабилизирует ароматическую боковую цепь тирозина. Решающий вклад остатков Asn165, Val199, Tyr326, Ile330 и Leu343 в базальную активность подтверждается существенным понижением активности и ухудшением взаимодействия с SRC-1 при их замене на аланин (см. рис. 8.11 и 8.12). Интересно, что для 16 мутантов базальная активность (белые полосы на рис. 8.11) понизилась более чем на 90% по сравнению с нативным рецептором. Таким образом, при замене на аланин ароматических (Phe161, Phe234, Phe238, Tyr326) или гидрофобных (Cys202, Ile164, Met168, Ile330, Ile333, Met339) аминокислотных остатков, боковые цепи которых выходят в полость связывания, освобождается пространство полости связывания и меняется положение окружающих остатков. В большинстве случаев эта реорганизация понижает базальную активность, так как влияет на важный остаток Tyr326, положение которого критично для стабилизации спирали H12 в активной конформации. Три мутанта Phe129Ala, Phe217Ala и Tyr224Ala также имеют низкую базальную активность, не активируются в клетках млекопитающих и не дают отклика на SRC-1 в отличие от 19 других мутантов CAR. Остатки Phe217 и Tyr224 образуют «стенку» в лиганд-связывающем центре (рис. 8.12), и их замена на аланин скорее всего нарушает локальную укладку белковой цепи. Оставшиеся шесть мутантов His203Ala, Leu206Ala, Thr209Ala, Leu242Ala, Phe243Ala и Gln329Ala сохраняют 30–80% активности дикого типа. Эти остатки находятся в верхней и задней части полости свя-

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

295

Рис. 8.11. Направленный мутагенез CAR человека. Приведенные значения активности были измерены в клетках HEK293 для активаторов и нормированы на базальную активность CAR

296

Молекулярное моделирование

Рис. 8.12. Аминокислоты ДВЛ, для которых была проведена замена на аланин, окрашены светлым цветом, остальные темным. Показана водородная связь между Asn165 и Tyr326. а — Полость связывания, вид сбоку. б — Изображение повернуто на 90°

зывания (рис. 8.12) вдалеке от центральной аминокислоты Tyr326. Таким образом, чем дальше аминокислота от Tyr326, тем меньше ее влияние на базальную активность CAR. После обобщения всех экспериментальных данных и визуального анализа модели было выявлено сильное взаимодействие между спиралями H11 и H12, которое может являться основной силой, удерживаю-

Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы

297

щей CAR в активном состоянии. Это подтверждается тем, что замена каждого из перечисленных выше остатков на аланин значительно понижает базальную активность рецептора. Таким образом мы смогли объяснить профиль активирования всех мутированных рецепторов на структурном уровне.

8.4.2. Молекулярная динамика отдельных мутантных вариантов рецептора CAR Для проверки соответствия экспериментальных и теоретических данных для нескольких мутантных рецепторов было проведено моделирование и анализ молекулярной динамики. Это занимает больше времени, чем простой визуальный анализ, поэтому мы сконцентрировали внимание только на мутантах остатков, которые непосредственно не контактируют с доменом AF-2. Для большинства мутантов CAR простой визуальный анализ модели, построенной по гомологии, четко показывает причину, по которой конститутивная активность резко снижается (например, для аминокислот, участвующих во взаимодействии между ДВЛ и доменом AF-2) или остается практически неизменной (аминокислоты в верхней и задней части полости связывания, вдали от Tyr326). Мы исследовали два мутанта (Phe234Ala и Phe238Ala), где измененный остаток является частью ДВЛ [44]. Моделирование молекулярной динамики выполнялось в тех же условиях, что и для других моделей CAR. Мутация Phe238Ala вызвала поворот боковой цепи Tyr326, вследствие чего последняя сместилась вглубь центра связывания (рис. 8.13) и было нарушено взаимодействие Tyr326 с Leu343 и Ile346. Водородная связь между Asn165 и Tyr326 также была потеряна. Мутация Phe234Ala вызвала смещение спирали H7 по направлению к b-листу бо-

Рис. 8.13. а — Замена Phe234 на аланин (желтый) привела к изменению ориентации боковых цепей некоторых аминокислот CAR. Смещение H10/11 вызвало перемещение Tyr326 внутрь полости связывания (рецептор с мутацией окрашен пурпурным цветом). б — Мутация Phe238Ala (желтый): при моделировании молекулярной динамики Tyr326 изменил конформацию и теперь ориентирован внутрь полости связывания (рецептор с мутацией окрашен в пурпурный цвет). Контакт между Tyr326 и доменом AF-2 потерян

298

Молекулярное моделирование

лее чем на 3 C, и в результате спирали H10/11 переместились в том же направлении. Эти смещения привели к значительному изменению ориентации ряда аминокислотных остатков центра связывания (рис. 8.13). Так, Tyr326 сильнее выдвинулся внутрь полости связывания, и взаимодействие с AF-2 было частично потеряно. Кроме того, изменилась конформация Phe238, и он перестал оказывать стабилизирующее действие на Tyr326. На активность CAR влияют также аминокислотные остатки, расположенные в отдалении от области контакта ДВЛ—AF-2. Мутация Phe234Ala вызвала изменения общей формы лиганд-связывающей полости, что привело к смещению спиралей H10/11 и последующему изменению ориентации Tyr326 (рис. 8.13). Таким образом, наблюдаемую экспериментально потерю базальной активности для этих двух мутантов можно объяснить отсутствием стабилизирующих взаимодействий между Tyr326 и доменом AF-2.

8.5. Моделирование комплексов рецептора CAR с лигандами Для анализа дальнейшей активации рецептора CAR при связывании агониста был проведен молекулярный докинг в построенную по гомологии модель рецептора. Для этого были выбраны структура комплекса CAR—SRC-1 (разд. 8.2.1) и программа докинга GOLD (см. разд. 5.2.2), основанная на генетическом алгоритме поиска. В качестве оценочной функции использовалась встроенная функция GoldScore; для каждого лиганда генерировали 30 различных связанных конформаций. Первоначально были изучены два известных активатора CAR — клотримазол и TMPP. Анализ ЯР любыми программами докинга вызывает сложности вследствие того, что полость связывания в основном гидрофобна и содержит лишь несколько полярных аминокислот, способных к направленным взаимодействиям. Полученные в результате докинга ориентации лигандов были проанализированы визуально, а также сгруппированы в кластеры сходных конформаций на основании значений rmsd. Для каждого активатора идентифицированы два кластера, незначительно отличающиеся друг от друга. Было обнаружено, что клотримазол связывается глубоко внутри полости связывания (рис. 8.14). Интересно, что прямые взаимодействия между AF-2 и клотримазолом отсутствуют: ароматические фрагменты лиганда взаимодействуют в основном с ароматическими остатками центра связывания (Phe112, Phe161, Phe234 и Tyr326). Чтобы оценить, являются ли лиганд-рецепторные комплексы энергетически возможными, для двух комплексов CAR с активаторами было проведено моделирование молекулярной динамики. Во время моделирования (2,5 нс) конформация клотримазола почти не изменилась (rmsd