Способ повышения точности определения последовательности аминокислотных остатков биополимера на основе данных масс-спектрометрического анализа, вычислительная система

Авторы патента:

Арчаков Александр Иванович (RU)

Лисица Андрей Валерьевич (RU)

Мошковский Сергей Александрович (RU)

Згода Виктор Гаврилович (RU)

Чернобровкин Алексей Леонидович (RU)

G06F17/30 - информационный поиск; структуры баз данных для этой цели

G01N30/72 - масс-спектрометры

C12Q1/68 - использующие нуклеиновые кислоты

Владельцы патента RU 2408011:

Общество с ограниченной ответственностью "Интерлаб" (RU)

Изобретение относится к биоинформационным методам идентификации белков и пептидов по геномным базам данных. Способ заключается в том, что алгоритмы сопоставления масс-спектров с геномной базой данных применяются повторно после дополнения базы данных новыми записями, либо после удаления из базы данных записей, либо после замены базы данных базой данных, составленной из новых записей. Дополнительные записи генерируются путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков. Настоящее изобретение также относится к вычислительной системе, функционирование которой основано на раскрытом выше способе. Использование изобретения позволяет повысить точность идентификации последовательности аминокислотных остатков биополимера. 2 н. и 3 з.п. ф-лы, 1 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к способам информационно-вычислительной обработки масс-спектрометрических данных, направленным на идентификацию первичной структуры биополимеров, в том числе белков и пептидов.

Предшествующий уровень техники изобретения

Компьютерные методы обработки масс-спектрометрических данных, направленные на идентификацию первичной структуры биополимеров, в настоящее время являются основным способом проведения исследований в области протеомики.

В контексте данного изобретения биополимер рассматривается как закодированная в геноме последовательность аминокислотных остатков, содержащая, по меньшей мере, одну пептидную связь, и могущая содержать химические модификации остатков, в том числе, компонентами небелковой природы, такими как липиды, углеводороды, другие органические и неорганические элементы, например металлы. Последовательность аминокислотных остатков характеризуется вариабельностью, обусловленной следующими молекулярно-биологическими процессами: альтернативный сплайсинг, инсерции, делеции и замены единичных аминокислотных остатков. Последние три категории микровариабельности структуры белковых биополимеров обозначаются аббревиатурой SAP (Single Aminoacid Polymorphism). Совокупность индивидуальных особенностей белков организма образует его протеотип. Для определения протеотипа (протеотипирования) необходим способ идентификации микрогетерогенных различий в первичных структурах белков.

Идентификация первичной структуры биополимеров производится на основе масс-спектрометрических данных. Термин «масс-спектрометрические данные» обозначает информацию о массе или масс-зарядных характеристиках полных белков, пептидных фрагментов их гидролиза или фрагментов индуцированного распада ионов биополимеров. В ходе подготовки биополимеров к масс-спектрометрической идентификации их первичная структура может подвергаться специфичным для определенных аминокислотных остатков или неспецифичным модификациям, то есть модификациям, не зависящим от типа остатка в первичной структуре биополимера.

Обработка масс-спектрометрических данных производится с использованием биоинформационных алгоритмов. Большинство из них, например алгоритм Mowse [1], основываются на сравнении экспериментально полученных масс-спектрометрических данных с расчетными оценками, проведенными на основе геномных баз данных (ГБД). «Геномные базы данных» представляют собой совокупность информационных ресурсов, содержащих информационные записи о последовательностях аминокислотных остатков в белках, полученных на основании расшифровки геномной информации и (или) расшифровки экспрессируемых участков генома. Запись в ГБД включает в себя уникальный идентификатор белка и соответствующую этому белку последовательность аминокислотных остатков в буквенной кодировке. При сопоставлении масс-спектрометрических данных с геномной базой данных алгоритмом идентификации рассчитывается оценка статистической достоверности, позволяющая судить о вероятности правильной идентификации белка с учетом заданных масс-спектрометрических данных и определенной геномной базы данных. Белок считается идентифицированным, если оценка статистической достоверности превышает произвольно установленное пороговое значение.

При масс-спектрометрической идентификации биополимера возникают ситуации, когда часть масс-спектрометрических данных не совпадает с ГБД, поскольку в последних отсутствует информация об альтернативном сплайсинге (АС) и SAP. В то же время, внесение в ГБД дополнительной информации о всех возможных вариантах АС и SAP приводит к существенному снижению уровня статистической достоверности идентификации по причине экспоненциального увеличения комбинаторного пространства совпадающих с полученными масс-спектрометрическими данными вариантов первичных структур биополимеров [2].

В публикации [3] описан способ повышения точности определения аминокислотной последовательности пептидов - продуктов протеолиза белков - по данным масс-спектрометрического анализа, основанный на использовании расширенной ГБД. На предварительном этапе ГБД расширяют за счет включения в нее аминокислотных последовательностей белков, содержащих аннотированные в различных источниках SAP и пост-трансляционные модификации (ПТМ). При этом поиск информации о SAP и ПТМ осуществляется для всех белков, содержащихся в исходной базе данных.

Раскрытие настоящего изобретения

Предлагаемое в соответствии с настоящим изобретением решение указанной проблемы заключается в повторном применении алгоритмов масс-спектрометрической идентификации после внесения в ГБД новых записей, либо создание ГБД из новых записей, отражающих информацию об АС и SAP с учетом результатов идентификации белков по масс-спектрометрическим данным. Таким образом, настоящее изобретение относится к способу повышения точности определения последовательности аминокислотных остатков по данным масс-спектрометрического анализа, предусматривающему использование, по меньшей мере, одного алгоритма идентификации биополимеров, основанного на сопоставлении масс-спектрометрических данных с геномной базой данных, причем указанный алгоритм последовательно применяется, по меньшей мере, дважды.

В соответствии с одним из вариантов выполнения настоящее изобретение предусматривает проведение первичной идентификации белков алгоритмом «АИ», добавление в ГБД вариантов первичной структуры, содержащих продукты АС и SAP только для идентифицированных белков, а затем повторное проведение идентификации на обогащенной базе данных либо тем же самым алгоритмом «АИ», либо другим алгоритмом «АИ′».

В соответствии с другим вариантом выполнения настоящее изобретение предусматривает проведение первичной идентификации белков алгоритмом «АИ», создание ГБД, содержащую первичные структуры продуктов АС и SAP только идентифицированных ранее белков, а затем повторное проведение идентификации на обогащенной базе данных либо тем же самым алгоритмом «АИ», либо другим алгоритмом «АИ′».

Отличительным преимуществом настоящего изобретения от аналогичных способов, предусматривающих использование комбинации биоинформационных алгоритмов для повышения уровня статистической достоверности идентификации, является то, что алгоритмы идентификации применяются последовательно, при этом сопряжение предыдущего алгоритма (АИ) с последующим (АИ′) осуществляется путем внесения изменений в ГБД. Для реализации предлагаемого способа достаточно использовать только один алгоритм масс-спектрометрической идентификации, а не по меньшей мере два, как, например, заявлено в патентной публикации [4].

Также отличительным преимуществом настоящего изобретения от публикации [3] является то, что перед каждым повторным применением алгоритма в ГБД вносятся изменения, учитывающие результаты предыдущего(их) применения(ий) алгоритма (АИ). Это позволяет существенно увеличить эффективность поиска (за счет того, что каждая последующая идентификация является уточняющей по отношению к предыдущей(им)) и его достоверность (за счет резкого снижения вероятности получения ложноположительных результатов).

Настоящее изобретение также относится к вычислительной системе, функционирование которой основано на раскрытом выше способе. На вход системы поступают масс-спектрометрические данные МСД. Эти данные используются для идентификации биополимеров по геномной базе данных ГБД алгоритмом АИ. Результаты идентификации (РИ) представляют собой перечень идентификаторов белков, для которых оценка достоверности идентификации превышает установленное пользователем пороговое значение. Для белков в составе РИ на основании содержащихся во внешних источниках информации ВИИ сведений об известных или предполагаемых продуктах АС и вариантах SAP генерируются варианты первичной структуры. В качестве ВИИ могут быть использованы специализированные базы данных генетического полиморфизма (например, НарМар), базы данных, содержащие сведения об известных модификация белковой структуры (например, UniProt), и также персональные данные о результатах генотипирования (например, 23andme.com). После этого алгоритм идентификации АИ′ применяется для проведения идентификации белков по базе данных ГБД′ на основе исходных масс-спектрометрических данных МСД. Результаты работы алгоритма АИ′, обозначенные как РИ′, сравниваются с предыдущими РИ, и устанавливается какие варианты изменений в первичной структуре белков были идентифицированы.

Краткое описание чертежа

На чертеже приведена схема вычислительной системы согласно настоящему изобретению. В настоящей схеме использованы следующие обозначения:

МСД - исходные масс-спектрометрические данные, поступающие на вход системы;

ГБД - исходная геномная база данных;

АИ и АИ′ - алгоритмы масс-спектрометрической идентификации, причем допускается, что АИ тождественен АИ';

РИ - результаты первичной идентификации, представляющие собой перечень идентификаторов белков;

РИ′ - результаты повторной идентификации, содержащие дополнительные варианты белков;

МГБД - модификация геномной базы данных;

ГБД′ - модифицированная геномная база данных, в которую включены варианты белков, содержащихся во внешних источниках информации (ВИИ).

Пример 1. Идентификация полиморфного варианта белка Trypsin-1 [Precursor] (Uniprot P07477) способом согласно настоящему изобретению

Масс-спектрометрические данные исследования образца стволовых клеток человека были загружены из системы Pride (http://www.ebi.ac.uk/pride/). Была произведена первичная масс-спектрометрическая идентификация белков загруженных масс-спектров программой Mascot с использованием базы данных NCBI-nr. Для одного из идентифицированных белков из базы данных Uniprot было получено 13 полиморфных вариантов. Новая база данных была сформирована путем добавления в базу данных NCBI-nr списка полиморфных вариантов белка Trypsin-1. Была произведена повторная масс-спектрометрическая идентификация белков программой Mascot с использованием новой базы данных. В результате вторичной идентификации был идентифицирован полиморфный вариант белка Trypsin-1 [Precursor], отличающийся от дикого типа заменой цистеина в позиции 139 на фенилаланин. В спектре ионной фрагментации был идентифицирован пептид

K.(139)FLISGWGNTASSGADYPDELQCLDAPVLSQAK(170).C, содержащий указанную единичную аминокислотную замену.

Источники информации

[1]. Pappin D.J., Hojrup P., Bleasby A.J., Rapid identification of proteins by peptide-mass fingerprinting, Curr Biol 1993, 3(6), 327-332.

[2]. Kim S., Gupta N., Pevzner P.A., Spectral probabilities and generating functions of tandem mass spectra: a strike against decoy databases. J Proteome Res 2008, 7, 3354-3363.

[3]. Alves G., Ogurtsov A., Yu Y., RAId_DbS: mass-spectrometry based peptide identification web server with knowledge integration. BMC Genomics 2008, 9, 505.

[4]. Method and system for elucidating the primary structure of biopolymers; Bluggel M., Chamrad D., PROTAGEN AG, Dortmund (DE); United States Patent Application Publication US 2006/0188887 Al, Pub. Date: 24.08.2006.

1. Способ повышения точности определения последовательности аминокислотных остатков по данным масс-спектрометрического анализа, предусматривающий использование, по меньшей мере, одного алгоритма идентификации биополимеров, основанного на сопоставлении масс-спектрометрических данных с геномной базой данных, причем указанный алгоритм последовательно применяют, по меньшей мере, дважды, отличающийся тем, что перед каждым повторным применением алгоритма в геномную базу данных вносят изменения, учитывающие результаты предыдущего(их) применения(ий).

2. Способ по п.1, в котором перед повторным применением алгоритма в геномную базу данных вносят дополнительные записи.

3. Способ по п.2, в котором дополнительные записи генерируют путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков.

4. Способ по п.1, в котором перед повторным применением алгоритма геномную базу данных заменяют базой данных, состоящей из записей, соответствующих ранее идентифицированным биополимерам, а также записей, созданных путем внесения в последовательности идентифицированных биополимеров изменений, соответствующих заменам, делециям, вставкам и модификациям одного или нескольких аминокислотных остатков.

5. Вычислительная система, функционирование которой основано на способе по любому из пп.1-4.

Изобретение относится к электронным схемам, а более конкретно к ассоциативным запоминающим устройствам. .

Устройство и способы предоставления и представления настроенной информации о канале // 2406133

Изобретение относится к принципам действия систем распределения контента и, в частности, к способам и устройству предоставления и представления настроенного вида канала в системе распределения мультимедийной информации.

Система управления файлами, использующая основанное на временной шкале представление данных // 2406132

Изобретение относится к области визуализации и динамических манипуляций и взаимодействий с объектами данных. .

Устройство, установленное в транспортном средстве // 2406107

Веб-кролинг на основе теории статистических решений и прогнозирование изменения веб-страницы // 2405197

Изобретение относится к устройствам анализа данных, в частности к системам и способам получения информации из сетевой системы с использованием распределенного веб-кролинга.

Поиск в меню запуска программ операционной системы // 2405186

Изобретение относится к системам для окна поиска и возможностей поиска в графическом интерфейсе пользователя меню запуска программ для операционной системы. .

Инфраструктура расширяемого и автоматически реплицирующего управления конфигурацией пула серверов // 2404451

Изобретение относится к автоматике и может быть использовано для управления серверами. .

Способ и система для синхронизации множественных пользовательских ревизий совместно используемого объекта // 2404450

Изобретение относится к системе связи и предназначено для синхронизации множественных пользовательских ревизий совместно используемого объекта. .

Система и способ определения взаимосвязей между пользователями сетевой системы // 2400810

Изобретение относится к сетевым системам и, в частности, к определению, созданию или поддержанию взаимосвязей между пользователями сетевых систем. .

Долговременное хранилище типов и экземпляров данных .net // 2400803

Изобретение относится к компьютерным системам, а именно к способам, системам и компьютерным программным продуктам для создания структур баз данных и для сохранения данных в ответ на атрибуты.

Способ идентификации высокотоксичных соединений ряда o-алкилалкилфторфосфонатов и прогнозирования масс-спектров химикатов этого ряда // 2391657

Изобретение относится к способу и может быть использовано для хромато-масс-спектрометрической идентификации контролируемых токсичных химикатов в сложных многокомпонентных смесях.

Способ установления отличительных признаков в химическом составе моногенных линий подсолнечника // 2377556

Изобретение относится к области разработки способа установления состава природного материала путем разделения жидкостей, полученных в результате пробоподготовки, методом газовой хроматографии.

Масс-анализатор с ионной ловушкой // 2372687

Изобретение относится к масс-спектроскопии а более конкретно к квадрупольным масс-анализаторам. .

Фингерпринтинг сложных смесей, содержащих углеводороды // 2341792

Способ подготовки проб для определения содержания изотопов урана в маслах // 2338186

Изобретение относится к аналитической химии, а именно к способу подготовки проб для определения содержания элементов и их изотопов в углеводородных, минеральных и синтетических, в частности вакуумных маслах, нефтепродуктах и горюче-смазочных материалах.

Способ масс-спектрометрического анализа различных химических соединений // 2321850

Система изотопного хромато-масс-спектрометрического анализа органических газовых смесей и твердоэлектролитная ячейка // 2315289

Изобретение относится к аналитической технике, предназначенной для анализа газовых сред, в частности к детектированию веществ, разделяемых в хроматографических колонках для их последующего изотопного анализа, и может быть использовано в газовой и нефтяной промышленности, энергетике, геохимии, гидрологии, экологии, аналитическом приборостроении при проведении высокоточных измерений концентраций органических газов, кислорода, газообразных оксидов и для определения изотопного состава водорода в природных водных материалах.

Способ определения фосфорорганических веществ // 2313086

Изобретение относится к области исследования или анализа материалов, в том числе фосфорорганических веществ, путем разделения образцов материалов на составные части с использованием адсорбции, абсорбции, хроматографии и масс-спектрометрии, а более конкретно к способам идентификации и количественного определения фосфорорганических веществ методами хромато-масс-спектрометрии.

Способ определения паров алкилфторфосфонатов в воздухе // 2308716

Изобретение относится к области исследования или анализа материалов, в том числе фосфорорганических веществ, путем разделения образцов материалов на составные части с использованием адсорбции, абсорбции, хроматографии и масс-спектрометрии, а более конкретно к способам идентификации и количественного определения паров алкилфторфосфонатов в воздухе методом хромато-масс-спектрометрии.

Способ определения содержания примесей в ксеноне // 2227291

Изобретение относится к области анализа материалов, а именно к способам определения содержания примесных соединений в ксеноне. .

Способ выявления орнитобактериоза у сельскохозяйственной птицы // 2407801

Изобретение относится к ветеринарной медицине, в частности к способам контроля инфицированности сельскохозяйственной птицы бактериальными инфекциями. .