Способы получения библиотек двухцепочечных днк и способы секвенирования для идентификации метилированных цитозинов

Изобретение относится к области биотехнологии, молекулярной биологии и биохимии. Предложен способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК. Изобретение также относится к адаптерам и наборам для синтеза указанных адаптеров, а также к библиотекам двухцепочечных ДНК, полученным с помощью способов по настоящему изобретению. Изобретение позволяет повысить точность и качество определения метилированных цитозинов и может быть использовано в научной и прикладной областях. 6 н. и 9 з. п. ф-лы, 16 ил., 1 табл., 2 пр.

 

Область техники, к которой относится изобретение

Настоящее изобретение относится к способам определения последовательности популяции молекул двухцепочечных ДНК и к идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК. Изобретение также относится к адаптерам и наборам для синтеза указанных адаптеров и двухцепочечных ДНК-библиотек, которые могут быть полезны в способах по изобретению.

Предшествующий уровень техники

Анализ первичной структуры нуклеиновых кислот (как ДНК, так и РНК), включая эпигенетические модификации (т.е. метилирование ДНК), может быть проведен с помощью различных методов, обычно называемых «секвенирование».

Все способы, доступные в настоящее время, не анализируют непосредственно исходный материал. Они требуют обработки или преобразования исходной матрицы, получения реплики и зачастую амплификации реплики. Созданные копии (названные геномные библиотеки) пригодны для секвенирования с использованием одной или нескольких из имеющихся в настоящее время технологий секвенирования (например, платформ секвенирования Illumina, Roche или IonTorrent).

Секвенирование может быть выполнено либо в малом масштабе, который заключается в анализе выбранных фрагментов или высокопроизводительном масштабе (также называемом геномным масштабом), который включает массивный анализ всего материала или большей части материала. Длина фрагмента, которая может быть проанализирована, зависит от методологии, используемой для секвенирования. Текущий уровень техники методов секвенирования нацелен на геномный масштаб и большая часть локус-специфических методов оценивает цепи ДНК отдельно.

В настоящее время золотой стандарт оценки метилирования ДНК предполагает химическую трансформацию нуклеиновых кислот бисульфитом, что приводит к образованию неоднозначности, так как неметилированные цитозины будут преобразованы в урацилы и визуализироваться как тимины, что делает их неотличимыми от реальных тиминов в каждом способе секвенирования. Это сокращение информации представляет собой сложную задачу для концепций в масштабе генома, так как существуют некоторые недостатки, которые до сих пор не решены и ограничивают их применение, например:

1) для определения первичной последовательности (то есть для обнаружения мутаций или генетических вариантов) и эпигенетических модификаций (т.е. метилирования цитозинов) должны быть использованы независимые процессы;

2) полученная неоднозначность ограничивает эффективность (большая часть рядов последовательности отбрасывается как неоднозначная) и охват (некоторых участки не могут быть проанализированы) и включает трудоемкую вычислительную обработку;

3) большие количества исходного материала требуются для выполнения исследований с высоким охватом;

4) неконтролируемые смещения ограничивают количественное определение; и

5) Ошибки секвенирования почти не обнаруживаются системой.

Другим способом является так называемый способ «hairpin-bisulfite PCR» (см Laird et al., 2004, Proc. Natl. Acad. Sci. USA 101, 204-209; Riggs и Xiong, 2004, Proc. Natl. Acad. Sci. USA 101, 4-5). В этом способе, до обработки бисульфитом две комплементарные цепи ковалентно связываются с помощью шпилечной последовательности с петлей. Тем не менее, этот способ пригоден только для конкретной двухцепочечной молекулы, а не для определения последовательности популяции молекул двухцепочечных ДНК и, в частности для выявления метилированных цитозинов в популяции молекул двухцепочечных ДНК.

Поэтому существовал интерес к разработке дальнейших способов для определения последовательностей популяции молекул двухцепочечных ДНК и, в частности для выявления метилированных цитозинов в популяции молекул двухцепочечных ДНК, которые способны урегулировать все или некоторые из вышеперечисленных недостатков, связанных со способами текущего уровня техники.

WO 2010/048337 раскрывает способ идентификации метилированных цитозинов, включающий стадии формирования комплементарной копии матричной нуклеиновой кислоты с использованием устойчивого к бисульфиту аналога цитозина, необязательное спаривание матричной нуклеиновой кислоты и комплементарной копии, преобразование неметилированных остатков цитозина в матричной нуклеиновой кислоте и комплементарной копии в остатки урацила, и определение нуклеотидной последовательности бисульфит-преобразованной матричной нуклеиновой кислоты, и непреобразованной комплементарной копии. Поскольку как бисульфит-преобразованная матричная нуклеиновая кислота, так и непреобразованная комплементарная копия богаты метилированными цитозинами, эти цепи, однако, трудно обрабатывать.

Настоящее изобретение направлено на решение этих проблем.

Сущность изобретения

Настоящее изобретение относится к способу идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающему стадии

(i) Цитирования двухцепочечных ДНК-адаптеров, по меньшей мере, с одним концом цепей из множества молекул двухцепочечной ДНК и спаривания цепи множества молекул двухцепочечной ДНК для получения множества спаренных адаптер-модифицированных молекул ДНК;

(ii) Преобразования любого (неметилированного) цитозина в спаренных адаптер-модифицированных молекулах ДНК в урацил в спаренных адаптер-модифицированных молекулах ДНК;

(iii) Получения комплементарных цепей спаренных и трансформированных адаптер-модифицированных молекул ДНК с использованием нуклеотидов A, G, С и Т, и праймеров, последовательность которых комплементарна, по меньшей мере, части двухцепочечных адаптеров, для получения частично трансформированных спаренных двухцепочечных молекул;

(iv) Необязательно амплификации частично трансформированных спаренных молекул двухцепочечных ДНК, полученных на стадии (iii), для того, чтобы получить амплифицированные спаренные двухцепочечные молекулы ДНК;

(v) Секвенирования спаренных молекул ДНК, полученных на стадии (iii) или на стадии (iv),

где присутствие метилированных цитозинов в данном положении определяется, если цитозин находится в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК, и/или где присутствие неметилированного цитозина в данном положении определяется, если урацил или тимин находятся в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК.

Описание чертежей

Фигура 1. Схематическая диаграмма, показывающая одно воплощение способа по изобретению. Стадия лигирования [стадия (i)]. Геномные фрагменты (черная линия; В) со стадии подготовки образца, имеющие выступающие концы (А и С) лигировали с двумя молекулами: дцДНК (адаптер; D) и шпилька (Е). Стадия захвата. Зонд (F), меченный биотином (G) гибридизовали со шпилькой для удаления продуктов лигирования, которые не содержат шпильку. Стадия бисульфита и элонгации [стадия (iii)]. Продукты лигирования обрабатывали бисульфитом, в результате чего утрачивалась комплементарность (выделено). Это позволяет праймеру (H) праймироваться для элонгации полимеразой (пунктирная линия; I), с последующими стадиями амплификации (не показано). Показан примерный фрагмент последовательности геномного фрагмента В. Нуклеотидную последовательность C*GTTGGAA и ее комплементарную последовательность TTCCAAC*G обрабатывали бисульфитом, после чего TTCCAAC*G преобразуется в TTUUAAC*G. После стадии амплификации получали нуклеотидные последовательности CGTTAAAA и TTCCAACG. С *: метилированный цитозин.

Фигура 2. Схематическая диаграмма, показывающая стадию элонгации одного из воплощений способа изобретения [стадии (iii)]. Для получения синтетической цепи (i) с помощью праймера (H) будут амплифицированы только продукты лигирования с одним первым адаптером (DBE и EBD, как это указано на фигуре 1).

Фигура 3. Схематическая диаграмма, показывающая одно воплощение способа по изобретению, в котором адаптерные молекулы предлагаются иммобилизованными на подложке. 1. Распределение адаптера (А) по твердой поверхности. 2. Лигирование геномных фрагментов (В). Только один адаптер может быть лигирован с каждым геномным фрагментом. 3. Литерованные фрагменты. 4. Адаптер-шпильку (С), литеровали к свободному концу геномного фрагмента. 5. Преобразование бисульфитом и потеря комплементарности. 6. Стадия элонгации (стадия iii). Показана первая полимеразная элонгация с праймером (D) для получения синтетической цепи (E).

Фигура 4. Схематическая диаграмма, показывающая одно воплощение способа по изобретению, в котором адаптерные молекулы предлагаются иммобилизованными на подложке. 1. Геномные фрагменты (В) литеровали с первыми молекулами адаптера (А). 2. Адаптер-шпильку (С) литеровали к свободному концу геномного фрагмента. 3. Преобразование бисульфитом и потеря комплементарности. 4. Праймер (D) гибридизовали с частью последовательности адаптерной молекулы. 5, 6, 7. Стадия элонгации (стадия iii). Показано первое полимеразное удлинение с помощью праймера (D) для получения синтетической цепи (Е). 8. Остатки матрицы, прикрепленные к твердой поверхности, и продукт элонгации высвобождаются в надосадочную жидкость. Освобожденные молекулы могут быть амплифицированы с помощью праймера (F) (стадия iv). Ссылки буквами А, В и С, такие же, как и на фигуре 3.

Фигура 5. Схематическая диаграмма, показывающая воплощение способа по изобретению. Стадия лигирования [стадия (i)]. Геномные фрагменты (черные линии) из стадии получения образца литеровали с двумя Y-адаптерами, каждый из которых образован первой цепью ДНК (А) и второй цепью ДНК (В), вторая цепь ДНК образована петлей шпилькой (С), а первый сегмент расположен у 3'-конца в 3' области (D). Стадия удлинения. Синтетическая последовательность (пунктирная линия, F) получали с помощью шпильки в качестве праймера для полимеразы. Бисульфит (стадия ii). Молекулы, полученные после стадии элонгации, обрабатывали бисульфитом при этом теряется комплементарность цепи. Дополнительная стадия генерации цепи (стадия элонгации) [стадия (iii)]. Праймер (G) добавляли для первого цикла амплификации (пунктирная линия, H).

Фигура 6. Схематическая диаграмма, показывающая другое воплощение способа по настоящему изобретению. Стадия лигирования [стадия (i)] и стадия элонгации [стадии (iii)] такие же, как описанные выше. Показан первый раунд стадии амплификации [стадия (iv)] где использовали праймер, комплементарный части комплементарной последовательности первой цепи ДНК адаптерной молекулы (G) или праймер комплементарный специфической последовательности, комплементарной последовательности геномного фрагмента для создания библиотеки по изобретению (J). Пары праймеров (G, I) или (J, K) могут быть использованы для второго и последующего раундов амплификации.

Фигура 7. Схематическая диаграмма, показывающая одно воплощение способа по изобретению. Стадия лигирования [стадия (i)]. Геномные фрагменты (черные линии) из стадии получения образца лигировали с двумя Y-адаптерами, каждый из которых образован первой цепью ДНК (А), и второй цепью ДНК (В). Праймер элонгации (D) гибридизовали со второй цепью молекулы Y-адаптера, создающего выступающие концы, совместимые со шпилечным адаптером (С). Праймер для элонгации (D) использовали для полимеразной элонгации для получения синтетической цепи (пунктирная линия).

Фигура 8. Схематическая диаграмма, демонстрирующая воплощение способа по изобретению, где адаптер-шпилька (С) и праймер для элонгации (D), предоставляются в виде комплекса. Стадия лигирования [стадия (i)]. Геномные фрагменты (черные линии) из стадии получения образца лигировали с двумя Y-адаптерами, каждый из которых образован первой цепью ДНК (А), и второй цепью ДНК (В). Комплекс, образованный из адаптера-шпильки (С) и праймера для элонгации (D), гибридизовали со второй цепью молекулы Y-адаптера и использовали для полимеразной элонгации для получения синтетической цепи (пунктирная линия).

Фигура 9. Схематическая диаграмма, показывающая два дополнительных воплощения способа по изобретению, где адаптер-шпилька и праймер для элонгации (А или В) предоставляются в виде комплекса.

Фигура 10. Схематическая диаграмма, показывающая воплощение способа по изобретению, где адаптер-шпилька (шпилечная последовательность или молекула-шпилька) (F) и праймер для элонгации (E) предоставляются в виде комплекса. Стадия фрагментации и лигирования. Геномные фрагменты (черная линия) связаны с молекулой гемиадаптера, содержащей первую цепь ДНК (А) и вторую цепь ДНК (С) и имеющей комбинаторную последовательность (В) в первой цепи ДНК. Стадия замены. Вторую цепь ДНК (С) гемиадаптера заменяли альтернативной второй цепью (D). Стадия заполнения разрывов. Заполняли разрывы, существующие между 5'-концом альтернативной второй цепи и 3'-концом фрагмента ДНК. Комплекс, образованный из адаптера-шпильки (F) и праймера для элонгации (Е), гибридизовали с альтернативной второй цепью молекулы Y-адаптера и использовали для полимеразной элонгации для получения синтетической цепи (пунктирная линия).

Фигура 11. Схематическая диаграмма, показывающая другое воплощение способа по настоящему изобретению, где альтернативная вторая цепь (D), адаптер-шпилька (F) и праймер для элонгации (Е) предоставляются в виде комплекса.

Фигура 12. Схематическая диаграмма, показывающая стадии амплификации продуктов нескольких воплощений способа по изобретению. Показано распределение исходной последовательности (А) и синтетической последовательности (В) каждого амплифицированного продукта, которые соединены с помощью адаптера-шпильки (С).

Фигура 13. Схематическая диаграмма, показывающая несколько воплощений способа по изобретению, где адаптеры (С и D) содержат различные комбинаторные последовательности. Комбинаторные штрихкоды (YY, XX, соответственно) позволяют уникально маркировать молекулы. По окончании всего процесса, эти комплементарные цепи, которые первоначально были вместе, будут нести одни и те же два штрихкода. Это позволяет отслеживать обе цепи (А и В) каждого фрагмента двухцепочечной ДНК.

Фигура 14. Схематическая диаграмма, показывающая воплощение способа по изобретению, где адаптер представляет собой Y-адаптер. Стадия лигирования [стадия (i)]. Геномные фрагменты (черная линия, А, В) на стадии подготовки образца лигировали с двумя Y-адаптерами (С, D), каждый из которых образован первой цепью ДНК (серая), и второй цепью ДНК (белая), где адаптеры включают различные дцДНК комбинаторные последовательности (XX и YY, соответственно). Стадия с бисульфитом [стадия (ii)]. Молекулы, полученные после стадии лигирования, обрабатывали бисульфитом и комплементарность цепи теряется (свечение). Дополнительная стадия генерации цепи (стадия элонгации) [стадия (iii)]. Праймер (Е) добавляли для первого цикла амплификации (пунктирная линия). Комбинаторные штрихкоды позволяют осуществить уникальную маркировку молекулы. По окончании всего процесса эти комплементарные цепи, которые первоначально были вместе, будут иметь два одинаковых штрихкода. Это позволяет отслеживать обе цепи (А и В) каждого фрагмента двухцепочечной ДНК.

Фигура 15. Схематическая диаграмма, показывающая способ получения ДНК Y-адаптера, содержащего комбинаторную последовательность. Стадия гибридизации. Первый одноцепочечный полинуклеотид (А) контактирует со вторым одноцепочечным полинуклеотидом (В), где указанный второй полинуклеотид имеет комбинаторную последовательность (С) и является обратимо блокируемым (черный треугольник; D) на 3'-конце. Стадия элонгации. 3'-конец первого полинуклеотида удлиняется для образования последовательности (Е), комплементарной 5'-участку второго полинуклеотида. Стадия снятия блокировки. 3'-конец второго полинуклеотида разблокируется (белый треугольник).

Фигура 16. Схематическая диаграмма, показывающая примерные адаптеры, включающие комбинаторную последовательность для применения в способе по изобретению, и способ их синтеза. Протокол получения различных Y-адаптеров в соответствии с несколькими воплощениями настоящего изобретения.

Подробное описание изобретения

Настоящее изобретение относится к способу идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК. Этот способ в любом из описанных воплощений обеспечивает точность последовательности и повышает качество последовательности, так как обе цепи одной молекулы ДНК считываются одновременно и контроль ошибки и контроль смещения являются исчерпывающими.

Кроме того, из-за более точной последовательности, требуется меньше охвата для получения достоверных показаний, и требуется меньше исходного материала. В частности, библиотеки двухцепочечной ДНК, сгенерированные способом согласно изобретению, могут быть получены из небольших количеств ДНК и широкого круга опытных препаратов, в том числе тех, которые включают фрагментацию ДНК.

Способ по настоящему изобретению, в любом из описанных воплощений обеспечивает дополнительное преимущество, которое заключается в том, что образец, использованный в качестве ДНК-матрицы, может быть сохранен в ходе процесса, и он может быть восстановлен, сохранен и представлен в нескольких амплификациях с различными условиями и множественным секвенированием без истощения образца. В частности, адаптер и/или шпилечные последовательности и/или последовательности штрихкода, в зависимости от конкретного случая, используемые в способе по изобретению в любом из описанных воплощений могут иметь уникальные штрихкоды (называемые также последовательностями штрихкода, комбинаторными последовательностями или комбинаторными штрихкодами) для идентификации образцов и функциональных групп для того, чтобы обеспечить восстановление матрицы исходной ДНК после стадии амплификации или элонгации. Штрихкоды также могут быть представлены в виде отдельных молекул, как это описано ниже.

Способ по настоящему изобретению во всех его воплощениях особенно полезен для секвенирования метилированных последовательностей. Библиотеки двухцепочечных ДНК, полученные способом по изобретению, сохраняют однозначную последовательность ДНК и информацию о метилировании ДНК, что позволяет осуществить одновременное обнаружение вариаций последовательности (в том числе полиморфизмов и мутации) и модификаций ДНК метилированием. В частности, так как анализируются обе цепи одновременно, способ по изобретению позволяет определять симметрию метилирования ДНК в масштабе генома. При считывании обеих цепей, процесс секвенирования можно контролировать и ошибки, полученные в каждом отдельном прочтении последовательности могут быть исправлены, что приводит, таким образом, к получению более достоверной информации, как генома, так и метилома.

Кроме того, количественные результаты для вариантов последовательности (в том числе полиморфизмы и мутации), и модификации метилирования ДНК могут быть получены путем введения комбинаторных штрихкодов в ДНК-матрицу. Указанные штрихкоды позволяют контролировать каждую библиотеку на предмет смещений, введенных во время обработки образца (т.е. гетерогенной деградации ДНК) и амплификации (т.е. различной эффективности амплификации для вариантов последовательности). Для достижения этой цели в настоящем изобретении предлагается способ синтеза комбинаторных штрихкод адаптеров ДНК с ультравысокой эффективностью.

Кроме того, изобретение также обеспечивает получение библиотек и секвенирования метилированных последовательностей, где используемые адаптеры, включают уникальный комбинаторный штрихкод, который позволяет отслеживать смысловую и антисмысловую нити исходной молекулы ДНК. Таким образом, весь процесс получения ДНК-библиотеки и секвенирования с помощью способа по изобретению является менее трудоемким, как по ручному труду, так и по вычислительному, и является менее дорогим при использовании способов предшествующего уровня техники. Это позволяет идентифицировать метилированные цитозины в обеих нитях исходных молекул двухцепочечных ДНК, предпочтительно геномных ДНК.

Изобретение относится к способу идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающему стадии

(i) Лигирования двухцепочечных ДНК-адаптеров, по меньшей мере, одного конца цепи из множества молекул двухцепочечной ДНК и спаривание цепи множества молекул двухцепочечной ДНК для того, чтобы обеспечить множество спаренных адаптер-модифицированных молекул ДНК;

(ii) Преобразования (неметилированного) цитозина присутствующего в обеих цепях спаренных адаптер-модифицированных молекул ДНК в урацил в спаренных адаптер-модифицированных молекул ДНК;

(iii) обеспечения комплементарных цепей спаренных и трансформированных адаптер-модифицированных молекул ДНК с использованием нуклеотидов A, G, С и Т, и праймеров, последовательности которых комплементарны, по меньшей мере, части двухцепочечных адаптеров (полученных после стадии трансформации (ii)) для того, чтобы обеспечить частично трансформированные спаренные двухцепочечные молекулы;

(iv) необязательно амплификации частично трансформированных спаренных молекул двухцепочечных ДНК, полученных на стадии (iii), для получения амплифицированных спаренных молекул двухцепочечных ДНК;

(v) Секвенирования спаренных молекул ДНК, полученных на стадиях (ii), (iii) или на стадии (iv) (предпочтительно на стадии (iii) и/или на стадии (iv)),

где присутствие метилированных цитозинов в данном положении определяется, если цитозин находится в одной из цепей спаренных молекул двухцепочечных ДНК, полученной на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК, или где присутствие неметилированных цитозинов в данном положении определяется, если урацил или тимин находятся в одной из цепей спаренных молекул двухцепочечных ДНК, полученной на стадии (iii) или на стадии (iv), а гуанин появляется в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК.

Способ по настоящему изобретению позволяет получить библиотеки двухцепочечных ДНК, в которых исходные смысловые и антисмысловые цепи молекулы ДНК могут быть физически связаны (если спаривание происходит через молекулу-шпильку, как это описано ниже) после стадий (i), (ii), (iii) и, необязательно, (iv). Схематическая диаграмма способа по изобретению показана на фигуре 1.

Термин «библиотека ДНК», при использовании в данном документе, может относиться к набору фрагментов ДНК, которые были лигированы с адаптерными молекулами для того, чтобы идентифицировать и выделить представляющие интерес ДНК-фрагменты.

Выражение «библиотека двухцепочечных ДНК», при использовании в данном документе, может относиться к библиотеке, которая содержит обе цепи молекулы ДНК (то есть смысловую и антисмысловую цепи), которые могут быть физически одной и той же молекулой. Цепи молекул двухцепочечной ДНК из библиотеки ДНК также могут быть физически несоединены одним из своих концов. Они могут быть спарены с последовательностями штрихкодов, как описано ниже. Библиотека двухцепочечных ДНК способа по изобретению не является кольцевой библиотекой. Оригинальные цепи молекулы ДНК могут быть физически соединены одним из своих концов с помощью петли, образуя, таким образом, дуплекс между смысловой и антисмысловой цепями. Каждая молекула библиотеки двухцепочечных ДНК могут также находиться в линейной конформации, когда комплементарность между смысловой и антисмысловой цепи молекулы ДНК частично или полностью утрачена. Кроме того, исходные цепи молекулы ДНК физически могут быть несоединены одним из своих концов, а спарены, по меньшей мере, одной последовательностью штрихкода.

Способ по настоящему изобретению требует популяции или множества молекул двухцепочечных ДНК. «Популяция или множество молекул двухцепочечных ДНК», при использовании в данном документе, представляет собой набор из молекул двухцепочечных ДНК, которые могут быть, без ограничения перечисленным, геномной ДНК (ядерной ДНК, митохондриальной ДНК, хлоропластной ДНК и т.п.), плазмидной ДНК или двухцепочечной молекулой ДНК, полученные из образцов одноцепочечных нуклеиновых кислот (например, ДНК, кДНК, мРНК). В одном воплощении указанная популяция образована фрагментами ДНК.

Предпочтительно, если множество молекул двухцепочечных ДНК представляет собой геномную ДНК. Это может быть весь геном или уменьшенная репрезентация генома. Указанная ДНК может быть получена, например, путем обогащения или с помощью иммунопреципитации хроматина (CHIP).

Термин «геномная ДНК» относится к наследуемой генетической информации организма. Геномная ДНК включает ДНК ядра (также известная как хромосомная ДНК), но и ДНК пластид (например, хлоропластос) и других клеточных органелл (например, митохондрий). Термин «геномная ДНК» рассматриваемый в настоящем изобретении, включает геномную ДНК, содержащую последовательности, комплементарные тем, которые описаны в настоящем документе.

Предпочтительно, если множество молекул двухцепочечных ДНК представляют собой фрагменты ДНК. ДНК фрагментируется с помощью любого подходящего способа, включая, без ограничения перечисленным, механическое усилие (обработка ультразвуком, распыление, кавитация и т.д.), ферментативная фрагментация (ферментативный гидролиз с помощью рестриктаз, однонитевых разрывов эндонуклеаз, экзонуклеаз и т.д.) и химическую фрагментацию (диметилсульфат, гидразин, NaCl, пиперидин, кислота и т.д.). В принципе, нет никаких ограничений на длину фрагментов ДНК после фрагментации, хотя предпочтительно иметь узкий диапазон длин. Приемлемый размер фрагментов может быть выбран перед стадией (i) первого способа по настоящему изобретению. Оптимальная длина будет, в конечном счете, зависеть от доступных методов секвенирования. В более предпочтительном воплощении изобретения двухцепочечные молекулы ДНК являются фрагментами геномной ДНК.

Множество молекул двухцепочечной ДНК, используемых на стадии (i) может быть получено путем:

a) Обеспечения популяции молекул двухцепочечных ДНК, полученных из геномной ДНК;

b) разделения двухцепочечной молекул, полученных из геномной ДНК, для получения одноцепочечных молекул ДНК из геномной ДНК;

c) Предоставления комплементарных цепей одноцепочечных молекул ДНК, полученных из геномной ДНК с использованием нуклеотидов A, G, С и Т для того, чтобы получить молекулы двухцепочечной ДНК, используемые на стадии (i).

Предпочтительно, если множество молекул двухцепочечных ДНК, к которым лигированы адаптеры, содержит молекулы ДНК, содержащие (неметилированный) цитозин в обеих цепях и/или неметилированный цитозин в одной из цепей.

Обычно концы популяции молекул двухцепочечных ДНК обрабатывали таким образом, чтобы образец можно было ввести в определенный протокол платформы для секвенирования.

Необязательно, двухцепочечные ДНК-адаптеры могут содержать «сайты для разрезания» (например, «сайты рестрикции», последовательности олигонуклеотидов, которые распознаются ферментами рестрикции). «Сайты для разрезания» добавляют путь для адаптации конечных элементов библиотеки к потребностям различных платформ секвенирования. Хотя это приспособление может быть достигнуто за счет специальной конструкции двухцепочечных ДНК-адаптеров (путем введения последовательностей, которые совместимы с реактивами платформы, например, праймерами для секвенирования), участки разрезания делают возможной модульность, для того, чтобы добавить штрихкоды или адаптеры для мультиплексирования (смешанный образец различного происхождения) или для нужд любой из платформ для масштабного секвенирования (или также для устранения возможно ненужных нуклеотидов). «Сайты для разрезания» представляют собой специфические последовательности, которые позволяют присутствовать известной мишени на краях множества спаренных адаптер-модифицированных молекул ДНК (библиотека спаренных адаптер-модифицированных молекул ДНК, полученная на стадии (i), или библиотека спаренных и трансформированных адаптер-модифицированных молекулы ДНК, полученная на стадии (iii) (и, возможно, на стадии (iv)). «Сайты для разрезания» могут быть сшиты с множеством молекул двухцепочечной ДНК, до или после стадии лигирования адаптеров и/или шпилечных последовательностей и/или последовательностей штрихкода. Как было указано выше, «сайты для разрезания» могут быть уже включены в адаптеры и/или шпилечные последовательности и/или последовательности штрихкодов. Таким образом, все фрагменты могут быть разрезаны, а адаптеры могут быть правильно лигированы (таким образом, последовательности адаптеров и/или шпилечные последовательности и/или последовательности штрихкодов, которые больше не требуются, могут быть удалены в целях повышения эффективности секвенирования).

Предпочтительно, если молекулы двухцепочечной ДНК, используемые на стадии (i), подвергнуты концевой репарации перед стадией (i).

Термин «подвергнутый концевой репарации», при использовании в данном документе, относится к преобразованию ДНК-фрагментов, которые содержат поврежденные или несовместимые 5'- и/или 3'-выступающие концы, в тупые концы ДНК, содержащей 5'-фосфатную и 3'-гидроксильную группы. Затупление концов ДНК может быть проведено с помощью ферментов, в том числе, без ограничения перечисленным, Т4 ДНК-полимеразой (имеющей 5'→3' полимеразную активностью, которая заполняет 5'-выступающие концы ДНК) и фрагментом Кленова ДНК-полимеразы I Е. coli (имеющей 3'→5' экзонуклеазную активность, которая удаляет 3'-выступы). Для эффективного фосфорилирования концов ДНК могут быть использованы любые ферменты, способные добавлять 5'-фосфаты к концам нефосфорилированных фрагментов ДНК, в том числе, без ограничения указанным, Т4-полинуклеотидкиназа.

Предпочтительно, если способ по изобретению дополнительно включает стадию концевой обработки аденином и концевой обработке аденином к молекулам ДНК после окончания стадии концевой репарации.

Термин «концевая обработка аденином», при использовании в данном документе, относится к добавлению основания А к 3'-концу тупого фосфорилированного фрагмента ДНК. Эта процедура создает совместимые выступы для последующего лигирования. Этот стадия выполняется способами, хорошо известными специалисту в данной области, с использованием, например, фрагмента Кленова ДНК-полимеразы I E. coli.

Множество двухцепочечных ДНК, использованных в качестве исходного материала в способах по настоящему изобретению, также может быть получено синтезом одноцепочечной ДНК, или кДНК. Популяция молекул двухцепочечных ДНК может быть получена из кДНК. Двухцепочечная ДНК также могут быть получена из мРНК (например, из РНК вируса) с помощью способов, хорошо известных в данной области техники, которые включают выделение мРНК, обратную транскрипцию РНК, с получением одноцепочечной кДНК и обработку одноцепочечной ДНК для получения двухцепочечной ДНК.

Образец, используемый для получения множества молекул двухцепочечных ДНК, может быть из биологического или природного источника. Биологические образцы включают, без ограничения перечисленным, образцы животных и человека, жидкие и твердые пищевые и кормовые продукты (молочные продукты, овощи, мясо и т.д.). Предпочтительные биологические образцы включают, без ограничения перечисленным, любую биологическую жидкость, клетку, ткань, орган или их часть, которые содержат ДНК или мРНК. Биологический образец может включать неопластическую клетку, например, клетку из толстой кишки, прямой кишки, молочной железы, яичников, предстательной железы, почек, легких, крови, головного мозга или другого органа или ткани. В качестве источника может быть использован любой организм, включающий, без ограничения перечисленным, бактерии, грибы, вирусы, растения, животные, например, люди, все остальные приматы, рептилии, насекомые, птицы, черве, рыбы, млекопитающие, домашние и сельскохозяйственные животные (коровы, лошади, свиньи, овцы, козы, собаки, кошки, грызуны и т.д.). Природные образцы включают, без ограничения перечисленным, поверхностные вещества, почву, воду и промышленные образцы, и образцы, полученные с помощью устройств для обработки пищевых продуктов и молочных продуктов. Анализируемый образец может быть получен из одного источника (например, одиночного организма, ткани, клетки и т.д.), или может представлять собой пул нуклеиновых кислот из множества организмов, тканей или клеток.

Стадия (i)

В первой стадии, способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК по изобретению включает лигирование двухцепочечных ДНК-адаптеров, по меньшей мере, с одного конца цепей множества молекул двухцепочечных ДНК. Предпочтительно, если адаптеры двухцепочечной ДНК могут быть лигированы с одним концом цепи множества молекул двухцепочечной ДНК. В ином случае, адаптеры двухцепочечной ДНК могут быть лигированы с обоих концов цепей множества молекул двухцепочечной ДНК.

Термины «адаптер» и «адаптор» используются взаимозаменяемо и относятся к олигонуклеотиду или фрагменту нуклеиновой кислоты или сегменту, который может быть лигирован с представляющей интерес молекулой нуклеиновой кислоты.

«Адаптерная молекула» в способе по изобретению, представляет собой двухцепочечную молекулу ДНК, имеющую на одном конце участки, которые совместимы с концами двухцепочечной ДНК. Молекула-адаптер может быть образована с помощью первой цепи ДНК, и второй цепи ДНК, которые по существу комплементарны. Молекула-адаптер может быть Y-адаптером, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где 5'-участок первой цепи ДНК и 3'-участка второй цепи ДНК, не являются комплементарными.

В одном из воплощений, по меньшей мере, одна часть двухцепочечных адаптеров имеет последовательности, общие для всех двухцепочечных адаптеров, используемых на стадии (i). В этом случае могут быть использованы идентичные праймеры для генерации комплементарных цепей парных и трансформированных адаптер-модифицированных молекул ДНК на стадии (iii), и/или на стадии амплификации (iv).

Необязательно, адаптеры включают уникальные и комбинаторные штрихкоды (также называемые «комбинаторные последовательности» или «штрихкоды» или «последовательности штрихкодов» или «комбинаторное мечение»), которые позволяют идентифицировать образец, провести мультиплексирование, спаривание, и количественный анализ. Конструкции, полученные способами по изобретению, имеют штрихкоды, которые позволяют получать уникальные идентификаторы, связанные с исходной конструкцией, тем самым позволяя различать конструкты. Указанные уникальные идентификаторы позволяют идентифицировать конкретный конструкт, содержащий указанный идентификатор, и его потомков. Каждый уникальный идентификатор, ассоциирован с отдельной молекулой в исходном образце. Таким образом, любые продукты амплификации указанной исходной отдельной молекулы, несущей уникальный идентификатор, считаются идентичными по происхождению. Комбинаторные штрихкоды также позволяют количественно оценить процент отдельных последовательностей в образце и могут быть использованы для мониторинга и контроля смещения при выполнении стадий амплификации.

Последовательности штрихкодов добавляют функцию 'контроля смещения'. Когда происходит амплификация, некоторые фрагменты могут стать избирательно амплифицированы по ряду причин. Этот нежелательный эффект является серьезной проблемой для целей количественной оценки, что имеет решающее значение во многих приложениях для секвенирования, особенно для анализа статуса метилирования ДНК (так как каждая аллель в каждой клетке может иметь различный статус метилирования, и даже образцы могут иметь гетерогенные композиции, которые делают количественную оценку и контроль смещения обязательными для большинства приложений). Соответственно, наличие, по меньшей мере, одной последовательности с штрихкодом позволяет контролировать смещение. Так как каждая двухцепочечная молекула ДНК из множества молекул двухцепочечных ДНК может иметь одну или несколько различных последовательностей штрихкодов, то можно провести контроль смещения и обнаружить селективную амплификацию заданной двухцепочечной или одноцепочечной молекулы ДНК.

В настоящее время устройства для секвенирования имеют допустимые частоты ошибок. Большинство из этих ошибок не может быть отображено и остается скрытым в конечных результатах. Это имеет негативные последствия для последующей обработки и анализа результатов. Способ по настоящему изобретению обеспечивает до четырех источников информации для каждого нуклеотида (верхние и нижние нити данной дцДНК и, в зависимости от обстоятельств, их соответствующие синтетические комплементарные цепи), что позволяет подтверждать достоверность считывания каждого нуклеотида, поскольку все показания должны быть согласованы. Таким образом, способ по изобретению позволяет обнаруживать и даже корректировать ошибки при определении последовательности (как для определения первичной последовательности, так и для анализа метилирования цитозина).

Предпочтительно, если предлагаются адаптерные молекулы и/или шпилечные последовательности и/или последовательности штрихкодов, соответственно, в качестве библиотеки молекул, где каждый элемент библиотеки отличается от других комбинаторной последовательностью в пределах последовательности, как описано ниже.

Термин «библиотека адаптерных молекул и/или шпилечных последовательностей и/или последовательностей штрихкодов» и/или «комбинаторное мечение», при использовании в данном документе, относится к набору адаптерных молекул и/или шпилечных последовательностей и/или последовательностей штрихкодов, где каждый элемент коллекции отличим от других по комбинаторной последовательности внутри адаптера и/или шпилечных последовательностей и/или последовательностей штрихкодов.

Термины «комбинаторная последовательность», «последовательность штрихкода», «штрихкод» и «комбинаторный штрихкод» используются как взаимозаменяемые по всему настоящему описанию и относятся к уникальному идентификатору, для индивидуального адаптера/шпилечной последовательности или отдельной молекулы ДНК (последовательность штрихкода сама по себе, не принадлежащая адаптеру и/или шпилечной последовательности). Предпочтительно, последовательность с штрихкодом включена в адаптер и/или шпилечную последовательность. В одном из воплощений комбинаторная последовательность в пределах адаптерной последовательности/шпилечной последовательности является вырожденной последовательностью нуклеиновой кислоты. Комбинаторная последовательность может содержать любой нуклеотид, включая аденин, гуанин, тимин, цитозин, метилированный цитозин и другие модифицированные нуклеотиды. Число нуклеотидов в комбинаторной последовательности предпочтительно подобрано таким образом, чтобы число потенциальных и действительных последовательностей, представленных комбинаторной последовательностью, было больше, чем общее число адаптеров в библиотеке. Комбинаторная последовательность может быть расположена в любом участке адаптерной последовательности/шпильки. Предпочтительно, если она расположена в двухцепочечном участке адаптерной последовательности/шпильки.

Необязательно, последовательность адаптера/шпильки включает основания, меченные вторым элементом пары связывания, как описано ниже, что позволяет восстановить исходную матрицу ДНК после стадии элонгации ли амплификации. Это обеспечивает преимущество, которое заключается в том, что образец, используемый в качестве матричной ДНК сохраняется в течение процесса и исходная матрица ДНК, формируемая смысловой и антисмысловой цепями, может быть восстановлена, сохранена и подвергнута нескольким амплификациями и секвенированиям в различных условиях без истощения образца. Схематическая диаграмма способа по изобретению показана на фигуре 1.

На первой стадии (i), способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК по изобретению дополнительно включает спаривание цепей множества молекул двухцепочечных ДНК для того, чтобы обеспечить множество спаренных адаптер-модифицированных молекул ДНК.

«Стадия спаривания» первой стадии способа по изобретению, может быть выполнена путем ковалентного связывания нити одной или нескольких молекул двухцепочечной ДНК со шпилечными последовательностями (также называемых «молекулы-шпильки» или «шпилечные адаптеры»). «Стадия спаривания» первой стадии способа по изобретению, может быть выполнена с использованием последовательностей штрихкодов. «Стадия спаривания» первой стадии способа по изобретению, может быть выполнена с использованием как шпилька и последовательности штрихкода.

Например, «Стадия спаривания» первой стадии способа по изобретению, может быть проведена с помощью шпилечной последовательности. Шпилечная последовательность может содержать участок петли шпильки и двухцепочечный участок, где указанный двухцепочечный участок содержит концы, которые совместимы с концами двухцепочечных молекул ДНК (и/или с концами последовательностей штрихкодов, если они уже лигированы с нитями ДНК). Спаривание может таким образом быть выполнено путем ковалентного связывания нити одной или нескольких молекул двухцепочечных ДНК со шпилечной последовательностью. Шпилечная последовательность может также содержать одну или несколько последовательностей штрихкодов.

В этом случае, получали библиотеки двухцепочечных ДНК, в которых исходные смысловые и антисмысловые цепи молекулы ДНК физически связаны (см., например, фигуру 1).

Термин «спаривание последовательностей» или «спаренные молекулы», может быть использован в контексте настоящего изобретения для обозначения последовательностей, пригодных для спаривания цепей одной или нескольких молекул двухцепочечной ДНК. Например, «спаренные последовательности» могут относиться к шпилечным последовательностям и/или к одной или нескольким последовательностям штрихкодов. Термин «шпилечная последовательность» (или «шпилечная молекула» или «шпилечный адаптер»), при использовании в способе по настоящему изобретению, относится к дуплексу, образованному одноцепочечной нуклеиновой кислотой, которая удваивается обратно на себя, с образованием двухцепочечного участка, поддерживаемого спариванием оснований между комплементарными последовательностями оснований на одной цепи. Указанная шпилечная молекула также содержит участок петли шпильки, образованный неспаренными основаниями. Шпилечная последовательность расположена в противоположном конце молекул двухцепочечной ДНК относительно расположения двухцепочечного ДНК-адаптера в молекулах двухцепочечной ДНК.

Необязательно «Стадия спаривания» первой стадии (стадия (i)) способа по изобретению, может быть проведена путем применения штрихкодов (также обозначаемых как «последовательности штрихкодов», «комбинаторные последовательности» и/или «комбинаторный штрих-код» и/или «штрихкод» и/или «комбинаторное мечение», как описано выше). Спаривание, таким образом, может быть выполнено с использованием последовательностей штрихкодов.

«Комбинаторная последовательность», «комбинаторный штрихкод», «последовательности штрихкода» или «штрихкоды», используемые для спаривания с цепями множества молекул двухцепочечной ДНК, могут быть расположены в адаптере(ах) и/или, в случае наличия, в шпилечной последовательности. Штрихкод может быть отдельной двухцепочечной молекулой ДНК, которая может быть лигирована с одного или с обоих концов молекулы двухцепочечной ДНК. Например, штрихкод может быть лигирован к одному или к двум концам молекулы двухцепочечной ДНК, до того, как адаптерная и/или шпилечная последовательность будут лигированы с молекулой двухцепочечной ДНК (и в этом случае адаптерная и/или шпилечная последовательность может быть лигирована с штрихкодом). Например, штрихкод может быть лигирован к одному или к двум концам молекулы двухцепочечной ДНК, после того, как адаптер лигирован с молекулой двухцепочечной ДНК, и, таким образом, может быть лигирован к адаптеру.

Спаривание может также быть выполнено как с использованием шпилечных последовательностей, так и штрихкодов.

Адаптеры, шпилечные последовательности и/или последовательности штрихкодов могут содержать неметилированные цитозины и/или метилированные цитозины. Адаптеры, шпилечные последовательности и/или последовательности штрихкодов могут не содержать неметилированные цитозины. Например, адаптеры, шпилечные последовательности и/или последовательности штрихкода не содержат цитозинов. Например, адаптеры шпилечные последовательности и/или последовательности штрихкода содержат метилированные цитозины, но они не содержат неметилированные цитозины. Например, адаптеры, шпилечные последовательности и/или последовательности штрихкода содержат метилированные цитозины. Например, адаптеры, шпилечные последовательности и/или последовательности штрихкода содержат метилированные цитозины и неметилированные цитозины.

Если адаптер содержит неметилированные цитозины, то эти неметилированные цитозины будут одинаково обработаны реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (предпочтительно урацил) (на стадии (ii) способа по изобретению в любом из его воплощений), и, таким образом, в равной степени преобразуется в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (предпочтительно урацил). Соответственно, праймеры, используемые на стадии (iii) (и, необязательно, на стадии (iv)), должны включать последовательности, комплементарные, по меньшей мере, части двухцепочечных адаптеров после такого преобразования.

Термин «концы», при использовании в данном документе, относится к областям последовательности в точке (или вблизи) любого конца последовательности нуклеиновой кислоты.

Термин «совместимый», при использовании в данном документе, означает, что обе цепи одного из концов адаптерной молекулы способны лигироваться к одному или обоим концам молекулы двухцепочечной ДНК, используемой в качестве исходного материала. Совместимые концы включают тупые концы ДНК и липкие концы с комплементарными свесами. Два совместимых конца могут быть соединены вместе, предпочтительно без какого-либо разрыва или рассогласования и могут быть лигированы с получением ДНК-последовательности, которая часто содержат сайты рестрикции.

Термин «тупые концы», при использовании в данном документе, означает, что обе цепи двухцепочечной ДНК, имеют одинаковую длину и оканчиваются парой оснований (т.е. отсутствуют неспаренные основания и цепи не перекрываются или не выступают друг над другом).

Термины «адгезивные концы», «липкие концы» и «выступающие концы» используются в данном документе взаимозаменяемо и относятся к нетупым концам, образованным различными выступами. Выступ представляет собой участок непарных нуклеотидов в конце молекулы ДНК. Эти непарные нуклеотиды могут находиться в любом из цепей, создавая либо 3-', либо 5'-выступы. Эти выступы в большинстве случаев являются палиндромными. Простейшим случаем выступа является одиночный нуклеотид. Чаще всего это аденозин, который создается в качестве 3'-выступа некоторыми ДНК-полимеразами. Продукт соединяется с линейной молекулой ДНК с 3'-выступами с тимином. Так как аденин и тимин образуют пару оснований, это облегчает соединение двух молекул с помощью лигазы. В первом способе по изобретению, когда молекулы двухцепочечной ДНК, используемые на стадии (i), подвергаются концевой репарации и концевой обработке аденина перед стадией (i), первая и вторая адаптерной молекулы должны иметь 3'-выступ с тимином. Более длинные выступы чаще всего создается рестрикционными эндонуклеазами. Например, эндонуклеаза рестрикции может разрезать две цепи ДНК, на расстоянии четырех пар оснований друг от друга, создавая 5'-выступ из четырех оснований в одной молекуле, и комплементарный 5'-выступ на другой. Эти концы называются липкими концами, так как они легко соединяются друг с другом с помощью лигазы. Так как различные типы рестриктаз, как правило, создают различные выступы, можно вырезать кусок ДНК двумя различными ферментами, а затем соединить ее с другой молекулой ДНК с концами, созданных теми же самыми ферментами. Так как выступы должны быть комплементарными для работы лигазы, обе молекулы могут объединяться только в одной ориентации.

Стадию лигирования (i) осуществляют в условиях, достаточных для лигирования адаптера и/или спаривания молекул (шпилечных последовательностей и/или последовательностей штрихкода) с молекулами ДНК, с получением множества адаптер-модифицированных молекул ДНК.

Термин «дотирование», при использовании в данном документе, относится к образованию ковалентной связи или соединения между концами двух или более нуклеиновых кислот. Характер связи или соединения может изменяться в широких пределах и лигирование может быть осуществлено ферментативно или химическим способом. При использовании в данном документе, лигирование, как правило, проводят ферментативно с образованием фосфодиэфирной связи между 5'-углеродом концевого нуклеотида одной нуклеиновой кислоты и 3'-углеродом другой нуклеиновой кислоты. Условия, необходимые для лигирования, представляют собой любые условия, которые позволяют получить двухцепочечную молекулу ДНК, связанную с одним или двумя адаптерами. Предпочтительные условия представляют собой применение ДНК-лигазы, хотя процедуры для лигирования без использования ДНК-лигазы также известны.

Спаривание может быть выполнено до или после лигирования или одновременно с дотированием адаптеров и/или шпилечных последовательностей. Предпочтительно спаривание выполняется одновременно с дотированием адаптеров и/или шпилечных последовательностей.

Результат первой стадии способа по изобретению (стадия (i)) представляет собой множество молекул ДНК.

В контексте способа по настоящему изобретению, если стадия спаривания стадии (i) способа по изобретению осуществляется в присутствии шпилечной последовательности (например, при наличии шпилечной последовательности самой по себе или при наличии шпилечной последовательности и одной или нескольких последовательностей штрихкодов), то молекулы ДНК, полученные на стадии (i) могут представлять собой (см. фигуру 1):

A) двухцепочечные молекулы ДНК, дотированные с одной адаптерной молекулой (необязательно включающей, по меньшей мере, одну последовательность штрихкода) на одном конце и второй молекулой на другом конце, где вторая молекула представляет собой шпилечную последовательность (и, возможно, в том числе одну или несколько последовательностей штрихкодов) (это так называемые спаренные адаптер-модифицированные молекулы ДНК);

B) двухцепочечные молекулы ДНК, дотированные с двумя адаптерными молекулами, в отсутствие шпилечной последовательности (по меньшей мере, по одной на каждом конце);

C) двухцепочечные молекулы ДНК, литерованные с двумя молекулами (по меньшей мере, по одной на каждом конце), которые могут быть шпилечными последовательностями и/или последовательностями штрихкода; и

D) двухцепочечные молекулы ДНК без какой-либо литерованной с ними молекулы (исходные молекулы двухцепочечных ДНК, а именно немодифицированные двухцепочечные молекулы ДНК).

В контексте способа по настоящему изобретению, если Стадия спаривания (i) способа по изобретению осуществляется при наличии (одной или нескольких) последовательностей штрихкодов и в отсутствие шпилечных последовательностей, то полученные ДНК-молекулы на стадии (i) могут представлять собой:

A) двухцепочечные молекулы ДНК, литерованные с одной адаптерной молекулой на каждом из концов молекулы двухцепочечной ДНК (в том числе, по меньшей мере, одной последовательностью штрихкода) (это так называемые спаренные адаптер-модифицированные молекулы ДНК);

B) двухцепочечные молекулы ДНК, литерованные, по меньшей мере, с одной адаптерной молекулы только на одном из концов молекулы двухцепочечной ДНК;

C), если это так, двухцепочечные молекулы ДНК, литерованные, по меньшей мере, с одной последовательностью штрихкода, но в отсутствие адаптерных молекул на каждом из концов молекул двухцепочечной ДНК; и

D) двухцепочечные молекулы ДНК без какой-либо молекул, литерованных с ними (исходные молекулы двухцепочечных ДНК, а именно немодифицированные двухцепочечные молекулы ДНК).

Если стадия спаривания стадии (i) способа по изобретению достигается за счет наличия (одной или нескольких) последовательностей штрихкодов и в отсутствие шпилечных последовательностей, то спаренные адаптер-модифицированные молекулы ДНК, полученные после стадии (i), должны быть лигированы с одной адаптерной молекулой на каждом из концов молекулы двухцепочечной ДНК (в том числе, по меньшей мере, с одной последовательностью, штрихкода для спаривания обеих цепей).

Популяция молекул двухцепочечных ДНК может быть обработана, перед стадией (i) адаптерными молекулами в условиях, достаточных для лигирования адаптерных молекул с молекулами ДНК, при которых в указанные молекулы ДНК вводятся липкие концы. Адаптерные молекулы, имеющие липкие концы, могут быть получены путем расщепления двухцепочечной ДНК подходящим ферментом эндонуклеазой рестрикции или могут быть получены синтетически, например, путем отжига одноцепочечных олигонуклеотидов.

После лигирования адаптеров и/или спаривания молекул (например, шпилечной последовательности и/или последовательности штрихкода) на стадии (i), стадия захвата (или «стадия восстановления», или «стадия очистки»)) может быть необязательно проведена для того, чтобы восстановить из реакционной смеси те молекулы, которые содержат адаптер(ы) и/или шпилечные последовательности и/или последовательности штрихкода в соответствии с вариантами (A) выше (в зависимости от спаренных молекул, как это было описано выше), а именно двухцепочечные молекулы ДНК, лигированные с одной адаптерной молекулой (необязательно включающей, по меньшей мере, одну последовательность штрихкода) на одном конце и второй молекулой на другом конце, где вторая молекула представляет собой шпилечную последовательность (и, необязательно включающую одну или несколько последовательностей штрихкодов), если спаривание достигается за счет наличия, по меньшей мере, шпилечной молекулы, и двухцепочечные молекулы, лигированные с одной адаптерной молекулой на каждом из концов молекулы двухцепочечной ДНК (включая, по меньшей мере, одну последовательность штрихкода), если спаривание осуществляется в отсутствие шпилечных последовательностей (только, по меньшей мере, одной последовательностью штрихкода) («стадия восстановления»). Таким образом, первая стадия (i) способа по изобретению, может дополнительно включать извлечение из популяции молекул ДНК, полученных на стадии (i), которые представляют собой адаптер-модифицированные молекулы ДНК, которые содержат адаптер(ы) и/или шпилечные последовательности и/или последовательности штрихкодов на одном конце или на обоих концах спаренной адаптер-модифицированной молекулы ДНК (молекулы в соответствии с (А) выше.

Указанная стадия позволяет отделить спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i), которые включают адаптер(ы) и/или шпилечные последовательности и/или последовательности штрихкодов (в соответствии с (А) выше) от остальной части полученных молекул ДНК (например, в соответствии с В)-D) выше) (не в соответствии с (А) выше). Указанная стадия захвата может быть проведена, например, с помощью зонда или лиганда, который имеет аффинность к шпилечным последовательностям и/или последовательностям штрихкодов, но не к молекуле адаптера, либо с помощью зонда, либо с помощью лиганда, который имеет аффинность только к молекуле адаптера.

Преимущество этого заключается в том, что использованный образец сохраняется в качестве ДНК-матрицы в ходе процесса и исходная ДНК-матрица, образованная смысловой и антисмысловой цепями, может быть восстановлена, сохранена и представлена в нескольких амплификациях и секвенированиях с различными условиями без истощения образца (стадия и iii и/или iv выше). Схематическая диаграмма показана на фигуре 1.

Предпочтительно, если стадия восстановления (который также может упоминаться как «стадия захвата» или «стадия очистки» или «стадии разделения») проводится с использованием полинуклеотида, последовательность которого комплементарна, по меньшей мере, части адаптерной последовательности и/или шпилечной последовательности и/или последовательности штрихкода и метки для очистки.

Термин «полинуклеотид», при использовании в данном документе, относится к молекуле одноцепочечной ДНК или РНК, содержащей несколько ковалентно связанных нуклеотидных мономеров. Предпочтительно полинуклеотид имеет 8 или более нуклеотидных мономеров. В предпочтительном воплощении полинуклеотид представляет собой одноцепочечную молекулу ДНК, имеющий, по меньшей мере, 8, по меньшей мере, 9, по меньшей мере, 10, по меньшей мере, 11, по меньшей мере, 12, по меньшей мере, 13, по меньшей мере, 14, по меньшей мере, 15, по меньшей мере, 16, по меньшей мере, 18, по меньшей мере, 20, по меньшей мере, 25, по меньшей мере, 30, по меньшей мере, 35, по меньшей мере, 40, по меньшей мере, 50, по меньшей мере, 60, по меньшей мере, 70, по меньшей мере, 80, по меньшей мере, 90, по меньшей мере, 100 или более нуклеотидов в длину.

Термин «метка для очистки», при использовании в данном документе, относится к фрагменту, который делает возможным разделение полинуклеотида и последовательности-мишени. Предпочтительно, если ДНК-каркас полинуклеотида содержит один или несколько нуклеотидов, которые конъюгируются с меткой для аффинной очистки. Предпочтительно, если метка для аффинной очистки может быть элементом пары связывания. Более предпочтительно, если метка для аффинной очистки представляет собой биотин и молекула двухцепочечной ДНК выделяется с помощью аффинной очистки с авидином или стрептавидином. Данная стадия, без ограничения указанным, может быть выполнена с помощью магнитных гранул.

Перед стадией (ii), множество спаренных адаптер-модифицированных молекул ДНК, полученных на стадии (i), (как определено в (А) выше, в обоих случаях, в зависимости от спаренных молекул) может быть отделено от молекул ДНК, полученных на стадии (i) в соответствии с В)-D), как определено выше), для создания библиотеки спаренных адаптер-модифицированных молекул ДНК в соответствии с (А) выше. Соответственно, способ по изобретению позволяет получить библиотеки двухцепочечных ДНК, в которых исходные смысловые и антисмысловые цепи молекулы ДНК спарены.

Термин «библиотека ДНК», при использовании в данном документе, относится к совокупности фрагментов ДНК, которые были лигированы с адаптерными молекулами для идентификации и выделения представляющих интерес ДНК-фрагментов.

Выражение «библиотека двухцепочечных ДНК», в данном контексте может относиться к библиотеке, которая содержит обе цепи молекулы ДНК (то есть смысловую и антисмысловую цепи) физически соединенные по одному из их концов (например, шпилечная последовательность) и образующих часть одной и той же молекулы. Библиотека двухцепочечных ДНК не является кольцевой библиотекой. Оригинальные цепи молекулы ДНК могут быть физически соединены одним из своих концов таким образом, чтобы петля формировалась дуплексом между смысловой и антисмысловой цепями (в соответствии с разделом А)). Каждая молекула библиотеки двухцепочечных ДНК может также находиться в линейной конформации, когда комплементарность между смысловой и антисмысловой цепями молекул ДНК частично или полностью утрачена. В ином случае, термин «библиотека двухцепочечных ДНК», в контексте способа по настоящему изобретению относится к библиотеке, где обе цепи молекулы ДНК физически не соединены по одному из своих концов, но спарены с использованием, например, по меньшей мере, одной последовательности штрихкода (в соответствии с А) выше).

Стадия лигирования стадии (i) способа по изобретению, может упоминаться как «стадия контакта».

Стадия (ii)

Метилирование ДНК, как правило, происходит на участках CpG (участки цитозин-фосфат-гуанин, в которых цитозин непосредственно следует за гуанином в последовательности ДНК). Это метилирование приводит к превращению цитозина в 5-метилцитозин. Образование Me (метил) -CpG катализируется ферментом ДНК-метилтрансферазой. Человеческая ДНК имеет около 80-90% метилированных CpG-участков, но есть определенные области, известные как CpG-островки, которые являются GC-богатыми (состоят из около 65% остатков CG), в которых нет метилирования. Они связаны с промоторами 56% генов млекопитающих, в том числе всех убиквитарно экспрессируемых генов. От одного до двух процентов генома человека представляют собой кластеры CpG, и существует обратная связь между CpG метилированием и транскрипционной активностью.

Паттерн метилирования играет важную роль в изучении некоторых заболеваний. В нормальной ткани, метилирование гена, в основном, происходит в кодирующей области, которая является CpG-бедной; в то время как участок промотора гена неметилирован, несмотря на высокую плотность CpG островков в данном участке. Однако в злокачественном новообразовании имеет место дисбаланс метилирования, при котором гипометилирование в масштабе генома сопровождается локальным гипометилированием и увеличением экспрессии ДНК-метилтрансферазы. Состояние метилирования некоторых генов может быть использовано в качестве биомаркера онкогенеза.

На второй стадии (стадия (ii)), популяцию спаренных адаптер-модифицированных молекул ДНК, полученных после стадии (i) обрабатывали реагентом, который позволяет трансформировать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (предпочтительно урацил), для того, чтобы проанализировать паттерн метилирования образца. Предпочтительно, если праймеры, используемые на стадиях (iii) (и, необязательно, (iv)) являются специфическими для адаптерной молекулы после обработки указанным реагентом. Фигура 1 демонстрирует схему этого воплощения способа по изобретению.

Выражение «основание, которое детектируемо отличается от цитозина по свойствам гибридизации», при использовании в данном документе, относится к основанию, которое не может гибридизоваться с гуанином в комплементарной ему цепи. Предпочтительно, если основанием, которое детектируемо отличается от цитозина, является тимин или урацил, более предпочтительно, урацил.

Реагент, используемый на этой стадии, должен быть реагентом, который способен превращать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, но не способен действовать на метилированные цитозины. Примерами таких агентов являются, без ограничения перечисленным, бисульфит, метабисульфит и цитидиндезаминазы, такие как индуцируемая активацией цитидиндезаминаза (AID). В предпочтительном воплощении реагент представляет собой бисульфит. При использовании в данном документе бисульфит-ион имеет привычную обозначение HSO3-. Как правило, бисульфит используют в виде водного раствора соли бисульфита, например, бисульфита натрия, пример, который имеет формулу NaHSO3, или бисульфита магния, который имеет формулу Mg(HSO3)2. Подходящие противоионы для соединения бисульфита могут быть моновалентными и дивалентными. Примеры одновалентных катионов включают, без ограничения перечисленным, натрий, литий, калий, аммоний и тетраалкиламмоний. Подходящие двухвалентные катионы включают, без ограничения перечисленным, магний, марганец и кальций. Обработка ДНК бисульфитом преобразует неметилированные основания цитозина в урацил, но оставляет 5-метилцитозин без изменений. Указанное преобразование выполняется с помощью стандартных процедур (Frommer et al. 1992, Proc Natl Acad Sci USA, 89:1827-31; Olek, 1996, Nucleic Acid Res. 24:5064-6; EP 1394172). Способы получения образца включают те, которые используются для бисульфитного секвенирования редуцированной представленности (RRBS).

Предпочтительно, если трансформация (неметилированного) цитозина в урацил в спаренных молекулах ДНК осуществляется с помощью бисульфита.

Когда спаренные адаптер-модифицированные молекулы ДНК, полученной на стадии (ii) обрабатывают реагентом, способным превращать неметилированные цитозины в основания, которые детектируемо отличаются от цитозина по свойствам гибридизации (предпочтительно в урацил, как описано выше), то комплементарность между смысловой и антисмысловой цепи исходных молекул двухцепочечной ДНК частично или полностью утрачивается. Это облегчает отжиг праймеров, используемых в последующих стадиях. Это также способствует созданию комплементарной цепи на стадии (iii), в частности, если одна из цепей имеет неметилированные цитозины и не имеет метилированные цитозины.

Считается, что спаренная адаптер-модифицированная молекула ДНК частично потеряла комплементарность между участками, входящими в состав смысловой и антисмысловой цепи исходных молекул двухцепочечных ДНК, если нуклеотиды одного из участков, входящих в состав смысловой или антисмысловой цепи, спариваются с менее чем 100% другого участка, менее чем 99%, менее чем 95%, менее чем 90%, менее чем 80%, менее чем 70%, менее чем 60%, менее чем 50%, менее, чем 40%, менее чем 30%, менее чем 20%, менее чем на 10%, менее чем 5%, менее чем 3%, менее чем 1%, менее чем 0,5%, менее, чем 0,1%. Считается, что комплементарность была полностью утрачена, если нуклеотиды одного из участков, входящих в состав смысловой или антисмысловой цепи, спарены менее чем с 0% другого участка.

В частном случае, если исходная молекула двухцепочечной ДНК, является полностью метилированной, комплементарность между смысловой и антисмысловой цепями исходных молекул двухцепочечной ДНК не теряется после обработки реагентом, способным превращать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по показателям свойств гибридизации (например, урацил). В частном случае, в котором одна из цепей имеет (неметилированные) цитозины и не имеет метилированные цитозины, комплементарность оптимально теряется.

Стадия (iii)

На третьей стадии, цепи ДНК синтезируются с использованием спаренных и трансформированных адаптер-модифицированных молекул ДНК, полученные на стадии (ii) в качестве матрицы в условиях, позволяющих синтез цепи, и с использованием в качестве праймера последовательность, которая комплементарна, по меньшей мере, части последовательности первой адаптерной молекулы. Соответственно, стадия (iii) способа по изобретению обеспечивает комплементарные цепи спаренных и трансформированных адаптер-модифицированных молекул ДНК с использованием нуклеотидов A, G, С и Т, и праймеров, последовательности которых комплементарны, по меньшей мере, части двухцепочечных адаптеров для получения частично трансформированных спаренных двухцепочечных молекул.

После обработки, например, бисульфитом, цепи ДНК синтезируются с использованием трансформированной и спаренной адаптер-модифицированной молекулы ДНК, полученной на стадии (ii) в качестве матрицы и с использованием праймера, последовательность, которого комплементарна, по меньшей мере, части адаптерной последовательности молекулы или, по меньшей мере, части дополнительной последовательности адаптерной молекулы (предпочтительно, праймеров, используемых на стадиях (iii) (и, необязательно, (iv)) является специфичной для адаптерной молекулы или ее комплементарной последовательности, после обработки реагентом, используемым на стадии (ii), как описано выше), и, при необходимости, полученный продукт может быть амплифицирован. Урацил распознается как тимин Taq-полимеразой, и после элонгации (и, необязательно, стадии амплификации), полученный продукт содержит тимин в положении, в котором ДНК-матрица имеет неметилированный цитозин и содержит цитозин в положении, в котором ДНК-матрица имеет 5-метилцитозин.

Выражение «синтез цепей ДНК» относится к синтезу молекулы ДНК, комплементарной к адаптер-модифицированной молекуле ДНК, используемой в качестве матрицы, в условиях, позволяющих синтез цепи.

Термин «матрица» относится к цепи ДНК, которая устанавливает генетическую последовательность новых цепей.

Выражение «в условиях, позволяющих синтез цепи» относится к условиям, в которых разрушаются водородные связи между комплементарными основаниями в участках, содержащих смысловую и антисмысловую цепи молекул двухцепочечных ДНК, используемых на стадии (i). Указанные условия, адекватные для разделения областей, содержащих смысловую и антисмысловую цепи исходных молекул двухцепочечных ДНК, которые включают, без ограничения перечисленным, условия, которые позволяют принять утверждение линеаризованной формы адаптер-модифицированных молекул ДНК, полученных после стадии (i), если спаривание было осуществлено шпилечной молекулой или при использовании изотермических методов, например, с помощью замещающих цепь ДНК-полимераз.

Условия, достаточные для разделения указанных участков, представляют собой условия, в которых денатурация обеих областей достигается, например, путем нагревания молекул до 94-98°C в течение 20 секунд-2 минут, что вызывает разрушение водородных связей между комплементарными основаниями. Разделение указанных областей также может быть достигнуто без нагрева молекул, путем использования изотермических методов, например, с помощью ДНК-полимераз, замещающих цепи, таких как, без ограничения перечисленным, Phi29DNA полимераза или большой фрагмент Bacillus stearothermophilus ДНК-полимеразы.

Кроме того, когда спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i) обрабатывали реагентом, способным превращать неметилированные цитозины в основания, которые детектируемо отличаются от цитозина по свойствам гибридизации (предпочтительно урацил), то комплементарность между смысловой и антисмысловой цепи исходных молекул двухцепочечной ДНК частично или полностью утрачивается. Это может облегчить синтез комплементарных цепей, особенно, если одна из цепей имеет метилированный цитозин и не имеет метилированный цитозин.

Термин «праймер», при использовании в данном документе, относится к короткой цепи нуклеиновой кислоты, которая является комплементарной последовательности, в другой нуклеиновой кислоте, и служит в качестве отправной точки для синтеза ДНК. Предпочтительно, если праймер имеет, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 6, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 9, по меньшей мере, 10, по меньшей мере, 11, по меньшей мере, 12, по меньшей мере, 13, по меньшей мере, 14, по меньшей мере, 15, по меньшей мере, 16, по меньшей мере, 18, по меньшей мере, 20, по меньшей мере, 25, по меньшей мере, 30 или более оснований в длину.

Термин «комплементарный» относится к спариванию оснований, которое обеспечивает образование дуплекса между нуклеотидами или нуклеиновыми кислотами, например, между двумя нитями молекулы двухцепочечной ДНК или между олигонуклеотидным праймером и сайтом связывания праймера на одноцепочечной нуклеиновой кислоте или между олигонуклеотидным зондом и комплементарной ему последовательности в молекуле ДНК. Комплементарными нуклеотидами являются, как правило, А и Т (или А и U) или С и G. Две одноцепочечных молекулы ДНК называются по существу, комплементарными, когда нуклеотиды одной цепи, оптимально выровненные и сравненные с соответствующими нуклеотидными вставками или делениями, спариваются с около 60% другой цепи, по меньшей мере, 70%, по меньшей мере, 80%, по меньшей мере, 85%, как правило, по меньшей мере, от около 90% до около 95%, и даже от около 98% до около 100%. Степень идентичности между двумя нуклеотидными областями определяется с помощью компьютерных алгоритмов и способов, широко известных специалистам в данной области техники. Идентичность между двумя нуклеотидными последовательностями предпочтительно определяют с использованием алгоритма BLASTN (BLAST Manual, Altschul, S. et al., NCBI NLM NIH Bethesda, Md. 20894, Altschul, S., et al., J., 1990, Mol. Biol. 215:403-410).

Праймер может гибридизоваться с последовательностью адаптерной молекулы (и, предпочтительно, с последовательностью, полученной из нее после обработки реагентом на стадии (ii), предпочтительно бисульфитом) в условиях низкой жесткости, предпочтительно в средних условиях жесткости, наиболее предпочтительно в условиях высокой жесткости. Праймеры, используемые на стадиях (iii) и, в этом случае, на стадии (iv) являются специфическими для адаптерной молекулы после обработки реагентом, который позволяет преобразовать (например, бисульфитом) неметилированные цитозины в основания, которые детектируемо отличаются от цитозина по свойствам гибридизации, как описано ранее.

«Гибридизация» относится к процессу, в котором два одноцепочечных полинуклеотида связываются нековалентно с образованием стабильного двухцепочечного полинуклеотида. «Условия гибридизации», как правило, включают концентрацию солей около 1 М или меньше, как правило, менее чем около 500 мМ, и могут составлять меньше, чем около 200 мМ. «Гибридизационный буфер» представляет собой буферный солевой раствор, такой как 5% SSPE или другие подобные буферы, известные в данной области техники. Температура гибридизации может составлять ниже, чем 5°C, но, как правило, больше, чем 22°C, и более типично больше чем около 30°C, и, как правило, превышает 37°C. Гибридизация часто выполняется в жестких условиях, то есть условиях, при которых праймер будет гибридизоваться с целевой подпоследовательностью, но не гибридизоваться с другими, некомплементарными последовательностями. Жесткие условия зависят от последовательности и различны при различных обстоятельствах. Например, более длинные фрагменты могут требовать более высоких температур для специфической гибридизации, чем короткие фрагменты. Поскольку другие факторы могут влиять на жесткость гибридизации, в том числе композиция оснований и длина комплементарных цепей, присутствие органических растворителей и степень несовпадения оснований, то комбинация параметров более важна, чем абсолютная мера только любого одного параметра. Как правило, жесткие условия выбирают таким образом, чтобы быть на около 5°C ниже, чем Tm для конкретной последовательности при определенной ионной силе и значении pH. Типичные строгие условия включают концентрацию соли, по меньшей мере, от 0,01 М до не более 1 М концентрации натрий-иона (или другой соли), при pH от около от 7,0 до около 8,3 и температуре, по меньшей мере, 25°C.

Следовательно, трансформированные спаренные адаптер-модифицированные молекулы ДНК, преобразуются в молекулы двухцепочечной ДНК (одна или, в зависимости от обстоятельств, две разделенных одноцепочечных молекулы, в зависимости от типа спаривания (физические последовательности или последовательности штрихкода)) способами, хорошо известными в данной области (например, удлинение/расширение с помощью ДНК-полимеразы и dNTP), для обеспечения частичной трансформации (исходная цепь была затронута обработкой реагентом, который позволяет преобразовывать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (предпочтительно урацил), но не только что полученная) спаренные молекулы двухцепочечной ДНК.

Спаренные и трансформированные адаптер-модифицированные молекулы ДНК, выделенные на стадии (ii), могут также включать молекулы двухцепочечной ДНК, лигированные с двумя шпилечными молекулами и/или двумя последовательностями, штрихкодов (например, если не было стадии восстановления или очистки). Тем не менее, указанные молекулы не преобразуются в молекулы двухцепочечной ДНК, так как нет целевой последовательности в шпилечной молекуле/последовательности штрихкода для праймера, используемого на стадии (iii). Фигура 2 демонстрирует стадию элонгации способа по настоящему изобретению, где только продукты лигирования с одним адаптером, литерованным к одному концу молекулы двухцепочечной ДНК, являются удлиненными и амплифицированными.

Конструкции, полученные после стадии (ii), или после стадии (iii) или после стадии (iv), образуют двухцепочечные библиотеки ДНК, согласно изобретению, и могут быть использованы для секвенирования или в других традиционных способов молекулярной биологии.

Стадия (iii) также может упоминаться как «стадия элонгации».

Стадия (iv) (также упоминается как «стадия амплификации»)

Необязательно указанные конструкты могут быть амплифицированы для увеличения количества материала для следующих стадий. В предпочтительном воплощении, молекулы двухцепочечной ДНК, полученные на стадии (iii), амплифицируют с использованием праймеров, последовательности которых комплементарны, по меньшей мере, части области адаптера (праймеры, используемые в формуле (iv) являются специфическими для адаптерной молекулы после обработки реагентом на стадии (ii), как уже указано выше).

Соответственно, в дополнительной четвертой стадии, способ по настоящему изобретению включает амплификацию частично трансформированных парных молекул двухцепочечных ДНК, полученных на стадии (iii), для получения амплифицированных спаренных молекул двухцепочечных ДНК.

Амплификация ДНК позволяет создавать несколько копий указанных молекул путем синтеза in vitro молекул двухцепочечных ДНК. Может быть использован любой способ амплификации ДНК. В предпочтительно, если амплификация осуществляется с помощью полимеразной цепной реакции. В другом воплощении амплификация может быть выполнена в режиме ПЦР реального времени с использованием различных зондов (например, LightCycler, Taqman, Escorpio, Sunrise, Molecular Beacon или Eclipse). Различные условия амплификации могут быть использованы на аликвотах одного и того же образца для того, чтобы преодолеть любые возможных отклонений.

Двухцепочечная молекула ДНК, полученная с помощью способа по изобретению, может быть выделена из реакционной смеси («стадия извлечения» или «стадия очистки»). Таким образом, предпочтительно, молекулы ДНК, полученные на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv) извлекают из реакционной смеси. Более предпочтительно указанное извлечение проводят с использованием первого элемента пары связывания, где праймер, используемый на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv) модифицируется с помощью второго элемента указанной пары связывания.

Необязательно извлечено может быть исходное множество молекул двухцепочечных ДНК. Спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i) действуют в качестве исходной матрицы для стадий элонгации и амплификации. Указанная оригинальная матрица не разрушается при обработке и может быть сохранена и использована повторно или сохранена для последующих процессов. Для достижения этой цели, оригинальная матрица может быть помечена с помощью модифицированных адаптеров/шпилечных последовательностей/последовательностей штрихкода. Таким образом, в предпочтительном воплощении, спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i) извлекают из реакционной смеси, полученной после стадии (iii), или, в зависимости от обстоятельств, после стадии (iv). В более предпочтительном воплощении указанное восстановление проводят с использованием первого элемента пары связывания, где адаптеры и/или шпилечные последовательности и/или последовательности штрихкода модифицируются вторым элементом указанной пары связывания.

Термин «реакционная смесь», при использовании в данном документе, относится к смеси, полученной после прохождения стадий (iii) и/или (iv). Указанная реакционная смесь образуется за счет комбинации реагентов, спаренных адаптер-модифицированных молекул ДНК, использованных в качестве матрицы, неактивных спаренных адаптер-модифицированных молекул ДНК, и продуктов реакции, в том числе молекул, которые образуют двухцепочечную ДНК-библиотеку.

Термин «пара связывания», при использовании в данном документе, относится к паре, образованной первым элементом и вторым элементом, и включает любую из класса пар связывания иммунотипа, например, антиген/антитело (дигоксигенин/антитело против дигоксигенина) или системы гаптен/антигаптен; и любую из класса пар связывания неиммунных типа, которые включают системы, в которых два компонента имеют естественную аффинность друг к другу, но не являются антителами, такие как биотин/авидин, биотин/стрептавидин, фолиевая кислота/фолатсвязывающий белок, комплементарные сегменты нуклеиновых кислот, А- или G-протеин/иммуноглобулины; и ковалентные пары связывания, которые формируют ковалентную связь друг с другом, например, сульфгидрильные группы, в том числе химически активных малеимиды и производные галоацетилгалида и аминные реакционноспособные группы, такие как изотиоцианаты, сукцинимидиловые эфиры и сульфонилгалогениды и т.д.

Последовательность праймера, используемого на стадии (iii) или на стадии (iv), или адаптерная последовательность и/или шпилечные последовательности и/или последовательности штрихкодов могут быть спроектированы для включения оснований, меченных вторым элементом пары связывания (например, дигоксигенин, биотин и т.д.). Включенные меченые основания могут быть использованы для образования комплекса с их первым элементом пары связывания, необязательно связанного с подложкой.

Праймеры, используемые на стадиях (iii) и, в этом случае, на стадии (iv), являются специфическими для адаптерной молекулы после обработки реагентом, который позволяет осуществить преобразование (например, бисульфитом) неметилированных цитозинов в основание, которое является детектируемо отличимым от цитозина по свойствам гибридизации. Термин «специфический», при использовании в данном документе, означает, что праймеры способны гибридизоваться с адаптерной молекулой только тогда, когда эта молекула была обработана с реагентом, который превращает неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (например, урацил). Предпочтительно указанные праймеры не способны гибридизоваться с адаптерными молекулами, до осуществления указанного преобразования. Если адаптерная молекула содержит неметилированные цитозины, праймеры, используемые на стадии (iii) и/или (iv) имеют основание аденин вместо гуанина в тех положениях, которые спариваются с неметилированными цитозинами исходной адаптерной молекулы. Адаптерная молекула может содержать метилированные или не метилированные цитозины. Необязательно для того, чтобы избежать того, что специфическая часть последовательностей адаптерных молекул, шпилечных последовательностей и/или последовательностей штрихкода изменится после обработки указанным реагентом, последовательность первой адаптерной молекулы и, предпочтительно, комбинаторная последовательность внутри адаптера, в этом случае, может содержать модифицированные цитозины, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

Термин «модифицированные цитозины», при использовании в данном документе, относится к цитозинам, которые были модифицированы путем замены или добавления одного или нескольких атомов или групп для того, чтобы получить модифицированный цитозин, который не может быть преобразован в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, после обработки реагентом, который превращает неметилированные цитозины в основание, детектируемо отличное от цитозина. Примерами модифицированных цитозинов, подходящих для адаптерной последовательности, и предпочтительно для комбинаторной последовательности адаптеров, шпилечных последовательностей и/или последовательностей штрихкодов согласно изобретению, являются, без ограничения перечисленным, метилцитозин и 5-гидроксиметилцитозин. Указанные модифицированные цитозины устойчивы к обработке реагентом, так как они остаются неизмененными после обработки (например, метилцитозин) или потому, что при обработке бисульфитом они преобразуются в основание, комплементарное гуанину и считываемое как цитозин, при полимеразных амплификации и секвенировании (например, 5-гидроксиметилцитозин, который превращается в цитозин-5-метилсульфонат).

Впоследствии, спаренные молекулы ДНК, полученной на стадии (iii) и/или на стадии (iv) (и/или, при необходимости, и менее предпочтительно, спаренные молекулы ДНК, полученные на стадии (ii)) секвенируют (см. раздел «Стадия секвенирования» дальше в описании).

Присутствие метилированного цитозина в данном положении определяется, если цитозин находится в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) и/или на стадии (iv), а гуанин находится в соответствующем положении спаренных молекул двухцепочечных ДНК, или где присутствие неметилированных цитозинов в данном положении определяется, если урацил или тимин находятся в одной из цепей спаренных молекул двухцепочечных ДНК, полученной на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК. Это дополнительно описано в разделе «Идентификация метилированных цитозинов» ниже.

Первое воплощение способа по настоящему изобретению

Способ по настоящему изобретению, может быть осуществлен на твердом носителе. В частности, двухцепочечные адаптеры, шпилечные последовательности и/или последовательности штрихкода могут быть иммобилизованы на подложке. При использовании твердой подложки ожидается высокая степень автоматизации секвенирования и более высокие уровни сохранения образца.

Иммобилизация может быть предпочтительно осуществлена путем связывания конца одной из цепей двухцепочечного адаптера, шпилечных последовательностей и/или последовательностей штрихкодов с указанным носителем. Предпочтительно, если конец одной из цепей двухцепочечной адаптера, шпилечной последовательности и/или последовательности штрихкод связан с этой подложкой. Соответственно, когда двухцепочечной адаптер, шпилечные последовательности и/или последовательности штрихкода иммобилизованы на подложке, то лигирование может быть направлено на то, чтобы конкретные адаптерные/шпилечные последовательности или последовательности штрихкода были лигированы с конкретными концами молекул ДНК.

Если двухцепочечные адаптерные молекулы, шпилечные последовательности и/или последовательности штрихкода иммобилизованы на подложке, стадия восстановления исходной ДНК-матрицы, как описано выше, не требуется, так как спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i), остаются прикрепленными к подложке.

Кроме того, если адаптерные молекулы иммобилизованы на подложке, все спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i), представляют собой двухцепочечные молекулы ДНК, лигированные на одном конце с адаптерной молекулой и шпилечными последовательностями и, возможно, последовательностями штрихкодов на другом конце, если спаривание происходит в присутствии шпилечных молекул. Если спаривание происходит в отсутствие шпилечных последовательностей, а именно, только с последовательностями штрихкодов, то спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i), являются двухцепочечными молекулами ДНК, лигированными с адаптерной молекулой на обоих концах, которые дополнительно включают, по меньшей мере, одну последовательность штрихкода. Таким образом, для извлечения молекул не требуется, чтобы адаптерная последовательность содержалась на одном конце и шпилечные последовательности и/или последовательности штрихкодов и/или адаптерные последовательности на другом конце (молекула согласно А), как описано выше) в популяции молекул, полученных на стадии (i).

Кроме того, в этом воплощении настоящего изобретения, в котором двухцепочечные адаптеры шпилечные последовательности и/или последовательности штрихкодов предлагаются иммобилизованными на подложке, стадия спаривания (i) может быть осуществлена путем нанесения двухцепочечных адаптеров в определенные позиции на подложке.

Термин «подложка», используемый в данном документе, относится к любому материалу, выполненному с возможностью химической связи с нуклеиновой кислотой, в том числе, без ограничения указанным, пластику, латексу, стеклу, металлу (т.е., например, намагниченному металлу), нейлону, нитроцеллюлозе, кварцу, кремнию или керамике. Подложка предпочтительно является твердой и может быть околосферической (т.е., например, шариком) или может являться стандартным лабораторным контейнером, таким как микролуночный планшет или поверхность.

Термин «иммобилизованный», при использовании в данном документе, относится к ассоциации или связыванию между молекулой (например, адаптером, шпилечной последовательностью, последовательностью штрихкода) и носителем таким образом, который обеспечивает устойчивую связь в условиях элонгации, амплификации, вырезания, и других процессов, описанных в настоящем документе. Такое связывание может быть ковалентным или нековалентным. Нековалентное связывание включает электростатические, гидрофильное и гидрофобное взаимодействия. Ковалентное связывание является формированием ковалентных связей, которые характеризуются обмена парами электронов между атомами. Такое ковалентное связывание может быть непосредственно между адаптером и подложкой или может быть образовано посредством сшивания или путем включения определенной реакционно-способной группы на любой носитель или адаптер, или и на то и на другое. Ковалентное прикрепление адаптера может быть достигнуто с помощью связывающего партнера, например, авидина или стрептавидина, иммобилизованного на подложку и нековалентного связывания биотинилированного адаптера к авидину или стрептавидину. Иммобилизация может также включать сочетание ковалентных и нековалентных взаимодействий.

Адаптеры, шпилечные последовательности и/или последовательности штрихкодов, могут быть синтезированы в первую очередь, с последующим прикреплением к подложке. В ином случае, адаптеры, шпилечные последовательности и/или последовательности штрихкодов, могут быть синтезированы непосредственно на подложке. Предпочтительно, если указанная иммобилизация осуществляется за счет ковалентного связывания конца одной из цепей адаптера, шпилечной последовательности и/или последовательности штрихкода или нуклеотида петли шпильки с указанной подложкой.

Предпочтительно, если адаптер прикреплен к подложке, но шпилечные последовательности и/или последовательности штрихкода не прикреплены к указанной подложке. В контексте этого воплощения изобретения каждая адаптерная молекула, закрепленная на подложке достаточно отделена от соседних адаптерных молекул для того, чтобы избежать, лигирования одной молекулы двухцепочечной ДНК к двум этим адаптерам. В соответствии со стадией (i) способа по изобретению, в одном воплощении множество молекул двухцепочечных ДНК вводят в контакт с молекулами прикрепленными адаптером к подложке, и только один адаптер может быть лигирован с каждой молекулой двухцепочечной ДНК. После этого, адаптеры и/или шпилечные последовательности и/или последовательности штрихкодов, могут быть лигированы к свободному концу молекулы двухцепочечной ДНК.

В ином случае, шпилечные последовательности и/или последовательности штрихкода могут быть присоединены к подложке, но адаптерная молекула не прикрепляется к указанной подложке. В контексте этого воплощения изобретения каждая из шпилечных последовательностей и/или последовательностей штрихкодов, закрепленных на подложке достаточно отделена от соседних шпилечных последовательностей и/или последовательностей штрихкодов для того, чтобы избежать лигирования одной молекулы двухцепочечной ДНК с этими обеими молекулами. Например, исходное множество молекул двухцепочечных ДНК можно приводить в контакт со шпилечными последовательностями и/или последовательностями штрихкода, прикрепленными к подложке и только одна шпилечная последовательность и/или последовательность штрихкода может быть лигирована с каждой молекулой двухцепочечной ДНК. После этого адаптерные молекулы лигировали со свободным концом молекулы двухцепочечной ДНК (если шпилька был прикреплен к подложке и лигирована с другим концом молекулы двухцепочечной ДНК). В случае, когда спаривание осуществляется только последовательностью(ями) штрихкода (в отсутствии шпилечных последовательностей), и последовательность штрихкода прикреплена к подложке, то вначале к прикрепленной последовательности штрихкода должен быть лигирован адаптер. Затем двухцепочечная ДНК-последовательность должна быть лигирована с адаптером. И, наконец, другая адаптерная молекула лигируется к свободному концу молекулы двухцепочечной ДНК.

В ином случае, адаптерная молекулы и шпилечные последовательности и/или последовательности штрихкода могут быть присоединены к подложке. Дополнительные меры, таким образом, должны быть приняты для того, чтобы избежать лигирования молекулы двухцепочечной ДНК с двумя идентичными молекулами, которые не являются двумя одинаковыми адаптерами в случае, когда спаривание достигается только при наличии последовательностей штрихкодов (в отсутствие шпилечных последовательностей), причем в этом случае молекулы двухцепочечной ДНК лигируются с двумя адаптерами, по одному на каждом конце молекулы двухцепочечной ДНК.

Преимущества осуществления способа согласно настоящему изобретению на твердом носителе (например, путем иммобилизации адаптеров и/или шпилечных последовательностей и/или последовательностей штрихкода в твердом носителе, как описано выше), могут быть следующими:

- Направление лигирования можно контролировать, так что не происходят нежелательные лигирования (например, молекулы с двумя шпилечными последовательностями и т.п.). Кроме того, поскольку исходное множество молекул двухцепочечных ДНК фиксируется на твердой подложке, нет никакой потери исходного материала.

- Кроме того, реакции могут быть выполнены в проточной кювете. После проведения реакций (например, лигирования, трансформации, генерации комплементарных цепей), исходный материал может быть сохранен и повторно использован (так как он прикреплен к подложке). Проточная кювета может быть интегрирована в устройство для NGS (секвенирования следующего поколения) (и специфические реакции, такие как мостиковая амплификация или реакции секвенирования могут быть проведены в самой проточной кювете), что позволяет автоматизировать и упростить процесс.

После лигирования двухцепочечных адаптеров и спаривания цепей множества молекул двухцепочечной ДНК, которые в конце процесса иммобилизованы на подложке, как описано выше, (неметилированный) цитозин присутствующий в обеих цепях спаренных адаптер-модифицированных молекул ДНК, преобразуются в основание, детектируемо отличающееся от цитозина (предпочтительно в урацил) в спаренных адаптер-модифицированных молекулах ДНК как описано выше (стадия ii).

Затем получали комплементарные цепи спаренных и трансформированных адаптер-модифицированных молекул ДНК, используя нуклеотиды А, С, G и Т, и праймеры, последовательности которых комплементарны, по меньшей мере, части двухцепочечных адаптеров (предпочтительно, праймеры специфичны к адаптерной молекуле после обработки реагентом на стадии (ii), как указано выше) для того, чтобы обеспечить частично трансформированные спаренные двухцепочечные молекулы (стадия iii).

Эта стадия получения комплементарных цепей (стадия iii) в этом воплощении настоящего изобретения может быть выполнена с парными и трансформированными адаптер-модифицированными молекулами ДНК, прикрепленными к подложке, и она осуществляется в условиях, обеспечивающих синтез цепи.

Предпочтительно, если праймер, используемый в настоящем воплощении (стадия iii), не прикреплен к подложке. Схематическая диаграмма, показывающая это воплощение, в котором популяция адаптерных молекул иммобилизована на подложке, представлена на фигурах 3 и 4. Матричная цепь остается прикрепленной к подложке и продукт элонгации высвобождается в надосадочную жидкость. Таким образом, в этом воплощении библиотека двухцепочечных ДНК высвобождается в надосадочную жидкость. Необязательно стадия (iv) (необязательно амплифицирующей частично трансформированных спаренные двухцепочечные молекулы) может быть выполнена с молекулами, которые находятся в надосадочной жидкости, до или после выделения из реакционной смеси. Такие адаптеры или адаптер-модифицированные молекулы ДНК, присоединенные к подложке, могут быть освобождены от подложки на различных стадиях способа.

Необязательно праймер, используемый на стадии (iii), может быть также прикреплен к подложке. В этом случае матрица и продукт элонгации остаются прикрепленными к подложке. Таким образом, в этом случае библиотека двухцепочечных ДНК прикрепляется к подложке. Адаптеры, праймеры и/или адаптер-модифицированные молекулы ДНК, присоединенные к подложке, могут быть сняты с подложки на различных стадиях воплощения настоящего способа.

Необязательно стадия (iv) может быть выполнена с молекулами, которые прикреплены к подложке или с молекулами, которые находятся в надосадочной жидкости после освобождения с подложки.

Праймеры, используемые в необязательной стадии амплификации (iv), предпочтительно не прикреплены к подложке. Тем не менее, один или оба праймера, используемые на стадии (iv), могут быть прикреплены к подложке. Когда оба праймера, используемые на стадии (iv), прикреплены к подложке, проводится мостиковая амплификация (которая может быть изотермической). Этот мостиковая амплификация может позволить осуществить метод молекулярных колоний, т.е. клонально кластеризованных ампликонов, аменабельный для протоколов секвенирования, в частности, для NGS (следующего поколения последовательности).

Этот воплощение позволяет извлечь матрицу, связанную с подложкой, и тем самым повысить сохранность образца. Указанная подложка, прикрепленная к матрице, может быть использована для хранения образца. Матрица может быть использована в различных амплификациях с различными условиями для преодоления любых смещений, которые могут произойти. Указанное восстановление исходной матрицы не нуждается в стадии повторного захвата, основанном на парах связывания. Таким образом, это воплощение особенно подходит для образцов с ограниченным количеством материала. Несмотря на то, стадия повторного захвата не требуется, молекулы ДНК, полученные на стадии (i) или (ii), могут быть освобождены от подложки и извлечены из реакционной смеси, полученной после стадии (iii), или, в зависимости от обстоятельств, после стадии (iv). Предпочтительно, если указанное извлечение из реакционной смеси осуществляют с использованием первого элемента пары связывания, причем адаптер и/или шпилечные последовательности и/или последовательности штрихкода модифицируются со вторым элементом указанной пары связывания.

Молекулы ДНК, полученную на стадии (i), также могут быть использованы для секвенирования.

Предпочтительно, если молекулы двухцепочечной ДНК, используемые на стадии (i), представляют собой фрагменты геномной ДНК. Необязательно молекулы двухцепочечной ДНК, используемые на стадии (i), подвергаются концевой репарации до начала стадии (i), и предпочтительно, дополнительно подвергаются концевой обработке аденином после стадии концевой репарации. Адаптерные молекулы и/или шпилечные молекулы и/или молекулы штрихкодов могут быть предоставлены в виде библиотек молекул, где каждый элемент в библиотеке отличим от других по комбинаторной последовательности в пределах последовательности молекулы. После того, как на стадии (i), популяцию адаптер-модифицированных молекул ДНК обрабатывали реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, и где праймеры, используемые на стадия х (iii) и, необязательно, стадии (vi) способа по изобретению являются специфическими для адаптерной молекулы после обработки указанным реагентом (стадия (ii) способа по изобретению). Комбинаторная последовательность в пределах адаптерной последовательности и/или шпилечной последовательности и/или последовательности штрихкода может содержать модифицированные цитозины, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации. Комбинаторная последовательность может не содержать неметилированные цитозины. Необязательно молекулы ДНК, полученные на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv) второго способа по настоящему изобретению, извлекают из реакционной смеси, предпочтительно с использованием первого элемента пары связывания, где праймер, используемый на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv) способа по изобретению модифицирован вторым элементом указанной пары связывания. Популяция молекул двухцепочечных ДНК может быть обработана, перед стадией (i) с помощью адаптерных молекул, в условиях, достаточных для лигирования адаптерных молекул с молекулами ДНК, так, чтобы ввести липкие концы в указанные молекулы ДНК.

Второе воплощение способа по настоящему изобретению

Во втором воплощении способа по изобретению, адаптеры двухцепочечной ДНК, которые лигируют, по меньшей мере, с одним концом нитей множества молекул двухцепочечных ДНК (стадия (i) способа по изобретению), имеют форму «Y», и называются «Y-адаптерами».

Термины «Y-адаптер» и «Y-адаптор» используются как взаимозаменяемые и, в контексте настоящего воплощения, относятся к адаптеру, образованный двумя нитями ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей, а концы указанного двухцепочечного участка образованные 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК Y-адаптера совместимы с концами молекул двухцепочечных ДНК. Выражение «3'-участок», при использовании в данном документе, относится к участку нуклеотидной цепи, который включает 3'-конец указанной цепи.

Термин «3'-конец», при использовании в данном документе, обозначает конец нуклеотидной цепи, который имеет гидроксильную группу третьего углерода в сахарном кольце дезоксирибозы на ее конце.

Выражение «5'-участок», при использовании в данном документе, относится к участку нуклеотидной цепи, который включает 5'-конец указанной цепи.

Термин «5'-конец», при использовании в данном документе, обозначает конец нуклеотидной цепи, который имеет пятый углерод в сахарном кольце дезоксирибозы на ее конце.

Выражение «комплементарность последовательности», при использовании в данном документе, относится к свойству, которых обладают две последовательности нуклеиновых кислот, при котором они выровнены антипараллельно друг к другу, и нуклеотидные основания в каждом положении будут комплементарны.

Множество спаренных адаптер-модифицированных молекул ДНК, полученных в соответствии со стадией (i) способа по изобретению согласно второму воплощению получали следующим образом:

(a) Лигирование ДНК Y-адаптера к каждому концу цепи из множества молекул двухцепочечной ДНК, причем указанный адаптер, содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей,

где концы указанного двухцепочечного участка образованы 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК Y-адаптера, совместимого с концами молекул двухцепочечных ДНК;

(b) синтез, для каждой из цепей молекулы ДНК, полученной на стадии (а), комплементарной цепи с помощью полимеразной элонгации от 3'-конца второй цепи ДНК в молекуле Y-адаптера с использованием каждой из цепей ДНК-молекул, полученных в стадии (а) в качестве матрицы, в результате чего происходит спаривание каждой из цепей молекул ДНК, полученных на стадии (а) с ее синтетической комплементарной цепью с целью получения множества спаренных адаптер-модифицированных молекул ДНК.

Предпочтительно, если 3'-участок второй цепи ДНК из Y-адаптера образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанного 3'-участка, первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент расположен в непосредственной близости от 5'-участка второй цепи ДНК.

Необязательно 3'-участок второй цепи ДНК Y-адаптера, не образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах упомянутого 3'-участка.

Стадия спаривания (i) способа по изобретению в соответствии с настоящим воплощением, может происходить физически (при наличии шпилечной последовательности в Y-адаптере, что позволяет физически спаривать оригинальные цепи ДНК с их синтетически комплементарной цепью) или при наличии штрих-последовательностей в Y-адаптерах (или в двухцепочечном участке и/или в любой из одноцепочечных областей, или во всех трех участках), и в отсутствие шпилечной последовательности, что позволяет исходной цепи ДНК с ее синтетической комплементарной цепью быть физически не связанными, но спариваться при наличии, по меньшей мере, одной последовательности штрихкодов, или при наличии обеих последовательностей (шпилечной последовательности и одной или нескольких последовательностей штрихкодов).

Соответственно, в одном аспекте, 3'-участок второй цепи ДНК Y-адаптера может образовывать петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанного 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент расположены в непосредственной близости от 5'-участка второй цепи ДНК. В этом аспекте, каждая из цепей молекулы ДНК, полученной на стадии (а) физически спаривается (с помощью, по меньшей мере, одной шпилечной молекулы) со своей синтетической комплементарной цепью, с получением спаренных адаптер-модифицированных молекул ДНК. Конечно, последовательности штрихкодов также могут присутствовать в Y-адаптерах.

Термин «петля шпильки», при использовании в данном документе, относится к участку ДНК, образованному неспаренными основаниями, который создается, когда цепь ДНК складывается и образует пары оснований с другой секцией или сегментом той же цепи.

Термин «гибридизация», при использовании в данном документе, относится к процессу, в котором два одноцепочечных полинуклеотида или два участка одной и той же цепи связываются нековалентно с образованием стабильного двухцепочечного полинуклеотида.

Соответственно, настоящий аспект позволяет получить библиотеку двухцепочечных ДНК, где исходные смысловые и антисмысловые цепи молекулы ДНК физически связаны друг с другом. Каждая оригинальная цепь молекулы ДНК является физически связанной с комплементарной цепью, полученной синтетическим удлинением. Схематическая диаграмма этого воплощения показана на фигурах 5 и 6.

Термин «библиотека ДНК», при использовании в данном документе, относится к совокупности фрагментов ДНК, которые были лигированы с адаптерными молекулами для того, чтобы идентифицировать и выделить ДНК-фрагменты, представляющих интерес.

Выражение «библиотека двухцепочечных ДНК», в контексте настоящего аспекта, относится к библиотеке, содержащей одну из исходных цепей молекул ДНК физически соединенных на одном из своих концов с комплементарной цепью, полученной синтетическим удлинением. Библиотека двухцепочечных ДНК из третьего способа по настоящему изобретению не является кольцевой библиотекой. Исходная цепь ДНК молекулы ДНК и ее синтетическая комплементарная цепь физически соединены одним из своих концов с помощью петли, с образованием таким образом, дуплекса между ними (см. фигуру 12). В настоящем аспекте второго воплощения способа по настоящему изобретению, каждая исходная цепь ДНК молекулы ДНК и ее синтетическая комплементарная цепь спарены с помощью петли шпильки, следовательно спарены физически. Каждая молекула библиотеки двухцепочечных ДНК может также находиться в линейной конформации, если комплементарность между обеими нитями частично или полностью утрачена.

В другом аспекте второго воплощения способа по изобретению, спаривание осуществляют в присутствии, по меньшей мере, одной последовательности штрихкода в Y-адаптере (либо в любом из ее одноцепочечных участков, и/или в двухцепочечном участке, или в обоих участках). В соответствии с этим аспектом, 3'-участок второй цепи ДНК Y-адаптера, не образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах упомянутого 3'-участка. В этом случае каждая исходная цепь ДНК молекулы ДНК и ее синтетической комплементарной цепи спарены из-за наличия последовательностей штрихкодов в двухцепочечном участке Y-адаптера, либо в одноцепочечном участке Y-адаптера, либо из-за наличия последовательностей штрихкодов где-либо еще в исходной цепи ДНК.

Конечно, спаривание исходной ДНК-цепи молекулы ДНК и ее синтетической комплементарной цепи может быть осуществлено как физически (при наличии петли шпильки в Y-адаптере, как описано выше), так и при наличии одной или нескольких последовательностей штрихкода.

Y-адаптер может содержать одну или несколько последовательностей штрихкодов в участке двухцепочечной ДНК. Это обеспечит, по меньшей мере, спаривание между каждой исходной цепью ДНК исходной молекулы двухцепочечной ДНК.

В этом случае исходные смысловые и антисмысловые цепи молекулы ДНК, идентифицируются с помощью комбинаторной метки («последовательность штрихкода» или «комбинаторные штрихкоды»), в частности, каждая из смысловых и антисмысловых цепей будут связаны с двумя комбинаторными последовательностями. Поскольку обе комбинаторные последовательности одинаковы для смысловой и антисмысловой цепи, обе цепи могут быть отслежены в ходе процесса. По окончании всего процесса эти комплементарные цепи, которые первоначально были вместе, будут иметь одни и те же две комбинаторные последовательности. Это позволяет отслеживать обе цепи каждого фрагмента двухцепочечной ДНК, первоначально используемого на стадии (i) способа по изобретению. На фигуре 13 показано воплощение способа по изобретению, в котором используется комбинаторная метка.

В ином случае или в дополнение, Y-адаптер может содержать одну или несколько последовательностей штрихкода в 5'-участке первой цепи ДНК, и/или в 3'-участке второй цепи ДНК Y-адаптера, образованного двумя нитями ДНК (и/или в двухцепочечном участке). Последовательности штрихкода, таким образом, может быть расположена в одноцепочечном участке молекулы Y-адаптера и/или в двухцепочечном участке Y-адаптера. В этом случае каждая исходная цепь ДНК, и ее синтетическая комплементарная цепь затем будут спарены.

Предпочтительно, если ДНК Y-адаптера включает первую последовательность штрихкода в двухцепочечном участке и/или вторую последовательности штрихкода в 3'-участке второй цепи ДНК Y-адаптера. Необязательно, ДНК Y-адаптера включает первую последовательность штрихкода в двухцепочечном участке и/или вторую последовательность штрихкода в 5'-участка первой цепи ДНК Y-адаптера. Необязательно, ДНК Y-адаптера имеет первую последовательность штрихкода в двухцепочечном участке и/или вторую последовательность штрихкода в 3'-участке второй цепи ДНК Y-адаптера и/или третьей последовательности штрихкода в 5'-участке первой цепи ДНК Y-адаптера.

Предпочтительно ДНК Y-адаптера включает сайт рестрикции в 5'-участке первой цепи ДНК Y-адаптера.

Когда каждая исходная цепь ДНК, молекулы двухцепочечной ДНК и каждая исходная цепь ДНК и ее синтетическая комплементарная цепь спариваются, это называется «двойное спаривание» (а именно, цепь спаривается с исходной комплементарной цепью и с ее синтетической комплементарной цепью одновременно). Двойное спаривание обеспечивает внутреннюю проверку считывания каждого нуклеотида, позволяя сравнить четыре различных молекулярных источника информации (верхнюю и нижнюю нити данной молекулы двухцепочечной ДНК и соответствующие им синтетические комплементарные цепи), что еще больше повышает достоверность результатов. Кроме того, это позволяет оценить как верхнюю, так и нижнюю цепи исходной молекулы двухцепочечной ДНК, и, следовательно, проанализировать гемиметилирование в масштабе генома. Предпочтительно, если множество спаренных адаптер-модифицированных молекул ДНК, полученных после стадии (i) в соответствии с этим воплощением, является дважды спаренным, как описано выше.

Двухцепочечная молекула ДНК, используемая на стадии (а) предпочтительно представляет собой фрагменты геномной ДНК. Предпочтительно, если фрагменты геномной ДНК, используемые на стадии (а) являются парными для обеспечения множества спаренных фрагментов геномной ДНК. Это спаривание, как описано выше, предпочтительно осуществляют с использованием последовательностей штрихкодов.

Предпочтительно, если молекулы двухцепочечной ДНК, используемые на стадии (а), подвергнуты концевой репарации перед указанной стадией (а), и предпочтительно, дополнительно включают стадию концевой обработки аденином после стадий концевой репарации.

Стадию лигирования (а) осуществляют в условиях, достаточных для лигирования Y-адаптера к обоим концам молекул двухцепочечных ДНК.

Результат указанной стадии (а) представляет собой множество Y-адаптер-содержащих молекул ДНК. Указанные молекулы являются спаренными (по шпилечным последовательностям и/или последовательностям штрихкодов) молекулами двухцепочечных ДНК, которые имеют по одному Y-образному адаптеру лигированному к каждому концу молекулы.

Предпочтительно, если в настоящем воплощении Y-адаптер-содержащие молекулы ДНК, полученные на стадии (а) обрабатываются перед стадией (b) в условиях, достаточных для разделения цепей Y-адаптер-содержащих молекул ДНК.

Условия, адекватные для разделения цепей Y-адаптер-содержащих молекул ДНК, могут представлять собой, без ограничения перечисленным, условия, при которых денатурация обеих цепей достигается, например, путем нагревания молекул до 94-98°C в течение 20 секунд-2 минут, что вызывает разрушение водородных связей между комплементарными основаниями и дает молекулы одноцепочечных ДНК. Разделение цепей может быть также осуществлено без нагрева молекул применением изотермических методов, например, при использовании замещающей цепь ДНК-полимеразы, такой как, без ограничения перечисленным, Phi29DNA полимераза или большой фрагмент Bacillus stearothermophilus ДНК-полимеразы.

После лигирования адаптеров на стадии (а), каждую из цепей молекулы ДНК, полученной на стадии (а), превращают в спаренные молекулы двухцепочечных ДНК с помощью полимеразной элонгации от 3'-конца второй цепи ДНК в молекуле Y-адаптера с использованием каждой из цепей молекул ДНК, полученных в стадии (а) в качестве матрицы (стадия (b) выше).

Выражение «преобразование каждой цепи в спаренную молекулу двухцепочечной ДНК», в контексте настоящего воплощения, относится к синтезу цепи ДНК, комплементарной к каждой из цепей, где обе цепи спарены. Спаривание может быть достигнуто физически (а именно, когда 3'-участок второй цепи ДНК из Y-адаптера образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанного 3'-участка, первый сегмент расположен на 3'-конце 3'-участка и второй сегмент расположен в непосредственной близости от 5'-участка второй цепи ДНК), что приводит к конформации двухцепочечной ДНК, при которой одна цепь ДНК складывается сама на себя.

Необязательно, если 3'-участок второй цепи ДНК из Y-адаптера, не образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах упомянутого 3'-участка, спаривание может быть достигнуто путем введения последовательности штрихкода, по меньшей мере, в одну цепь Y-адаптера, либо в двухцепочечном участке, либо в одноцепочечном участке, предпочтительно в одноцепочечном участке.

Как было описано выше, спаривание может быть достигнуто как физическим лигированием исходной цепи ДНК и ее синтетической комплементарной цепи, так и при наличии одной или нескольких последовательностей штрихкодов.

Выражение «полимеразная элонгация», при использовании в данном документе, относится к синтезу комплементарной цепи с помощью ДНК-полимеразы, которая добавляет свободные нуклеотиды к 3'-концу второй цепи ДНК в молекуле Y-адаптера. Указанная молекула Y-адаптера может выступать в качестве праймера для стадии элонгации. На этой стадии температура выбирается в зависимости от оптимальной температуры для используемой специфической ДНК-полимеразы.

Предпочтительно стадию (b) осуществляют с использованием нуклеотидов A, G, С и Т. Необязательно метилированные цитозины могут быть использованы для стадии элонгации, но применение вместо этого неметилированных цитозинов решает критические проблемы:

1 - Контроль за бисульфитным преобразованием. Эффективность преобразования бисульфитом является вариабельной, это означает, что не все цитозины успешно трансформированы (предпочтительно в урацил (U)). Кроме того, оценка этой эффективности в каждом эксперименте, и даже в каждой молекуле в данном эксперименте, имеет важное значение.

Использование метилированного цитозина (С) для новой цепи не позволит оценить (или контролировать) степень преобразования C>U, так как каждый C будет метилирован, следовательно, будет прочитан как C. В противоположность этому, когда используются неметилированные C, может быть определена эффективность трансформации бисульфитом каждой отдельной молекулы.

2 - Облегчение амплификации за счет уменьшения комплементарности двух цепей спаренных шпилькой.

После стадии (i) в соответствии с настоящим воплощением, две молекулы двухцепочечной ДНК получали из каждой Y-адаптер-содержащей молекулы ДНК, и каждая из указанных молекул двухцепочечной ДНК образована цепью исходной ДНК молекулы ДНК и ее синтетической комплементарной цепью, которые спарены (они могут быть физически соединены одним из своих концов с помощью шпилечной молекулы, или они могут содержать последовательность штрихкода, или то и другое, как описано выше).

Спаривание между двумя нитями исходных молекул двухцепочечной ДНК позволяет отслеживать обе цепи каждого исходно используемого фрагмента двухцепочечной ДНК.

Таким образом, каждый Y-адаптер может включать уникальные и комбинаторные штрихкоды, которые позволяют идентифицировать образцы, провести мультиплексирование, а также количественный анализ. В предпочтительном воплощении Y-адаптер поставляется в виде библиотеки адаптеров, где каждый элемент библиотеки отличим от остальных по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованного 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК адаптера. Таким образом, настоящее изобретение относится к шпилечному Y-адаптеру, содержащему, по меньшей мере, одну последовательность штрихкодов, в частности для применения в способе по настоящему изобретению.

Когда библиотеку Y-адаптеров с комбинаторными последовательностями, используют на стадии (i) способа по изобретению, каждая Y-адаптер-содержащая молекула ДНК, полученная после стадии (i) будет иметь две различных комбинаторных последовательности, каждая из которых расположена на одном из Y-адаптеров, лигированных к каждому концу молекулы ДНК. Эти два идентификатора связаны с индивидуальной молекулой в начальном образце, тем самым позволяя различать конструкты. Указанный идентификаторы позволяют осуществить идентификацию конкретного конструкта, содержащего указанные идентификаторы, и его потомков, так как после того, как на стадии (b) по настоящему воплощению исходные смысловая и антисмысловая цепи молекулы двухцепочечной ДНК, будут оставаться в различных молекулах, но каждая из этих молекул будет содержать обе комбинаторные последовательности. Любые продукты амплификации указанных исходных индивидуальных молекул, несущих указанные идентификаторы, предполагаются одинаковыми по происхождению. Комбинаторные штрихкоды также позволяют количественно оценить процент отдельных последовательностей в образце и могут быть использованы для мониторинга и контроля систематических ошибок и коррекции ошибок при выполнении стадий амплификации.

Необязательно Y-адаптер включает основания, меченные вторым элементом пары связывания, который позволяет извлекать матрицу исходной ДНК после стадий элонгации или амплификации. Это дает преимущество, которое заключается в том, что образец используемый в качестве ДНК-матрицы может быть идентифицирован, предохранен во время процесса и извлечен, сохранен и представлен для нескольких амплификаций и секвенирований с различными условиями без истощения образца.

Конструкты, полученные после стадии (i) в соответствии с настоящим воплощением, образуют двухцепочечную ДНК-библиотеку, которая может быть использована для секвенирования или в других традиционных методов молекулярной биологии.

Необязательно Y-адаптеры могут содержать «сайты для разрезания», как было описано выше. «Сайты для разрезания» добавляют путь адаптации конечных элементов библиотеки к потребностям различных платформ секвенирования. Хотя эта адаптация может быть достигнута за счет специфической конструкции Y-адаптеров (путем введения последовательностей, которые совместимы с реагентами платформы, такими как праймеры для секвенирования), участки для разрезания делают возможной модульность для добавления штрихкодов или адаптеров для мультиплексирования (смешанный образец различного происхождения) или для нужд любых платформ масштабного секвенирования (или также для устранения, возможно, ненужных нуклеотидов). «Сайты для разрезания» представляют собой специфические последовательности, которые делают возможным присутствие известной мишени на краях множества спаренных адаптер-модифицированных молекул ДНК (библиотека спаренных адаптер-модифицированных молекул ДНК, полученная на стадии (i), или библиотека спаренных и трансформированных адаптер-модифицированных молекул ДНК, полученная на стадии (iii) (и, возможно, на стадии (iv)). «Сайты для разрезания» могут быть лигированы с множеством молекул двухцепочечной ДНК, до или после стадии лигирования Y-адаптеров. Как было указано выше, «сайты для разрезания» могут быть уже включены в Y-адаптеры. Таким образом, все фрагменты могут быть разрезаны и адаптеры могут быть лигированы должным образом (таким же путем последовательности адаптеров, которые больше не нужны, могут быть удалены в целях повышения эффективности секвенирования).

Затем осуществляется стадия (ii) способа по изобретению, а именно (неметилированные) цитозины, присутствующие во множестве спаренных адаптер-модифицированных молекул ДНК, полученных на стадии (i) согласно настоящему воплощению способа по настоящему изобретению, трансформируются (предпочтительно в урацил) во множестве спаренных адаптер-модифицированных молекул ДНК как описано выше.

Соответственно, множество спаренных адаптер-содержащих молекул ДНК, обрабатывали реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (предпочтительно урацил), и где праймеры, используемые на стадии (iii) (и, необязательно, стадии (iv)), комплементарны, по меньшей мере, части последовательности, возникающей в результате обработки указанным реагентом молекул двухцепочечных ДНК, полученных на стадии (ii). Эта обработка преобразовывает адаптер-содержащую молекулу ДНК, так что комплементарность между исходной и синтетической цепями частично или полностью утрачивается, что облегчает отжиг праймера, используемого на следующей стадии. На фигурах 5 и 6 показана схема, демонстрирующая это.

В предпочтительном воплощении реагент является бисульфитом, который преобразует все неметилированные цитозины в урацилы, которые будут считаны как тимины в молекулах, амплифицированных на стадии (iii).

Когда спаренные адаптер-модифицированные молекулы ДНК, полученные на стадии (i), обрабатываются реагентом, способным превращать неметилированные цитозины в основание, детектируемо отличающееся от цитозина по свойствам гибридизации, комплементарность между смысловой и антисмысловой нитями исходных молекул двухцепочечной ДНК частично или полностью утрачивается. Это может облегчить синтез комплементарных цепей.

Y-адаптер-содержащие молекулы ДНК, полученные на стадии (ii) способа по изобретению могут быть подвергнуты дополнительной обработке перед стадией (iii), в условиях, достаточных для разделения цепей Y-адаптер-содержащих молекул ДНК.

Адекватные условия для разделения цепей Y-адаптер-содержащих молекул ДНК могут быть, без ограничения перечисленным, условиями, при которых денатурация обеих цепей, достигаемая, например, путем нагревания молекул до 94-98°C в течение 20 секунд-2 минут, что вызывает разрушение водородных связей между комплементарными основаниями и дает одноцепочечные молекулы ДНК. Разделение цепей может быть также осуществлено без нагрева молекул при применении изотермических методов, например, ДНК-полимеразами, замещающими цепи, такими как, без ограничения перечисленным, Phi29DNA-полимеразы или большой фрагмент Bacillus stearothermophilus ДНК-полимеразы. Затем проводится стадия (iii) способа по настоящему изобретению, а именно получение комплементарных цепей спаренного и преобразованного множества адаптер-модифицированных молекул ДНК.

Необязательно указанные конструкции могут быть амплифицированы (стадия (iv)) для того, чтобы увеличить количество материала для следующей стадии. Предпочтительно молекулы двухцепочечной ДНК, полученные на стадии (iii), амплифицируют с использованием, по меньшей мере, праймера, последовательность которого комплементарна, по меньшей мере, части молекул двухцепочечных ДНК, полученных на стадии (iii).

Предпочтительно молекулы двухцепочечной ДНК, полученные на стадии (iii) могут быть амплифицированы в первой стадии амплификации с использованием праймера, последовательность которого комплементарна, по меньшей мере, части комплементарной последовательности 5'-участка первой ДНК-цепи адаптерной молекулы. Праймеры, используемые на стадии (iii) (и, необязательно, стадии (iv)), предпочтительно комплементарны, по меньшей мере, части последовательности, полученной в результате обработки реагентом молекул двухцепочечных ДНК, полученных на стадии (ii). Этот воплощение показано на фигурах 5 и 6, и позволяет осуществить амплификацию всей последовательности популяции молекул двухцепочечных ДНК, используемых для получения библиотеки двухцепочечных ДНК.

В ином случае молекулы двухцепочечной ДНК, полученные на стадии (iii) могут быть амплифицированы в первой стадии амплификации с использованием праймера, последовательность которого комплементарна, по меньшей мере, части дополнительной последовательности популяции молекул двухцепочечных ДНК, используемых для генерации библиотеки двухцепочечных ДНК. Праймеры, используемые на стадии (iii) (и, необязательно, стадии (iv)), предпочтительно комплементарны, по меньшей мере, части последовательности, полученной в результате обработки реагентом молекул двухцепочечных ДНК, полученных на стадии (ii). Этот воплощение показано на фигуре 6.

Также возможны последующие стадии амплификации с парой праймеров. Любые комбинации праймеров охвачены настоящим изобретением. Например, первый праймер может быть комплементарен, по меньшей мере, части комплементарной последовательности 5'-участка первой цепи ДНК адаптерной молекулы, а второй праймер, может быть комплементарен 3'-участку молекулы, полученной после первой стадии амплификации (фигура 6).

На фигуре 12 показано расположение различных элементов в библиотеке двухцепочечных ДНК, полученной в соответствии с настоящим воплощением. Следует отметить, что различные амплификации в различных условиях могут быть выполнены на аликвотах одного и того же образца, таким образом, что любые смещения (смещения ТА или CG) могут быть оценены и рассмотрены в фазе анализа.

Необязательно, молекулы, полученные после стадий (iii) и/или (iv) способа по изобретению, могут быть выделены из реакционной смеси. Таким образом, молекулы, полученные на стадиях (iii) и/или (iv) могут быть извлечены из реакционной смеси, предпочтительно с использованием первого элемента пары связывания, где праймеры, используемые на стадиях (iii) и/или (iv) являются модифицированными со вторым элементом указанной пары связывания.

Необязательно, комбинаторная последовательность может содержать модифицированные цитозины, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации. В ином случае или в дополнение комбинаторная последовательность может содержать немодифицированные цитозины (которые не являются устойчивыми к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации).

Выражения «популяция молекул двухцепочечных ДНК», «концы», «совместимый», «лигирование», «матрица», «праймер», «комплементарный», «библиотека адаптеров», «комбинаторная последовательность» или «комбинаторный штрихкод», «реакционная смесь», «пары связывания», «первый элемент пары связывания», «второй элемент пары связывания» и «основание, которое детектируемо отличается от цитозина по свойствам габридизации» определены в контексте способа по настоящему изобретению.

Y-адаптер может быть предоставлен иммобилизованным на подложке. Предпочтительно указанная иммобилизация осуществляется за счет связывания 5'-конца первой цепи ДНК, или нуклеотида петли шпильки второй цепи ДНК Y-адаптера, которая должна иметься, с указанной подложкой. Праймеры, используемые на стадии (iii), также могут быть прикреплены к подложке. Связывание адаптера и/или праймеров с подложкой предпочтительно может представлять собой ковалентную связь.

Термины «иммобилизованный», «подложка» и «ковалентное связывание» определены выше.

Например, множество спаренных адаптер-модифицированных молекул ДНК на стадии (i) способа по настоящему изобретению получали следующим образом:

(а) контакт популяции молекул двухцепочечных ДНК с ДНК Y-адаптера, где указанный адаптер, содержит первую цепь ДНК и вторую цепи ДНК,

где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами молекул двухцепочечных ДНК,

где указанный контакт осуществляют в условиях, достаточных для лигирования Y-адаптера к обоим концам молекул двухцепочечных ДНК, с получением, тем самым, множества Y-адаптер-содержащих молекул ДНК,

(b) контакт каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации, который содержит 3'-участок, комплементарный второй цепи ДНК молекулы Y-адаптера в условиях, достаточных для гибридизации праймера для элонгации со второй цепью Y-адаптера, и который, после гибридизации со второй цепью ДНК молекулы Y-адаптера создает выступающие концы,

(c) контакт молекулы, полученной на стадии (b) со шпилечным адаптером, где указанный шпилечный адаптер, содержит участок петли шпильки и выступающие концы, которые совместимы с выступающими концами в молекулах, образующихся на стадии (b), в условиях достаточных для лигирования шпилечного адаптера с молекулами, полученными на стадии (b),

(d) преобразования каждой из цепей молекулы ДНК, полученной на стадии (с) в молекулу двухцепочечной ДНК с помощью полимеразной элонгации с праймера для элонгации, используемого на стадии (b),

где стадия лигирования к шпилечному адаптеру (с) и стадия элонгации (d) могут быть осуществлены в любом порядке или одновременно.

Термины «Y-адаптер» и «Y-адаптор» используются как взаимозаменяемые и, так же, как и выше, относятся к адаптеру, образованному двумя нитями ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй ДНК цепи образуют двухцепочечный участок из-за комплементарности последовательностей, и где концы указанного двухцепочечного участка совместимы с концами молекул двухцепочечных ДНК. В этом случае Y-адаптер не содержит петлю шпильки, а именно 3'-участок второй цепи ДНК из Y-адаптера не образует петлю шпильки гибридизацией между первым и вторым сегментом внутри упомянутого 3'-участка.

Предпочтительно, если молекулы двухцепочечной ДНК, используемые на стадии (а), представляют собой фрагменты геномной ДНК. Предпочтительно, если молекулы двухцепочечной ДНК, используемые на стадии (а), подвергнуты концевой репарации до указанной стадии (а), предпочтительно, дополнительно включается стадия стадию концевой обработки аденином к молекулам ДНК после окончания концевой репарации.

Стадия контакта (а) осуществляется в условиях, достаточных для лигирования Y-адаптера к обоим концам молекул двухцепочечных ДНК.

Результат указанной стадии представляет собой множество Y-адаптер-содержащих молекул ДНК, которые представляют собой двухцепочечные молекулы ДНК, имеющие по одному Y-образному адаптеру, лигированному с каждым концом молекулы.

Вторая стадия (b) включает контакт каждой цепи Y-адаптер-содержащей молекулы ДНК с праймером для элонгации.

Термин «праймер для элонгации», при использовании в данном документе, относится к праймеру, используемому для элонгации на следующей стадии способа, который содержит «3'-участок, комплементарный второй цепи молекулы Y-адаптера, создающий выступающие концы. Термины «праймер» и «выступающие концы» определены выше.

Третья стадия (с) включает контакт молекулы, полученной на стадии (b), со шпилечным адаптером в условиях, достаточных для лигирования шпилечного адаптера с молекулами, полученным на стадии (b).

Термин «шпилечный адаптер», при использовании в данном документе, относится к дуплексу, образованному одноцепочечной нуклеиновой кислотой, которая складывается обратно на себя, с формированием двухцепочечного участка, поддерживаемого спариванием оснований между комплементарными последовательностями одной и той же цепи, к участку петли шпильки, образованной неспаренными основаниями и к выступающим концам, которые совместимы с выступающими концами молекул, полученными на стадии (b).

На фигуре 7 показано воплощение способа по изобретению, где адаптер-шпилька и праймер для элонгации представлены отдельно.

В ином случае, стадия (b) контакта каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации и стадия (с) контакта молекулы, полученной на стадии (b) с адаптером-шпилькой осуществляется в одну стадию, путем предоставления адаптера-шпильки и праймера для элонгации в виде комплекса.

Термин «комплекс», при использовании в данном документе, относится к уникальной молекуле, образованной адаптером-шпилькой и праймером для элонгации. На фигурах 8 и 9 показаны различные воплощения в соответствии со способом по изобретению, где праймер для элонгации и адаптер-шпилька предоставляются в виде комплекса в различных конформациях. В этом случае, после лигирования Y-адаптера, праймер для элонгации, содержащийся в комплексе, отжигается и осуществляется лигирование между 3'-концом второй цепи Y-адаптера и 5'-концом шпилечного адаптера.

Стадия лигирования шпилечного адаптера (с) и стадия элонгации (d) могут быть осуществлены в любом порядке или одновременно. В одном из воплощений стадию (с) осуществляют перед стадией (d). На другом воплощении стадию (d) проводят перед стадией (с) (то есть удлинение выполняется до того, как адаптер-шпилька лигируется с конструкцией). В другом воплощении стадии (с) и (d) проводятся одновременно.

Предпочтительно, если Y-адаптер-содержащие молекулы ДНК, полученные на стадии (а) или на стадии (с) помещаются в условиях, достаточных для разделения цепей указанных Y-адаптер-содержащих молекул ДНК.

Конструкции, полученные после стадии (d) образуют двухцепочечные ДНК-библиотеки, и могут быть использованы для секвенирования или в других традиционных методов молекулярной биологии.

Y-адаптер поставляется в виде библиотеки адаптеров, где каждый элемент библиотеки отличается от остальных по комбинаторной последовательности (также называемой последовательностью штрихкода), расположенной в двухцепочечном участке, образованном 3'-участком первой ДНК цепи и 5'-участком второй цепи ДНК адаптера, с целью спаривания множества фрагментов молекул двухцепочечной ДНК (исходная цепь и комплементарная исходной цепи).

Необязательно Y-адаптер, праймер для элонгации и/или адаптер-шпилька включают основания, меченные вторым элементом пары связывания, которые позволяют извлекать матрицу исходной ДНК после стадий элонгации или амплификации.

Необязательно, молекулы, полученные после стадии (d), могут быть извлечены из реакционной смеси. Таким образом, молекулы, полученные на стадии (d), могут быть извлечены из реакционной смеси, предпочтительно с использованием первого элемента пары связывания, где праймер, используемый на стадии (е) модифицируется вторым элементом указанной пары связывания.

После того, как множество спаренных адаптер-содержащих молекул ДНК было получено (стадия (i) способа по настоящему изобретению), спаренные адаптер-содержащие молекулы ДНК обрабатывали реагентом, который позволяет преобразовать неметилированные цитозины в основания, которые являются детектируемо отличимыми от цитозина по свойствам гибридизации (предпочтительно урацил) и где праймеры, используемые на стадии (i), (b) выше, комплементарны, по меньшей мере, части последовательностей, возникающих в результате обработки указанным реагентом двухцепочечной ДНК молекулы (стадия (ii) способа по изобретению).

Предпочтительно, если реагент представляет собой бисульфит.

Необязательно для того, чтобы избежать изменения специфической части комбинаторных последовательностей (последовательностей штрихкода) после обработки указанным реагентом, последовательность комбинаторной последовательности может содержать модифицированные цитозины, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

Например, адаптер-шпилька и/или Y-адаптер могут быть представлены иммобилизованными на подложке, как описано выше. Предпочтительно указанная иммобилизация осуществляется путем связывания нуклеотида петли шпильки шпилечного адаптера и/или 5'-конца первой цепи ДНК Y-адаптера с указанной подложкой.

В другом воплощении праймер, используемый на стадии (i), (d), как описано выше для настоящего воплощения, и, возможно, на стадиях (iii) и, необязательно, (iv) способа по изобретению (для необязательной амплификации частично трансформированных спаренных молекул двухцепочечной ДНК) также прикреплен к подложке. Предпочтительно, если связывание между адаптером и/или праймером с подложкой представляет собой ковалентное связывание.

Третье воплощение способа по настоящему изобретению

В третьем воплощении способа по изобретению, множество спаренных адаптер-модифицированных молекул ДНК стадии (i) способа по настоящему воплощению может быть получено:

(a) фрагментацией множества молекул двухцепочечных ДНК в условиях, достаточных для образования множества фрагментов молекул двухцепочечных ДНК с выступающими концами, где каждый конец каждого фрагмента связан с молекулой гемиадаптера, где указанная молекула гемиадаптера содержит первую цепь ДНК и, необязательно, вторую цепь ДНК, где вторая цепь образует двухцепочечный участок с первой цепью из-за комплементарности с центральным участком первой цепи и где молекулы гемиадаптера связываются с фрагментами молекул двухцепочечных ДНК между 3'-концом из первой цепи гемиадаптера и выступающими концами фрагментов молекул двухцепочечных ДНК,

(b) добавлением альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера с альтернативной второй цепью, где 5'-участок упомянутой альтернативной второй цепи является комплементарным 3'-участку первой цепи молекулы гемиадаптера, где указанная альтернативная вторая цепь, содержащая участок, который не является комплементарным первой цепи молекулы гемиадаптера, что приводит к получению множества Y-адаптер-модифицированных молекул ДНК,

(c) при необходимости, заполнением разрывов, существующих между 5'-концом альтернативной второй цепи из Y-адаптера и 3'-концом каждого фрагмента ДНК,

(d) контактом каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации, который содержит 3'-участок, комплементарный к альтернативной второй цепи ДНК молекулы Y-адаптера и 5'-участок, который не гибридизуется с альтернативной второй цепью ДНК из Y-адаптера, в условиях, достаточных для гибридизации праймера для элонгации с альтернативной второй цепью Y-адаптера,

(е) спариванием молекул, полученных на стадии (d). Спаривание предпочтительно может быть достигнуто путем контакта молекулы, полученной на стадии (d) с молекулой-шпилькой, где указанная шпилечная молекула, содержит участок петли шпильки и концы, которые совместимы с концами в молекулах, сформированных на стадии (d) в условиях, достаточных для лигирования шпилечного адаптера с молекулами, полученными на стадии (d); необязательно спаривание может быть достигнуто наличием последовательностей штрихкодов (в отсутствие шпилечной молекулы), либо добавленной после стадии (d), либо уже присутствующей в Y-адаптере и/или праймере для элонгации;

(е) преобразованием каждой из цепей молекулы ДНК, полученной на стадии (е) в молекулу двухцепочечной ДНК с помощью полимеразной элонгации с праймера для элонгации, используемого на стадии (d), с получением множества спаренных адаптер-модифицированных молекул ДНК

где стадия лигирования к шпилечному адаптеру (е) и стадия элонгации (f) могут быть выполнены в любом порядке или одновременно.

Этот третье воплощение настоящего изобретения адаптировано для различных систем фрагментации.

На первой стадии, способ получения библиотеки двухцепочечных ДНК в соответствии с третьим воплощением настоящего изобретения включает фрагментацию множества молекул двухцепочечных ДНК в условиях, достаточных для образования множества фрагментов молекул двухцепочечных ДНК с выступающими концами, где каждый конец каждого фрагмента связан с молекулой гемиадаптера между 3'-концом первой цепи гемиадаптера и выступающими концами фрагментов молекул двухцепочечных ДНК.

Термины «гемиадаптер» и «гемиадаптор» используются взаимозаменяемо и относятся к неполному адаптеру, образованному первой цепью ДНК, и, возможно, второй цепью ДНК, где вторая цепь образует двухцепочечный участок с первой цепью из-за комплементарности с центральным участком первой цепи. Гемиадаптер согласно настоящему воплощению, не содержит петлю шпильки. Например, гемиадаптер не содержит вторую цепь ДНК. Например, гемиадаптер содержит первую и вторую цепь ДНК.

Предпочтительно молекулы двухцепочечной ДНК, используемые на стадии (а), представляют собой фрагменты геномной ДНК.

Первая стадия по настоящему воплощению, включающая фрагментацию и лигирование гемиадаптера к молекулам двухцепочечных ДНК может быть осуществлена, например, путем транспозиции in vitro, где транспозируемый элемент вводят из донорной ДНК (молекулы гемиадаптера) в ДНК-мишень (популяция молекул двухцепочечных ДНК).

Предпочтительно, если стадию фрагментацию (а) осуществляют способом, который включает контакт популяции молекул двухцепочечных ДНК с димером транспозазы, нагруженной двухцепочечными адаптерными молекулами, где адаптерные молекулы содержат двухцепочечный участок, содержащий инвертированный повтор Tn5 и 5'-выступ одной из цепей, где нуклеотиды цитозина в двухцепочечном участке, который не является составной частью инвертированного повтора Tn5 и в одноцепочечном участке необязательно являются метилированными, и где контакт проводят в условиях, достаточных для фрагментации ДНК и для прикрепления молекул гемиадаптера к обоим концам каждого фрагмента ДНК.

Термин «транспозаза», при использовании в данном документе, относится к ферменту (ЕС номером 3.1.-.-), который может распознавать специфические последовательности ДНК, расщеплять две дуплексные молекулы ДНК в четырех местах и лигировать цепи. Транспозаза образует комплекс с нуклеиновой кислотой, которая способна к транспозиции, т.е. катализирует введение нуклеиновой кислоты в последовательность ДНК-мишени.

Выражение «димер транспозазы», при использовании в данном документе, относится к димерам двух химически идентичных мономеров ряда остатков. Любой димер транспозазы из любого вида может быть использован в настоящем изобретении, либо естественный, либо мутантный. Особый интерес представляют, без ограничения перечисленным, транспозазы Tn5, Tn3, Tn7 и их мутанты, а также ретровирусные интегразы. В предпочтительном воплощении димер транспозазы является Tn5 транспозазой. Термин «Tn5 транспозаза» относится к представителю суперсемейства белков РНКаз, которое включает ретровирусные интегразы. Tn5 транспозаза по настоящему изобретению находится в Escherichia coli и определяется последовательностью Q46731 в базе данных UniProt, версии от 3 апреля 2013 года. Изобретение включает также функциональные варианты, эквивалентные упомянутой Tn5 транспозазе, включающие природные варианты, которые появились у других видов (например, у Shewanella) и искусственные варианты, полученные с помощью методов молекулярной биологии (например, мутант Tn5 транспозазы раскрыт в US 5965443).

Термин «загружен», при использовании в данном документе, означает, что димер транспозазы связан с фрагментом дуплексной ДНК.

Выражение «двухцепочечная адаптерная молекула», в контексте настоящего воплощения, относится к адаптерной молекуле, содержащей двухцепочечный участок, содержащий инвертированный повтор TN5 и 5'-выступ одной из цепей.

Выражение «Инвертированный повтор Tn5», при использовании в данном документе, относится к мобильному генетическому элементу. Указанный Инвертированный повтор Tn5, как правило, насчитывает 18 или 19 оснований в длину и является инвертированным повтором относительно другого Tn5-инвертированного повтора (Johnson R.C. and Reznikoff W.S. 1983. Nature, 304:280). Последовательности Tn5-инвертированных повторов хорошо известны в данной области техники.

Нуклеотиды цитозина в двухцепочечном участке, который не является частью Tn5-инвертированного повтора и одноцепочечного участка могут быть метилированы или неметилированы. В конкретном воплощении указанный цитозин метилирован.

Выражение «условия, адекватные для фрагментации ДНК и для прикрепления молекул гемиадаптера к обоим концам каждого фрагмента ДНК», при использовании в контексте настоящего воплощения, относится к адекватным условиям времени, температуры и состава буфера, для правильной работы загруженного димера транспозазы. Указанные условия хорошо известны специалистам в данной области техники. Примерные условия раскрыты в Adey A. and Shendure J. 2012. Genome Research, 22:1139-1143 и в Adey A et al. 2010. Genome Biology, 11: R119.

Подходящие наборы для первой стадии (а) по настоящему воплощению, представляют собой, например, наборы для подготовки образца Nextera™ DNA (Illumina).

Перестановка in vitro может быть осуществлена с помощью тагментации («Ультранизкочастотные вход, полногеномное бисульфитное секвенирование на основе тагментации» Adey A. and Shendure J. 2012. Genome Research, 22:1139-1143; «Rapid, low-input, low-bias construction of shotgun fragment libraries by high-density in vitro transposition» Adey A. et al. 2010. Genome Biology, 11: R119) или модификации способа тагментации, раскрытой в патенте US 5965443. Другие способы, которые могут быть использованы в настоящем изобретении, включают, без ограничения перечисленным, те, которые раскрыты в ЕР 2527438А1, US 2003143740 A, US 7160682 B и WO 9925817 A.

Результат указанной стадии (а) представляет собой множество гемиадаптер-содержащих молекул ДНК, двухцепочечных молекулы ДНК, имеющих по одному гемиадаптеру, лигированному с каждым концом молекулы.

Вторая стадия (b) по настоящему воплощению включает добавление альтернативной второй цепи или замену второй цепи ДНК молекулы гемиадаптера на альтернативную вторую цепь, с получением множества Y-адаптер-содержащих молекул ДНК.

Выражение «замена», используемое в данном документе, означает, что вторая цепь ДНК гемиадаптера замещается альтернативной второй цепью. Замещение происходит в условиях, при которых исходная вторая цепь ДНК из гемиадаптера теряет аффинность по отношению к альтернативной второй цепи, при контроле температуры, концентрации цепи и температуры плавления цепи в реакции. Если коротко, то исходная вторая цепь ДНК теряет габридизацию с первой цепью гемиадаптера при повышении температуры, например, до 50°C в течение 2-х минут, в подходящем буфере. Затем смесь охлаждают и альтернативная вторая цепь заменяет исходную вторую цепь ДНК. Примерные условия для замены второй цепи ДНК гемиадаптера раскрыты в Adey A. and Shendure J. 2012. Genome Research, 22:1139-1143.

Выражение «альтернативная вторая цепь», при использовании в данном документе, относится к цепи, имеющей 5'-участок, комплементарный 3'-участку первой цепи молекулы гемиадаптера и содержащей участок, который не является комплементарным первой цепи гемиадаптера. В одном варианте 5'-участок альтернативной второй цепи, комплементарный 3'-участку первой цепи молекулы гемиадаптера, не имеет никакого разрыва между 5'-концом альтернативной второй цепи и 3'-концом фрагмента ДНК. В другом воплощении имеется разрыв между 5'-концом альтернативной второй цепи и 3'-концом фрагмента ДНК.

Выражение «Y-адаптер», в контексте настоящего воплощения, относится к адаптеру, образованному двумя нитями ДНК, где 3'-участок и/или центральный участок первой цепи ДНК, и 5'-участок альтернативной второй цепи образуют двухцепочечный участок из-за комплементарности последовательностей и где 5'-участок первой цепи и 3'-участок альтернативной второй цепи не являются комплементарными.

В некоторых случаях, 5'-конец альтернативной второй цепи Y-адаптера, и 3'-конец каждого фрагмента ДНК, не лигируются, поскольку между концами могут находится разрывы.

Необязательно настоящее воплощение включает стадию (с) заполнения разрывов, существующих между 5'-концом альтернативной второй цепи Y-адаптера и 3'-концом каждого фрагмента ДНК.

Термин «разрыв», при использовании в данном документе, относится к разрыву в одной из двух цепи ДНК из-за потери одного или нескольких нуклеотидов.

Выражение «заполнение разрывов», при использовании в данном документе, относится к добавлению недостающих нуклеотидов в цепи. ДНК-полимераза, вставляет правильный нуклеотид в разрыв и связывает его с нуклеотидом на 3'-конце цепи путем распознавания основания, которое противоположно разрыву в комплементарной цепи ДНК. При наличии одноцепочечного надреза в разрыве, цепи ДНК с обеих сторон одноцепочечного надреза лигируются с использованием ДНК-лигазы.

Если первая цепь ДНК гемиадаптера содержит комбинаторную последовательность, стадия (с) согласно настоящему воплощению генерирует дополнительную копию указанной комбинаторной последовательности путем заполнения разрыва.

Стадия (d) согласно настоящему воплощению включает контакт каждой цепи Y-адаптер-содержащей молекулы ДНК с праймером для элонгации в условиях, достаточных для гибридизации праймера для элонгации с альтернативной второй цепью Y-адаптера.

Термин «праймер для элонгации», при использовании в контексте настоящего воплощения, относится к праймеру, используемому для элонгации в последующих стадиях способа, который содержит 3'-участок, комплементарный альтернативной второй цепи ДНК из Y-адаптера и 5'-участок, которая предпочтительно не гибридизуется с альтернативной второй цепью ДНК Y-адаптера.

Стадия (d) согласно настоящему воплощению может генерировать тупые концы или выступающие концы, предпочтительно выступающие концы.

Стадия (е) согласно настоящему воплощению включает спаривание молекул, сформированных на стадии (d), предпочтительно путем контакта молекулы, полученной на стадии (d) со шпилечным адаптером в условиях достаточных для лигирования шпилечного адаптера с молекулами, полученными на стадии (d). Необязательно спаривание может быть достигнуто наличием последовательностей штрихкодов (в отсутствие шпилечной молекулы), либо добавленной после стадии (d), либо уже присутствующей в Y-адаптере и/или праймере для элонгации.

Термин «шпилечный адаптер», «шпилечная последовательность» и/или «шпилечная молекула», в контексте настоящего воплощения относится к дуплексу, образованному одноцепочечной нуклеиновой кислотой, которая складывается обратно на себя, с формированием двухцепочечного участка поддерживаемого спариванием оснований между комплементарными последовательностями оснований одной и той же цепи, участком петли, образованным неспаренными основаниями и концами, которые совместимы с концами в молекулах, образованных на стадии (d). Адаптер-шпилька может содержать тупые концы или выступающие концы, предпочтительно выступающие концы.

В другом случае данного воплощения стадия (d) контакта каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации и стадии (е) контакта молекулы, полученной на стадии (D) с молекулой-шпилькой, проводятся в одиночную стадию путем предоставления шпилечного адаптера и праймера для элонгации в виде комплекса.

Термин «комплекс», при использовании в данном документе, относится к уникальной молекуле, образованной адаптером-шпилькой и праймером для элонгации. На фигуре 10 показан пример, в соответствии с настоящим воплощением, где праймер для элонгации и адаптер-шпилька предоставлены в виде комплекса. В этом случае, праймер для элонгации, содержащийся в комплексе, отжигают и лигирование проводят между 3'-концом альтернативной второй цепи Y-адаптера, так и 5'-концом шпилечного адаптера.

В другом случае данного воплощения стадия (b) добавления альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера на альтернативную вторую цепь, стадия (d) контакта каждой цепи указанной Y-адаптер-содержащей ДНК-молекулы, с праймером для элонгации и стадия (е) контакта молекулы, полученной на стадии (d) с молекулой-шпилькой, проводят в одну стадию путем предоставления альтернативной второй цепи, адаптера-шпильки и праймера для элонгации в виде комплекса.

Термин «комплекс», при использовании в данном документе, относится к уникальной молекуле, образованной альтернативной второй цепью, адаптером-шпилькой и праймером для элонгации. На фигуре 11 показано воплощение в соответствии с настоящим воплощением, где альтернативная вторая цепь, праймер для элонгации и шпилечная молекула предоставляются в виде комплекса. В этом случае альтернативная вторая цепь, содержащийся в комплексе, отжигается на первой цепи ДНК молекулы гемиадаптера. Стадия (с) заполнения разрыва и стадия (е) элонгации могут быть выполнены одновременно, при добавлении ДНК-полимеразы и ДНК-лигазы; или же они могут быть выполнены по отдельности, когда 3'-конец праймера для элонгации блокирован. Предпочтительно, если стадии (b)-(е) проводятся одновременно.

В настоящем воплощении стадия лигирования шпилечной молекулы (е) и стадией элонгации (f) могут быть выполнены в любом порядке или одновременно.

В предпочтительном воплощении Y-адаптер-содержащие молекулы ДНК, полученные на стадии (b) или, в зависимости от обстоятельств, на стадии (с) или спаренные адаптер-содержащие молекулы ДНК, полученные на стадии (е), или, в зависимости от обстоятельств быть, на стадии (f) помещают в условиях, достаточные для разделения цепей указанных молекул.

Конструкции, полученные после стадии (f), в соответствии с настоящим воплощением образуют двухцепочечные ДНК-библиотеки и могут быть использованы для секвенирования или в других традиционных методов молекулярной биологии.

Предпочтительно, если гемиадаптер, используемый на стадии (а), предоставляется в виде библиотеки гемиадаптеров, при этом каждый элемент библиотеки отличим от остальных комбинаторной последовательностью в 3'-участке первой цепи гемиадаптера. Например, если вторая цепь гемиадаптера или альтернативная вторая цепь используемые на стадии (b) не демонстрируют какого-либо существенного совпадения с указанным комбинаторным участком. В другом примере, вторая цепь гемиадаптера или альтернативная вторая цепь используемые на стадии (b) демонстрируют существенное перекрытие с указанным комбинаторным участком.

Выражение «не демонстрирует какого-либо существенного перекрытия», при использовании в данном документе, означает, что вторая цепь гемиадаптера или альтернативная вторая цепь используемые на стадии (b), не простираются и не охватывают комбинаторный участок. Выражение «демонстрируют существенное перекрытие», при использовании в данном документе, означает, что вторая цепь гемиадаптера или альтернативная вторая цепь, используемые на стадии (b), увеличиваются и охватывают также частично или полностью комбинаторный участок.

Необязательно Y-адаптер, праймер для элонгации и/или адаптер-шпилька и/или последовательности штрихкода, если они присутствуют, включают основания, меченные вторым элементом пары связывания, которые позволяют восстановить матрицу исходной ДНК после стадии элонгации или амплификации.

Необязательно, молекулы, полученные после стадии (е) согласно настоящему воплощению, могут быть извлечены из реакционной смеси. Таким образом, в одном из воплощений настоящего воплощения изобретения молекулы, полученные на стадии (f), извлекают из реакционной смеси, предпочтительно, если Y-адаптер, праймер для элонгации и/или шпилечные молекулы и/или, если речь идет об этом, последовательность(и) штрихкодов включают основания, меченные вторым элементом пары связывания, который позволяет извлекать матрицу исходной ДНК после стадий элонгации или амплификации.

После получения множества спаренных адаптер-модифицированных молекул ДНК были (стадия (i) способа по изобретению), в соответствии с настоящим воплощением (неметилированный) цитозин, присутствующий в обеих цепях спаренных адаптер-модифицированных молекул ДНК, преобразуется например, в урацил в спаренных адаптер-модифицированных молекулах ДНК (стадия (ii) способа по изобретению).

Соответственно, множество спаренных адаптер-модифицированных молекул ДНК обрабатывали реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и где праймеры, используемые на стадии (d) являются комплементарными, по меньшей мере, части последовательности, полученной в результате обработки указанным реагентом молекул двухцепочечных ДНК, полученных на стадии (f).

Предпочтительно этим реагентом является бисульфит.

Необязательно, комбинаторная последовательность (последовательность штрихкода), если он присутствует, может содержать один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации. Комбинаторная последовательность в ином случае или в дополнение может содержать немодифицированные цитозины (которые не являются устойчивыми к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации).

После получения множества спаренных и трансформированных адаптер-модифицированных молекул ДНК (стадия (ii) способа по изобретению), получали комплементарные цепи спаренных и трансформированных адаптер-модифицированных молекул ДНК (стадия (iii) способа по настоящему изобретению).

Предпочтительно, если стадию (iii) способа по изобретению осуществляют с использованием праймера, последовательность, которого комплементарна, по меньшей мере, части комплементарной последовательности 5'-участка первой цепи ДНК молекулы гемиадаптера (предпочтительно полученной после обработки реактивом молекул двухцепочечных ДНК (стадия (ii) способа по изобретению)).

Предпочтительно, если стадию (iii) способа по изобретению осуществляют с использованием праймера, последовательность которой комплементарна, по меньшей мере, части комплементарной последовательности популяции молекул двухцепочечных ДНК, используемых для получения парных и трансформированных адаптер-модифицированных молекул ДНК (предпочтительно, комплементарна последовательности, полученной обработкой реагентом молекул двухцепочечных ДНК (стадия (ii) способа по изобретению, как описано выше).

Последующие стадии амплификации с парой праймеров также возможны (стадия (iv) способа по изобретению). Любая комбинация праймеров охватывается настоящим изобретением. Например, в конкретном воплощении праймер стадии (iii) является комплементарным по меньшей мере, части комплементарной последовательности 5'-участка первой цепи ДНК молекулы гемиадаптера, а праймер стадии (iv) является комплементарным 3'-участку молекулы, полученной после первой стадии амплификации.

Необязательно, молекулы, полученные после стадии (iii) и/или стадии (iv) могут быть извлечены из реакционной смеси. Таким образом, молекулы, полученные на стадии (iii) и/или стадии (iv) извлекают из реакционной смеси, предпочтительно с использованием первого элемента пары связывания, где праймер, используемый на стадии (iii) и/или стадии (iv) модифицируется вторым элементом указанной пары связывания.

В настоящем воплощении адаптер-шпилька и/или первая цепь ДНК из гемиадаптера могут быть представлены в иммобилизованными на подложке. Предпочтительно указанная иммобилизация осуществляется путем связывания нуклеотида петли шпильки шпилечного адаптера и/или 5'-конца первой цепи ДНК из гемиадаптера с указанной подложкой. В настоящем воплощении праймер, используемый на стадии (iii) и/или стадии (iv), может быть также прикреплен к подложке. Предпочтительно, если связывание между адаптером и/или праймером с подложкой представляет собой ковалентную связь.

Другие воплощения способа по настоящему изобретению

1. Способ по настоящему изобретению, в котором спаривание цепей множества молекул двухцепочечных ДНК осуществляется из-за наличия последовательностей штрихкодов

Например, множество спаренных адаптер-модифицированных молекул ДНК на стадии (i) способа по настоящему изобретению может быть получено путем лигирования популяции молекул двухцепочечных ДНК с популяцией адаптеров ДНК, причем каждый адаптер, содержит первую цепь ДНК и вторую цепь ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами двухцепочечных молекул ДНК, где каждый адаптер популяции отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК, где указанное лигирование осуществляется в условиях, достаточных для лигирования адаптера к каждому концу молекул двухцепочечных ДНК, с получением, тем самым, множества адаптер-содержащих молекул ДНК.

Соответственно, получали двухцепочечные ДНК-библиотеки, которые особенно полезны для анализа метилирования образца, в которых исходные смысловые и антисмысловые цепи молекулы ДНК физически не связаны друг с другом с помощью линкера, но могут быть идентифицированы с помощью комбинаторного мечения (комбинаторные последовательности или последовательности штрихкодов). В частности, каждая из смысловой и антисмысловой цепи связаны с двумя комбинаторными последовательностями.

Термин «библиотека ДНК», при использовании в данном документе, относится к совокупности фрагментов ДНК, которые были лигированы с адаптерными молекулами для идентификации и выделения представляющих интерес ДНК-фрагментов.

Выражение «библиотека двухцепочечных ДНК», при использовании в данном документе, относится к библиотеке, которая содержит обе цепи молекулы ДНК (то есть смысловую и антисмысловую цепи), но где указанные цепи не соединены физически с помощью линкера. Смысловая и антисмысловая цепи исходной молекулы идентифицируются с помощью комбинаторной метки (комбинаторные последовательности или последовательности штрихкодов), так как смысловая цепь включает два уникальных комбинаторных штрихкода, которые также присутствуют в антисмысловой цепи. Каждая исходная цепь молекулы ДНК связывается одним концом первой цепи адаптера, имеющего уникальную комбинаторную последовательность и с другим концом второй цепи другого адаптера, имеющего другую уникальную комбинаторного последовательность.

Термины «адаптер» и «адаптор» используются взаимозаменяемо и относятся к олигонуклеотиду или фрагменту нуклеиновой кислоты или сегменту, которые могут быть лигированы с представляющей интерес молекулой нуклеиновой кислоты.

«Адаптер ДНК», используемый в данном документе, включает первую цепь ДНК и вторую цепь ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами множества молекул двухцепочечных ДНК, и при этом каждый адаптер отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованной между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК. Адаптер ДНК может быть образован с помощью первой цепи ДНК, и второй цепи ДНК, которые по существу комплементарны. Таким образом, 5'-участок первой цепи ДНК, и 3'-участок второй цепи ДНК могут быть комплементарны. Адаптер ДНК может представлять собой Y-адаптер. Таким образом, адаптер ДНК может представлять собой Y-адаптер, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК могут образовывать двухцепочечный участок из-за комплементарности последовательностей и где 5'-участок первой нити ДНК и 3'-участок второй цепи ДНК, не могут быть комплементарны. На фигуре 14 показана схематическая диаграмма, демонстрирующая этот аспект способа по изобретению. Необязательно, адаптер ДНК может быть адаптером в соответствии с адаптерами, описанными в разделе «Библиотеки Y-адаптеров изобретения, способы и наборы для их синтеза» настоящего описания. Любое из воплощений, раскрытых в указанном разделе, применимы к адаптеру, используемому в данном документе. В предпочтительном варианте 3'-конец второй цепи ДНК, в каждом адаптере обратимо блокируется с помощью линкера, который связывает 5'-конец первой цепи ДНК и 3'-конец второй цепи ДНК.

Предпочтительно молекулы двухцепочечной ДНК, используемые на стадии (i), представляют собой фрагменты геномной ДНК. Необязательно молекулы двухцепочечной ДНК, используемые на стадии (i), подвергнуты концевой репарации до начала стадии (i), и, предпочтительно, дополнительно включает стадию концевой обработки аденином после окончания стадии концевой репарации, как описано выше.

Необязательно множество молекул двухцепочечных ДНК обрабатывали перед стадией (i) с помощью адаптерных молекул, в условиях, достаточных для лигирования адаптерных молекул с молекулами ДНК, посредством чего вводятся липкие концы в указанные молекулы ДНК.

Стадия лигирования (i) проводится в условиях, достаточных для лигирования адаптера к каждому концу молекул двухцепочечных ДНК, с образованием множества адаптер-содержащих молекул ДНК.

Результат указанной стадии представляет собой множество спаренных адаптер-содержащих молекул ДНК. Каждая спаренная адаптер-модифицированая молекула ДНК будет иметь две различных комбинаторных последовательности, каждая из которых расположена в одном из адаптеров, лигированных к каждому концу молекулы ДНК.

Конструкции, полученные после стадии (i) образуют двухцепочечную библиотеку по изобретению, и могут быть использованы для секвенирования или в других традиционных методов молекулярной биологии. Преимущество этих библиотек заключается в том, что комбинаторные последовательности, позволяют объединять информацию последовательностей, полученную из смысловой и антисмысловой цепи, которые изначально были вместе, для получения более достоверного результата.

Адаптер-содержащие молекулы ДНК, полученную на стадии (i) обрабатывали реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации (стадия (ii)).

В предпочтительном воплощении, реагент представляет собой бисульфит, который преобразует все неметилированные цитозины в урацилы, которые будут считаны как тимины в молекулах, амплифицированных на стадии (iii).

После обработки на стадии (ii), комплементарность между смысловой и антисмысловой цепями исходных молекул двухцепочечной ДНК частично или полностью утрачивается. Это облегчает отжиг праймеров, используемых в последующих стадиях.

Конструкции, полученные после стадии (ii), также могут быть использованы для секвенирования или в других традиционных методах молекулярной биологии, в частности, для анализа метилирования образца.

На третьей стадии способа по изобретению (стадия (iii)), предусмотрены комплементарные цепи спаренных и трансформированных адаптер-модифицированных молекул ДНК, полученных на стадии (ii). На этой стадии используется праймер, последовательность которого является комплементарной, по меньшей мере, части второй цепи ДНК адаптера (в результате обработки указанным реагентом молекул двухцепочечных ДНК (стадия (ii) способа по изобретению)). Это показано на фигуре 14, и позволяет получать комплементарные цепи для всей последовательности популяции спаренных и трансформированных адаптеров-модифицированных молекул двухцепочечной ДНК, используемых для генерации библиотеки двухцепочечных ДНК.

После проведения стадии (ii), праймеры, используемые на стадии (iii), способны гибридизоваться со спаренными и трансформированными адаптер-модифицированными молекулами ДНК, когда указанная молекула была обработана реагентом, который превращает неметилированные цитозины в основание, которое детектируемо отличимо от цитозина по свойствам гибридизации. Например, указанные праймеры могут быть не способны гибридизоваться с адаптерной молекулой до осуществления с ней указанной конверсии. Если адаптерная молекула содержит не являющиеся метилированными цитозины, то праймеры, используемые на стадии (iii), имеют основание аденин вместо основания гуанин в тех положениях, которые спариваются с неметилированными цитозинами исходной адаптерной молекулы. Адаптерная молекула может содержать метилированные или неметилированные цитозины. Необязательно для того, чтобы избежать изменения определенной части последовательности адаптерных молекул, шпилечных последовательностей и/или последовательностей штрихкодов после обработки указанным реагентом, последовательность первой адаптерной молекулы и предпочтительно комбинаторная последовательность в пределах адаптерной последовательности могут содержать модифицированные цитозины, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации. Адаптеры могут содержать неметилированные (немодифицированные) цитозины.

Следует отметить, что различные амплификации с различными условиями могут быть выполнены на аликвотах одного и того же образца, таким образом, что любые смещения (ТА или CG смещения) могут быть оценены и рассмотрены на стадии анализа.

Необязательно, адаптер ДНК включает основания, меченные вторым элементом пары связывания, который позволяет извлекать матрицу исходной ДНК после стадий (i), (ii), (iii) или (iv).

Необязательно молекулы ДНК, полученные на стадии (i), или на стадии (ii) способа по изобретению извлекают из реакционной смеси, полученной после стадии (i), стадии (ii), или, в зависимости от обстоятельств, после стадии (iii) и/или после стадии (iv), предпочтительно с использованием первого элемента пары связывания, где адаптер модифицирован вторым элементом указанной пары связывания, как описано выше.

Необязательно молекулы ДНК, полученные на стадии (iii) и/или после стадии (iv) извлекают из реакционной смеси, предпочтительно с использованием первого элемента пары связывания, где праймеры, используемые на стадии (iii) и/или после стадии (iv) модифицируются вторым элементом указанной пары связывания.

Комбинаторные штрихкоды позволяют провести идентификацию образца, мультиплексирование, спаривание, и количественный анализ, и могут быть использованы для мониторинга смещения и контроля ошибок во время стадий амплификации. Конструкции, полученные в этом случае, имеют два различных идентификатора, ассоциированных со смысловой цепью, которые одинаковы с двумя идентификаторами, ассоциированными с антисмысловой цепью. Поскольку обе комбинаторные последовательности одинаковы для смысловой и антисмысловой цепей, обе цепи могут быть отслежены в течение процесса. По окончании всего процесса эти комплементарные цепи, которые изначально были вместе, будут иметь одинаковые комбинаторные последовательности. С каждой отдельной молекулой в исходном образце связаны два уникальных идентификатора, что позволяет различать конструкты. Указанные уникальные идентификаторы позволяют идентифицировать конкретную конструкцию, содержащую указанные идентификаторы и его потомков, поскольку после стадии (ii) исходные смысловая и антисмысловая цепи молекулы двухцепочечной ДНК могут быть разделены, но каждая из этих цепей будет содержать обе комбинаторные последовательности. Таким образом, любые продукты амплификации указанной исходной индивидуальной молекулы, несущие два уникальных идентификатора, считаются идентичными по происхождению.

Преимущество этого заключается в том, что образец, используемый в качестве ДНК-матрицы, может быть идентифицирован, сохранен во время процесса и восстановлен, сохранен и представлен во множество амплификаций с различными условиями и секвенирований без истощения образца.

Выражения «популяция молекул двухцепочечных ДНК», «комбинаторная последовательность», «концы», «совместимые», «лигирование», «матрица», «праймер», «комплементарный», «амплификация», «пара связывания», «первый элемент пары связывания», «второй элемент пары связывания», «основание, которое детектируемо отличается от цитозина по свойствам гибридизации» и «модифицированные цитозины» были определены в контексте способа по настоящему изобретению.

Все варианты и определения, используемые в способе по настоящему изобретению, применимы к данному примеру.

2. Способ по настоящему изобретению, в котором спаривание цепей из множества молекул двухцепочечной ДНК достигается в присутствии последовательностей штрихкодов

Например, множество спаренных адаптер-модифицированных молекул ДНК на стадии (i) способа по настоящему изобретению может быть получено путем

(a) фрагментации множества молекул двухцепочечных ДНК в условиях, достаточных для образования множества фрагментов молекул двухцепочечных ДНК с выступающими концами, где каждый конец каждого фрагмента связан с молекулой гемиадаптера, где указанная молекула гемиадаптера, содержит первую цепь ДНК и, необязательно, вторую цепь ДНК, где каждый гемиадаптер отличим от других по комбинаторной последовательности, расположенной в пределах 3'-участка первой цепи ДНК, где вторая цепь образует двухцепочечный участок с первой цепью из-за комплементарности с центральным участком первой цепи и где молекулы гемиадаптера связываются с фрагментами молекул двухцепочечных ДНК между 3'-концом первой цепи гемиадаптера и нависающими концами фрагментов молекул двухцепочечных ДНК,

(b) добавления альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера на альтернативную вторую цепь, где 5'-участок упомянутой альтернативной второй цепи является комплементарным 3'-участку первой цепи молекулы гемиадаптера, указанная альтернативная вторая цепь, содержит участок, который не является комплементарным к первой цепи молекулы гемиадаптера, что приводит к образованию множества Y-адаптер-модифицированных молекул ДНК,

(c) необязательно, заполнения разрывов, существующих между 5'-концом альтернативной второй цепи из Y-адаптера и 3'-концом каждого фрагмента ДНК,

В этом случае множество спаренных адаптер-модифицированных молекул ДНК, полученных после стадии (i) способа по изобретению приспособлено для различных систем фрагментации.

На первой стадии, множество молекул двухцепочечных ДНК фрагментировано в условиях, достаточных для формирования множества фрагментов молекул двухцепочечных ДНК с выступающими концами, где каждый конец каждого фрагмента связан с молекулой гемиадаптера между 3'-концом первой нити гемиадаптера и выступающими концами фрагментов молекул двухцепочечных ДНК.

Термин «гемиадаптер», при использовании в данном документе, относится к неполному адаптеру, образованному первой цепью ДНК, и, возможно, второй цепью ДНК, где вторая цепь образует двухцепочечный участок с первой цепью из-за комплементарности с центральным участком первой цепи и где каждый гемиадаптер отличима от других по комбинаторной последовательности, расположенной в пределах 3'-участка первой цепи ДНК. В одном воплощении гемиадаптер не содержит вторую цепь ДНК. Гемиадаптер может содержать первую и вторую цепь ДНК.

Предпочтительно, если вторая цепь гемиадаптера не демонстрирует какого-либо существенного совпадения с указанной комбинаторной последовательностью.

Предпочтительно, если молекулы двухцепочечной ДНК, используемые на стадии (i), представляют собой фрагменты геномной ДНК.

Необязательно молекулы двухцепочечной ДНК, используемые на стадии (i), подвергнуты концевой репарации до начала стадии (i), предпочтительно, и дополнительно проведена стадия концевой обработки аденином после окончания стадии концевой репарации.

Необязательно популяция молекул двухцепочечных ДНК обрабатывается перед стадией (i) адаптерными молекулами, в условиях, достаточных для лигирования адаптерных молекул с молекулами ДНК, посредством чего осуществляется введение липких концов в указанные молекулы ДНК.

Первая стадия, включающая фрагментацию и лигирование гемиадаптера с молекулами двухцепочечных ДНК, может быть осуществлена, например, путем транспозиции in vitro, где транспозируемый элемент вводят из ДНК-донора (молекулы гемиадаптера) в ДНК-мишень (популяцию двухцепочечных молекул ДНК).

Предпочтительно, если стадия фрагментации (i) осуществляется способом, который включает контакт популяции молекул двухцепочечных ДНК с димером транспозазы, нагруженной двухцепочечными адаптерными молекулами, где адаптерные молекулы содержат двухцепочечный участок, содержащий инвертированный повтор Tn5 и 5'-выступ одной из цепей, где нуклеотиды цитозина в двухцепочечном участке, который не является составной частью инвертированного повтора Tn5, и в одноцепочечном участке, необязательно метилированы, и где контакт проводится в условиях, достаточных для фрагментации ДНК и для прикрепления молекул гемиадаптера к обоим концам каждого фрагмента ДНК.

Выражение «двухцепочечная адаптерная молекула», при использовании в данном документе, относится к адаптерной молекуле, содержащей двухцепочечный участок, включающий инвертированный повтор Tn5 и 5'-выступ одной из цепей.

Результат указанной стадии представляет собой множество гемиадаптер-содержащих молекул ДНК которые представляют собой двухцепочечные молекулы ДНК, имеющие по одному гемиадаптеру, лигированному с каждым концом молекулы. Каждая гемиадаптер-содержащая молекула ДНК будет иметь две различных комбинаторных последовательности, каждая из которых находится в пределах 3'-участка первой цепи ДНК гемиадаптера, лигированного к каждому концу молекулы ДНК.

Вторая стадия (b) включает добавление альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера на альтернативную вторую цепь с получением множества Y-адаптер-содержащих молекул ДНК.

Выражение «альтернативная вторая цепь», при использовании в данном документе, относится к цепи, имеющей 5'-участок, комплементарный 3'-участку первой цепи молекулы гемиадаптера и содержащей участок, который не является комплементарным первой цепи гемиадаптера. Необязательно, 5'-участок альтернативной второй цепи, комплементарной к 3'-участка первой цепи молекулы гемиадаптера не имеет никакого разрыва между 5'-концом альтернативной второй цепи гемиадаптера и 3'-концом фрагмента ДНК. В другом воплощении имеется разрыв между 5'-концом альтернативной второй цепи гемиадаптера и 3'-концом фрагмента ДНК.

Предпочтительно, если альтернативная вторая цепь не демонстрирует какого-либо существенного совпадения с комбинаторным участком первой цепи ДНК гемиадаптера.

Выражение «Y-адаптер», при использовании в данном документе, относится к адаптеру, образованный двумя нитями ДНК, где 3'-участок и/или центральный участок первой цепи ДНК, и 5'-участок альтернативной второй цепи образуют двухцепочечный участок из-за комплементарности последовательностей, и где 5'-участок первой цепи и 3'-участок альтернативной второй цепи не являются комплементарными.

В некоторых воплощениях 5'-конец альтернативной второй цепи Y-адаптера, и 3'-конец каждого фрагмента ДНК, не лигированы, поскольку между концами могут существовать разрывы.

Конструкции, полученные после стадии (b), образуют двухцепочечную библиотеку по изобретению, и могут быть использованы для секвенирования или в других традиционных методов молекулярной биологии. Преимущество этих библиотек заключается в том, что комбинаторные последовательности позволяют объединять информацию последовательностей, полученную из смысловой и антисмысловой цепей, которые изначально были вместе, для получения более достоверного результата.

Необязательно, стадия (с) включает заполнение разрывов, существующих между 5'-концом альтернативной второй цепи Y-адаптера и 3'-конце каждого фрагмента ДНК.

Этот стадия образует дополнительную копию комбинаторной последовательности первой цепи ДНК гемиадаптера путем заполнения разрыва.

После этого полученное множество спаренных адаптер-модифицированных молекул ДНК передается на стадии (ii) и (iii), (и, при необходимости, на стадию (iv)) способа по настоящему изобретению, как описано выше.

Необязательно Y-адаптер включает основания, меченные вторым элементом пары связывания, которая позволяет извлекать матрицу исходной ДНК. Y-адаптер может содержать метилированные цитозины и/или неметилированные цитозины. Выражения «популяция молекул двухцепочечных ДНК», «комбинаторная последовательность», «концы», «совместимые», «лигирование», «матрица», «праймер», «комплементарный», «амплификация», «пара связывания», « первый элемент пары связывания», «второй элемент пары связывания», «основание, которое детектируемо отличается от цитозина по свойствам гибридизации» и «модифицированные цитозины» были определены выше.

Выражения «транспозаза», «димер транспозазы», «загружен», «инвертированный повтор Tn5», «условия, адекватные для фрагментации ДНК и для прикрепления молекул гемиадаптера к обоим концам каждого фрагмента ДНК», «замещающий», «разрыв», «заполнение разрывов» и «не показывает какого-либо существенного перекрывания» были определены выше.

Термины «ДНК-библиотеки» и «библиотеки двухцепочечных ДНК» были определены выше.

СТАДИЯ СЕКВЕНИРОВАНИЯ (стадия (v) способа по изобретению)

Спаренные молекулы ДНК (также называемые библиотеками двухцепочечной ДНК или ДНК-библиотеками) полученные на стадиях (ii), (iii) и/или на стадии (iv) способа по настоящему изобретению пригодны для методов секвенирования (предпочтительно спаренные молекулы ДНК, полученные на стадии (iii) и/или стадии (iv), являются секвенированными).

Дизайн ДНК-библиотек, полученных в способе по настоящему изобретению, позволяет осуществлять мониторинг любых смещений, полученных в ходе предыдущих стадий, а также осуществить обнаружение ошибок секвенирования и преобразования, лучше, чем у используемых в настоящее время способов.

Когда происходит амплификация, по ряду причин некоторые фрагменты могут быть амплифицированы селективно. Этот нежелательный эффект является серьезной проблемой для целей количественной оценки, что имеет решающее значение во многих приложениях для секвенирования, в частности для анализа статуса метилирования ДНК (так как каждая аллель в каждой клетке может иметь различный статус метилирования, и даже образцы могут иметь гетерогенные композиции, которые делают количественную оценку и контроль смещения обязательными для большинства приложений).

Преимущество библиотек двухцепочечных ДНК, полученных в способе согласно изобретению, заключается в том, что обе цепи каждой молекулы двухцепочечной ДНК одновременно считываются во время секвенирования. Указанное двойное считывание повышает достоверность способа, так как систематические потенциальные ошибки секвенирования, полученные в каждом отдельном считывании последовательности могут быть обнаружены и исправлены.

В настоящее время устройства для секвенирования имеют частоту ошибок, которую нужно учитывать. Большинство из этих ошибок не могут быть отображены и остаются скрытыми в конечных результатах. Это оказывает негативные последствия на последующую обработку и анализ результатов. Способ по настоящему изобретению обеспечивает до четырех источников информации для каждого нуклеотида (верхние и нижние нити данной дцДНК и, в зависимости от обстоятельств, их соответствующие синтетические комплементарные цепи), что позволяет проверить считывание каждого нуклеотида, поскольку все данные должны быть согласованы. Таким образом, способ по изобретению позволяет обнаруживать и даже корректировать погрешности определения последовательности (как для определения первичной последовательности, так и для анализа метилирования цитозина).

Ошибка последовательности детектируется, если она происходит только в одной из цепей. Эта ошибка может быть исправлена, если она не перепутана с асимметричным метилированием, достоверность обнаружения нуклеотида высока и последовательность генома позволяет осуществить распознавание.

Генетические варианты (т.е. мутации и SNP) не могут быть спутаны с ошибками секвенирования, поскольку изменения, происходящие в обеих цепях, следует рассматривать как фактический генетический вариант. Двойная детекция способов по настоящему изобретению является, по сути, подтверждением обнаруженного изменения. К тому же, поскольку первичная последовательность и информация о метилировании оцениваются одновременно, тимины, получившиеся из неметилированных цитозинов, отличаются от тех тиминов, которые являются результатом мутаций или SNP.

Кроме того, когда комбинаторные последовательности (последовательности штрихкода), включены в адаптеры, то можно отслеживать смещения амплификации и подсчитать уникальные молекулы двухцепочечных ДНК, изначально присутствующие в образце. Количественное определение также возможно во время осуществления способов секвенирования по изобретению.

Библиотеки двухцепочечной ДНК, могут быть использованы в любом обычном способе секвенирования, включая секвенирование следующего поколения (NGS). Способы получения библиотеки двухцепочечных ДНК в соответствии с изобретением могут быть интегрированы в текущие и будущие конвейеры секвенирования ДНК, то есть технологии NGS и другие. NGS-секвенирование библиотеки может быть выполнено с использованием большинства доступных платформ. Также может быть использовано секвенирование спаренных концов, хотя это и не требуется. Секвенирование спаренных концов позволяет использовать для изучения более длинные фрагменты. Даже тогда, когда последовательность не покрывает всю молекулу, информация, основанная на спаривании двух цепей, может быть предоставлена при условии, что секвенированный участок включает комплементарные участки, и штрихкоды, когда это необходимо (см, например, фигуру 13).

В ином случае, также может быть выполнено локус-специфическое секвенирование.

Библиотеки, полученные в соответствии со способом по изобретению, могут быть использованы для секвенирования непосредственно из реакционной смеси, в которой они были получены, или они могут быть очищены до процесса секвенирования.

В одном аспекте настоящее изобретение относится к способу для определения последовательности популяции молекул двухцепочечных ДНК, включающему получение библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа по изобретению в любом из его воплощений, и к секвенированию ДНК-молекул, полученных на стадиях ((ii)), (iii) или, в зависимости от обстоятельств, на стадии (iv) способа по изобретению (стадия (v) способа по изобретению).

Термин «секвенирование» или выражения «определение последовательности» или «определение последовательностей» и т.п., означает определение информации, относящейся к последовательности нуклеотидов в нуклеиновой кислоте, в частности, путем определения и упорядочения множества последовательных нуклеотидов в нуклеиновой кислоте. Указанная информация может включать идентификацию или частичное определение, и полную информацию о последовательности нуклеиновой кислоты. Указанная информация относится к первичной последовательности библиотеки двухцепочечных ДНК, эпигенетическим модификациям (например, метилированию или гидроксиметилированию) или и к тому, и другому. Информация о последовательности может быть определена с различной степенью статистической достоверности или доверия. Как было указано выше, способ по изобретению позволяет получить высокую достоверность при секвенировании молекулы двухцепочечной ДНК.

Способ по настоящему изобретению может быть дополнительно использован для определения последовательности первичной последовательности библиотек двухцепочечных ДНК.

Определение первичной последовательности включает обнаружение мутаций или генетические варианты, такие как полиморфизмы (SNP, и т.п.).

Предпочтительно, если способ по изобретению позволяет определять одновременно в одном считывании, как первичную последовательность, так и метилирование цитозина. При анализе результата секвенирования, каждая операция считывания будет предоставлять информацию о первичной последовательности (включая мутации и SNP), о метилировании последовательностей обеих цепей, и о комбинаторных последовательностях, включенных в адаптеры.

Идентификация метилированных цитозинов

Способ по настоящему изобретению позволяет идентифицировать метилированные цитозины в популяции молекул двухцепочечных ДНК.

Молекулы двухцепочечных ДНК (также называемые двухцепочечные ДНК-библиотеки), полученные в соответствии со способом согласно изобретению (стадии (iii) или (iv)), пригодны для идентификации метилированных цитозинов, как описано выше.

Наличие метилированного цитозина в определенном положении определяется, если цитозин находится в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи, или где наличие неметилированного цитозина в указанном положении определяется, если урацил или тимин находятся в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи.

Выражение «цепь», при использовании в данном документе, относится к каждой цепи молекулы двухцепочечной ДНК. Если спаривание двух цепей происходит в присутствии шпилечной молекулы, то обе цепи молекулы ДНК связанные вместе, образуют уникальную молекулу. Если спаривание происходит в отсутствие шпилечной молекулы, цепи молекулы ДНК находятся в различных молекулах, а именно они физически не связаны друг с другом, но могут быть идентифицированы с помощью комбинаторной последовательности(ей).

Выражение «противоположная цепь», при использовании в данном документе, со ссылкой на первую цепь, может относиться к цепи, которая является комплементарной первой цепи перед обработкой реагентом, позволяющим осуществить преобразование неметилированных цитозинов в основание, которое детектируемо отличается от цитозина по свойствам гибридизации. Например, антисмысловая цепь молекулы ДНК является противоположной цепью смысловой цепи. Термин «противоположная цепь» может быть шире, чем термин «комплементарная цепь», так как после обработки реагентом комплементарность между цепями может быть частично или полностью утрачена.

Выражение «соответствующее положение», при использовании в данном документе, относится к тому же положению, что и противоположная цепь (то есть положение нуклеотида, которое спаривается в положении данного нуклеотида в противоположной цепи, хотя указанное спаривание может быть некомплементарным).

Выражения «популяция молекул двухцепочечных ДНК», «библиотека», «адаптер-модифицированные молекулы ДНК», «реагент», «основание, которое детектируемо отличается от цитозина по свойствам гибридизации», «праймер», «специфический» были определены выше.

Термин «секвенирование» был определен в контексте способа секвенирования по изобретению. Таким образом, стадия секвенирования (v) способа по изобретению (для идентификации метилированных цитозинов) позволяет одновременно получать первичную последовательность и информацию о метилировании.

Предпочтительно, если реагент, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина, представляет собой бисульфит. Предпочтительно основание, которое детектируемо отличается от цитозина, представляет собой тимин или урацил, более предпочтительно представляет собой урацил.

Обработка реагентом (например, бисульфитом), который позволяет преобразовывать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, преобразует все неметилированные цитозины молекул, полученных на стадии (i) способа по изобретению, в урацил. Когда обработанная молекула передается на стадию (iii) способа по изобретению, синтезируемая комплементарная молекула ДНК, будет иметь аденин в положении, в котором молекула матрицы имеет урацил. Молекулы (необязательно амплифицированные на стадии (iv) способа) будет иметь тимин там, где был урацил в первой молекуле (при условии, что тимины, а не урацилы используются для амплификации). Таким образом, неметилированные цитозины будет считываться как урацил или тимин в конце процесса.

При удлинении или ПЦР-амплификации, урацил амплифицируется как тимин, в то время как остатки 5-метилцитозина остаются цитозином, позволяя отличить метилированные цитозины от неметилированных цитозинов в исходной молекуле двухцепочечной ДНК. Метилированный цитозин в исходной молекуле двухцепочечной ДНК может быть определен при наличии цитозина в заданном положении по сравнению с гуанином в соответствующем положении противоположной цепи, при секвенировании молекулы библиотеки двухцепочечных ДНК. Неметилированный цитозин в исходной молекулы двухцепочечной ДНК может быть определен при наличии урацила или тимина в заданном положении по сравнению с гуанином в соответствующем положении противоположной цепи, при секвенировании молекулы библиотеки двухцепочечных ДНК.

При использовании спаренных молекул двухцепочечных ДНК (также называемых ДНК-библиотеками), полученных на стадиях (iii) или (iv) способа по настоящему изобретению, каждое считывание имеет последовательность, обработанную реагентом обоих цепей молекул двухцепочечных ДНК. Цепи, которые были изначально комплементарны, могут быть выведены из комбинаторных последовательностей (последовательностей штрихкодов или комбинаторных штрихкодов) каждой цепи, если спаривание было достигнуто за счет использования штрихкодов.

С помощью этой информации могут быть выведены исходные последовательности обеих цепей (до преобразования реагентом). Таким образом, при каждой операции считывания получается информация о первичной последовательности (для картирования на эталонном геноме и оценки полиморфизмов) и статус метилирования обеих цепей исходных молекул двухцепочечных ДНК. Комбинаторное мечение молекул позволяет оценить преобразованные реагентом последовательности обеих исходных цепей молекул двухцепочечных ДНК.

Процесс, который позволяет получить последовательность исходной молекулы двухцепочечной ДНК, осуществляется с помощью программного обеспечения, которое обрабатывает полученную на выходе последовательность с тем, чтобы получить последовательность перед обработкой реагентом, и последовательность после обработки указанным реагентом для каждой молекулы библиотеки двухцепочечных ДНК. После этого программное обеспечение объединяет информацию от каждой цепи и ее аутентичной комплементарной цепи с учетом того, что аутентичная комплементарная цепь является цепью, которая первоначально была связана с первой цепью. Эта информация может быть получена непосредственно для библиотек, полученных с помощью способа по изобретению, где обе цепи физически соединены. Эта информация может быть получена косвенным образом, если исходные цепи были соединены с помощью комбинаторных последовательностей.

Разработанное программное обеспечение способно: (i) интегрировать первичную последовательность и информацию о метилировании, (ii) детектировать мутации, SNP и CNV (потери и приобретения), и (iii) детектировать ошибки секвенирования и смещение.

Поскольку определяется информация метилирования обеих цепей исходной молекулы двухцепочечных ДНК, то это позволяет оценить симметрию гемиметилирования или метилирования в каждой цепи.

Термины «гемиметилированный» и «ассиметрично метилированный» используются взаимозаменяемо и относятся к последовательности в ДНК-дуплексе, например, CpG, в котором только одна из двух цепей метилируется.

Библиотеки Y-адаптеров, способы и наборы для их синтеза

Изобретение также обеспечивает способы и наборы для синтеза Y-адаптеров, которые используются в способе по настоящему изобретению. Изобретение также относится к наборам, содержащим библиотеку Y-адаптеров.

Изобретение также относится к библиотеке Y-адаптеров, причем каждый из Y-адаптеров содержит первую цепь ДНК и вторую цепь ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй ДНК образуют двухцепочечный участок из-за комплементарности последовательностей, где 3'-участок второй цепи ДНК может образовывать петлю шпильки гибридизацией между первым и вторым сегментами в пределах упомянутого 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент, находится в непосредственной близости от участка второй цепи ДНК, который образует двухцепочечный участок с 3'-участком первой цепи ДНК, и где каждый элемент библиотеки отличим от других по одной или нескольким (предпочтительно по одной) комбинаторной последовательности(ям) находящимся в пределах двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК, и/или одной или несколькими комбинаторными последовательностями, расположенным в одноцепочечном участке Y-адаптера. Предпочтительно, если Y-адаптер содержит одну последовательность штрихкода в двухцепочечном участке Y-адаптера и одну последовательность штрихкода в одноцепочечном участке Y-адаптера. Необязательно Y-адаптер дополнительно содержит «участок для разрезания», как указано выше в Y-адаптере. Предпочтительно, если «участок для разрезания» находится в одноцепочечном участке Y-адаптера.

В предпочтительном воплощении библиотеки Y-адаптеров комбинаторная последовательность содержит один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

В другом воплощении библиотеки Y-адаптеров 3'-конец второго полинуклеотида в каждом адаптере обратимо блокируется.

Выражение «обратимо блокируется», при использовании в данном документе, относится, без ограничения указанным, к обратимой модификации с помощью обратимой блокирующей группой, которая предотвращает полинуклеотид от связывания с праймером для синтеза. Поскольку указанная модификация является обратимой, то блокирующая группа может быть удалена в дальнейших стадиях.

Термин «обратимо блокирующая группа», при использовании в данном документе, относится к группе, которая заменяет 3'-OH-группу 3'-конца полинуклеотида для предотвращения удлинения полимеразой. Примерные обратимые блокирующие группы, без ограничения перечисленным, включают 3'-p; 3'-амино; 3'-инвертированный 3-3' дезоксинуклеозид (IDN), инозин, простые эфиры, 3'-O, такие как 3'-O-аллил (Intelligent Bio-Systems), 3'-O-метоксиметил, 3'-O-нитробензил и 3'-O-азидометил (Illumina/Solexa); 3'-аминоалкоксил и 3'-O-амино. Примерными обратимо блокирующими группами также являются те, которые описаны в Gardner A.F. et al. 2012. Nucleic Acids Research, 40(15):7404-7415 и которые называются Lightning Terminators™ (Lasergen, Inc.). В контексте настоящего изобретения, весь дидезоксинуклеотид (DDCMP, ddAMP, ddTMP, ddGMP) также можно рассматривать в качестве «обратимой блокирующей группы».

Термин «обратимо блокирующая группа», при использовании в данном документе, также включает линкер, который связывает 3'-конец первой цепи ДНК, и 5'-конец второй цепи ДНК, и который может быть удален. Указанный линкер может быть, без ограничения перечисленным, обычным нуклеотидом, модифицированным нуклеотидом, или последовательностью нуклеотидов, либо обычных, либо модифицированных. Когда линкер удаляется, первая и вторая цепь ДНК адаптера разделяются. Адаптер может быть использован для лигирования к популяции молекул двухцепочечных ДНК в способах по изобретению, до или после удаления линкера. Линкер может быть связан с подложкой.

Таким образом, в другом воплощении библиотеки Y-адаптеров 3'-конец второго полинуклеотида в каждом адаптере обратимо блокируются с помощью линкера, который связывает 5'-конец первой цепи ДНК, и 3'-конец второй цепи ДНК.

В другом воплощении библиотеки Y-адаптеров конечный сегмент двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК в каждом адаптере, содержит сайт-мишень для рестриктазы.

Термин «эндонуклеаза рестрикции» относится к ферменту, который разрезает ДНК в или около определенных распознаваемых нуклеотидных последовательностей, известных как сайты рестрикции или сайты-мишени (последовательности олигонуклеотидов, которые распознаются ферментами рестрикции). Примерные эндонуклеазы рестрикции хорошо известны в данной области. Эндонуклеазы рестрикции, включают, без ограничения перечисленным, ферменты I типа ферменты II типа, ферменты IIS типа, ферменты III типа и фермента ГУ типа. База данных Rebase предоставляет всеобъемлющую информацию о рестриктазах (Roberts R.J. et al. 2010. Nucleic Acids Research, 38: D234-D236).

Термин «сайт-мишень», при использовании в данном документе, относится к нуклеотидной последовательности, специфически распознаваемый рестриктазой.

В другом своем аспекте настоящее изобретение относится к способу получения ДНК Y-образного адаптера, который включает стадии:

(i) контакта первого одноцепочечного полинуклеотида со вторым одноцепочечным полинуклеотидом, где 3'-участок первого одноцепочечного полинуклеотида комплементарен по меньшей мере, части 5'-участка второго полинуклеотида,

где 3'-участок второго одноцепочечного полинуклеотида образует петлю шпильки гибридизацией первого и второго сегмента внутри указанного 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент расположен в непосредственной близости от 5'-участка второго полинуклеотида и где 3'-конец второго полинуклеотида обратимо блокирован,

указанный контакт осуществляют в условиях, достаточных для гибридизации 3'-участка первого одноцепочечного полинуклеотида и комплементарной области в 5'-участке второго одноцепочечного полинуклеотида, в результате чего получается дуплексная молекула ДНК,

(ii) удлинения 3'-конца первого полинуклеотида таким образом, чтобы получить в пределах указанного первого одноцепочечного полинуклеотида последовательность, которая является комплементарной к 5'-участку второго полинуклеотида и

(iii) необязательно разблокирования 3'-конца второго полинуклеотида.

Стадия (i) проводится в условиях, достаточных для гибридизации 3'-участка первого одноцепочечного полинуклеотида и комплементарной области в 5'-участке элементов популяции второго одноцепочечного полинуклеотида. Адекватные для гибридизации условия были определены в контексте первого способа по настоящему изобретению.

Стадия (ii) включает элонгацию. Подходящие условия для элонгации хорошо известны специалистам в данной области техники.

Стадия (iii) включает разблокирование 3'-конца второго полинуклеотида. Термин «разблокирование» относится к удалению блокирующей группы с 3'-конца полинуклеотида и восстановлению 3'-OH группы. Подходящие условия для разблокирования являются условиями, при которых не происходит ни разрушения дуплекса, ни повреждения ДНК, и которые зависят от специфической группы блокирования, которая должна быть удалена. Так, например, 3'-O-аллильная группа расщепляется при катализе переходными металлами, 3'-O-метоксиметильная группа расщепляется кислотой, 3'-O-нитробензильная группа расщепляется под действием света, а 3'-оазидометиленовая группа расщепляется фосфинами. Когда обратимо блокируемой группой является дидезоксинуклеотид, весь дидезоксинуклеотид удаляется с 3'-конца второго полинуклеотида без разрушения дуплекса (т.е. подержание спаривания между 3'-участком первого одноцепочечного полинуклеотида и комплементарной областью в 5'-участке второго одноцепочечного полинуклеотида). Термин «разблокирование» также относится к удалению линкера, который соединяет 5'-конец первого одноцепочечного полинуклеотида и 3'-конец второго одноцепочечного полинуклеотида.

В предпочтительном воплощении способа получения ДНК Y-адаптера, элонгацию осуществляемую на стадии (ii), проводят в присутствии модифицированных цитозинов, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

В другом воплощении первый одноцепочечный полинуклеотид и/или второй одноцепочечной полинуклеотид, используемые на стадии (i), также содержат модифицированные цитозины.

В другом предпочтительном воплощении изобретения способ получения ДНК Y-адаптера согласно третьему способу по изобретению, дополнительно включает обработку Y-адаптера реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

В другом предпочтительном воплощении, по меньшей мере, одно положение в пределах 3'-конца первого полинуклеотида представляет собой гуанин и где положения в пределах 5'-участка второго полинуклеотида, который гибридизовали с указанным положением или положениями в пределах 3'-конца первого полинуклеотида представляют собой цитозин или метилцитозин.

В другом предпочтительном воплощении 5'-конец второго одноцепочечного полинуклеотида содержит последовательность, которая, при формировании комплементарной цепи в ходе стадии элонгации (ii), реплицируется на комплементарной цепи, с образованием участка-мишени для эндонуклеазы рестрикции.

Второй одноцепочечной полинуклеотид содержит последовательность, которая может быть или может не быть палиндромной последовательностью. Палиндромная последовательность представляет собой последовательность нуклеиновой кислоты, которая читается одинаково от 5' к 3' на смысловой и антисмысловой цепях.

Выражение «реплицируется на комплементарной цепи» означает, что синтезируемая комплементарная цепь содержит комплементарную и антипараллельную последовательность второго одноцепочечного полинуклеотида.

Y-адаптеры могут содержать комбинаторные штрихкоды, которые позволяют отслеживать продукты способов изобретения.

Второй одноцепочечный полинуклеотид предлагается в виде библиотеки полинуклеотидов, где каждый элемент библиотеки отличим от остальных по комбинаторной последовательности (также упоминаемые как последовательности штрихкода или комбинаторные штрихкоды), расположенной в пределах 5'-участка указанного полинуклеотида, и где указанная комбинаторная последовательность расположена выше по отношению к участку демонстрирующему комплементарность с первым одноцепочечным полинуклеотидом, с получением, таким образом, ДНК-библиотеки молекул Y-адаптеров. В более предпочтительном воплощении комбинаторная последовательность содержит один или несколько цитозинов, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации. На фигуре 15 показано воплощение способа получения ДНК Y-адаптера, содержащего комбинаторную последовательность в соответствии с третьим способом согласно изобретению.

Комбинаторная последовательность формируется рядом вырожденных нуклеотидов (каждый вырожденный нуклеотид является смесью из двух или более нуклеотидов). Если X является числом различных вырожденных нуклеотидов в комбинаторной последовательности, a Y является длиной в нуклеотидах комбинаторной последовательности, то количество различных адаптеров, которые могут быть получены равняется XY. Например, если комбинаторная последовательность имеет длину четыре нуклеотида, которые могут быть, А, Т или G, то количество различных адаптеров составляет 34=81, а число комбинаций двух адаптеров в Y-адаптер-содержащей ДНК-молекуле составляет 812=6561. Если комбинаторная последовательность имеет длину пять нуклеотидов, которые могут быть, А, Т или G, то количество различных адаптеров составляет 243, а количество комбинаций двух адаптеров в Y-адаптер-содержащей молекуле ДНК составляет 59049.

Выражение «выше по последовательности», при использовании в данном документе, относится к участку в направлении к 5'-концу цепи.

В другом воплощении первый одноцепочечный полинуклеотид и/или второй одноцепочечный полинуклеотид предоставляются иммобилизованными на подложке, где указанную иммобилизацию осуществляют путем связывания 5'-конца первого одноцепочечного полинуклеотида или нуклеотида петли шпильки из второго одноцепочечного полинуклеотида с указанной подложкой. Предпочтительно, если указанное связывание представляет собой ковалентную связь.

В другом воплощении первый одноцепочечный полинуклеотид и второй одноцепочечной полинуклеотид соединены с помощью линкера между 5'-концом первого одноцепочечного полинуклеотида и 3'-концом второго одноцепочечного полинуклеотида, и где указанный линкер иммобилизован на подложке. Связывание линкера с подложкой облегчает стадию элонгации. Связь между линкером и подложкой может быть нарушена после окончания синтеза Y-адаптера для того, чтобы высвободить адаптер. Адаптер, связанный с подложкой линкером также может быть использован для лигирования молекул.

Настоящее изобретение также относится к наборам, содержащим полинуклеотиды для получения Y-адаптеров способа по настоящему изобретению.

В другом своем аспекте настоящее изобретение относится к набору, содержащему

(i) первый одноцепочечный полинуклеотид, содержащий 5'-участок и 3'-участок,

(ii) второй полинуклеотид, включающий 5'-участок и 3'-участок, где 3'-участок образует петлю шпильки с путем гибридизации между первым и вторым сегментом в пределах указанного 3'-участка, первый сегмент расположен на 3'-конце из 3'-участка, а второй сегмент расположен в непосредственной близости к 5'-участку, и где 3'-конец второго полинуклеотида является обратимо блокируемым,

где 3'-участок первого одноцепочечного полинуклеотида комплементарен по меньшей мере, части 5'-участка второго полинуклеотида.

Выражение «набор», при использовании в данном документе, относится к комбинации из двух или более элементов или компонентов, в том числе и других видов биохимических реагентов, контейнеров, упаковок, таких как тара, предназначенная для коммерческой продажи, электронных аппаратных компонентов и т.д.

Подходящие наборы включают различные реагенты для использования в соответствии с настоящим изобретением, подходящие контейнеры и упаковочные материалы, в том числе пробирки, флаконы, упаковки обернутые в пленку и упаковки, изготовленные выдувным формованием. Кроме того, наборы по настоящему изобретению могут содержать инструкции для одновременного, последовательного или раздельного применения различных компонентов, которые находятся в наборе. Упомянутые инструкции могут быть в виде печатного материала или в виде электронной поддержки, способным хранить инструкции таким образом, что они могли быть прочитаны с помощью предмета, такого как электронные носители данных (магнитные диски, магнитные ленты и т.п.), оптические носители (CD-ROM, DVD), и тому подобное. Дополнительно или альтернативно, носитель может содержать интернет-адрес, который предоставляет эти инструкции.

В предпочтительном воплощении набора по изобретению второй полинуклеотид предоставляется в виде библиотеки полинуклеотидов, где каждый элемент отличим от остальных по комбинаторной последовательности, расположенной в пределах 5'-участка второго полинуклеотида и выше по отношению к участку, демонстрирующему комплементарность по последовательности с первым одноцепочечным полинуклеотидом. В более предпочтительном воплощении комбинаторной последовательность содержит один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

В другом воплощении первый одноцепочечный полинуклеотид и/или второй полинуклеотид также содержат модифицированные цитозины.

В другом воплощении 5'-участок второго полинуклеотида содержит последовательность, которая, при превращении в двухцепочечный участок, создает сайт-мишень для эндонуклеазы рестрикции.

Необязательно набор может включать один или несколько дополнительных компонентов.

В другом воплощении настоящего изобретения набор дополнительно включает один или несколько компонентов, выбранных из группы, состоящей из:

(i) ДНК-полимеразы,

(ii) одного или нескольких нуклеотидов, выбранных из A, G, С и Т,

(iii) одного или нескольких модифицированных цитозинов, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

(iv) реагента, способного удалять блокирующей группы с 3'-конца второго полинуклеотида,

(v) реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и

(vi) эндонуклеазы рестрикции, специфичной к целевому участку, образованному последовательностью в пределах 5'-конца второго полинуклеотида.

Выражение «ДНК-полимераза», при использовании в данном документе, относится к ферменту, который синтезирует цепь ДНК de novo с использованием цепи нуклеиновой кислоты в качестве матрицы и добавления свободных нуклеотидов только к 3'-гидроксильному концу новообразованной цепи. Это приводит к элонгации новой цепи в направлении 5'-3'. ДНК-полимераза может быть естественной ДНК-полимеразой или вариантом природного фермента, имеющим вышеупомянутую активность.

Нуклеотиды, представленные в наборе, могут быть модифицированными нуклеотидами. Примерами модифицированных нуклеотидов являются модифицированные цитозины, такие как метилцитозин и гидроксиметилцитозин.

Выражение «реагент, способный удалять блокирующую группу с 3'-конца второго полинуклеотида», при использовании в данном документе, относится к реагенту, который разблокирует 3'-конец второго полинуклеотида. Этот реагент зависит от конкретной используемой защитной группы. Подходящие реагенты были описаны выше (например, кислоты, фосфин и т.д.).

Эндонуклеазы рестрикции специфичные к целевому сайту представляют собой эндонуклеазы рестрикции, которые способны специфически распознавать и производить расщепление последовательности-мишени или рядом с последовательностью-мишенью.

В предпочтительном воплощении изобретения один или несколько модифицированных цитозинов, выбраны из группы, состоящей из метила цитозина, гидроксиметилцитозина и их комбинации.

Настоящее изобретение также относится к наборам, содержащим библиотеку Y-адаптеров способа по изобретению, и других компонентов.

В другом своем аспекте настоящее изобретение относится к набору, включающему:

(i) библиотеку Y-адаптеров, причем каждый из Y-адаптеров содержит первую цепь ДНК и вторую цепь ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей, где 3'-участок второй цепи ДНК образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах упомянутого 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка и второй сегмент расположен в непосредственной близости от участка второй цепи ДНК, который образует двухцепочечный участок с 3'-участком первой цепи ДНК, и где каждый элемент библиотеки отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК, и

(ii) один или несколько компонентов, выбранных из группы, состоящей из:

а) ДНК-полимеразы,

b) одного или нескольких нуклеотидов, выбранных из A, G, С и Т,

c) одного или нескольких модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

d) реагента, способного удалять блокирующую группу с 3'-конца второго полинуклеотида,

e) реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и

f) эндонуклеазы рестрикции, специфичной к целевому участку, образованному последовательностями в пределах 5'-конца второго полинуклеотида.

Все конкретные воплощения, описанные ранее для библиотеки Y-адаптеров и дополнительных компонентов наборов для получения Y-адаптеров, применяются к наборам, содержащим библиотеку Y-адаптеров способа по изобретению.

Другие термины и выражения, также были определены ранее.

Библиотеки двухцепочечных ДНК-адаптеров, содержащих комбинаторную последовательность, и способы их получения

Изобретение также предлагает способ синтеза любой библиотеки двухцепочечных ДНК-адаптеров, имеющих комбинаторную последовательность («последовательности штрихкодов « или «комбинаторные штрихкоды»), которые могут быть использованы в способе по изобретению, или в любой другой методологии, которая нуждается в комбинаторных штрихкодах.

Для того, чтобы синтезировать адаптер, может быть использован предшественник, состоящий из двух частично комплементарных олигонуклеотидов, один из которых несет комбинаторную участок. Этот комбинаторный участок является одноцепочечной ДНК в форме предшественника. После инкубирования этой формы предшественника с надлежащими ферментами, неполный олигонуклеотид завершается и комбинаторный участок становится двухцепочечной ДНК.

В одном аспекте настоящее изобретение относится к способу получения библиотеки двухцепочечных ДНК-адаптеров, причем каждый адаптер содержит первую цепь ДНК и вторую цепь ДНК, и где каждый адаптер отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК, причем указанный способ включает стадии

(i) обеспечения популяции одноцепочечных молекул ДНК, содержащих константный участок и комбинаторный участок, где указанные одноцепочечные молекулы ДНК, отличаются от других последовательностей, в комбинаторном участке, где константный участок расположена 3' по отношению к комбинаторной области и где 3'-конец обратимо блокируется и

(ii) образования двухцепочечной ДНК с использованием одноцепочечной молекулы ДНК, полученной на стадии (i) в качестве матрицы и с использованием праймера для элонгации, который полностью или частично гибридизуется с константным участком одноцепочечной молекулы ДНК, тем самым реплицируя комбинаторный участок на вновь сгенерированной цепи, посредством чего образуется двухцепочечная комбинаторная последовательность.

Выражение «константный участок», при использовании в данном документе, относится к участку в одноцепочечной молекуле ДНК, где последовательность одинакова для каждого элемента популяции одноцепочечных молекул ДНК.

Выражение «обратимо блокируется», при использовании в контексте данного аспекта настоящего изобретения, относится, без ограничения указанным, к обратимой модификации с помощью обратимо блокирующей группы, которая препятствует связыванию праймера для синтеза с полинуклеотидом. Так как указанная модификация является обратимой, блокирующая группа может быть удалена на дальнейших стадиях. Примерные обратимые блокирующие группы были раскрыты в контексте «библиотек Y-адаптеров данного изобретения, способов и наборов для их синтеза».

Выражение «обратимо блокируется» также включает линкер, который связывает 5'-конец первой цепи ДНК, и 3'-конец второй цепи ДНК, и который может быть удален.

Выражение «обратимо блокируется» также включает иммобилизацию на подложку одноцепочечной молекулы ДНК путем связывания ее 3'-концом с указанной подложкой. Поскольку блокировка является обратимой, указанная связь между 3'-концом одноцепочечной молекулы ДНК и подложкой может быть разрушена в дальнейших стадиях.

Выражение «полностью или частично гибридизуется с константным участком одноцепочечной молекулы ДНК», при использовании в данном документе, означает, что весь или часть праймера для элонгации связывается нековалентно с образованием стабильного двухцепочечного полинуклеотида с константным участком одноцепочечной молекулы ДНК. Выражения «гибридизация» и «условия гибридизации» были определены в контексте первого способа по настоящему изобретению.

Праймер для элонгации полностью гибридизуется с константным участком одноцепочечной молекулы ДНК, когда 100% праймера гибридизуется с указанным участком. Праймер для элонгации гибридизуется частично с константным участком одноцепочечной молекулы ДНК, когда меньше, чем 100% праймера гибридизуется с указанным участком. Предпочтительно, если, по меньшей мере, 0,1% от праймера для элонгации, по меньшей мере, 0,5%, по меньшей мере, 1%, по меньшей мере, 2%, по меньшей мере, 5%, по меньшей мере, 10%, по меньшей мере, 20%, по меньшей мере, 30%, по меньшей мере, 40%, по меньшей мере, 50%, по меньшей мере, 60%, по меньшей мере, 70%, по меньшей мере, 80%, по меньшей мере, 90%, по меньшей мере, 95% не гибридизуются с константным участком одноцепочечной молекулы ДНК.

Выражение «комбинаторный участок», при использовании в данном документе, относится к вариабельной области в одноцепочечной молекуле ДНК, где последовательность различна для каждого элемента популяции одноцепочечных молекул ДНК. Термин «комбинаторная последовательность» был определен ранее.

Выражение «замена комбинаторного участка на вновь образуемую цепь», при использовании в данном документе, означает, что вновь сформированная цепь содержит последовательность, которая является комплементарной и антипараллельной комбинаторной области одноцепочечной молекулы ДНК.

В предпочтительном воплощении изобретения способ дополнительно включает удаление блокирующей группы с 3'-конца одноцепочечных молекул ДНК.

В другом воплощении изобретения праймер для элонгации содержит выступающий 5'-участок, который не гибридизуется с константным участком одноцепочечных молекул ДНК.

В другом воплощении изобретения константный участок одноцепочечных молекул ДНК содержит выступающий 3'-участок, который не гибридизуется с праймером для элонгации.

В другом воплощении изобретения константный участок одноцепочечных молекул ДНК, образует петлю шпильки гибридизацией между первым и вторым сегментом внутри указанного константного участка.

Комбинаторная последовательность может быть получена отдельно и с последующим добавлением к ней другого адаптера для того, чтобы получить комбинаторные адаптеры. Таким образом, адаптеры библиотеки могут быть использованы в качестве модулей, прикрепляемых к другим неполным адаптерам для получения более сложных адаптеров. Например, комбинаторный адаптер библиотеки, образованный двумя комплементарными нитями может быть лигирован с некомбинаторным Y-адаптером для того, чтобы получить набор Y-адаптеров с комбинаторным участком.

В другом воплощении способ дополнительно включает лигирование адаптеров библиотеки со второй молекулой ДНК, где указанная вторая молекула ДНК, имеющая двухцепочечный участок, концы, которого совместимы с концами адаптерных молекул. Предпочтительно, если указанная вторая молекула ДНК содержит выступающие участки в 5'-участке первой цепи и/или в 3'-участке второй цепи, которые не гибридизуются друг с другом. В более предпочтительном воплощении 3'-выступающий участок во второй цепи образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанной области.

В другом воплощении каждая из одноцепочечных ДНК-молекул стадии (i) предлагается иммобилизованной на подложке. В более предпочтительном воплощении указанная иммобилизация осуществляется путем связывания 5'-конца одноцепочечной молекулы ДНК с указанным носителем, предпочтительно путем ковалентного связывания. В другом воплощении указанную иммобилизацию осуществляют путем связывания 3'-конца одноцепочечной молекулы ДНК с указанным носителем, предпочтительно путем ковалентного связывания. В другом предпочтительном воплощении, если константный участок одноцепочечной молекулы ДНК образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанной константной области, указанная иммобилизация осуществляется путем связывания нуклеотида петли шпильки из одноцепочечной ДНК молекулы с указанной подложкой, предпочтительно путем ковалентного связывания.

В другом воплощении первая цепь ДНК и вторая цепь ДНК соединены с помощью линкера между 5'-концом первой цепи ДНК, и 3'-концом второй цепи ДНК, и указанный линкер иммобилизуется на подложке. Связывание линкера с подложкой облегчает стадию элонгации. Связывание между линкером и подложкой может быть нарушено после того, как синтез адаптера была закончен, для высвобождения адаптера. Адаптер, связанный с подложкой линкером также может быть использован для лигирования молекул.

Изобретение также относится к библиотекам двойных адаптерных молекул двухцепочечных ДНК, полученных указанными способами.

В другом своем аспекте настоящее изобретение относится к библиотеке двухцепочечных адаптерных молекул ДНК, где каждая адаптерная молекула ДНК содержит константную участок и вариабельную участок, где каждый двухцепочечный ДНК-адаптер содержит первую цепь ДНК и вторую цепь ДНК, и где каждый адаптер отличим от других по комбинаторной последовательности вариабельной области, расположенной в пределах двухцепочечного участка, образованной между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК.

В предпочтительном варианте 3'-конец, по меньшей мере, одной из цепей обратимо блокирован.

В другом воплощении одна или обе цепи содержат выступающий участок, который не гибридизован с противоположной цепью. Предпочтительно константный участок одной из цепей образует петлю шпильки гибридизацией между первым и вторым сегментом внутри указанного константного участка.

На фигуре 16 показаны различные варианты указанного аспекта настоящего изобретения, где получены Y-адаптеры, включающие шпильку в соответствии с третьим способом согласно изобретению, Y-адаптеры в соответствии с четвертым, шестым и седьмым способом согласно изобретению, гемиадаптеры и простые адаптеры.

Хотя предшествующее изобретение было описано в некоторых деталях для целей ясности и понимания, специалисту в данной области техники при чтении данного описания будет понятно, что различные изменения в форме и деталях могут быть сделаны без отхода от истинного объема изобретение и прилагаемой формулы изобретения.

Изобретение описано ниже с помощью следующих примеров, которые следует рассматривать как просто иллюстративные и ни в коем случае не ограничивающие объем настоящего изобретения.

Примеры

Пример 1. Протокол способа, в котором две исходных цепи физически спарены и только искомые промежуточные продукты избирательно отфильтровывали, трансформировали бисульфитом, амплифицировали и секвенировали.

Подготовка адаптеров. Шпилечные адаптеры получали из 10 мкМ олигонуклеотида c15_Hairp01-5'P (SEQ ID NO: 1). Двухцепочечные адаптеры получали из 20 мкМ олигонуклеотида c14_Hang04 5'Р (SEQ ID NO: 2) и 20 мкМ олигонуклеотида c14_BIO05noB (SEQ ID NO: 3). Адаптеры гибридизовали первоначальной денатурацией с последующим прогрессирующим охлаждением, в термоциклере (95°2'; 80°2'; 65°10'; 37°10'; 25°5'; 4°-').

Процесс лигирования. 4 пмоль дцДНК-фрагментов (30-меров) смешивали до конечной концентрации 0,2 мкМ с 3 мкМ шпилечных адаптеров и 3 мкМ двухцепочечных адаптеров, в присутствии Т4 ДНК-лигазы и буфера Т4 в конечном объеме 20 мкл, в течение 15 минут при температуре 23°C. Продукт реакции очищали на колонках G50.

Захват продукта лигирования. Правильные продукты реакции захватывали с помощью биотинилированного олигонуклеотида, комплементарного к шпилечному адаптеру: 3 мкл 20 мкМ c14_BIO04-5'B (SEQ ID NO: 4) добавляли к 10 мкл реакции лигирования в присутствии SSC. Реакционную пробирку осторожно перемешивали и инкубировали в термоциклире (90°2'; 65°5'; 60°5'; 55°5'; 25°-'). 30 мкл гранул М-270 ресуспендировали и подготавливали в соответствии с инструкциями производителя до конечного объема 90 мкл BW1x. Гранулы М-270 добавляли в реакцию захвата и инкубировали при температуре окружающей среды в течение 15 минут. Реакционную смесь промывали и продукты лигирования высвобождали с гранул М-270. Шарики повторно суспендировали в 1x SCC и инкубировали в нагревательном блоке 2 мин при 95°C. Извлекали надосадочную жидкость, содержащую представляющие интерес продукты лигирования.

Бисульфит.50 мкл захваченного продукта лигирования обрабатывали бисульфитом натрия в соответствии со стандартными процедурами, или в соответствии с инструкциями изготовителя. Конечный продукт элюировали в 30 мкл буфера для элюции.

Амплификация. 1 мкл продукта предыдущей стадии амплифицировали с помощью праймеров c14_amp02F (SEQ ID NO: 5) и c14_amp02R (SEQ ID NO: 6), с использованием полимераз, таких как, Zymotag или TurboPfu. 1 мкл 20 мкМ каждого праймера использовали для конечного объема реакции 30 мкл. Было проведено 20 циклов ПЦР (95°2'; 62°30"; 72°1'). Продукты очищали с помощью колонки G50 и оценивали с помощью электрофореза в ПААГ.

Секвенирование. Полученные продукты предыдущей стадии обрабатывали в соответствии с протоколом Ion Torrent и визуализировали с помощью Integrative Genomics Viewer.

Пример 2. Протокол способа, в котором комплементарные цепи получали и физически спаривали с матрицей, и весь полученный промежуточный продукт преобразования бисульфитом амплифицировали и секвенировали

Подготовка адаптеров. Y-адаптеры получали из 20 мкМ олигонуклеотида c15_YA4 (SEQ ID NO: 7) и 20 мкМ олигонуклеотида c15_Hairp06 (SEQ ID NO: 8). Адаптеры гибридизовали первоначальной денатурацией с последующим прогрессирующим охлаждением, в термоциклере (95°2'; 80°2'; 65°10'; 37°10'; 25°5'; 4°-').

Процесс лигирования. 4 пмоль дцДНК фрагментов (30-меров) смешивали до конечной концентрации 0,2 мкМ, с 2,5 мкМ Y-адаптерами, в присутствии Т4-ДНК лигазы и буфера Т4 в конечном объеме 20 мкл, в течение 15 минут при 23°C. Продукт реакции очищали с помощью колонок G50.

Удлинение продукта лигирования. Продукты лигирования удлиняли путем добавления полимеразы к реакции в оптимальном буфере с dNTP в реакционном объеме 30 мкл. Реакционную пробирку осторожно перемешивали и инкубировали в термоциклере (25°2'; 72°10'; 4°-').

Бисульфит. 20 мкл захваченного продукта лигирования обрабатывали бисульфитом натрия в соответствии со стандартными процедурами, или в соответствии с инструкциями изготовителя. Конечный продукт элюировали в 20 мкл буфера для элюции.

Амплификация. 1 мкл предыдущей стадии продукта амплифицировали с использованием праймеров c14_amp02F (SEQ ID NO: 5) и c14_amp02R (SEQ ID NO: 6), с использованием полимераз, таких как, Zymotag или TurboPfu. 1 мкл 20 мкМ каждого праймера использовали в конечном объеме реакции 30 мкл. Провели 20 циклов ПЦР (95°2'; 62°30"; 72°1'). Продукты очищали с помощью колонки G50 и оценивали с помощью электрофореза в ПААГ.

Секвенирование. Полученные продукты из предыдущей стадии обрабатывали в соответствии с протоколом Ion Torrent и визуализировали с помощью Integrative Genomics Viewer.

Элементы настоящего изобретения

Настоящее изобретение обеспечивает следующие элементы.

[1]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) контакта популяции молекул двухцепочечных ДНК с первой адаптерной молекулой и второй адаптерной молекулой,

где указанная первая адаптерная молекула представляет собой двухцепочечную молекулу ДНК, имеющую на одном конце концы, которые совместимы с концами двухцепочечных ДНК,

где вторая молекула представляет собой шпилечный адаптер, который содержит участок петли шпильки и двухцепочечный участок, где указанный двухцепочечный участок содержит концы, которые совместимы с концами молекул двухцепочечных ДНК, и

где указанные стадии контакта проводят в условиях, достаточных для лигирования первой и/или второй адаптерных молекул с молекулами ДНК для того, чтобы получить множество адаптер-модифицированных молекул ДНК,

(ii) извлечения из популяции адаптер-модифицированных молекул ДНК, полученных на стадии (i), тех молекул, которые содержат вторую адаптерную молекулу на одном конце или на обоих концах адаптер-модифицированной молекулы ДНК,

(iii) синтеза цепи ДНК, с использованием адаптер-модифицированных молекул ДНК, полученных на стадии (ii), в качестве матрицы в условиях, позволяющих проведение синтеза цепи с использованием праймера, последовательность которого комплементарна, по меньшей мере, части последовательности первого адаптера молекулы и

(iv) необязательно амплификации молекулы двухцепочечных ДНК, полученных на стадии (iii), с использованием праймеров, последовательность которых комплементарна, по меньшей мере, части участку первого адаптера.

[2]. Способ согласно [1], где стадию извлечения (ii) проводят с использованием полинуклеотида, содержащего последовательность, комплементарную, по меньшей мере, части последовательности второго адаптера и с помощью метки для очистки.

[3]. Способ согласно [1] или [2], где молекулы ДНК, полученные на стадии (ii) извлекают из реакционной смеси, полученной после стадии (iii), или, в зависимости от обстоятельств, после стадии (iv).

[4]. Способ согласно [3], где указанное извлечение из реакционной смеси осуществляют с использованием первого элемента пары связывания, где первый и/или второй адаптер модифицируются вторым элементом указанной пары связывания.

[5]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) контакта популяции молекул двухцепочечных ДНК с первой адаптерной молекулой и второй адаптерной молекулой,

где указанная первая адаптерная молекула представляет собой двухцепочечную молекулу ДНК, имеющую на одном конце концы, которые совместимы с концами двухцепочечной ДНК,

где вторая молекула представляет собой шпилечный адаптер, который содержит участок петли шпильки и двухцепочечный участок, где указанный двухцепочечный участок содержит концы, которые совместимы с концами молекул двухцепочечных ДНК,

где первая адаптерная молекула или вторая адаптерная молекула или обе предлагаются иммобилизованными на подложке, где указанная иммобилизация осуществляется путем связывания конца одной из цепей первой адаптерной молекулы или нуклеотида петли шпильки второй адаптерной молекулы с указанной подложкой, и

где указанные стадии контакта проводят в условиях, достаточных для лигирования первой и/или второй адаптерных молекул с молекулами ДНК для получения множества адаптер-модифицированных молекул ДНК,

(ii) синтеза цепей ДНК, с помощью адаптер-модифицированных молекул ДНК, полученных на стадии (i) в качестве матрицы и с использованием праймера, последовательность которой комплементарна, по меньшей мере, части последовательности первой адаптерной молекулы и

(iii) необязательно амплификации молекул двухцепочечных ДНК, полученных на стадии (ii) с использованием праймеров, последовательность которых комплементарна, по меньшей мере, части участка первого адаптера.

[6]. Способ согласно [1]-[5], где молекулы двухцепочечных ДНК, используемые на стадии (i), представляют собой фрагменты геномной ДНК.

[7]. Способ согласно [1]-[6], где молекулы двухцепочечной ДНК, используемые на стадии (i), подвергаются концевой репарации до начала стадии (i).

[8]. Способ согласно [7], дополнительно включающий стадию концевой обработки аденином после стадии концевой репарации.

[9]. Способ согласно [1]-[8], в котором предлагаются первая и/или вторая адаптерные молекулы, соответственно, в виде первой и второй библиотеки адаптерных молекул, где каждый элемент в библиотеке отличается от других из-за комбинаторной последовательности в пределах адаптерной последовательности.

[10]. Способ согласно [1]-[9], где популяцию адаптер-модифицированных молекул ДНК обрабатывали перед стадией (iii), если библиотека была получена способом согласно [1], или перед стадией (ii), если библиотека была получена способом согласно [5], с помощью реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и где праймеры, используемые на стадиях (iii) и (iv) согласно [1], или, в зависимости от обстоятельств, на стадиях (ii) и (iii) согласно [5] являются специфическими к первой адаптерной молекуле после обработки указанным реагентом.

[11]. Способ согласно [10], где комбинаторная последовательность в пределах адаптерной последовательности содержит модифицированные цитозины, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[12]. Способ согласно [1]-[11], где молекулы ДНК, полученные на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv), если библиотека была получена способом согласно [1], или на стадии (ii) или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [5], извлекают из реакционной смеси.

[13]. Способ согласно [12] где указанное извлечение из реакционной смеси осуществляют с использованием первого элемента пары связывания, где праймер, используемый на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv) согласно [1], или на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii) согласно [5] модифицирован вторым элементом указанной пары связывания.

[14]. Способ согласно [1]-[13], где популяцию молекул двухцепочечных ДНК обрабатывали перед стадией (i) адаптерными молекулами, в условиях, достаточных для лигирования адаптерных молекул к молекулам ДНК, в результате чего в указанные молекулы ДНК вводятся липкие концы.

[15]. Способ определения последовательности популяции молекул двухцепочечных ДНК, включающий получение библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [1]-[14] и секвенирования ДНК-молекул, полученных на стадии (iii) или, в зависимости от обстоятельств, на стадии (iv), если библиотека была получена способом согласно [1], или молекулы ДНК, полученные на стадии (i), или на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [5].

[16]. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии

(i) получения библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [1]-[14], где популяцию адаптер-модифицированных молекул ДНК обрабатывали перед стадией (iii), если библиотека была получена способом согласно [1], или перед стадией (ii), если библиотека была получена способом согласно [5], с помощью реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и где праймеры, используемые на стадиях (iii) и (iv), если библиотека была получена способом согласно [1], или на стадиях (ii) и (iii), если библиотека была получена способом согласно [5], специфичны для первой адаптерной молекулы после обработки указанным реагентом и

(ii) секвенирования ДНК-молекул, полученных на стадии (ii) или на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv), если библиотека была получена способом согласно [1], или молекулы ДНК, полученной на стадии (i) или на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [5], которые обрабатывали перед стадией (iii), если библиотека была получена с помощью способа согласно [1], или перед стадией (ii), если библиотека была получена способом согласно [5], с помощью реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

где присутствие метилированного цитозина в заданном положении определяется, если цитозин находится в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи или где присутствие неметилированного цитозина в заданном положении определяется, если урацил или тимин находятся в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи.

[17]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) контакта популяции молекул двухцепочечных ДНК с ДНК Y-адаптера, где указанный адаптер, содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей,

причем концы указанного двухцепочечного участка, образованные 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК из Y-адаптера совместимы с концами молекул двухцепочечных ДНК,

где 3'-участок второй цепи ДНК из Y-адаптера образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанного 3'-участка, первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент расположен в непосредственной близости от 5'-участка второй цепи ДНК,

где указанное контакт осуществляют в условиях, достаточных для лигирования Y-адаптера с обоими концами молекул двухцепочечных ДНК, с получением, таким образом, множества Y-адаптер-содержащих молекул ДНК,

(ii) преобразования каждой из цепей молекул ДНК, полученных на стадии (i) в молекулу двухцепочечной ДНК с помощью полимеразной элонгации от 3'-конца второй цепи ДНК в молекуле Y-адаптера с использованием каждой из цепей ДНК-молекул, полученных на стадии (i), в качестве матрицы и

(iii) Необязательно амплификации молекулы двухцепочечной ДНК, полученные на стадии (ii) с использованием, по меньшей мере, праймера с последовательностью, которая комплементарна, по меньшей мере, части молекул двухцепочечных ДНК, полученной на стадии (ii).

[18]. Способ согласно [17], где Y-адаптер-содержащие молекулы ДНК, полученные на стадии (i), обрабатывали перед стадией (ii), в условиях, достаточных для разделения цепей Y-адаптер-содержащих молекул ДНК.

[19]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) контакта популяции молекул двухцепочечных ДНК с ДНК Y-адаптера, где указанный адаптер, содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами молекул двухцепочечных ДНК,

где указанный контакт осуществляют в условиях, достаточных для лигирования Y-адаптера к обоим концам молекул двухцепочечных ДНК, с получением, тем самым, множества Y-адаптер-содержащих молекул ДНК,

(ii) контакта каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации, который содержит 3'-участок, комплементарный второй цепи ДНК молекулы Y-адаптера в условиях, достаточных для гибридизации праймера для элонгации со второй цепью Y-адаптера, и который, после гибридизации со второй цепи ДНК молекулы Y-адаптер создает выступающие концы,

(iii) контакта молекулы, полученной на стадии (ii) со шпилечным адаптером, где указанный шпилечный адаптер, содержит участок петли шпильки и выступающие концы, которые совместимы с выступающими концами в молекулах, полученных на стадии (ii), в условиях, достаточных для лигирования шпилечного адаптера с молекулами, полученными на стадии (ii),

(iv) преобразования каждой из цепей молекулы ДНК, полученной на стадии (iii) в молекулу двухцепочечной ДНК - с помощью полимеразы путем элонгации с праймера для элонгации, используемого на стадии (ii) и

(v) необязательно амплификации молекул двухцепочечной ДНК, полученных на стадии (iv) с использованием по меньшей мере, праймера с последовательностью который комплементарен, по меньшей мере, части молекул двухцепочечных ДНК, полученных на стадии (iv)

где стадия лигирования со шпилечным адаптером (iii) и стадия элонгации (iv) могут быть осуществлены в любом порядке или одновременно.

[20]. Способ согласно [19], где Y-адаптер-содержащие молекулы ДНК, полученные на стадии (i), или на стадии (iii) помещают в условия, достаточные для разделения цепей указанных Y-адаптер-содержащих молекул ДНК.

[21]. Способ согласно [19] или [20], где стадия (ii) контакта каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации и стадии (iii) контакта молекулы, полученной на стадии (ii) со шпилечным адаптером, осуществляется в одну стадию путем предоставления шпилечного адаптера и праймера для элонгации в виде комплекса.

[22]. Способ согласно [17]-[21], где молекулы двухцепочечной ДНК, используемые на стадии (i), представляют собой фрагменты геномной ДНК.

[23]. Способ согласно [17]-[22], где молекулы двухцепочечной ДНК, используемые на стадии (i) подвергнуты концевой репарации до указанной стадии (i).

[24]. Способ согласно [23], дополнительно включающий стадию концевой обработки аденином после окончания концевой репарации.

[25]. Способ согласно [17]-[24], где Y-адаптер предоставляется в виде библиотеки адаптеров, где каждый элемент библиотеки отличим от остальных по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованного 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК адаптера.

[26]. Способ согласно [25], где комбинаторная последовательность содержит модифицированные цитозины, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[27]. Способ согласно [17]-[26], где адаптер-содержащие молекулы ДНК обрабатывали перед стадией (iii), если библиотека была получена способом согласно [17], или перед стадией (v), если библиотека была получена способом согласно [19], с помощью реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и где праймеры, используемые на стадии (iii), из [17], или, в зависимости от обстоятельств, на стадии (v) согласно [19] являются комплементарными, по меньшей мере, части последовательности, возникающей в результате обработки указанным реагентом молекул двухцепочечных ДНК, полученных на стадии (ii) согласно [17], или, в зависимости от обстоятельств, на стадии (iv) согласно [19].

[28]. Способ согласно [17]-[27], где адаптер-шпилька и/или Y-адаптер предоставляются иммобилизованными на подложке, где указанная иммобилизация осуществляется путем связывания нуклеотида петли шпильки шпилечного адаптера и/или нуклеотида петли шпилька второй цепи ДНК Y-адаптера и/или 5'-конца первой цепи ДНК Y-адаптера с указанной подложкой.

[29]. Способ определения последовательности популяции молекул двухцепочечных ДНК, включающий получение библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [17]-[28], и секвенирование ДНК-молекул, полученных на стадии (ii) или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [17], или ДНК-молекул, полученных на стадии (iv), или, в зависимости от обстоятельств, на стадии (v), если библиотека была получена способом согласно [19].

[30]. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии

(i) получение библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [17]-[28], где популяцию адаптер-модифицированных молекул ДНК обрабатывали перед стадией (iii), если библиотека была получена способом согласно [17], или перед стадией (v), если библиотека была получена способом согласно [19], реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, и где праймеры, используемые на стадии (iii), если библиотека была получена способом согласно [17], или на стадии (v), если библиотека была получена способом согласно [19], являются специфическими к последовательности молекул двухцепочечных ДНК, полученных на стадии (ii) согласно [17], или на стадии (iv) согласно [19], после обработки указанным реагентом и

(ii) секвенирования ДНК-молекул, полученных на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [17], или молекулы ДНК, полученной на стадии (iv) или, в зависимости от обстоятельств, на стадии (v), если библиотека была получена способом согласно [19], которые обрабатывали перед стадией (iii), если библиотека была получена способом согласно [17], или перед стадией (v), если библиотека была получена способом согласно [19], с помощью реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

где присутствие метилированных цитозинов в заданном положении определяется, по наличию цитозина в одной из цепей и наличию гуанина в соответствующем положении в противоположной цепи или где присутствие неметилированного цитозина в данном положении определяется, по наличию урацила или тимина в одной из цепей и наличию гуанина в соответствующем положении в противоположной цепи.

[31]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) фрагментации популяции молекул двухцепочечных ДНК в условиях, достаточных для формирования множества фрагментов молекул двухцепочечных ДНК с выступающими концами, где каждый конец каждого фрагмента связан с молекулой гемиадаптера, где указанная молекула гемиадаптера содержит первую цепь ДНК и, необязательно, вторую цепь ДНК, где вторая цепь образует двухцепочечный участок с первой цепью из-за комплементарности с центральным участком первой цепи и где молекулы гемиадаптера связываются с фрагментами молекул двухцепочечных ДНК между 3'-концом первой цепи гемиадаптера и выступающими концами фрагментов молекул двухцепочечных ДНК,

(ii) добавления альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера с альтернативной второй цепью, где 5'-участок упомянутой альтернативной второй цепи является комплементарным 3'-участку первой цепи молекулы гемиадаптера, где указанная альтернативная вторая цепь, содержит участок, который не является комплементарным к первой цепи молекулы гемиадаптера, тем самым позволяя получить множество Y-адаптер-содержащих молекул ДНК,

(iii) при необходимости, заполнения разрывов, существующих между 5'-концом альтернативной второй цепи из Y-адаптера и 3'-концом каждого фрагмента ДНК,

(iv) контакта каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации, который содержит 3'-участок, комплементарный альтернативной второй цепи ДНК молекулы Y-адаптера и 5'-участок, который не гибридизуется с альтернативной второй цепью ДНК из Y-адаптера, в условиях, достаточных для гибридизации праймера для элонгации с альтернативной второй цепью Y-адаптера,

(v) контакта молекулы, полученной на стадии (iv) со шпилечным адаптером, где указанный шпилечный адаптер, содержащий участок петли шпильки и концы, которые совместимы с концами в молекулах, полученных на стадии (iv), в условиях, достаточных для лигирования шпилечного адаптера с молекулами, полученными на стадии (iv),

(vi) преобразования каждой из цепей молекул ДНК, полученных на стадии (v) в молекулу двухцепочечной с помощью ДНК-полимеразы путем элонгации праймера для элонгации, используемого на стадии (iv) и

(vii) необязательно амплификации молекулы двухцепочечной ДНК, полученной на стадии (vi) с использованием, по меньшей мере, праймера с последовательностью, комплементарной, по меньшей мере, части двухцепочечных молекул ДНК, полученных на стадии (vi)

где стадия лигирования к шпилечному адаптеру (V) и стадия элонгации (vi) может быть проведена в любом порядке или одновременно.

[32]. Способ согласно [31], где стадия фрагментации (i) осуществляется с помощью способа, который включает контакт популяции молекул двухцепочечных ДНК с димером транспозазы, нагруженной двухцепочечными адаптерными молекулами, где адаптерные молекулы содержат двухцепочечный участок, содержащий инвертированный повтор Tn5 и 5'-выступ одной из цепей, где нуклеотиды цитозина в двухцепочечном участке, которые не являются составной частью инвертированного повтора Tn5 и в одноцепочечном участке необязательно метилированы, и где контакт осуществляется в условиях, достаточных для фрагментации ДНК и для прикрепления молекул гемиадаптера к обоим концам каждого фрагмента ДНК.

[33]. Способ согласно [31] или [32], где Y-адаптер-содержащие молекулы ДНК, полученные на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii), или шпилечный адаптер-содержащие молекулы ДНК, полученные на стадии (V) или, в зависимости от обстоятельств, на стадии (vi), помещены в условиях, достаточных для разделения цепей указанных Y-адаптер-содержащих молекулы ДНК.

[34]. Способ согласно [31]-[33], где стадию (iv) контакта каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации и стадию (v) контакта молекулы, полученной на стадии (iv), адаптером-шпилькой, осуществляется в одну стадию путем предоставления шпилечного адаптера и праймера для элонгации в виде комплекса.

[35]. Способ согласно [31]-[33], где стадию (ii) добавления альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера на альтернативную вторую цепь, стадию (iv) контакта каждой цепи из указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации и стадии (v) контакта молекулы, полученной на стадии (iv) со шпилечным адаптером, осуществляют в одну стадию путем предоставления альтернативной второй цепи, адаптера-шпильки и праймера для элонгации в виде комплекса.

[36]. Способ согласно [35], где стадии (ii)-(vi) осуществляют одновременно.

[37]. Способ согласно [31]-[36], где гемиадаптер, используемый на стадии (i), предоставляется в качестве библиотеки гемиадаптеров, и каждый элемент библиотеки отличим от остальных по комбинаторной последовательности в 3'-участке первой цепи гемиадаптера.

[38]. Способ согласно [37], где вторая цепь гемиадаптера или альтернативная вторая цепь, используемая на стадии (ii), не демонстрирует какого-либо существенного совпадения с указанной комбинаторной последовательностью.

[39]. Способ согласно [37] или [38], где комбинаторная последовательность содержит один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[40]. Способ согласно [31]-[39], где адаптер-содержащие молекулы ДНК обрабатывали перед стадией (vii) реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, причем праймеры, используемые на стадии (vii), комплементарны, по меньшей мере, части последовательности, возникающей в результате обработки указанным реагентом молекул двухцепочечных ДНК, полученных на стадии (vi).

[41]. Способ согласно [31]-[40], где молекулы, полученные на стадии (vi), или, в зависимости от обстоятельств, на стадии (vii) извлекают из реакционной смеси.

[42]. Способ определения последовательности популяции молекул двухцепочечных ДНК, включающий получение библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [31]-[41] и секвенирования ДНК-молекул, полученных на стадии (vi) или, в зависимости от обстоятельств, на стадии (vii).

[43]. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии

(i) получения библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [31]-[41], где популяцию адаптер-модифицированных молекул ДНК обрабатывали перед стадией (vii) реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и где праймеры, используемые на стадии (vii) являются специфичными для последовательности молекул двухцепочечных ДНК, полученных на стадии (vi) после обработки указанным реагентом и

(ii) секвенирования ДНК-молекул, полученных на стадии (vi), или, в зависимости от обстоятельств, на стадии (vii), которые обрабатывали перед стадией (vii) реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

где присутствие метилированных цитозинов в заданном положении определяется, если цитозин находится в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи или где присутствие неметилированного цитозина в данном положении определяется, если в одной из цепей находится урацил или тимин и гуанин находится в соответствующем положении в противоположной цепи.

[44]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) контакта популяции молекул двухцепочечных ДНК с популяцией адаптеров ДНК, причем каждый адаптер, содержит первую цепь ДНК и вторую цепи ДНК,

где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образует двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами молекул двухцепочечных ДНК,

где каждый адаптер популяции отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК,

где указанный контакт осуществляют в условиях, достаточных для лигирования адаптера к каждому концу молекул двухцепочечных ДНК, с получением, тем самым, множества адаптер-содержащих молекул ДНК

(ii) при необходимости, обработки адаптер-содержащих молекул ДНК, полученной на стадии (i), реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации, и

(iii) необязательно, амплификации адаптер-содержащих молекул ДНК, полученных на стадии (i) или, в зависимости от обстоятельств, на стадии (ii) с использованием, по меньшей мере, праймера с последовательностью, которая комплементарна, по меньшей мере, части адаптер-содержащих молекул ДНК, полученных на стадии (i) или на стадии (ii).

[45]. Способ согласно [44], где 5'-участок первой цепи ДНК, и 3'-участок второй цепи ДНК комплементарны.

[46]. Способ согласно [44], где адаптер представляет собой Y-адаптер, в котором 5'-участок первой цепи ДНК, и 3'-участок второй цепи ДНК, не комплементарны.

[47]. Способ получения библиотеки двухцепочечных ДНК из популяции молекул двухцепочечных ДНК, включающий стадии

(i) фрагментации популяции молекул двухцепочечных ДНК в условиях, достаточных для формирования множества фрагментов молекул двухцепочечных ДНК с выступающими концами, где каждый конец каждого фрагмента связан с молекулой гемиадаптера, где указанная молекула гемиадаптера содержит первую цепь ДНК и, необязательно, вторую цепь ДНК, где каждый гемиадаптер отличим от других по комбинаторной последовательности, расположенной в пределах 3'-участка первой цепи ДНК, где вторая цепь образует двухцепочечный участок с первой цепью из-за комплементарности с центральным участком первой цепи и где молекулы гемиадаптера связываются с фрагментами молекул двухцепочечных ДНК между 3'-концом первой цепи гемиадаптера и выступающими концами фрагментов молекул двухцепочечных ДНК,

(ii) добавления альтернативной второй цепи или замены второй цепи ДНК молекулы гемиадаптера на альтернативную вторую цепь, где 5'-участок упомянутой альтернативной второй цепи является комплементарным 3'-участку первой цепи молекулы гемиадаптера, где указанная альтернативная вторая цепь, содержит участок, который не является комплементарным первой цепи молекулы гемиадаптера, что позволяет получить множество Y-адаптер-содержащих молекул ДНК,

(iii) при необходимости, заполнения разрывов, существующих между 5'-концом альтернативной второй цепи Y-адаптера и 3'-концом каждого фрагмента ДНК,

(iv) при необходимости, обработки Y-адаптер-содержащих молекул ДНК, полученных на стадии (iii) с помощью реагента, который позволяет преобразовать неметилированные цитозины в основания, которые детектируемо отличаются от цитозина по свойствам гибридизации, и

(v) необязательно, амплификации Y-адаптер-содержащих молекул ДНК, полученных на стадии (ii) или на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv) с использованием, по меньшей мере, праймера с последовательностью которая комплементарна, по меньшей мере, части Y-адаптер-содержащих молекул ДНК полученных на стадии (ii) или на стадии (iii), или, в зависимости от обстоятельств, на стадии (iv).

[48]. Способ согласно [47], в котором (i) осуществляется с помощью способа, который включает контакт популяции молекул двухцепочечных ДНК с димером транспозазы, нагруженным двухцепочечными адаптерными молекулами, где адаптерная молекула содержит двухцепочечный участок, содержащий инвертированный повтор Tn5, и 5'-выступ одной из цепей, где цитозин в двухцепочечном участке, которая не является составной частью инвертированного повтора Tn5 и в одноцепочечном участке необязательно метилирован и где контакт осуществляется в условиях адекватной для фрагментации ДНК и для прикрепления молекул гемиадаптера к обоим концам каждого фрагмента ДНК.

[49]. Способ согласно [47] или [48], где вторая цепь из гемиадаптера или альтернативный второй цепи, используемый на стадии (ii) не показывает какого-либо существенного совпадения с указанным комбинаторным участком.

[50]. Способ согласно [44]-[49], где молекулы двухцепочечной ДНК, используемые на стадии (i), представляют собой фрагменты геномной ДНК.

[51]. Способ согласно [44]-[50], где молекулы двухцепочечной ДНК, используемые на стадии (i), подвергаются концевой репарации до указанной стадии (i).

[52]. Способ согласно [51], дополнительно включающий стадию концевой обработки аденином после окончания концевой репарации.

[53]. Способ согласно [44]-[52], где популяцию молекул двухцепочечных ДНК обрабатывали перед стадией (i) с помощью адаптерных молекул, в условиях, достаточных для лигирования адаптерных молекул с молекулами ДНК, таким образом, вводя липкие концы в указанные молекулы ДНК.

[54]. Способ согласно [44]-[53], где комбинаторная последовательность в пределах адаптерной последовательности содержит один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, позволяющим преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[55]. Способ согласно [44]-[54], где молекулы ДНК, полученные на стадии (i), или на стадии (ii), если библиотека была получена способом согласно [44], или молекулы ДНК, полученные на стадии (iii) или на стадии (iv), если библиотека была получена способом согласно [47], выделяют из реакционной смеси, полученной после стадии (i), стадии (ii), или, в зависимости от обстоятельств, после стадии (iii) согласно [44], или из реакционной смеси, полученной после стадии (iii), стадия (iv) или, в зависимости от обстоятельств, после стадии (V) согласно [47].

[56]. Способ согласно [55] где указанное извлечение из реакционной смеси осуществляют с использованием первого элемента пары связывания, где адаптер модифицирован вторым элементом указанной пары связывания.

[57]. Способ согласно [44]-[56], где молекулы ДНК, полученные на стадии (iii), если библиотека была получена способом согласно [44] или молекулы ДНК, полученные на стадии (v), если библиотека была полученный способом в соответствии с [47], извлекают из реакционной смеси.

[58]. Способ согласно [57] где указанное извлечение из реакционной смеси осуществляют с использованием первого элемента пары связывания, где праймеры, используемые на стадии (iii), из [44], или на стадии (v) согласно [47] являются модифицированными вторым элементом указанной пары связывания.

[59]. Способ определения последовательности популяции молекул двухцепочечных ДНК, включающий получение библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [44]-[58] и секвенирования ДНК-молекул, полученных на стадии (i) или на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [44], или секвенирования ДНК-молекул, полученных на стадии (ii) или на стадии (iii) или на стадии (iv), или, в зависимости от обстоятельств, на стадии (v), если библиотека была получена способом согласно [47].

[60]. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии

(i) получения библиотеки из указанной популяции молекул двухцепочечных ДНК с использованием способа согласно [44]-[58], где популяция адаптер-модифицированных молекул ДНК обрабатывается перед стадией (iii), если библиотека была получена способом по в [44], или перед стадией (v), если библиотека была получена способом согласно [47], с помощью реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и где праймеры, используемые на стадии (iii), если библиотека была получена способом согласно [44], или на стадии (v), если библиотека была получена способом согласно [47] являются специфическими к последовательности ДНК молекулы, полученные на стадии (ii) согласно [44], или на стадии (iv) согласно [47], и

(ii) секвенирования ДНК-молекул, полученных на стадии (ii), или, в зависимости от обстоятельств, на стадии (iii), если библиотека была получена способом согласно [44] или секвенирования ДНК-молекул, полученных на стадии (iv), или, в зависимости от обстоятельств, на стадии (v), если библиотека была получена способом согласно [47],

где присутствие метилированного цитозина в заданном положении определяется, если цитозин находится в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи или где присутствие неметилированного цитозина в данном положении определяется, если урацил или тимин находятся в одной из цепей, а гуанин находится в соответствующем положении в противоположной цепи.

[61]. Библиотека ДНК, получаемая способом согласно [1]-[14], [17]-[28], [31]-[41] или [44]-[58].

[62]. Библиотека Y-адаптеров

в которой каждый из Y-адаптеров содержит первую цепь ДНК и вторую цепь ДНК, где 3'-участок первой цепи ДНК, и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей,

где 3'-участки второй цепи ДНК образует петлю шпильки путем гибридизации между первым и вторым сегментом внутри указанного 3'-участка, первый сегмент расположен по конце 3'-3'области и второй сегмент расположены в непосредственной близости от области второй цепи ДНК, которая образует двухцепочечного участка с 3'-участка первой цепи ДНК, и

где каждый элемент библиотеки отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованной между 3'-участка первой цепи ДНК, и 5'-участком второй цепи ДНК.

[63]. Библиотека согласно [62], где комбинаторная последовательность содержит один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[64]. Библиотека согласно [62] или [63], где 3'-конец второго полинуклеотида в каждом адаптере обратимо блокируется.

[65]. Библиотека согласно [62]-[64], где конечный сегмент двухцепочечного участка, образованного между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК в каждом адаптере содержит сайт-мишень для эндонуклеазы рестрикции.

[66]. Способ получения ДНК Y-образного адаптера, содержащего стадии:

(i) контакта первого одноцепочечного полинуклеотида со вторым одноцепочечным полинуклеотидом, где 3'-участок первого о одноцепочечного полинуклеотида комплементарен по меньшей мере, части 5'-участка второго полинуклеотида,

где 3'-участок второго одноцепочечного полинуклеотида образует петлю шпильки гибридизацией первого и второго сегмента внутри указанного 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент расположен в непосредственной близости от 5'-участка второго полинуклеотида и где 3'-конец второго полинуклеотида обратимо блокирован.

указанный контакт осуществляют в условиях, достаточных для гибридизации 3'-участка первого одноцепочечного полинуклеотида и комплементарной области в 5'-участка второго одноцепочечного полинуклеотида, в результате чего получается дуплексная молекула ДНК,

(ii) элонгации 3'-конца первого полинуклеотида таким образом, чтобы получить в пределах указанного первого одноцепочечного полинуклеотида последовательность, которая является комплементарной к 5'-участку второго полинуклеотида и

(iii) необязательно разблокирования 3'-конца второго полинуклеотида.

[67]. Способ согласно [66], где элонгацию, проводимую на стадии (ii), осуществляют в присутствии модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[68]. Способ согласно [66] или [67], где, по меньшей мере, одно положение в пределах 3'-конца первого полинуклеотида является гуанином и где положения в пределах 5'-участка второго полинуклеотида, которые гибридизуются с указанным положением или положениями в пределах 3'-конца первого полинуклеотида являются цитозином или метилцитозином.

[69]. Способ согласно [66]-[68], где 5'-конец второй одноцепочечной полинуклеотид содержит последовательность, которая, если комплементарная цепь образуется в ходе стадии элонгации (ii), реплицируется на комплементарной цепи, формируя участок-мишень для эндонуклеазы рестрикции.

[70]. Способ согласно [66]-[69], где второй одноцепочечный полинуклеотид предоставляется в качестве библиотеки полинуклеотидов, где каждый элемент библиотеки отличим от остальных по комбинаторной последовательности, расположенной в пределах 5'-участка указанного полинуклеотида и где указанная комбинаторная последовательность расположена выше по отношению к участку, демонстрирующему комплементарность последовательности с первым одноцепочечным полинуклеотидом, в результате чего получали библиотеку ДНК-молекул Y-адаптеров.

[71]. Способ согласно [70], где комбинаторная последовательность содержит один или несколько цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[72]. Способ согласно [66]-[71], где первый одноцепочечный полинуклеотид и/или второй одноцепочечной полинуклеотид предоставляются иммобилизованными на подложке, где указанная иммобилизация осуществляется путем связывания 5'-конца первого одноцепочечного полинуклеотида или нуклеотида петли шпильки второго одноцепочечного полинуклеотида с указанной подложкой.

[73]. Набор, включающий:

(i) первый одноцепочечный полинуклеотид, содержащий 5-'участок и 3'-участок,

(ii) второй полинуклеотид, включающий 5'-участок и 3'-участок, где 3'-участок образует петлю шпильки гибридизацией между первым и вторым сегментом в пределах указанного 3'-участка, первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент расположены в непосредственной близости от 5'-участка, и где 3'-конец второго полинуклеотида обратимо блокируется,

где 3'-участок первого одноцепочечного полинуклеотида комплементарен по меньшей мере, части 5'-участка второго полинуклеотида.

[74]. Набор согласно [73], где второй полинуклеотид предоставляется в виде библиотеки полинуклеотидов, где каждый элемент отличим от остальных по комбинаторной последовательности, расположенной в пределах 5'-участка второго полинуклеотида и выше по отношению к участку, демонстрирующему комплементарность последовательности с первым одноцепочечным полинуклеотидом.

[75]. Набор по [74], где комбинаторная последовательность включает один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации.

[76]. Набор согласно [73]-[75], где 5'-участок второго полинуклеотида содержит последовательность, которая, при превращении в двухцепочечный участок, создает сайт-мишень для эндонуклеазы рестрикции.

[77]. Набор согласно [73]-[76], дополнительно включает один или несколько компонентов, выбранных из группы, состоящей из:

(i) ДНК-полимеразы,

(ii) одного или нескольких нуклеотидов, выбранных из A, G, С и Т,

(iii) один или несколько модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

(iv) реагента, способного удалять блокирующую группу с 3'-конца второго полинуклеотида,

(v) реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и

(vi) эндонуклеазы рестрикции специфичной для целевого участка, образованного последовательностью в пределах 5'-конца второго полинуклеотида.

[78]. Набор, включающий:

(i) библиотеку Y-адаптеров согласно [62]-[65]; и

(ii) один или несколько компонентов, выбранных из группы, состоящей из:

i. ДНК-полимеразы,

ii. одного или нескольких нуклеотидов, выбранных из A, G, С и Т,

iii. одного или нескольких модифицированных цитозинов, которые устойчивы к обработке реагентом, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации,

iv. реагента, способного к удалению блокирующей группы от 3'-конца второго полинуклеотида,

v. реагента, который позволяет преобразовать неметилированные цитозины в основание, которое детектируемо отличается от цитозина по свойствам гибридизации и

vi. эндонуклеазы рестрикции специфичной к участку-мишени, образованному последовательностью в пределах 5'-конца второго полинуклеотида.

[79]. Набор согласно [77] или [78], где один или несколько модифицированных цитозинов выбраны из группы, состоящей из метилцитозина, гидроксиметилцитозина и их комбинации.

[80]. Способ получения библиотеки двухцепочечных ДНК-адаптеров, причем каждый адаптер содержит первую цепь ДНК и вторую цепь ДНК, и где каждый адаптер отличим от других по комбинаторной последовательности, расположенной в пределах двухцепочечного участка, образованной между 3'-участком первой цепи ДНК, и 5'-участком второй цепи ДНК, причем указанный способ включает стадии

(i) обеспечения популяции одноцепочечных молекул ДНК, содержащих константный участок и комбинаторный участок, где указанные одноцепочечные молекулы ДНК, отличаются от других последовательностей в комбинаторном участке, где константный участок расположен на 3' по отношению к комбинаторному участку и где 3'-конец обратимо блокируется и

(ii) получения двухцепочечной ДНК с использованием одноцепочечной молекулы ДНК, полученной на стадии (i), в качестве матрицы и с использованием праймера для элонгации, который полностью или частично гибридизуется с константным участком одноцепочечной молекулы ДНК, таким образом, реплицируя комбинаторный участок на вновь образованной цепи, создавая тем самым двухцепочечную комбинаторную последовательность.

[81]. Способ согласно [80], дополнительно включающий удаление блокирующей группы с 3'-конца одноцепочечных молекул ДНК.

[82]. Способ согласно [80] или [81], где праймер для элонгации содержит выступающий 5'-участок, который не гибридизуется с константным участком одноцепочечных молекул ДНК.

[83]. Способ согласно [80]-[82], где константный участок одноцепочечных молекул ДНК, образует петлю шпильки гибридизацией между первым и вторым сегментом внутри указанного константного участка.

[84]. Способ согласно [80] или [81], который дополнительно содержит лигирование адаптеров библиотеки на второй молекуле ДНК, где указанная вторая молекула ДНК, имеет двухцепочечный участок, концы, которого совместимы с концами адаптерных молекул.

[85]. Способ согласно [84], где вторая молекула ДНК содержит выступающие участки в 5'-участке первой цепи и/или в 3' второй цепи, которые не гибридизуются друг с другом.

[86]. Способ согласно [85], где 3'-выступающий участок во второй цепи образует петлю шпильки гибридизацией между первым и вторым сегментами в пределах указанной области.

[87]. Способ согласно [80]-[82] или [84]-[86], где каждая из одноцепочечных молекул ДНК стадии (i) предлагается иммобилизованными на подложке, где указанные иммобилизации осуществляются путем связывания 5'-конца одноцепочечной молекулы ДНК с указанной подложкой.

[88]. Способ согласно [83], где каждая из одноцепочечных ДНК-молекул стадии (i) предлагается иммобилизованной на подложке, где указанную иммобилизацию осуществляют путем связывания нуклеотида петли шпильки одноцепочечной молекулы ДНК с указанным носителем.

[89]. Библиотека двухцепочечных адаптерных молекул ДНК, где каждая адаптерная молекула ДНК содержит константный участок и вариабельный участок, где каждый двухцепочечный адаптер ДНК содержит первую цепь ДНК и вторую цепь ДНК, и где каждый адаптер отличима от других соответственно через комбинаторную последовательность в вариабельной области, расположенной в пределах двухцепочечного участка, образованного между 3'-участком первой цепи ДНК и 5'-участком второй цепи ДНК.

[90]. Библиотека согласно [89], где 3'-конец, по меньшей мере, одной из цепей обратимо блокирован.

[91]. Библиотека согласно [89] или [90], где одна или обе цепи содержат выступающий участок, который не гибридизуется с противоположной цепью.

[92]. Библиотека согласно [91], где константный участок одной из цепей образует петлю шпильки гибридизацией между первым и вторым сегментом внутри указанного константного участка.

1. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии:

(i) лигирования двухцепочечных ДНК Y-адаптеров, по меньшей мере, с одним концом цепи из множества молекул двухцепочечных ДНК и спаривания нитей множества молекул двухцепочечных ДНК для получения множества спаренных адаптер-модифицированных молекул ДНК;

(ii) трансформации любого неметилированного цитозина в спаренных адаптер-модифицированных молекулах ДНК в урацил в спаренных адаптер-модифицированных молекулах ДНК;

(iii) получения комплементарных цепей спаренных и трансформированных адаптер-модифицированных молекул ДНК с использованием нуклеотидов А, G, С и Т и праймеров, последовательности которых комплементарны, по меньшей мере, части двухцепочечных адаптеров для получения частично трансформированных спаренных двухцепочечных молекул;

(iv) необязательно, амплификации частично трансформированных спаренных молекул двухцепочечных ДНК, полученных на стадии (iii), для получения амплифицированных спаренных молекул двухцепочечных ДНК;

(v) секвенирования спаренных молекул ДНК, полученных на стадии (iii) или на стадии (iv),

где присутствие метилированных цитозинов в данном положении определяется, если цитозин находится в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК, и/или где присутствие неметилированных цитозинов в данном положении определяется, если урацил или тимин находятся в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК,

где множество спаренных адаптер-модифицированных молекул ДНК стадии (i) получали

(а) лигированием ДНК Y-адаптера к каждому концу цепей множества молекул двухцепочечной ДНК, причем адаптер содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей,

где концы указанных двухцепочечных участков, образованные 3'-участком первой цепи ДНК и 5'-участком второй цепи ДНК Y-адаптера, совместимы с концами молекул двухцепочечных ДНК,

(b) синтезом для каждой из цепей молекул ДНК, полученных на стадии (а), комплементарной цепи с помощью полимеразной элонгации от 3'-конца второй цепи ДНК в молекуле Y-адаптера с использованием каждой из цепей ДНК-молекул, полученных в стадии (а), в качестве матрицы, тем самым спаривая каждую из цепей молекул ДНК, полученных на стадии (а), с синтетической комплементарной цепью с целью получения множества спаренных адаптер-модифицированных молекул ДНК,

где в стадии (а) множество молекул двухцепочечной ДНК являются фрагментами геномной ДНК,

где цепи фрагментов геномной ДНК являются спаренными для обеспечения множества спаренных фрагментов геномной ДНК,

где спаривание фрагментов геномной ДНК осуществляется с использованием последовательностей штрихкодов и

где стадию (b) осуществляли с использованием нуклеотидов A, G, C и Т.

2. Способ по п. 1, отличающийся тем, что на стадии (i) спаривание может быть выполнено до или после лигирования или одновременно с лигированием.

3. Способ по п. 1, отличающийся тем, что, по меньшей мере, часть двухцепочечных адаптеров имеет последовательности, общие для всех двухцепочечных адаптеров, используемых на стадии (i).

4. Способ по п. 1, отличающийся тем, что перед стадией (ii) множество спаренных адаптер-модифицированных молекул ДНК отделяется для создания библиотеки спаренных адаптер-модифицированных молекул ДНК.

5. Способ по п. 1, отличающийся тем, что трансформация неметилированного цитозина в урацил в спаренных молекулах ДНК осуществляется с помощью бисульфита.

6. Способ по п. 1, отличающийся тем, что 3'-участок второй цепи ДНК Y-адаптера формирует петлю шпильки гибридизацией между первым и вторым сегментом внутри указанного 3'-участка, где первый сегмент расположен на 3'-конце 3'-области, а второй сегмент расположен в непосредственной близости от 5'-участка второй цепи ДНК.

7. Способ по п. 1, отличающийся тем, что ДНК Y-адаптера имеет первую последовательность штрихкода в двухцепочечном участке и/или вторую последовательность штрихкода в 3'-участке второй цепи ДНК Y-адаптера.

8. Способ по любому из пп. 1-7, отличающийся тем, что ДНК Y-адаптера имеет сайт рестрикции в 5'-участке первой цепи ДНК Y-адаптера.

9. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии:

(i) лигирования двухцепочечных ДНК Y-адаптеров, по меньшей мере, с одним концом цепи из множества молекул двухцепочечных ДНК и спаривания нитей множества молекул двухцепочечных ДНК для получения множества спаренных адаптер-модифицированных молекул ДНК;

(ii) трансформации любого неметилированного цитозина в спаренных адаптер-модифицированных молекулах ДНК в урацил в спаренных адаптер-модифицированных молекулах ДНК;

(iii) получения комплементарных цепей спаренных и трансформированных адаптер-модифицированных молекул ДНК с использованием нуклеотидов А, G, С и Т и праймеров, последовательности которых комплементарны, по меньшей мере, части двухцепочечных адаптеров для того, чтобы обеспечить частично трансформированные спаренные двухцепочечные молекулы;

(iv) необязательно, амплификации частично трансформированных спаренных молекул двухцепочечных ДНК, полученных на стадии (iii), для получения амплифицированных спаренных молекул двухцепочечных ДНК;

(v) секвенирования спаренных молекул ДНК, полученных на стадии (iii) или на стадии (iv),

где присутствие метилированных цитозинов в данном положении определяется, если цитозин находится в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК, и/или где присутствие неметилированных цитозинов в данном положении определяется, если урацил или тимин находятся в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК,

где множество спаренных адаптер-модифицированных молекул ДНК стадии (i) получали

(а) контактом популяции молекул двухцепочечных ДНК с ДНК Y-адаптером, где адаптер содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами молекул двухцепочечных ДНК,

где указанный контакт осуществляют в условиях, достаточных для лигирования Y-адаптера к обоим концам молекул двухцепочечных ДНК, с получением, таким образом, множества Y-адаптер-содержащих молекул ДНК,

(b) контактом каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации, который содержит 3'-участок, комплементарный второй цепи ДНК молекулы Y-адаптера в условиях, достаточных для гибридизации праймера для элонгации со второй цепью Y-адаптера, и который после гибридизации со второй цепью ДНК молекулы Y-адаптера создает выступающие концы,

(с) контактом молекулы, полученной на стадии (b), со шпилечным адаптером, где указанный шпилечный адаптер содержит участок петли шпильки и выступающие концы, которые совместимы с выступающими концами в молекулах, полученных на стадии (b), в условиях, достаточных для лигирования шпилечного адаптера с молекулами, полученными на стадии (b),

(d) преобразованием каждой из цепей молекул ДНК, полученных на стадии (c), в молекулу двухцепочечной ДНК с помощью полимеразы путем элонгации праймера для элонгации, используемого на стадии (b),

где стадия лигирования к шпилечному адаптеру (c) и стадия элонгации (d) могут быть осуществлены в любом порядке или одновременно,

где в стадии (i) множество двухцепочечных молекул ДНК являются фрагментами геномной ДНК для получения множества адаптер-модифицированных фрагментов геномной ДНК и

где спаривание в стадии (i) осуществляется с помощью последовательностей штрихкодов.

10. Способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий стадии:

(i) лигирования двухцепочечных ДНК Y-адаптеров, по меньшей мере, с одним концом цепи из множества молекул двухцепочечных ДНК и спаривания нитей множества молекул двухцепочечных ДНК для получения множества спаренных адаптер-модифицированных молекул ДНК;

(ii) трансформации любого неметилированного цитозина в спаренных адаптер-модифицированных молекулах ДНК в урацил в спаренных адаптер-модифицированных молекулах ДНК;

(iii) получения комплементарных цепей спаренных и трансформированных адаптер-модифицированных молекул ДНК с использованием нуклеотидов А, G, С и Т и праймеров, последовательности которых комплементарны, по меньшей мере, части двухцепочечных адаптеров для того, чтобы обеспечить частично трансформированные спаренные двухцепочечные молекулы;

(iv) необязательно, амплификации частично трансформированных спаренных молекул двухцепочечных ДНК, полученных на стадии (iii), для получения амплифицированных спаренных молекул двухцепочечных ДНК;

(v) секвенирования спаренных молекул ДНК, полученных на стадии (iii) или на стадии (iv),

где присутствие метилированных цитозинов в данном положении определяется, если цитозин находится в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК, и/или где присутствие неметилированных цитозинов в данном положении определяется, если урацил или тимин находятся в одной из цепей спаренных молекул двухцепочечных ДНК, полученных на стадии (iii) или на стадии (iv), а гуанин находится в соответствующем положении в другой цепи спаренных молекул двухцепочечных ДНК,

где множество спаренных адаптер-модифицированных молекул ДНК стадии (i) получали

(а) контактом популяции молекул двухцепочечных ДНК с ДНК Y-адаптером, где адаптер содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей и где концы указанного двухцепочечного участка совместимы с концами молекул двухцепочечных ДНК,

где указанный контакт осуществляют в условиях, достаточных для лигирования Y-адаптера к обоим концам молекул двухцепочечных ДНК, с получением, таким образом, множества Y-адаптер-содержащих молекул ДНК,

(b) контактом каждой цепи указанных Y-адаптер-содержащих молекул ДНК с праймером для элонгации, который содержит 3'-участок, комплементарный второй цепи ДНК молекулы Y-адаптера в условиях, достаточных для гибридизации праймера для элонгации второй цепи Y-адаптера, где праймер для элонгации включает 3’-участок, который комплементарен со второй цепью ДНК молекулы Y-адаптера и который после гибридизации со второй цепью ДНК молекулы Y-адаптера создает выступающие концы, и где шпилечный адаптер включает участок петли шпильки и выступающие концы, которые совместимы с выступающими концами, образованными после гибридизации праймера для элонгации со второй цепью Y-адаптера,

(с) преобразованием каждой из цепей молекул ДНК, полученных на стадии (b), в молекулу двухцепочечной ДНК с помощью полимеразы путем элонгации праймера для элонгации, используемого на стадии (b),

где стадия лигирования к шпилечному адаптеру (b) и стадия элонгации (c) могут быть осуществлены в любом порядке или одновременно,

где в стадии (i) множество двухцепочечных молекул ДНК являются фрагментами геномной ДНК для получения множества адаптер-модифицированных фрагментов геномной ДНК и

где спаривание в стадии (i) осуществляется с помощью последовательностей штрихкодов.

11. ДНК Y-адаптер, предназначенный для применения в способе по любому из пп. 1-10, отличающийся тем, что Y-адаптер содержит первую цепь ДНК и вторую цепь ДНК,

где 3'-участок первой цепи ДНК и 5'-участок второй цепи ДНК образуют двухцепочечный участок из-за комплементарности последовательностей,

где концы указанного двухцепочечного участка, образованного 3’-участком первой цепи ДНК и 5’-участком второй цепи ДНК Y-адаптера, совместимы с концами двухцепочечной молекулы ДНК,

где двухцепочечный участок ДНК Y-адаптера включает одну или несколько последовательностей штрихкодов и

где 3'-участок второй цепи ДНК Y-адаптера образует петлю шпильки гибридизацией между первым и вторым сегментами в пределах упомянутого 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент находится в непосредственной близости от 5'-участка второй цепи ДНК, и/или

где ДНК Y-адаптера содержит, по меньшей мере, одну последовательность штрихкода в одноцепочечном участке Y-адаптера.

12. ДНК Y-адаптер по п. 11, отличающийся тем, что ДНК Y-адаптер имеет сайт рестрикции в 5'-участке первой цепи ДНК Y-адаптера.

13. ДНК Y-адаптер по п. 11 или 12, отличающийся тем, что ДНК Y-адаптер включает, по меньшей мере, одну последовательность штрихкода в одноцепочечном участке Y-адаптера, и в котором 3'-участок второй цепи ДНК Y-адаптера образует петлю шпильки гибридизацией между первым и вторым сегментами в пределах упомянутого 3'-участка, где первый сегмент расположен на 3'-конце 3'-участка, а второй сегмент находится в непосредственной близости от 5'-участка второй цепи ДНК.

14. Библиотека адаптеров для идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающая ДНК Y-адаптеры по любому из пп. 11-13, в которой каждый элемент библиотеки отличим от других по комбинаторной последовательности, расположенной внутри двухцепочечного участка, образованного 3’-участком первой цепи ДНК и 5’-участком второй цепи ДНК адаптера.

15. Набор для идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК, включающий библиотеку Y-адаптеров по п. 14.



 

Похожие патенты:

Изобретение относится к биотехнологии и к области молекулярной диагностики. Предложен набор для получения реакционной смеси для синтеза 3'-O-пропаргил-модифицированной нуклеиновой кислоты.

Изобретение относится к области медицинской микробиологии, а именно к способам молекулярно-генетического типирования штаммов возбудителей инфекционных заболеваний, которые используются при микробиологическом и молекулярно-генетическом мониторинге штаммов H.pylori, циркулирующих на различных территориях, с целью их дифференциации.

Предложенная группа изобретений относится к области медицины. Предложены способ и набор для обнаружения мутации Q61R в белке NRAS в образце опухолевой ткани человека.

Изобретение относится к области медицины, в частности к медицинской генетике и оториноларингологии, и предназначено для выявления мутаций гена GJB2, обуславливающих аутосомно-рецессивную глухоту 1А типа.

Изобретение относится к области медицины, в частности к медицинской генетике и оториноларингологии, и предназначено для выявления мутаций гена GJB2, обуславливающих аутосомно-рецессивную глухоту 1А типа.

Изобретение относится к области медицины, в частности к онкогинекологии, и предназначено для неинвазивной диагностики серозных пограничных цистаденом и высокой степени злокачественности цистаденокарцином яичников.

Изобретение относится к области медицины, в частности к онкогинекологии, и предназначено для неинвазивной диагностики серозных пограничных цистаденом и высокой степени злокачественности цистаденокарцином яичников.

Изобретение относится к области медицины и предназначено для оценки эффективности лечения лепры на основе идентификации жизнеспособных Mycobacterium leprae. Из биоптатов и скарификатов кожи выделяют ДНК/РНК.

Изобретение относится к области медицины и предназначено для оценки эффективности лечения лепры на основе идентификации жизнеспособных Mycobacterium leprae. Из биоптатов и скарификатов кожи выделяют ДНК/РНК.

Группа изобретений относится к оптическому устройству, устройству детектирования и способу, использующему волновод, которые можно использовать в областях биозондирования и секвенирования нуклеиновых кислот.

Изобретение относится к области медицинской микробиологии, а именно к способам молекулярно-генетического типирования штаммов возбудителей инфекционных заболеваний, которые используются при микробиологическом и молекулярно-генетическом мониторинге штаммов H.pylori, циркулирующих на различных территориях, с целью их дифференциации.

Изобретение относится к области генной инженерии, конкретно к получению рекомбинантных полипептидов аденовируса, и может быть использовано в медицине для увеличения эффективности терапевтического лечения солидной опухоли, экспрессирующей десмоглеин 2 (DSG2).

Изобретение относится к области биотехнологии, в частности к плазмиде для синтеза α-зеина В1 кукурузы вида Zea mays, а также к рекомбинантному штамму, содержащему вышеуказанную плазмиду.

Изобретение относится к области биологии и медицины и предназначено для экспресс-выделения ДНК из размороженной крови. Проводят забор 2 мл цельной венозной крови в пробирки, содержащие ЭДТА-К3.

Изобретение относится к области биологии и медицины и предназначено для экспресс-выделения ДНК из размороженной крови. Проводят забор 2 мл цельной венозной крови в пробирки, содержащие ЭДТА-К3.

Группа изобретений относится к области биотехнологии. Предложены способ извлечения нуклеиновых кислот из являющегося пластичным в живом организме полимера, способ обнаружения микроорганизма, прикрепленного или закрепленного в пластичном в живом организме полимере, способ идентификации резистентных к адгезии микроорганизма пластичных полимеров в живом организме, способ создания микробного профиля полости рта субъекта–млекопитающего и in vitro способ диагностики инфекции в полости рта млекопитающего или определения восприимчивости млекопитающего к развитию инфекции в полости рта.

Группа изобретений относится к области биотехнологии. Предложены способ извлечения нуклеиновых кислот из являющегося пластичным в живом организме полимера, способ обнаружения микроорганизма, прикрепленного или закрепленного в пластичном в живом организме полимере, способ идентификации резистентных к адгезии микроорганизма пластичных полимеров в живом организме, способ создания микробного профиля полости рта субъекта–млекопитающего и in vitro способ диагностики инфекции в полости рта млекопитающего или определения восприимчивости млекопитающего к развитию инфекции в полости рта.

Изобретение относится к области биотехнологии, конкретно к способам для идентификации связывающих полипептидов (например, антител или их антигенсвязывающих фрагментов), которые специфически связываются с антигеном клеточной поверхности, что может быть использовано в медицине.

Изобретение относится к области биохимии, в частности к способу определения присутствия экзогенного донорского полинуклеотида ДНК, вставленного в целевой геномный локус DAS-59132 растения кукурузы.

Данное изобретение относится к области биотехнологии и иммунологии. Предложена нуклеотидная композиция для получения гетеродимерной конструкции Fc, имеющей замены в CH3 доменах, обеспечивающие повышение температуры плавления.

Изобретение относится к биотехнологии, а именно: к технологии получения рекомбинантной бутирилхолинэстеразы человека (БуХЭ), и может быть использовано в медицине в терапии отравлений фосфорорганическими токсинами, для терапии отравлений наркотическими веществами типа кокаин, для терапии последствий анестезии у людей с дефицитом эндогенной БуХЭ. Поставленная задача решается за счет создания генетической конструкции - рекомбинантная плазмидная ДНК pFUSE-MARX-29-PRAD-F2A/BChE-14, содержащая нуклеотидную последовательность синтетического гена модифицированной бутирилхолинэстеразы человека, кодирующую вариант фермента бутирилхолинэстеразы с заменой последовательности 284-TPLSV-288 на последовательность 284-HTIHG-288, обеспечивающую продукцию модифицированного фермента rhBChE-14, способного к реактивации после ковалентного ингибирования параоксоном и не подверженного старению, нуклеотидную последовательность связывания с ядерным матриксом (MAR X-29), позволяющие повысить продукцию целевого белка за счет как увеличения уровня транскрипции расположенного в непосредственной близости гена, так и за счет большей стабильности комплекса рибосома-транскрипт. 3 ил., 1 табл., 4 пр.

Изобретение относится к области биотехнологии, молекулярной биологии и биохимии. Предложен способ идентификации метилированных цитозинов в популяции молекул двухцепочечных ДНК. Изобретение также относится к адаптерам и наборам для синтеза указанных адаптеров, а также к библиотекам двухцепочечных ДНК, полученным с помощью способов по настоящему изобретению. Изобретение позволяет повысить точность и качество определения метилированных цитозинов и может быть использовано в научной и прикладной областях. 6 н. и 9 з. п. ф-лы, 16 ил., 1 табл., 2 пр.

Наверх