Обнаружение мутаций и плоидности в хромосомных сегментах

Изобретение относится к биотехнологии, в частности к способу обнаружения плоидности хромосомных сегментов или целых хромосом, для обнаружения однонуклеотидных вариантов и для обнаружения, как плоидности хромосомных сегментов, так и однонуклеотидных вариантов. Согласно некоторым аспектам в настоящем изобретении предусмотрены способы для обнаружения злокачественной опухоли или хромосомных аномалий у вынашиваемого плода. 2 н. и 15 з.п. ф-лы, 70 ил., 1 табл., 15 пр.

 

Ссылка на родственные заявки

По настоящей заявке испрашивается приоритет в соответствии с предварительной заявкой на патент США №61/982245, поданной 21 апреля 2014 г.; предварительной заявкой на патент США №61/987407, поданной 1 мая 2014 г.; предварительной заявкой на патент США №62/066514, поданной 21 октября 2014 г.; предварительной заявкой на патент США №62/146188, поданной 10 апреля 2015 г.; предварительной заявкой на патент США №62/147377, поданной 14 апреля 2015 г.; предварительной заявкой на патент США №62/148173, поданной 15 апреля 2015 г., полное содержание этих заявок включено в настоящий документ посредством ссылки для раскрытых в настоящем документе идей.

Область техники, к которой относится настоящее изобретение

Настоящее изобретение в целом относится к способам и системам обнаружения плоидности сегмента хромосомы, а также способам и системам обнаружения однонуклеотидного варианта.

Предшествующий уровень техники настоящего изобретения

Вариация числа копий (CNV) была идентифицирована в качестве основной причины структурных вариаций в геноме, включая в себя как дупликации, так и делеции последовательностей, которые, как правило, находятся в диапазоне длин от 1000 пар оснований (1 т.п.н.) до 20 мегабаз (Мб). Делеции и дупликации хромосомных сегментов или целых хромосом связаны с различными состояниями, такими как восприимчивость или устойчивость к заболеванию.

CNV часто относят к одной из двух основных категорий, основанных на длине пораженной последовательности. Первая категория включает в себя полиморфизмы числа копий (CNP), которые распространены в общей популяции, происходящие с общей частотой более 1%. CNP, как правило, представляют собой небольшие (большинство из них менее 10 т.п.н. в длину) и они часто обогащены генами, которые кодируют белки, важные в детоксикации лекарственных средств и иммунитета. Субпопуляция этих CNP сильно варьирует в отношении числа копий. В результате, различные хромосомы человека могут характеризоваться широким диапазоном числа копий (например, 2, 3, 4, 5 и т.д.) для определенного набора генов. CNP, связанные с генами иммунного ответа, в последнее время были связаны с восприимчивостью к сложным генетическим заболеваниям, включающим в себя псориаз, болезнь Крона и гломерулонефрит.

Второй класс CNV включает в себя относительно редкие варианты, которые намного длиннее, чем CNP, варьирующие в размере от сотен тысяч пар нуклеотидов до более 1 млн пар нуклеотидов в длину. В некоторых случаях эти CNV могут возникать в процессе производства спермы или яйцеклетки, что приводит к конкретному индивидууму, или они, возможно, были переданы в течение всего нескольких поколений внутри семьи. Эти большие и редкие структурные варианты наблюдались непропорционально у субъектов с задержкой умственного развития, задержкой развития, шизофренией и аутизмом. Их появление у таких субъектов приводило к предположению, что большие и редкие CNV могут быть более важны в нейрокогнитивных заболеваниях, по сравнению с другими формами наследственных мутаций, включая в себя однонуклеотидные замены.

Число копий гена может быть изменено в злокачественных клетках. Например, удвоение Chr1p распространено при злокачественной опухоли молочной железы, а число копий EGFR может быть выше нормы при немелкоклеточной злокачественной опухоли легких. Злокачественная опухоль представляет собой одну из основных причин смерти; таким образом, ранняя диагностика и лечение злокачественной опухоли имеет важное значение, так как это может улучшить результат лечения пациента (например, за счет увеличения вероятности ремиссии и продолжительности ремиссии). Ранняя диагностика может также позволить пациенту проходить меньше альтернатив или менее радикальные альтернативы лечению. Многие из современных способов лечения, которые разрушают злокачественные клетки, также влияют на нормальные клетки, приводя к различным возможным побочным эффектам, таким как тошнота, рвота, низкое содержание клеток крови, повышенный риск инфекции, выпадение волос и язвы в слизистых оболочках. Таким образом, желательно раннее обнаружение злокачественных опухолей, так как это может уменьшить количество и/или число воздействий (таких как химиотерапевтические средства или излучение), необходимых для устранения злокачественной опухоли.

Вариация числа копий также была связана с серьезными умственными и физическими недостатками, а также идиопатическим нарушением обучаемости. Неинвазивное пренатальное исследование (NIPT) с использованием внеклеточной ДНК (вкДНК) может быть использовано для обнаружения нарушений, таких как трисомия 13, 18, и 21 плода, триплоидия и анеуплоидии половой хромосомы. Субхромосомные микроделеции, которые также могут приводить к серьезным психическим и физическими недостаткам, представляют собой более сложные для обнаружения из-за их меньшего размера. Восемь из микроделеционных синдромов характеризуются совокупной частотой более чем 1 на 1000, что делает их почти такими же частыми, как аутосомные трисомии плода.

Кроме того, более высокое число копий CCL3L1 было связано с более низкой восприимчивостью к ВИЧ-инфекции, а также низкое число копий FCGR3B (рецептор иммуноглобулина клеточной поверхности CD16) может увеличивать восприимчивость к системной красной волчанке и другим подобным воспалительным аутоиммунным нарушениям.

Таким образом, необходимы улучшенные способы обнаружения делеций и дупликаций сегментов хромосом или целых хромосом. Предпочтительно, чтобы эти способы могли быть использованы для более точной диагностики заболевания или повышенного риска заболевания, такого как злокачественная опухоль, или CNV при развитии плода.

Краткая сущность настоящего изобретения

Согласно иллюстративным вариантам осуществления в настоящем документе предусмотрен способ определения плоидности хромосомного сегмента в образце индивидуума. Способ предусматривает следующие стадии:

a. получение данных о частоте аллелей, содержащих количество каждого аллеля, присутствующего в образце в каждом локусе в совокупности полиморфных локусов на хромосомном сегменте;

b. создание поэтапной аллельной информации для совокупности полиморфных локусов путем оценки фазы данных по частоте аллелей;

c. создание индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности с использованием данных о частоте аллелей;

d. создание совместных вероятностей для совокупности полиморфных локусов с использованием индивидуальных вероятностей и поэтапной аллельной информации; а также

e. выбор, основанный на совместных вероятностях, наиболее подходящей модели, указывающей на хромосомную плоидность, тем самым определяющей плоидность хромосомного сегмента.

Согласно одному иллюстративному варианту осуществления способа определения плоидности данные получают с использованием данных о последовательности нуклеиновой кислоты, в особенности высокоэффективных данных о последовательности нуклеиновой кислоты. Согласно некоторым иллюстративным примерам способа определения плоидности, данные о частоте аллелей корректируются на наличие ошибок, прежде чем они используются для создания индивидуальных вероятностей. Согласно конкретным иллюстративным вариантам осуществления ошибки, которые исправляются, включают в себя систематическую ошибку эффективности амплификации аллеля. Согласно другим вариантам осуществления ошибки, которые исправляются, включают в себя загрязнение окружающей среды и загрязнение генотипа. Согласно некоторым вариантам осуществления ошибки, которые исправляются, включают в себя систематическую ошибку амплификации аллелей, загрязнение окружающей среды и загрязнение генотипа.

Согласно некоторым вариантам осуществления способа определения плоидности, индивидуальные вероятности получают с использованием совокупности моделей, как различных состояний плоидности, так и фракций аллельного дисбаланса для совокупности полиморфных локусов. Согласно этим вариантам осуществления и другим вариантам осуществления совместные вероятности получают с учетом взаимосвязи между полиморфными локусами на сегменте хромосомы.

Соответственно, согласно одному иллюстративному варианту осуществления, который сочетает в себе некоторые из этих вариантов осуществления, в настоящем документе предусмотрен способ определения хромосомной плоидности в образце индивидуума, который предусматривает следующие стадии:

a. получение данных о последовательности нуклеиновой кислоты для аллелей в совокупности полиморфных локусов на хромосомном сегменте у индивидуума;

b. обнаружение частот аллелей в совокупности локусов с использованием данных о последовательности нуклеиновой кислоты;

c. коррекции систематических ошибок эффективности амплификации аллелей в обнаруженных частотах аллелей для получения скорректированных частот аллелей для совокупности полиморфных локусов;

d. получение фазированной аллельной информацию для совокупности полиморфных локусов путем оценки фазы данных о последовательности нуклеиновой кислоты;

e. получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения скорректированных частот аллели с совокупностью моделей различных состояний плоидности и фракций аллельного дисбаланса совокупности полиморфных локусов;

f. получение совместных вероятностей для совокупности полиморфных локусов путем комбинирования индивидуальных вероятностей с учетом связи между полиморфными локусами на сегменте хромосомы; а также

g. выбор, основанный на совместных вероятностях, наиболее подходящей модели, указывающей на хромосомную анеуплоидию.

Согласно другому аспекту в настоящем документе предусмотрена система обнаружения хромосомной плоидности в образце индивидуума, причем эта система предусматривает:

a. входной процессор, выполненный с возможностью получения данных о частоте аллелей, содержащих количество каждого аллеля, присутствующего в образце в каждом локусе в совокупности полиморфных локусов на хромосомном сегменте;

b. моделирующее устройство, выполненное с возможностью:

I. создавать фазированную аллельную информацию для совокупности полиморфных локусов путем оценки фазы данных о частоте аллелей; а также

II. создавать индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности с использованием данных о частоте аллелей; а также

III. создавать совместные вероятности для совокупности полиморфных локусов с использованием индивидуальных вероятностей и фазированной аллельной информации; а также

c. менеджер гипотез, выполненный с возможностью выбора, основанного на совместных вероятностях, наиболее подходящей модели, указывающей на хромосомную плоидность, тем самым определяя плоидность хромосомного сегмента.

Согласно некоторым вариантам осуществления варианта осуществления этой системы данные о частоте аллелей представляют собой данные, полученные системой для секвенирования нуклеиновой кислоты. Согласно некоторым вариантам осуществления система дополнительно содержит блок для коррекции ошибок, выполненный с возможностью коррекции ошибок в данных о частоте аллелей, причем исправленные данные о частоте аллеля используется моделирующим устройством для получения индивидуальных вероятностей. Согласно некоторым вариантам осуществления блок для коррекции ошибок корректирует систематические ошибки эффективности амплификации аллеля. Согласно некоторым вариантам осуществления моделирующее устройство создает индивидуальные вероятности с использованием множества моделей, как различных состояний плоидности, так и фракций аллельного дисбаланса для совокупности полиморфных локусов. Моделирующее устройство, согласно некоторым иллюстративным вариантам осуществления, создает совместные вероятности, рассматривая связь между полиморфными локусами на сегменте хромосомы.

Согласно одному иллюстративному варианту осуществления в настоящем документе предусмотрена система обнаружения хромосомной плоидности в образце индивидуума, которая предусматривает:

a. входной процессор, выполненный с возможностью приема данных о последовательности нуклеиновой кислоты для аллелей в совокупности полиморфных локусов на сегменте хромосомы у индивидуума и обнаружения частот аллелей в совокупности локусов с использованием данных о последовательности нуклеиновой кислоты;

b. блок коррекции ошибок, выполненный с возможностью коррекции ошибок в обнаруженных частотах аллелей и создания скорректированных частот аллелей для совокупности полиморфных локусов;

c. моделирующее устройство, выполненное с возможностью:

I. получения фазированной аллельной информации для совокупности полиморфных локусов путем оценки фазы данных о последовательности нуклеиновой кислоты;

II. получения индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения фазированной аллельной информации с множеством моделей различных состояний плоидности и фракций аллельного дисбаланса совокупности полиморфных локусов; а также

III. получения совместных вероятностей для совокупности полиморфных локусов путем объединения индивидуальных вероятностей с учетом относительного расстояния между полиморфными локусами на сегменте хромосомы; а также

d. менеджер гипотез, выполненный с возможностью выбора, основанного на совместных вероятностях, наиболее подходящей модели, указывающей на хромосомную анеуплоидию.

Согласно некоторым аспектам в настоящем изобретении предусмотрен способ определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты в образце у индивидуума, предусматривающий

a. анализ образца для определения плоидности в совокупности полиморфных локусов на хромосомном сегменте у индивидуума; а также

b. определение уровня аллельного дисбаланса, присутствующего в полиморфных локусах, на основании определения плоидности, причем аллельный дисбаланс, равный или больший, чем 0,4%, 0,45% или 0,5%, указывает на наличие циркулирующих опухолевых нуклеиновых кислот в образце.

Согласно некоторым вариантам осуществления способ определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты, кроме того предусматривает обнаружение однонуклеотидного варианта в сайте однонуклеотидной дисперсии в совокупности положений однонуклеотидных дисперсий, причем обнаружение либо аллельного дисбаланса, равного 45% или более, либо обнаружение однонуклеотидного варианта, или и то и другое свидетельствует о присутствии циркулирующих опухолевых нуклеиновых кислот в образце.

Согласно некоторым вариантам осуществления стадия анализа в способе определения того, присутствуют ли циркулирующие опухолевых нуклеиновые кислоты, предусматривает анализ совокупности хромосомных сегментов, про которые известно, что они характеризуются анеуплоидией при злокачественной опухоли. Согласно некоторым вариантам осуществления стадия анализа в способе определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты, предусматривает анализ от 1000 до 50000 или от 100 до 1000 полиморфных локусов на плоидность.

Согласно некоторым аспектам в настоящем документе предусмотрены способы обнаружения однонуклеотидных вариантов в образце. Соответственно, в настоящем документе предусмотрен способ определения того, присутствует ли однонуклеотидный вариант в совокупности геномных положений в образце от индивидуума, причем способ предусматривает:

a. для каждого геномного положения получение оценки эффективности и частоты появления ошибок за цикл для ампликона, охватывающего это геномное положение, с использованием обучающего набора данных;

b. получение информации о наблюдаемой нуклеотидной идентичности для каждого геномного положения в образце;

c. определение множества вероятностей процента однонуклеотидных вариантов в результате одной или нескольких реальных мутаций в каждом геномном положении путем сравнения информации о наблюдаемой нуклеотидной идентичности в каждом геномном положении с моделью процентов различных вариантов с использованием оцененной эффективности амплификации и частоты появления ошибок за цикл для каждого геномного положения независимо; а также

d. определение наиболее вероятного реального процента вариантов и доверительного интервала из совокупности вероятностей для каждого геномного положения.

Согласно иллюстративным вариантам осуществления способа определения того, присутствует ли однонуклеотидный вариант, производят оценку эффективности и частоту появления ошибок за один цикл для множества ампликонов, которые охватывают геномное положение. Например, может быть включено 2, 3, 4, 5, 10, 15, 20, 25, 50, 100 или более ампликонов, которые охватывают геномное положение. Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV предел обнаружения составляет 0,015%, 0,017% или 0,02%.

Согласно иллюстративным вариантам осуществления способа определения того, присутствует ли однонуклеотидный вариант, информация о наблюдаемой нуклеотидной идентичности содержит наблюдаемое число общих прочтений для каждого геномного положения и наблюдаемое число прочтений вариантных аллелей для каждого геномного положения.

Согласно иллюстративным вариантам осуществления способа определения того, присутствует ли однонуклеотидный вариант, образец представляет собой образец плазмы, и однонуклеотидный вариант присутствует в циркулирующей опухолевой ДНК образца.

Согласно другому варианту осуществления в настоящем документе предусмотрен способ обнаружения одного или нескольких однонуклеотидных вариантов в исследуемом образце от индивидуума. Способ согласно настоящему варианту осуществления предусматривает следующие стадии:

a. определение медианной частоты вариантных аллелей для множества контрольных образцов от каждого из множества нормальных индивидуумов для каждого положения однонуклеотидного варианта в совокупности положений однонуклеотидных дисперсий на основе результатов, полученных в пробеге секвенирования, чтобы идентифицировать положения выбранного однонуклеотидного варианта, имеющие вариантные частоты медианных аллелей в нормальных образцах ниже порогового значения, и чтобы определить фоновую ошибку для каждого из положений однонуклеотидных вариантов после удаления выпадающих образцов для каждого из положений однонуклеотидных вариантов;

b. определение наблюдаемой глубины средневзвешенного прочтения и дисперсии для выбранных положений однонуклеотидных вариантов для исследуемого образца на основе данных, полученных в пробеге секвенирования для исследуемого образца; а также

c. идентификация с использованием компьютера одного или нескольких положений однонуклеотидных вариантов со статистически значимой глубиной средневзвешенного прочтения в сравнении с фоновой ошибкой для этого положения, тем самым определяя один или несколько однонуклеотидных вариантов.

Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV образец представляет собой образец плазмы, контрольные образцы представляют собой образцы плазмы и обнаруженные один или несколько однонуклеотидных вариантов присутствуют в циркулирующий опухолевой ДНК образца. Согласно некоторым вариантам осуществления этого способа для обнаружения одного или нескольких SNV множество контрольных образцов содержит по меньшей мере 25 образцов. Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV из данных удаляют выбросы, полученные при высокоэффективном пробеге секвенирования, чтобы вычислить наблюдаемую глубину средневзвешенного прочтения, и определяют наблюдаемую дисперсию. Согласно определенным вариантам осуществления этого способа обнаружения одного или нескольких SNV глубина прочтения для каждого положения однонуклеотидного варианта для исследуемого образца составляет по меньшей мере 100 прочтений.

Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV пробег секвенирования предусматривает мультиплексную реакцию амплификации, выполняемую при проведении реакции в условиях ограниченного количества праймеров. Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV предел обнаружения составляет 0,015%, 0,017% или 0,02%.

Согласно одному аспекту настоящее изобретение относится к способу определения того, имеется ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, и получение измеренных генетических аллельных данных, содержащих количество каждого аллеля, присутствующего в образце ДНК или РНК из одной или нескольких клеток от индивидуума, для каждого из аллелей в каждом из локусов в совокупности полиморфных локусов. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез с указанием степени превалирования первого гомологичного хромосомного сегмента в геноме одной или нескольких клеток от индивидуума, вычисление (например, вычисление на компьютере) правдоподобия одной или нескольких гипотез, основанных на полученных генетических данных образца и полученных фазированных генетических данных, и выбор гипотезы с наибольшей вероятностью, определяя тем самым степень превышения числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких клеток от индивидуума. Согласно некоторым вариантам осуществления фазированные данные предусматривают прогнозируемые фазированные данные с использованием основанных на популяции частот гаплотипов и/или измеренных фазированных данных (например, фазированных данных, полученных путем измерения образца, содержащего ДНК или РНК от индивидуума или родственника индивидуума).

Согласно одному аспекту в настоящем изобретении предусмотрен способ определения того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, а также получение измеренных генетических аллельных данных, содержащих количество каждого аллеля, присутствующего в образце ДНК или РНК из одной или нескольких клеток от индивидуума для каждого из аллелей в каждом из локусов в совокупности полиморфных локусов. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез с указанием степени превалирования первого гомологичного хромосомного сегмента в геноме одной или нескольких клеток от индивидуума, вычисление для каждой из гипотез ожидаемых генетических данных для множества локусов в образце из полученных фазированных генетических данных, вычисление (например, вычисление на компьютере) совпадения данных между полученными генетическими данными образца и ожидаемыми генетическими данными для образца, ранжирование одной или нескольких гипотез в соответствии с совпадением данных и выбор гипотезы с самым высоким положением при ранжировании, определяя тем самым степень превалирования числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких клеток от индивидуума.

Согласно одному аспекту настоящее изобретение предусматривает способ определения того, наблюдается ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, и получение измеренных генетических аллельных данных, содержащих для каждого из аллелей в каждом из локусов в совокупности локусов количество каждого аллеля, присутствующего в образце ДНК или РНК из одной или нескольких клеток-мишеней и одной или нескольких клеток-немишеней от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности одной или нескольких гипотез, определяющих степень превалирования первого гомологичного хромосомного сегмента, вычисление (например, вычисление на компьютере) для каждой из гипотез ожидаемых генетических данных для множества локусов в образце из полученных фазированных генетических данных для одного или нескольких возможных соотношений ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце; вычисление (например, вычисление на компьютере) для каждого возможного соотношения ДНК или РНК и для каждой гипотезы, проверку совпадения данных между полученными генетическими данными образца и ожидаемыми генетическими данными для образца для этого возможного отношение ДНК или РНК и для этой гипотезы; ранжирование одной или нескольких из гипотез, согласно совпадению данных; выбор гипотезы, которая заняла самое высокое место при ранжировании, тем самым определяя степень превалирования числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких клеток от индивидуума.

Согласно одному аспекту настоящее изобретение предусматривает способ определения, существует ли превалирование числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в этом локусе на первом гомологичном хромосомном сегменте каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в этом локусе на втором гомологичном хромосомном сегменте для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, и получение измеренных генетических аллельных данных, содержащих количество каждого аллеля, присутствующего в образце ДНК или РНК из одной или нескольких клеток-мишеней и одной или нескольких клеток-немишеней от индивидуума для каждого из аллелей в каждом из локусов в совокупности полиморфных локусов. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, определяющих степень превалирования первого гомологичного хромосомного сегмента, вычисление (например, вычисление на компьютере) для каждой из гипотез ожидаемых генетических данных для множества локусов в образце из полученных фазированных генетических данных для одного или нескольких возможных соотношений ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце; вычисление (например, вычисление на компьютере) для каждого локуса во множестве локусов каждого возможного соотношения ДНК или РНК, а также каждой гипотезы, вероятности того, что гипотеза верна путем сравнения полученных генетических данных образца для данного локуса и ожидаемых генетических данных для этого локуса для этого возможного соотношения ДНК или РНК и для этой гипотезы; определение объединенной вероятности для каждой гипотезы путем объединения вероятностей этой гипотезы для каждого локуса и каждого возможного соотношения, и выбор гипотезы с наибольшей объединенной вероятностью, определяя тем самым степень превалирования числа копий первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления все локусы рассматриваются сразу для вычисления вероятности конкретной гипотезы, и выбирается гипотеза с наибольшей вероятностью.

Согласно одному аспекту в настоящем изобретении предусмотрен способ определения числа копий представляющего интерес хромосомного сегмента в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных по меньшей мере для одного биологического родителя плода, причем фазированные генетические данные предусматривают идентичность присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте в паре гомологичных хромосомных сегментов, которая содержит представляющий интерес хромосомный сегмент. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на представляющем интерес хромосомном сегменте в смешанном образце ДНК или РНК, содержащем эмбриональную ДНК или РНК и материнскую ДНК или РНК от матери плода путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, указывающих на количество копий представляющего интерес хромосомного сегмента, присутствующего в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности одной или нескольких гипотез с указанием, для одного или обоих родителей, количества копий первого гомологичного хромосомного сегмента или его части от родителя в геноме плода, количества копий второго гомологичного хромосомного сегмента или его части от родительского генома плода, а также общего количества копий представляющего интерес хромосомного сегмента, присутствующего в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждой из гипотез, ожидаемых генетических данных для множества локусов в смешанном образце из полученных фазированных генетических данных от родителя(ей); вычисление (например, вычисление на компьютере) совпадения данных между полученными генетическими данными смешанного образца и ожидаемыми генетическими данными для смешанного образца; ранжирование одной или нескольких из гипотез согласно подгонке данных; и выбор гипотезы, которая занимает самую высокую позицию при ранжировании, тем самым определяя количество копий представляющих интерес хромосомных сегментов в геноме плода.

Согласно одному аспекту настоящее изобретение относится к способу определения числа копий хромосомы или представляющего интерес хромосомного сегмента в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных по меньшей мере для одного биологического родителя плода, причем фазированные генетические данные предусматривают идентичность присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте у родителя. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в смешанном образце ДНК или РНК, содержащем эмбриональную ДНК или РНК и материнскую ДНК или РНК от матери плода путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, указывающих на число копий представляющей интерес хромосомы или хромосомного сегмента, присутствующего в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает создание (например, создание на компьютере) для каждой из гипотез, распределения вероятности ожидаемого количества каждого аллеля в каждом из множества локусов в смешанном образце из (I) полученных фазированных генетических данных от родителя(ей) и (II) необязательной вероятности одного или нескольких кроссоверов, которые могут происходить во время образования гамет, которые вносят копию представляющей интерес хромосомы или хромосомного сегмента к плоду, вычисление (например, вычисление на компьютере) совпадения для каждой из гипотез между (1) полученными генетическими данными смешанного образца и (2) распределением вероятности ожидаемого количества каждого аллеля в каждом из множества локусов в смешанном образце для этой гипотезы; ранжирование одной или нескольких гипотез согласно совпадению данных и выбор гипотезы, которая занимает самое высокое положение при ранжировании, тем самым определяя количество копий представляющего интерес хромосомного сегмента в геноме плода.

Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для матери плода. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, указывающих на количество копий первого гомологичного хромосомного сегмента или его части от матери в геноме плода, количество копий второго гомологичного хромосомного сегмента или его части от матери в геноме плода, а также общее количество копий представляющего интерес хромосомного сегмента, присутствующего в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает вычисление, для каждой из гипотез, ожидаемых генетических данных для множества локусов в смешанном образце из полученных фазированных генетических данных от матери.

Согласно некоторым вариантам осуществления ожидаемые генетические данные для каждой из гипотез содержат идентичность и количество одного или нескольких аллелей в каждом локусе во множестве локусов от материнской ДНК или РНК и фетальной ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере) ожидаемых генетических данных путем определения доли фетальной ДНК или РНК и доли материнской ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление, для каждого локуса во множестве локусов, ожидаемого количества одного или нескольких аллелей для этого локуса в материнской ДНК или РНК в смешанном образце с использованием идентичности аллеля(ей), присутствующего в этом локусе, в полученных фазированных генетических данных матери и доли материнской ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждого локуса во множестве локусов для каждой гипотезы, ожидаемого количества одного или нескольких аллелей для этого локуса в фетальной ДНК или РНК, унаследованной от матери, в смешанном образце с использованием идентичности аллеля, присутствующего в этом локусе в первом или втором гомологичном хромосомном сегменте от матери, который задается гипотезой, как унаследованный плодом, количества копий первого или второго гомологичного хромосомного сегмента от матери, который задается гипотезой, как унаследованный плодом, а также доли фетальной ДНК или РНК в смешанном образце.

Согласно некоторым вариантам осуществления ожидаемые генетические данные для каждой из гипотез включает в себя идентичность и количество одного или нескольких аллелей в каждом локусе во множестве локусов от материнской ДНК или РНК и фетальной ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление ожидаемых генетических данных путем определения доли фетальной ДНК или РНК и доли материнской ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждого локуса во множестве локусов, ожидаемого количества одного или нескольких аллелей для этого локуса в материнской ДНК или РНК в смешанном образце с использованием идентичности аллеля(ей), присутствующего в этом локусе, в полученных фазированных генетических данных матери и доли материнской ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждого локуса во множестве локусов для каждой гипотезы, ожидаемого количества одного или нескольких аллелей для этого локуса в фетальной ДНК или РНК, унаследованной от матери, в смешанном образце с использованием идентичности аллеля, присутствующего в этом локусе в первом или втором гомологичном хромосомном сегменте от матери, который задается гипотезой, как унаследованный плодом, количества копий первого или второго гомологичного хромосомного сегмента от матери, который задается гипотезой, как унаследованный плодом, идентичности одного или нескольких возможных аллелей в этом локусе в первом или втором гомологичном хромосомном сегменте от отца, который задается гипотезой, как унаследованный плодом, количество копий первого или второго гомологичного хромосомного сегмента от отца, который задается гипотезой, как унаследованный плодом, и доли фетальной ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления частоты популяции используются для предсказания идентичности аллелей в первом или втором гомологичном хромосомном сегменте от отца. Согласно некоторым вариантам осуществления вероятность для каждого из возможных аллелей в каждом локусе в первом или во втором гомологичном хромосомном сегменте от отца считаются одинаковыми.

Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных, как для матери, так и для отца плода. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, указывающих на количество копий первого гомологичного хромосомного сегмента или его части от матери в геноме плода, количество копий второго гомологичной хромосомного сегмента или его части от матери в геноме плода, количество копий первого гомологичного хромосомного сегмента или его части от отца в геноме плода, количество копий второго гомологичного хромосомного сегмента или его части от отца в геноме плода, а также общее количество копий представляющего интерес хромосомного сегмента в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждой из гипотез, ожидаемых генетических данных для множества локусов в смешанном образце из полученных фазированных генетических данных от матери и полученных фазированных генетических данных от отца.

Согласно некоторым вариантам осуществления ожидаемые генетические данные для каждой из гипотез включает в себя идентичность и количество одного или нескольких аллелей в каждом локусе во множестве локусов из материнской ДНК или РНК и фетальной ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление ожидаемых генетических данных путем определения доли фетальной ДНК или РНК и доли материнской ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждого локуса во множестве локусов, ожидаемого количества одного или нескольких аллелей для этого локуса в материнской ДНК или РНК в смешанном образце с использованием идентичности аллеля(ей), присутствующего в этом локусе, в полученных фазированных генетических данных матери и доли материнской ДНК или РНК в смешанном образце. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждого локуса во множестве локусов для каждой гипотезы, ожидаемого количества одного или нескольких аллелей для этого локуса в фетальной ДНК или РНК в смешанном образце с использованием идентичности аллеля, присутствующего в данном локусе в первом или втором гомологичном хромосомном сегменте от матери, который задается гипотезой, как унаследованный плодом, количества копий первого или второго гомологичного хромосомного сегмента от матери, который задается гипотезой, как унаследованный плодом, идентичности аллеля, присутствующего в этом локусе в первом или втором гомологичном хромосомном сегменте от отца, который задается гипотезой, как унаследованный плодом, количества копий первого или второго гомологичного хромосомного сегмента от отца, который задается гипотезой, как унаследованный плодом, и доли фетальной ДНК или РНК в смешанном образце.

Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждой из гипотез, распределения вероятностей ожидаемых генетических данных для множества локусов в смешанном образце из полученных фазированных генетических данных от родителя(ей). Согласно некоторым вариантам осуществления способ предусматривает увеличение вероятности в распределении вероятностей определенного аллеля, присутствующего в первом локусе в смешанном образце, если этот конкретный аллель присутствует в первом гомологичном сегменте у родителя и у родителя наблюдается аллель в близлежащем локусе в первом гомологичном сегменте в полученных генетических данных смешанного образца; или снижение вероятности в распределении вероятностей определенного аллеля, присутствующего в первом локусе в смешанном образце, если этот конкретный аллель присутствует в первом гомологичном сегменте у родителя и у родителя не наблюдается аллель в соседнем локусе в первом гомологичном сегменте в полученных генетических данных смешанного образца. Согласно некоторым вариантам осуществления способ предусматривает увеличение вероятности в распределении вероятностей определенного аллеля, присутствующего во втором локусе в смешанном образце, если этот конкретный аллель присутствует во втором гомологичном сегменте у родителя и у родителя наблюдается аллель в близлежащем локусе во втором гомологичном сегменте в полученных генетических данных смешанного образца; или снижение вероятности в распределении вероятностей определенного аллеля, присутствующего во втором локусе в смешанном образце, если этот конкретный аллель присутствует во втором гомологичном сегменте у родителя и не наблюдается аллель в соседнем локусе во втором гомологичном сегменте у родителя в полученных генетических данных смешанного образца.

Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных, как для матери, так и отца плода. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, задающих количество копий первого гомологичного хромосомного сегмента или его части от матери в геноме плода, количество копий второго гомологичного хромосомного сегмента или его части от матери в геноме плода, количество копий первого гомологичного хромосомного сегмента или его части от отца в геноме плода, количество копий второго гомологичного хромосомного сегмента или его части от отца в геноме плода, а также общее количество копий представляющего интерес хромосомного сегмента, присутствующего в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает вычисление (например, вычисление на компьютере), для каждой из гипотез, распределения вероятностей ожидаемых генетических данных для множества локусов в смешанном образце из полученных фазированных генетических данных от матери и отца. Согласно некоторым вариантам осуществления способ предусматривает увеличение вероятности в распределении вероятностей определенного аллеля, присутствующего в первом локусе в смешанном образце, если этот конкретный аллель присутствует в первом гомологичном сегменте у матери или отца и у этого родителя наблюдается аллель в соседнем локусе в первом гомологичном сегменте в полученных генетических данных смешанного образца; или снижение вероятности в распределении вероятностей определенного аллеля, присутствующего в первом локусе в смешанном образце, если этот конкретный аллель присутствует в первом гомологичном сегменте у матери или отца и у этого родителя не наблюдается аллель в соседнем локусе в первом гомологичном сегменте в полученных генетических данных смешанного образца. Согласно некоторым вариантам осуществления способ предусматривает увеличение вероятности в распределении вероятностей определенного аллеля, присутствующего во втором локусе в смешанном образце, если этот конкретный аллель присутствует во втором гомологичном сегменте у матери или отца и у этого родителя наблюдается аллель в соседнем локусе во втором гомологичном сегменте в полученных генетических данных смешанного образца; или снижение вероятности в распределении вероятностей определенного аллеля, присутствующего во втором локусе в смешанном образце, если этот конкретный аллель присутствует во втором гомологичном сегменте у матери или отца и у этого родителя не наблюдается аллель в соседнем локусе во втором гомологичном сегменте в полученных генетических данных смешанного образца.

Согласно некоторым вариантам осуществления первый локус и локус, который находится рядом с первым локусом, косегрегируют. Согласно некоторым вариантам осуществления второй локус и локус, который находится рядом со вторым локусом, косегрегируют. Согласно некоторым вариантам осуществления не ожидается никаких кроссоверов между первым локусом и локусом, который находится рядом с первым локусом. Согласно некоторым вариантам осуществления не ожидается никаких кроссоверов между вторым локусом и локусом, который находится рядом со вторым локусом. Согласно некоторым вариантам осуществления расстояние между первым локусом и локусом, который находится рядом с первым локусом, составляет менее чем 5 Мб, 1 Мб, 100 т.п.н., 10 т.п.н., 1 т.п.н., 0,1 т.п.н. или 0,01 т.п.н.. Согласно некоторым вариантам осуществления расстояние между вторым локусом и локусом, который находится рядом со вторым локусом, составляет менее чем 5 Мб, 1 Мб, 100 т.п.н., 10 т.п.н., 1 т.п.н., 0,1 т.п.н. или 0,01 т.п.н..

Согласно некоторым вариантам осуществления при образовании гаметы образуются один или несколько кроссоверов, которые вносят копию представляющего интерес хромосомного сегмента к плоду; и кроссовер производит представляющий интерес хромосомный сегмент в геноме плода, который содержит часть первого гомологичного сегмента и часть второго гомологичного сегмента от родителя. Согласно некоторым вариантам осуществления совокупность гипотез включает в себя одну или нескольких гипотез, задающих количество копий представляющего интерес хромосомного сегмента в геноме плода, который содержит часть первого гомологичного сегмента и часть второго гомологичного сегмента от родителя.

Согласно некоторым вариантам осуществления ожидаемые генетические данные смешанного образца содержат ожидаемое количество одного или нескольких аллелей в каждом локусе во множестве локусов в смешанном образце для каждой из гипотез.

Согласно одному аспекту настоящее изобретение относится к способу определения того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме индивидуума (например, в геноме одной или нескольких клеток, вкДНК, вкРНК индивидуума, у которого подозревают наличие злокачественной опухоли, плода или эмбриона) с использованием фазированных генетических данных. Согласно некоторым вариантам осуществления способ предусматривает одновременное или последовательное в любом порядке (I) получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусах на первом гомологичном хромосомном сегменте, (II) получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в данном локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, и (III) получение измеренных данных о генетических аллелях, содержащих количество каждого аллеля в каждом из локусов в совокупности полиморфных локусов в образце ДНК или РНК из одной или нескольких клеток от индивидуума или в смешанном образце внеклеточной ДНК или РНК из двух или нескольких генетически различных клеток от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает вычисление аллельных соотношений для одного или нескольких локусов в совокупности полиморфных локусов, которые являются гетерозиготными по меньшей мере в одной клетке, из которой был получен образец. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей в локусе. Согласно некоторым вариантам осуществления способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента посредством сравнения одного или нескольких вычисленных аллельных соотношений для локуса с ожидаемым аллельным соотношением, таким как соотношение, которое ожидается для такого локуса, если первый и второй гомологичные хромосомные сегменты присутствуют в равных пропорциях. Согласно некоторым вариантам осуществления ожидаемое соотношение составляет 0,5 для биаллельных локусов.

Согласно некоторым вариантам осуществления для пренатальной диагностики способ предусматривает одновременное или последовательное в любом порядке (I) получение фазированных генетических данных для первого гомологичного хромосомного сегмента в геноме плода (например, плода, развивающегося у беременной матери), содержащего идентичность аллеля, присутствующего в этом локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, (II) получение фазированных генетических данных для второго гомологичного хромосомного сегмента в геноме плода, содержащего идентичность аллеля, присутствующего в этом локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегмента, и (III) получение данных по измеренным генетическим аллелям, содержащих количество каждого аллеля в каждом из локусов в совокупности полиморфных локусов в смешанном образце ДНК или РНК от матери плода, который содержит фетальную ДНК или РНК и материнскую ДНК или РНК (например, смешанный образец внеклеточной ДНК или РНК, происходящий из образца крови от матери, который содержит фетальную внеклеточную ДНК или РНК, и материнскую внеклеточную ДНК или РНК). Согласно некоторым вариантам осуществления способ предусматривает вычисление аллельных соотношений для одного или нескольких локусов в совокупности полиморфных локусов, которые гетерозиготны у плода и/или гетерозиготны у матери. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. Согласно некоторым вариантам осуществления способ предусматривает определение, существует ли превышение числа копий первого гомологичного хромосомного сегмента путем сравнения одного или нескольких вычисленных аллельных соотношений для локуса с ожидаемым аллельным соотношением, таким как соотношение, который ожидается для этого локуса, если первый и второй гомологичные хромосомные сегменты присутствуют в равных пропорциях.

Согласно некоторым вариантам осуществления вычисленное аллельное соотношение свидетельствует о превышении числа копий первого гомологичного хромосомного сегмента, если (I) аллельное соотношение для измеряемого количества аллеля, присутствующего в этом локусе на первой гомологичной хромосоме, поделенного на общее измеренное количество всех аллелей для локуса, больше, чем ожидаемое аллельное соотношение для этого локуса, или (II) аллельное соотношение для измеряемого количества аллеля, присутствующего в этом локусе на второй гомологичной хромосоме, поделенного на общее измеренное количество всех аллелей для локуса, меньше, чем ожидаемое аллельное соотношение для этого локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение свидетельствует об отсутствии превышения числа копий первого гомологичного хромосомного сегмента, если (I) аллельное соотношение для измеряемого количества аллеля, присутствующего в этом локусе на первой гомологичной хромосоме, поделенного на общее измеренное количество всех аллелей для локуса, меньше, чем ожидаемое аллельное соотношение для этого локуса или равно ему, или (II) аллельное соотношение для измеряемого количества аллеля, присутствующего в этом локусе на второй гомологичной хромосоме, поделенного на общее измеренное количество всех аллелей для локуса, больше, чем ожидаемое аллельное соотношение для этого локуса или равно ему.

Согласно некоторым вариантам осуществления определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента, предусматривает перечисление совокупности из одной или нескольких гипотез, которые задают степень превышения первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления прогнозируемые аллельные коэффициенты для локусов, которые гетерозиготны по меньшей мере в одной клетке (например, локусов, которые гетерозиготны у плода и/или гетерозиготны у матери), оцениваются для каждой гипотезы с учетом степени превышения, заданной гипотезой. Согласно некоторым вариантам осуществления правдоподобие того, что гипотеза верна, рассчитывается путем сравнения вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, и выбирается гипотеза с наибольшим правдоподобием. Согласно некоторым вариантам осуществления ожидаемое распределение статистики критерия вычисляется с использованием прогнозируемых аллельных соотношений для каждой гипотезы. Согласно некоторым вариантам осуществления правдоподобие того, что гипотеза верна, рассчитывается путем сравнения критерия значимости, который рассчитывается с использованием вычисленных аллельных соотношений, с ожидаемым распределением статистики критерия, который рассчитывается с использованием прогнозируемых аллельных соотношений, и выбирается гипотеза с наибольшим правдоподобием. Согласно некоторым вариантам осуществления прогнозируемые аллельные соотношения для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусы, которые являются гетерозиготными у плода и/или гетерозиготными у матери), оцениваются с учетом фазированных генетических данных для первого гомологичного хромосомного сегмента, фазированных генетических данных для второго гомологичного хромосомного сегмента и степени превышения, заданной этой гипотезой. Согласно некоторым вариантам осуществления правдоподобие того, что гипотеза верна, рассчитывается путем сравнения вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, и выбирается гипотеза с наибольшим правдоподобием.

Согласно некоторым вариантам осуществления вычисляется отношение ДНК (или РНК) из одной или нескольких клеток-мишеней к общей ДНК (или РНК) в образце. Иллюстративное соотношение представляет собой отношение фетальной ДНК (или РНК) к общей ДНК (или РНК) в образце. Согласно некоторым вариантам осуществления отношение фетальной ДНК к общей ДНК в образце определяют путем измерения количества аллеля в одном или нескольких локусах, в которых у плода содержится аллель, а у матери аллеля нет. Согласно некоторым вариантам осуществления отношение фетальной ДНК к общей ДНК в образце определяют путем измерения разности метилирования между одной или несколькими аллелями матери и плода. Согласно некоторым вариантам осуществления перечисляют совокупность одной или нескольких гипотез, задающих степень превышения первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления прогнозированные аллельные соотношения для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери), оцениваются с учетом вычисленного соотношения ДНК или РНК, и степень превышения, заданная этой гипотезой, оценивается для каждой гипотезы. Согласно некоторым вариантам осуществления правдоподобие того, что гипотеза верна, рассчитывается путем сравнения вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, и выбирают гипотезу с наибольшим правдоподобием. Согласно некоторым вариантам осуществления ожидаемое распределение статистики критерия, вычисленное с использованием прогнозируемых аллельных соотношений и вычисленного соотношения ДНК или РНК, оценивается для каждой гипотезы. Согласно некоторым вариантам осуществления правдоподобие того, что гипотеза верна, определяется путем сравнения статистики критерия, вычисленной с использованием вычисленных аллельных соотношений и вычисленного соотношения ДНК или РНК с ожидаемым распределением статистики критерия, вычисленного с использованием прогнозируемых аллельных соотношений и вычисленного соотношения ДНК или РНК, и выбирают гипотезу с наибольшим правдоподобием.

Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, задающих степень превышения первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления способ предусматривает оценку, для каждой гипотезы, либо (I) прогнозируемых аллельных соотношений для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери), учитывая степень превышения, заданную этой гипотезой, или (II) для одного или нескольких возможных соотношений ДНК или РНК (например соотношений фетальной ДНК или РНК к общей ДНК или РНК в образце) ожидаемого распределения статистики критерия, вычисленного с использованием прогнозируемых аллельных соотношений и возможного соотношения ДНК или РНК из одной или нескольких клеток-мишеней (например, клеток плода) к общей ДНК или РНК в образце. Согласно некоторым вариантам осуществления соответствие данных рассчитывается путем сравнения либо (I) вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, либо (II) статистики критерия, вычисленной с использованием вычисленных аллельных соотношений и возможного соотношения ДНК или РНК, с ожидаемым распределением статистики критерия, рассчитанной с использованием прогнозируемых аллельных соотношений и возможного соотношения ДНК или РНК. Согласно некоторым вариантам осуществления одну или несколько гипотез ранжируют по соответствию данных и выбирают гипотезу, которая заняла самое высокое положение при ранжировании. Согласно некоторым вариантам осуществления технологию или алгоритм, например, алгоритм поиска, используют для одной или нескольких из следующих стадий: вычисление совпадения данных, ранжирование гипотез или выбор гипотезы, которая заняла самое высокое место при ранжировании. Согласно некоторым вариантам осуществления совпадение данных представляет собой совпадение по бета-биномиальному распределению или совпадение по биномиальному распределению. Согласно некоторым вариантам осуществления технологию или алгоритм выбирают из группы, состоящей из оценки по максимальному правдоподобию, оценки по максимальной апостериорной гипотезе, Байесовского оценивания, динамического оценивания (например, динамического Байесовского оценивания) и EM-оценки. Согласно некоторым вариантам осуществления способ предусматривает применение технологии или алгоритма к полученным генетическим данным и ожидаемым генетическим данным.

Согласно некоторым вариантам осуществления способ предусматривает создание разбиения возможных соотношений (например, соотношений фетальной ДНК или РНК к общей ДНК или РНК в образце) в диапазоне от нижнего предела до верхнего предела для соотношения ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце. Согласно некоторым вариантам осуществления перечислена совокупность одной или нескольких гипотез, задающих степень превышения первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления способ предусматривает оценку, для каждого из возможных соотношений ДНК или РНК в разбиении и для каждой гипотезы, либо (I) предсказанных аллельных соотношений для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери), учитывая возможное соотношение ДНК или РНК и степень превалирования, заданную этой гипотезой, либо (II) ожидаемого распределения статистики критерия, вычисленного с использованием прогнозируемых аллельных соотношений и возможного соотношения ДНК или РНК. Согласно некоторым вариантам осуществления способ предусматривает вычисление, для каждого из возможных соотношений ДНК или РНК в разбиении и для каждой гипотезы, вероятности того, что гипотеза верна путем сравнения либо (I) вычисленных аллельных соотношений с предсказанными аллельными соотношениями, либо (II) статистики критерия, вычисленной с использованием рассчитанных аллельных соотношений и возможного соотношения ДНК или РНК, с ожидаемым распределением статистики критерия, вычисленной с использованием предсказанных аллельных соотношений и возможного соотношения ДНК или РНК. Согласно некоторым вариантам осуществления совместная вероятность для каждой гипотезы определяется путем объединения вероятностей этой гипотезы для каждого из возможных соотношений в разбиении; и выбирают гипотезу с наибольшей совместной вероятностью. Согласно некоторым вариантам осуществления совместную вероятность для каждой гипотезы определяют путем задавания веса вероятности гипотезы для конкретного возможного соотношения на основе вероятности того, что это возможное соотношение представляет собой правильное соотношение.

Согласно одному аспекту настоящее изобретение предусматривает способ определения числа копий хромосомы или хромосомного сегмента в геноме одной или нескольких клеток у индивидуума с использованием фазированных или нефазированных генетических данных. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в образце путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления образец представляет собой образец ДНК или РНК из одной или нескольких клеток от индивидуума или смешанного образца внеклеточной ДНК от индивидуума, который включает в себя внеклеточную ДНК из двух или нескольких генетически различных клеток. Согласно некоторым вариантам осуществления аллельные соотношения вычисляют для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, из которой был получен образец. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей (например, аллеля на первом гомологичном хромосомном сегменте), деленное на измеренное количество одного или нескольких других аллелей (например, аллеля на втором гомологичном хромосомном сегменте) для локуса. Согласно некоторым вариантам осуществления перечислена совокупность одной или нескольких гипотез, задающих число копий хромосомы или хромосомного сегмента в геноме одной или нескольких клеток. Согласно некоторым вариантам осуществления выбирают гипотезу, которая наиболее вероятна на основании статистики критерия, тем самым определяя число копий хромосомы или хромосомного сегмента в геноме одной или нескольких клеток.

Согласно одному аспекту настоящее изобретение предусматривает способ определения числа копий хромосомы или хромосомного сегмента в геноме плода (например, плода, который развивается у беременной матери) с использованием фазированных или нефазированных генетических данных. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в образце путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления образец представляет собой смешанный образец ДНК, содержащий фетальную ДНК или РНК и материнскую ДНК или РНК от матери плода (например, смешанный образец внеклеточной ДНК или РНК, происходящей из образца крови от матери, который включает в себя внеклеточную ДНК или РНК плода и внеклеточную материнскую ДНК или РНК). Согласно некоторым вариантам осуществления аллельные соотношения вычисляют для локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей (например, аллеля на первом гомологичном хромосомном сегменте), деленное на измеренное количество одного или нескольких других аллелей (например, аллеля на втором гомологичном хромосомном сегменте) для локуса. Согласно некоторым вариантам осуществления перечислена совокупность одной или нескольких гипотез, задающих число копий хромосомы или хромосомного сегмента в геноме плода. Согласно некоторым вариантам осуществления выбирают гипотезу, которая представляет собой наиболее вероятную на основании статистики критерия, тем самым определяя число копий хромосомы или хромосомного сегмента в геноме плода.

Согласно некоторым вариантам осуществления гипотезу выбирают, если вероятность того, что статистика критерия принадлежит к распределению статистики критерия для той гипотезы, находится выше верхнего порога; одну или несколько гипотез отвергают, если вероятность того, что статистика критерия принадлежит распределению статистики критерия для этой гипотезы, ниже нижнего порога; или гипотезу ни выбирают, ни отвергают, если вероятность того, что статистика критерия относится к распределению статистики критерия для этой гипотезы, находится между нижним порогом и верхним порогом, или если вероятность не определена с достаточно высокой степенью достоверности. Согласно некоторым вариантам осуществления превышение числа копий первого гомологичного хромосомного сегмента происходит из-за дупликации первого гомологичного хромосомного сегмента или делеции второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления общее измеренное количество всех аллелей для одного или нескольких локусов сравнивают с эталонным количеством, чтобы определить, происходит ли превышение числа копий первого гомологичного хромосомного сегмента из-за дупликации первого гомологичного хромосомного сегмента или делеции второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления величина разности между вычисленным аллельным соотношением и ожидаемым аллельным соотношением для одного или нескольких локусов используется для определения того, происходит ли превышение числа копий первого гомологичного хромосомного сегмента из-за дупликации первого гомологичного хромосомного сегмента или делеции второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления первый и второй гомологичные хромосомные сегменты определяются как присутствующие в равных пропорциях, если нет превышения числа копий первого гомологичного хромосомного сегмента и нет превышения второго гомологичного хромосомного сегмента (например, в геноме клеток, вкДНК, вкРНК, индивидуума, плода или эмбриона).

Согласно некоторым вариантам осуществления соотношение ДНК из одной или нескольких клеток-мишеней к общей ДНК в образце определяют на основании общего или относительного количества одного или нескольких аллелей в одном или нескольких локусах, для которых генотип клетки-мишени отличается от генотипа клеток-немишеней и для которых ожидается, что клетки-мишени и клетки-немишени будут дисомными. Согласно некоторым вариантам осуществления это соотношение используют, чтобы определить, происходит ли превышение числа копий первого гомологичного хромосомного сегмента из-за дупликации первого гомологичного хромосомного сегмента или делеции второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления соотношение используют для определения количества дополнительных копий хромосомного сегмента или хромосомы, которая дублирована. Согласно некоторым вариантам осуществления фазированные генетические данные включают в себя вероятностные данные. Согласно некоторым вариантам осуществления получение фазированных генетических данных для первого гомологичного хромосомного сегмента и/или второго гомологичного хромосомного сегмента в геноме плода включает в себя получение фазированных генетических данных для первого гомологичного хромосомного сегмента и/или второго гомологичного хромосомного сегмента в геноме одного или обоих биологических родителей плода, и выведение заключения о том, какой гомологичный хромосомный сегмент плода унаследован от одного или обоих биологических родителей. Согласно некоторым вариантам осуществления вероятность одного или нескольких кроссоверов (например, 1, 2, 3 или 4 кроссоверов), которые могут происходить в процессе образования гамет, которые способствуют копированию первого гомологичного хромосомного сегмента или второго гомологичного хромосомного сегмента к плоду, используется для вывода заключения о том, какой гомологичной хромосомный сегмент(ы) плода унаследован от одного или обоих биологических родителей. Согласно некоторым вариантам осуществления фазированные генетические данные для матери и/или отца плода получают с использованием способа, выбранного из группы, состоящей из цифровой ПЦР, выводящий гаплотип с использованием основанной на популяции частоты гаплотипов, гаплотипирования с использованием гаплоидной клетки, такой как сперматозоид или яйцеклетка, гаплотипирования с использованием генетических данных от одного или нескольких ближайших родственников, а также их комбинации. Согласно некоторым вариантам осуществления фазированные генетические данные для индивидуума получают путем фазирования части или всей области, соответствующей делеций или дупликации в образце от индивидуума. Согласно некоторым вариантам осуществления фазированные генетические данные для плода получают путем фазирования части или всей области, соответствующей делеций или дупликации в образце, взятом у плода или матери плода. Согласно некоторым вариантам осуществления получение фазированных генетических данных для первого и второго гомологичного хромосомного сегмента включает в себя определение идентичности аллелей, присутствующих в одном из хромосомных сегментов, и определение идентичности аллелей, присутствующих в другом хромосомном сегменте, путем выведения заключения. Согласно некоторым вариантам осуществления аллели из нефазированных генетических данных, которые не присутствуют в первом гомологичном хромосомном сегменте, присваиваются второму гомологичному хромосомному сегменту. Например, если генотип индивидуума представляет собой (AB, AB) и фазированные данные для индивидуума указывают на то, что первый гаплотип представляет собой (A, A); то можно сделать вывод, что другой гаплотип представляет собой (B, B). Согласно некоторым вариантам осуществления если измеряется только один аллель в локусе, то этот аллель определяется как часть, как первого, так и второго гомологичного хромосомного сегмента (например, если генотип представляет собой AA в локусе, значит оба гаплотипа характеризуются наличием аллеля A). Согласно некоторым вариантам осуществления фазированные генетические данные для индивидуума содержат определение того, происходит ли один или нескольких возможных хромосомных кроссоверов, например, путем определения последовательности горячих точек рекомбинации и, возможно, области, фланкирующей горячие точки рекомбинации. Согласно некоторым вариантам осуществления любая из библиотек праймеров согласно настоящему изобретению используется для обнаружения события рекомбинации, чтобы определить, какие блоки гаплотипов присутствуют в геноме индивидуума.

Согласно некоторым вариантам осуществления способ предусматривает использование модели совместного распределения (например, модель совместного распределения, которая принимает во внимание связь между локусами), выполняя анализ сцепления, использование биномиальной модели распределения, использование бета-биномиальной модели распределения и/или использование вероятности кроссоверов, происходящих во время мейоза, которое привело к гаметам, которые образовали эмбрион, который перерос в плод (например, используя вероятность хромосом, перекрещивающихся в разных положениях в хромосоме, чтобы моделировать зависимость между полиморфными аллелями на представляющей интерес хромосоме или хромосомном сегменте).

Согласно некоторым вариантам осуществления одно или несколько вычисленных аллельных соотношений для вкДНК или вкРНК указывает на соответствующие аллельные соотношения для ДНК или РНК в клетках, из которых была получена вкДНК или вкРНК. Согласно некоторым вариантам осуществления одно или несколько вычисленных аллельных соотношений для вкДНК или вкРНК указывает на соответствующие аллельные соотношения в геноме индивидуума. Согласно некоторым вариантам осуществления аллельное соотношение только вычисляется или только сравнивается с ожидаемым аллельным соотношением, если измеренные генетические данные указывают на то, что более чем один отличный аллель присутствует в этом локусе в образце (например, в образце вкДНК или вкРНК). Согласно некоторым вариантам осуществления аллельное соотношение только вычисляется или только сравнивается с ожидаемым аллельным соотношением, если локус является гетерозиготным по меньшей мере в одной из клеток, из которых был получен образец (например, локусе, который является гетерозиготным у плода и/или гетерозиготным у матери). Согласно некоторым вариантам осуществления аллельное соотношение только вычисляется или только сравнивается с ожидаемым аллельным соотношением, если локус является гетерозиготным у плода. Согласно некоторым вариантам осуществления аллельное соотношение вычисляется и сравнивается с ожидаемым аллельным соотношением для гомозиготного локуса. Например, аллельные соотношения для локусов, которые предсказываются как гомозиготные для конкретного подвергаемого исследованию индивидуума (или как для плода, так и для беременной матери) могут быть проанализированы, чтобы определить уровень шума или ошибок в системе.

Согласно некоторым вариантам осуществления анализируют по меньшей мере 10; 50; 100; 200; 300; 500; 750; 1000; 2000; 3000; 4000 или более локусов (например, SNP) для представляющей интерес хромосомы или хромосомного сегмента. Согласно некоторым вариантам осуществления среднее число локусов (например, SNP) на мегабазу в представляющей интерес хромосоме или хромосомном сегменте составляет по меньшей мере 1; 10; 25; 50; 100; 150; 200; 300; 500; 750; 1000 или более локусов на мегабазу. Согласно некоторым вариантам осуществления среднее число локусов (например, SNP) на мегабазу в представляющей интерес хромосоме или хромосомном сегменте составляет от 1 до 500 локусов на мегабазу, например, от 1 до 50, от 50 до 100, от 100 до 200, от 200 до 400, от 200 до 300 или от 300 до 400 локусов на мегабазу, включительно. Согласно некоторым вариантам осуществления анализируют локусы в нескольких участках потенциальной делеции или дупликации, чтобы повысить чувствительность и/или специфичность определения CNV по сравнению с анализом только 1 локуса или анализом только нескольких локусов, которые находятся рядом друг с другом. Согласно некоторым вариантам осуществления измеряют только два наиболее распространенных аллеля в каждом локусе или используют для определения вычисленного аллельного соотношения. Согласно некоторым вариантам осуществления амплификацию локусов осуществляют с использованием полимеразы (например, ДНК-полимеразы, РНК-полимеразы или обратной транскриптазы) с низкой 5'→3' экзонуклеазной активностью и/или низкой активностью замещения цепей. Согласно некоторым вариантам осуществления измеренные генетические аллельные данные получают посредством (I) секвенирования ДНК или РНК в образце, (II) амплификации ДНК или РНК в образце, а затем секвенирования амплифицированной ДНК, или (II) амплификации ДНК или РНК в образце, лигирования продуктов ПЦР, а затем секвенирования лигированных продуктов. Согласно некоторым вариантам осуществления измеренные генетические аллельные данные получают путем деления ДНК или РНК из образца на множество фракций, добавления другого штрих-кода к ДНК или РНК в каждой фракции (например, таким образом, что все ДНК или РНК в той или иной фракции имеют один и тот же штрих-код), при необходимости амплификации ДНК или РНК со штрих-кодом, объединение фракций, а затем секвенирования ДНК или РНК со штрих-кодом в объединенные фракции. Согласно некоторым вариантам осуществления аллели полиморфных локусов (например, SNP) идентифицируют с использованием одного или нескольких из следующих способов: секвенирование (например, нанопоровое секвенирование или секвенирование Halcyon Molecular), матричный анализ SNP, ПЦР в реальном времени, TaqMan, система для анализа NanostringnCounter®, анализ генотипирования GoldenGate Illumina, который использует дискриминационную ДНК-полимеразу и лигазу, опосредованная лигированием ПЦР или связанные инвертированные зонды (LIP, который также можно назвать зондами предварительной циркуляции, циркулирующими зондами, зондами Padlock или инвертированными молекулярными зондами (MIP)). Согласно некоторым вариантам осуществления два или более (например, 3 или 4) ампликона-мишени лидировали вместе и затем лигированные продукты секвенировали. Согласно некоторым вариантам осуществления измерения для различных аллелей для того же локуса корректируют в отношении различий в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между аллелями (например, различия в эффективности амплификации между различными аллелями одного и того же локуса). Согласно некоторым вариантам осуществления эта корректировка производится до вычисления аллельного соотношения для полученных генетических данных или до сравнения измеренных генетических данных с ожидаемыми генетическими данными.

Согласно некоторым вариантам осуществления способ также предусматривает определение наличия или отсутствия одного или нескольких факторов риска развития заболевания или нарушения. Согласно некоторым вариантам осуществления способ также предусматривает определение наличия или отсутствия одного или нескольких полиморфизмов или мутаций, связанных с заболеванием или нарушением или повышенным риском развития заболевания или нарушения. Согласно некоторым вариантам осуществления способ также предусматривает определение общего содержания вкДНК, вк мДНК, вк нДНК, вкРНК, миРНК или любой их комбинации. Согласно некоторым вариантам осуществления способ предусматривает определение содержания одной или нескольких из представляющих интерес молекул вкДНК, вк мДНК, вк нДНК, вкРНК и/или миРНК, например, молекул с полиморфизмом или мутацией, связанной с заболеванием или нарушением или повышенным риском развития заболевания или нарушения. Согласно некоторым вариантам осуществления определяют долю опухолевой ДНК из общей ДНК (например, долю опухолевой вкДНК из общей вкДНК или долю опухолевой вкДНК с определенной мутацией из общей вкДНК). Согласно некоторым вариантам осуществления эту опухолевую фракцию используют для определения стадии злокачественной опухоли (так как более высокие опухолевые фракции могут быть связаны с более поздней стадией злокачественной опухоли). Согласно некоторым вариантам осуществления способ также предусматривает определение общего содержания ДНК или содержания РНК. Согласно некоторым вариантам осуществления способ предусматривает определение уровня метилирования одной или нескольких представляющих интерес молекул ДНК или РНК, таких, как молекулы с полиморфизмом или мутацией, связанной с заболеванием или нарушением или повышенным риском развития заболевания или нарушения. Согласно некоторым вариантам осуществления способ предусматривает определение наличия или отсутствия изменений в целостности ДНК. Согласно некоторым вариантам осуществления способ также предусматривает определение общего уровня сплайсинга мРНК. Согласно некоторым вариантам осуществления способ предусматривает определение уровня сплайсинга мРНК или обнаружения альтернативного сплайсинга мРНК для одной или нескольких представляющих интерес молекул РНК, таких как молекулы с полиморфизмом или мутацией, связанной с заболеванием или нарушением или повышенным риском развития заболевания или нарушения.

Согласно некоторым вариантам осуществления настоящее изобретение относится к способу обнаружения злокачественного фенотипа у индивидуума, причем злокачественный фенотип характеризуется наличием по меньшей мере одной из множества мутаций. Согласно некоторым вариантам осуществления способ предусматривает получение измерений ДНК или РНК в образце ДНК или РНК из одной или нескольких клеток от индивидуума, у которого в одной или нескольких из клеток подозревается наличие злокачественного фенотипа, и анализ измерений ДНК или РНК для определения, для каждой из мутаций в совокупности мутаций, правдоподобия того, что по меньшей мере одна из клеток характеризуется наличием этой мутации. Согласно некоторым вариантам осуществления способ предусматривает определение того, что индивидуум характеризуется наличием злокачественного фенотипа, если (I) по меньшей мере для одной из мутаций вероятность того, что по меньшей мере одна из клеток содержит эту мутацию, больше, чем пороговое значение, или (II) по меньшей мере для одной из мутаций вероятность того, что по меньшей мере одна из клеток содержит эту мутацию, меньше, чем пороговое значение, и для множества мутаций, совокупное правдоподобие того, что по меньшей мере одна из клеток содержит по меньшей мере одну из мутации больше, чем пороговое значение. Согласно некоторым вариантам осуществления одна или несколько клеток содержат подмножество или все мутации в совокупности мутаций. Согласно некоторым вариантам осуществления подмножество мутаций связано со злокачественной опухолью или повышенным риском развития злокачественной опухоли. Согласно некоторым вариантам осуществления образец включает в себя внеклеточную ДНК или РНК. Согласно некоторым вариантам осуществления измерения ДНК или РНК включают в себя измерения (например, количество каждого аллеля в каждом локусе) в совокупности полиморфных локусов на одной или нескольких представляющих интерес хромосомах или хромосомных сегментах.

Согласно одному аспекту настоящее изобретение относится к способам выбора терапии для лечения, стабилизации или предотвращения заболевания или нарушения у млекопитающего. Согласно некоторым вариантам осуществления способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментов с использованием любого из описанных в настоящем документе способов. Согласно некоторым вариантам осуществления выбирают способ лечения для млекопитающего (например, для лечения заболевания или нарушения, связанного с превалированием первого гомологичного хромосомного сегмента).

Согласно одному аспекту настоящее изобретение относится к способам профилактики, замедления, стабилизации или лечения заболевания или нарушения у млекопитающего. Согласно некоторым вариантам осуществления способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом с использованием любого из описанных в настоящем документе способов. Согласно некоторым вариантам осуществления выбирают способ лечения для млекопитающего (например, для лечения заболевания или нарушения, связанного с превалированием первого гомологичного хромосомного сегмента), а затем вводят лечение млекопитающему.

Согласно некоторым вариантам осуществления лечение, стабилизация или предотвращение заболевания или нарушения предусматривает предотвращение или замедление первоначального или последующего возникновения заболевания или нарушения, увеличение времени выживаемости без признаков заболевания между исчезновением состояния и его рецидивом, стабилизацию или уменьшение неблагоприятного симптома, связанного с состоянием, или ингибирование или стабилизацию прогрессирования состояния. Согласно некоторым вариантам осуществления по меньшей мере 20, 40, 60, 80, 90 или 95% пролеченных субъектов характеризуются полной ремиссией, при которой исчезают все подтверждения состояния. Согласно некоторым вариантам осуществления продолжительность времени, в течение которого субъект выживает после установления диагноза и лечения, составляет по меньшей мере на 20, 40, 60, 80, 100, 200 или даже 500% больше, чем (I) среднее время выживаемости субъекта без лечения или (II) среднее время выживаемости субъекта при другом способе лечения.

Согласно некоторым вариантам осуществления лечение, стабилизация или предотвращение злокачественной опухоли предусматривает уменьшение или стабилизацию размера опухоли (например, доброкачественной или злокачественной опухоли), замедление или предотвращение увеличения размера опухоли, уменьшение или стабилизацию числа опухолевых клеток, увеличение выживаемости без признаков заболевания между исчезновением опухоли и ее повторным появлением, предотвращение начального или последующего возникновения опухоли или уменьшение или стабилизацию неблагоприятного симптома, связанного с опухолью. Согласно одному варианту осуществления количество выживающих злокачественных клеток после лечения составляет по меньшей мере на 10, 20, 40, 60, 80 или 100% ниже, чем начальное число злокачественных клеток, измеренных с использованием любого стандартного анализа. Согласно некоторым вариантам осуществления уменьшение числа злокачественных клеток, вызванное введением терапии согласно настоящему изобретению, по меньшей мере в 2, 5, 10, 20 или в 50 раз больше, чем уменьшение количества незлокачественных клеток. Согласно некоторым вариантам осуществления количество злокачественных клеток, присутствующих после введения терапии, по меньшей мере в 2, 5, 10, 20 или в 50 раз меньше, чем количество злокачественных клеток, присутствующих после введения контроля (например, введения физиологического раствора или буфера). Согласно некоторым вариантам осуществления способы согласно настоящему изобретению приводят к уменьшению на 10, 20, 40, 60, 80 или 100% размера опухоли, как определяли с использованием стандартных способов. Согласно некоторым вариантам осуществления по меньшей мере 10, 20, 40, 60, 80, 90 или 95% подвергнутых лечению субъектов характеризуются полной ремиссией, при которой нет никаких поддающихся обнаружению злокачественных клеток. Согласно некоторым вариантам осуществления злокачественная опухоль не появляется или вновь появляется по меньшей мере через 2, 5, 10, 15 или 20 лет. Согласно некоторым вариантам осуществления продолжительность времени, в течение которого субъект выживает после того, как поставлен диагноз злокачественной опухоли и проведено лечение с применением способа лечения согласно настоящему изобретению, по меньшей мере на 10, 20, 40, 60, 80, 100, 200 или даже 500% больше, чем (I) средняя продолжительность выживания не подвергнутого лечению субъекта или (II) средняя продолжительность выживания подвергнутого другому способу лечения субъекта.

Согласно одному аспекту настоящее изобретение относится к способам стратификации субъектов, участвующих в клиническом испытании лечения, стабилизации или профилактики заболевания или нарушения у млекопитающего. Согласно некоторым вариантам осуществления способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом с использованием любого из описанных в настоящей заявке способов до, во время или после клинических испытаний. Согласно некоторым вариантам осуществления наличие или отсутствие превалирования первого гомологичного хромосомного сегмента в геноме субъекта включает субъекта в подгруппу для клинического исследования.

Согласно некоторым вариантам осуществления заболевание или нарушение выбирают из группы, состоящей из злокачественной опухоли, умственной отсталости, неспособности к обучению (например, идиопатическое нарушение обучаемости), задержки умственного развития, задержки развития, аутизма, нейродегенеративного заболевания или нарушения, шизофрении, физического дефекта, аутоиммунного заболевания или нарушения, системной красной волчанки, псориаза, болезни Крона, гломерулонефрита, ВИЧ-инфекции, СПИДа, а также их комбинации. Согласно некоторым вариантам осуществления заболевание или нарушение выбирают из группы, состоящей из синдрома Ди Георга, синдрома Ди Георга 2, синдрома Ди Георга/VCFS, синдрома Прадера-Вилли, синдрома Ангельмана, синдрома Беквита-Видемана, синдрома делеции 1р36, синдрома делеции 2q37, синдрома делеции 3q29, синдрома делеции 9q34, синдрома делеции 17q21.31, синдрома кошачьего крика, синдрома Якобсена, синдрома Миллер Дикера, синдрома Фелан-МакДермид, синдрома Смита-Магениса, синдрома WAGR, синдрома Вольфа-Хиршхорна, синдрома Уильямса, синдрома Уильямса-Бойрена, синдрома Миллера-Дикера, синдрома Фелан-МакДермид, синдрома Смита-Магениса, синдрома Дауна, синдрома Эдварда, синдрома Патау, синдрома Клайнфельтера, синдрома Тернера, синдрома трисомии по X-хромосоме, синдрома 47,XYY, синдрома Сотоса, а также их комбинации. Согласно некоторым вариантам осуществления способ определяет наличие или отсутствие одной или нескольких из следующих хромосомных аномалий: нуллисомии, моносомии, однородительской дисомии, трисомии, совпадающей трисомии, несовпадающей трисомии, материнской трисомии, отцовской трисомиий, триплоидии, мозаичной тетрасомии, совпадающей тетрасомии, несовпадающей тетрасомии, других анеуплоидий, несбалансированных транслокаций, сбалансированных транслокаций, вставок, делеции, рекомбинаций и их комбинации. Согласно некоторым вариантам осуществления хромосомная аномалия представляет собой любое отклонение в числе копий конкретной хромосомы или хромосомного сегмента из наиболее распространенного числа копий этого сегмента или хромосомы, например, в человеческой соматической клетке, любое отклонение от 2-х копий можно рассматривать как хромосомную аномалию. Согласно некоторым вариантам осуществления способ определяет наличие или отсутствие эуплоидии. Согласно некоторым вариантам осуществления гипотезы числа копий включают в себя одну или большее количество гипотез числа копий для одноплодной беременности. Согласно некоторым вариантам осуществления гипотезы числа копий включают в себя одну или большее количество гипотез числа копий для многоплодной беременности, такой как беременность двойней (например, идентичные или разнояйцевые близнецы или исчезающий близнец). Согласно некоторым вариантам осуществления гипотезы числа копий включают в себя все эуплоидные плоды в многоплодной беременности, все анеуплоидные плоды в многоплодной беременности (например, любую из раскрытых в настоящем документе анеуплоидий) и/или один или несколько эуплоидных плодов в многоплодной беременности и один или несколько анеуплоидных плодов в многоплодной беременности. Согласно некоторым вариантам осуществления гипотезы числа копий включают в себя однояйцевых близнецов (называемых также монозиготными близнецами) или разнояйцевых близнецов (называемые также дизиготными близнецами). Согласно некоторым вариантам осуществления гипотезы числа копий включают в себя молярную беременность, например, полную или частичную молярную беременность. Согласно некоторым вариантам осуществления представляющий интерес хромосомный сегмент представляет собой целую хромосому. Согласно некоторым вариантам осуществления хромосому или хромосомный сегмент выбирают из группы, состоящей из 13-й хромосомы, 18-й хромосомы, 21-й хромосомы, Х-хромосомы, Y-хромосомы их сегментов, а также их комбинации. Согласно некоторым вариантам осуществления первый гомологичный хромосомный сегмент и второй гомологичный хромосомный сегмент представляют собой пару гомологичных хромосомных сегментов, которая содержит представляющий интерес хромосомный сегмент. Согласно некоторым вариантам осуществления первый гомологичный хромосомный сегмент и второй гомологичный хромосомный сегмент представляют собой пару представляющих интерес гомологичных хромосом. Согласно некоторым вариантам осуществления вычисляют достоверность для определения CNV или диагностики заболевания или нарушения.

Согласно некоторым вариантам осуществления делеция представляет собой удаление по меньшей мере 0,01 т.п.н., 0,1 т.п.н., 1 т.п.н., 10 т.п.н., 100 т.п.н., 1 Мб, 2 Мб, 3 Мб, 5 Мб, 10 Мб, 15 Мб, 20 Мб, 30 Мб или 40 Мб. Согласно некоторым вариантам осуществления делеция представляет собой удаление от 1 т.п.н. до 40 Мб, например, от 1 т.п.н. до 100 т.п.н., 100 т.п.н. до 1 Мб, от 1 до 5 Мб, от 5 до 10 Мб, от 10 до 15 Мб, от 15 до 20 Мб, от 20 до 25 Мб, от 25 до 30 Мб или от 30 до 40 Мб, включительно. Согласно некоторым вариантам осуществления одну копию хромосомного сегмента удаляют и одна копия присутствует. Согласно некоторым вариантам осуществления две копии хромосомного сегмента удаляют. Согласно некоторым вариантам осуществления удаляют всю хромосому.

Согласно некоторым вариантам осуществления дупликация представляет собой дупликацию по меньшей мере 0,01 т.п.н., 0,1 т.п.н., 1 т.п.н., 10 т.п.н., 100 т.п.н., 1 Мб, 2 Мб, 3 Мб, 5 Мб, 10 Мб, 15 Мб, 20 Мб, 30 Мб или 40 Мб. Согласно некоторым вариантам осуществления дупликация представляет собой дупликацию от 1 т.п.н. до 40 Мб, например, от 1 т.п.н. до 100 т.п.н., 100 т.п.н. до 1 Мб, от 1 до 5 Мб, от 5 до 10 Мб, от 10 до 15 Мб, от 15 до 20 Мб, от 20 до 25 Мб, от 25 до 30 Мб или от 30 до 40 Мб, включительно. Согласно некоторым вариантам осуществления сегмент хромосомы дублируют один раз. Согласно некоторым вариантам осуществления сегмент хромосомы дублируют более чем один раз, например, 2, 3, 4 или 5 раз. Согласно некоторым вариантам осуществления дублируют всю хромосому. Согласно некоторым вариантам осуществления удаляют область в первом гомологичном сегменте и дублируют ту же область или другую область во второй гомологичном сегменте. Согласно некоторым вариантам осуществления по меньшей мере 50, 60, 70, 80, 90, 95, 96, 98, 99 или 100% исследованных SNV представляют собой трансверсии, а не транзиции.

Согласно некоторым вариантам осуществления образец содержит ДНК и/или РНК из (I) одной или нескольких клеток-мишеней или (II) одной или нескольких клеток-немишеней. Согласно некоторым вариантам осуществления образец представляет собой смешанный образец с ДНК и/или РНК из одной или нескольких клеток-мишеней и одной или нескольких клеток-немишеней. Согласно некоторым вариантам осуществления клетки-мишени представляют собой клетки, которые характеризуются наличием CNV, такой как представляющая интерес делеция или дупликация, и клетки-немишени представляют собой клетки, у которых нет представляющей интерес вариации числа копий. Согласно некоторым вариантам осуществления, в которых одна или несколько клеток-мишеней представляют собой злокачественные клетки, а одна или нескольких клеток-немишеней представляют собой незлокачественные клетки, способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких злокачественных клеток. Согласно некоторым вариантам осуществления, в которых одна или несколько клеток-мишеней представляют собой генетически идентичные злокачественные клетки, а одна или нескольких клеток-немишеней представляют собой незлокачественные клетки, способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких злокачественных клеток. Согласно некоторым вариантам осуществления, в которых одна или несколько клеток-мишеней представляют собой генетически неидентичные злокачественные клетки, а одна или нескольких клеток-немишеней представляют собой незлокачественные клетки, способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких генетически неидентичных злокачественных клеток. Согласно некоторым вариантам осуществления, в которых образец содержит внеклеточную ДНК из смеси одной или нескольких злокачественных клеток и одной или нескольких незлокачественных клеток, способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких злокачественных клеток. Согласно некоторым вариантам осуществления, в которых одна или несколько клеток-мишеней представляют собой генетически идентичные фетальные клетки и одна или несколько клеток-немишеней представляют собой материнские клетки, способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента плода в геноме фетальной клетки(клеток). Согласно некоторым вариантам осуществления, в которых одна или несколько клеток-мишеней представляют собой генетически неидентичные фетальные клетки и одна или несколько клеток-немишеней представляют собой материнские клетки, способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких генетически неидентичных клеток плода. Поскольку клетки большинства индивидуумов содержат почти идентичный набор ядерной ДНК, термин "клетка-мишень" может быть использован взаимозаменяемо с термином "индивидуум" согласно некоторым вариантам осуществления. Злокачественные клетки имеют генотипы, которые отличаются от индивидуума-хозяина. В этом случае сама злокачественная опухоль может рассматриваться как индивидуум. Кроме того, многие виды злокачественных опухолей представляют собой гетерогенные, что означает, что различные клетки в опухоли генетически отличаются от других клеток в той же опухоли. В этом случае различные генетически идентичные области можно рассматривать различными индивидуумами. Альтернативно, злокачественную опухоль можно рассматривать как единственного индивидуума со смесью клеток с различными геномами. Как правило, клетки-немишени представляют собой эуплоидные, хотя это не обязательно.

Согласно некоторым вариантам осуществления образец получают из образца материнской цельной крови или ее фракции, клеток, выделенных из образца материнской крови, образца амниоцентеза, продуктов плодного образца, образца плацентарной ткани, образца ворсин хориона, образца плацентарной мембраны, образца слизи цервикального канала или образца из плода. Согласно некоторым вариантам осуществления образец содержит внеклеточную ДНК, полученную из образца крови или ее фракции от матери. Согласно некоторым вариантам осуществления образец содержит ядерную ДНК, полученную из смеси клеток плода и материнских клеток. Согласно некоторым вариантам осуществления образец получают из фракции материнской крови, содержащей ядросодержащие клетки, которые были обогащены клетками плода. Согласно некоторым вариантам осуществления образец разделяется на несколько фракций (например, 2, 3, 4 5 или более фракций), каждую из которых анализируют с использованием способа согласно настоящему изобретению. Если каждая фракция дает тот же результат (например, наличие или отсутствие одной или нескольких представляющих интерес CNV), доверительный интервал результатов увеличивается. Разные фракции дают разные результаты, образец может быть повторно проанализирован или другой образец может быть собран от того же субъекта и проанализирован.

Иллюстративные субъекты включают в себя млекопитающих, таких как люди и представляющие ветеринарный интерес млекопитающие. Согласно некоторым вариантам осуществления млекопитающее представляет собой примата (например, человека, мартышку, гориллу, обезьяну, лемуру и т.п.), крупного рогатого скота, лошадь, свинью, представителя собачьих или кошачьих.

Согласно некоторым вариантам осуществления любой из способов предусматривает создание отчета (например, письменного или электронного отчета), раскрывающего результат способа согласно настоящему изобретению (например, наличие или отсутствие делеций или дупликации).

Согласно некоторым вариантам осуществления любой из способов предусматривает произведение клинического действия, основанного на результате способа согласно настоящему изобретению (например, наличии или отсутствии делеций или дупликации). Согласно некоторым вариантам осуществления, в которых эмбрион или плод содержит один или несколько представляющих интерес полиморфизмов или мутаций (таких как CNV), основанных на результате способа согласно настоящему изобретению, клиническое действие предусматривает выполнение дополнительных испытаний (например, исследований для подтверждения наличия полиморфизма или мутации), не имплантацию эмбриона для ЭКО, имплантацию другого эмбриона для ЭКО, прерывание беременности, подготовку к особым потребностям ребенка или подвергание вмешательству, направленному на снижение тяжести фенотипического представления генетического заболевания. Согласно некоторым вариантам осуществления клиническое действие выбирают из группы, состоящей из выполнения УЗИ, амниоцентеза на плоде, амниоцентеза на последующем плоде, который наследует генетический материал от матери и/или отца, биопсии ворсинок хориона на плоде, биопсии ворсинок хориона на последующий плоде, который наследует генетический материал от матери и/или отца, искусственного оплодотворения, предимплантационной генетической диагностики на одном или нескольких эмбрионах, которые наследуют генетический материал от матери и/или отца, кариотипирования на матери, кариотипирования на отце, фетальной эхокардиографии (например, эхокардиографии плода с трисомией 21, 18 или 13, моносомии X или микроделеции) и их комбинации. Согласно некоторым вариантам осуществления клиническое действие выбирают из группы, состоящей из введения гормона роста новорожденному ребенку с моносомией X (например, введение, начиная с ~9 месяцев), введения кальция новорожденному ребенку с делецией 22q (например, синдромом Ди Георга), введения андрогенов, таких как тестостерон, новорожденному ребенку с 47,XXY (например, одну инъекцию в месяц в течение 3-х месяцев 25 мг тестостерона энантата младенцу или ребенку ясельного возраста), выполнения исследования на злокачественную опухоль у женщины с полной или частичной молярной беременностью (например, триплоидным плодом), введения лечения злокачественной опухоли, такого как химиотерапевтическое средство, женщине с полной или частичной молярной беременностью (например, триплоидным плодом), скрининг плода, определенного как плод мужского пола (например, определено, что плод мужского пола с использованием способа согласно настоящему изобретению) на одно или несколько связанных с X-хромосомой генетических нарушений, таких как мышечная дистрофия Дюшенна (DMD), адренолейкодистрофия или гемофилия, выполнение амниоцентеза на плоде мужского пола с повышенным риском развития связанного с Х-хромосомой нарушения, введение дексаметазона женщинам с плодом женского пола (например, определено, что плод женского пола с использованием способа согласно настоящему изобретению) с риском врожденной гиперплазии коры надпочечников, выполнение амниоцентеза на плоде женского пола на риск развития врожденной гиперплазии коры надпочечников, введение убитых вакцин (вместо живых вакцин) или не введение некоторых вакцин рожденному ребенку, который характеризуется наличием (или подозревается в этом) иммунодефицита из-за делеции 22q11.2, выполнение профессиональной и/или физической терапии, выполнение раннего вмешательства в образование, рождение ребенка в центре высокоспециализированной медицинской помощью с NICU и/или имеющего специалистов-педиатров, доступны при родах, поведенческое вмешательство для новорожденного ребенка (например, ребенка с XXX, XXY или XYY), а также их комбинации.

Согласно некоторым вариантам осуществления ультразвуковой или другой скрининг-тест проводится на женщинах, у которых определили наличие многоплодных беременностей (например, близнецов), чтобы определить, действительно ли два или несколько плода представляют собой монохориальные. Монозиготные близнецы представляют собой результат овуляции и оплодотворения одной яйцеклетки с последующим делением зиготы; плацентация может быть дихориальной или монохориальной. Дизиготные близнецы происходят от овуляции и оплодотворения двух яйцеклеток, что обычно приводит к дихориальной плацентации. Монохориональные близнецы характеризуются риском развития синдрома фето-фетальной трансфузии, что может вызвать неравномерное распределение крови между плодами, что приводит к различиям в их росте и развитии, иногда приводит к мертворождению. Таким образом, близнецов, определенных как монозиготные близнецы с использованием способа согласно настоящему изобретению, желательно подвергать исследованию (например, с помощью ультразвука), чтобы определить, представляют ли они собой монохориональных близнецов, и если да, то этих близнецов можно контролировать (например, каждые две недели ультразвук с 16 недель) на наличие признаков синдрома фето-фетальной трансфузии.

Согласно некоторым вариантам осуществления, в которых эмбрион или плод не содержит один или более одного или более представляющих интерес полиморфизмов или мутаций (таких как CNV), основываясь на результате способа согласно настоящему изобретению, клиническое действие включает в себя имплантацию эмбриона для ЭКО или продолжения беременности. Согласно некоторым вариантам осуществления настоящего изобретения клиническое действие представляет собой дополнительное исследование, чтобы подтвердить отсутствие полиморфизма или мутации, выбранной из группы, состоящей из выполнения УЗИ, амниоцентеза, биопсии ворсин хориона, а также их комбинации.

Согласно некоторым вариантам осуществления, в которых индивидуум содержит один или более одного или более полиморфизмов или мутаций (например, полиморфизм или мутацию, связанную с заболеванием или нарушением, таким как злокачественная опухоль или повышенный риск развития заболевания или нарушения, такого как злокачественная опухоль) на основе результата способа согласно настоящему изобретению, клиническое действие включает в себя выполнение дополнительных испытаний или введение одного или нескольких способов лечения для лечения заболевания или нарушения (например, способа лечения злокачественной опухоли, способа лечения конкретного типа злокачественной опухоли или типа мутации индивидуума, у которого ее диагностировали, или любого из описанных в настоящем документе способов лечения). Согласно некоторым вариантам осуществления клиническое действие представляет собой дополнительное исследование, чтобы подтвердить наличие или отсутствие полиморфизма или мутации, выбранной из группы, состоящей из биопсии, хирургии, медицинской визуализации (например, маммография или УЗИ), а также их комбинации.

Согласно некоторым вариантам осуществления дополнительное исследование предусматривает выполнение того же самого или другого способа (например, любого из описанных в настоящем документе способов), чтобы подтвердить наличие или отсутствие полиморфизма или мутации (например, CNV), например, исследование либо второй части того же образца, который был исследован, или другого образца от того же индивидуума (например, той же беременной матери, плода, эмбриона или индивидуума с повышенным риском развития злокачественной опухоли). Согласно некоторым вариантам осуществления дополнительное исследование выполняют для индивидуума, для которого вероятность полиморфизма или мутации (например, CNV) выше порогового значения (например, дополнительное исследование, чтобы подтвердить наличие вероятного полиморфизма или мутации). Согласно некоторым вариантам осуществления дополнительное исследование выполняют для индивидуума, для которого доверительный интервал или z-показатель для определения полиморфизма или мутации (например, CNV) находится выше порогового значения (например, дополнительное исследование, чтобы подтвердить наличие вероятного полиморфизма или мутации). Согласно некоторым вариантам осуществления дополнительное исследование выполняют для индивидуума, для которого доверительный интервал или z-показатель для определения полиморфизма или мутации (например, CNV) находится между минимальным и максимальным пороговыми значениями (например, дополнительное исследование, чтобы увеличить доверительный интервал в том, что первоначальный результат является правильным). Согласно некоторым вариантам осуществления дополнительное исследование выполняют для индивидуума, для которого доверительный интервал для определения наличия или отсутствия полиморфизма или мутации (например, CNV) находится ниже порогового значения (например, результат "без основания" из-за невозможности определить наличие или отсутствие CNV с достаточным доверительным интервалом). Иллюстративный z-показатель вычисляют в публикации Chiu et al. BMJ 2011; 342: c7401 (которая полностью включена в настоящий документ посредством ссылки), в которой 21-я хромосома используется в качестве примера и может быть заменена любой другой хромосомой или хромосомным сегментом в исследуемом образце.

Z-показатель процента хромосомы 21 в совокупности данных исследования = ((процент хромосомы 21 в совокупности данных исследования) - (средний процент 21-й хромосомы в эталонных контролях))/(стандартное отклонение процента хромосомы 21 в эталонных контролях).

Согласно некоторым вариантам осуществления дополнительное исследование выполняют для индивидуума, для которого исходный образец не соответствовал установленным требованиям контроля качества или фетальная фракция или опухолевая фракция были ниже порогового значения. Согласно некоторым вариантам осуществления способ предусматривает выбор индивидуума для проведения дополнительных испытаний на основании результата способа согласно настоящему изобретению, вероятности результата, доверительного интервала результата или Z-показателя; и выполнение дополнительного исследования на индивидууме (например, на том же самом или другом образце). Согласно некоторым вариантам осуществления субъект, которому поставлен диагноз заболевания или нарушения (например, злокачественной опухоли), подвергается повторному исследованию с использованием способа согласно настоящему изобретению или известному исследованию на заболевание или нарушение в различные моменты времени для наблюдения за развитием заболевания или нарушения или ремиссией, или возобновлением заболевания или нарушения.

Согласно одному аспекту настоящее изобретение предоставляет отчет (например, письменный или электронный отчет) с результатом от способа согласно настоящему изобретению (например, наличием или отсутствием делеций или дупликации).

Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция предусматривает добавление одного или нескольких нуклеотидов с помощью полимеразы. Согласно некоторым вариантам осуществления праймеры находятся в растворе. Согласно некоторым вариантам осуществления праймеры находятся в растворе и не иммобилизованы на твердом носителе. Согласно некоторым вариантам осуществления праймеры не представляют собой часть микрочипа. Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакции не включает в себя опосредованное лигированием ПЦР. Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция не включает в себя соединение двух праймеров с помощью лигазы. Согласно различным вариантам осуществления праймеры не включают в себя связанные инвертированные зонды (LIP), которые также можно назвать предварительно циркулирующими зондами, циркулирующими зондами, зондами Padlock или зондами молекулярной инверсии (MIP).

Следует понимать, что описанные в настоящем документе аспекты и варианты осуществления настоящего изобретения предусматривают комбинации любых двух или нескольких из аспектов или вариантов осуществления настоящего изобретения.

Определения

Однонуклеотидный полиморфизм (SNP) относится к одному нуклеотиду, который может отличаться между геномами двух представителей одного и того же вида. Использование термина не должно подразумевать никаких ограничений по частоте, с которой происходит каждый вариант.

Последовательность относится к последовательности ДНК или генетической последовательности. Она может относиться к первичной, физической структуре молекулы ДНК или нити у индивидуума. Она может относиться к последовательности нуклеотидов, обнаруженных в этой молекуле ДНК или комплементарной нити к молекуле ДНК. Она может относиться к информации, содержащейся в молекуле ДНК в качестве его представления in silico.

Локус относится к определенной представляющей интерес области на ДНК индивидуума, которая может относиться к SNP, месту возможной вставки или делеции или месту какой-либо другой соответствующей генетической изменчивости. Связанный с заболеванием SNP может также относиться к связанным с заболеванием локусам.

Полиморфный аллель, также "полиморфный локус", относится к аллелю или локусу, где генотип варьирует между индивидуумами в пределах данного вида. Некоторые примеры полиморфных аллелей включают в себя однонуклеотидные полиморфизмы, короткие тандемные повторы, делеции, дупликации и инверсии.

Полиморфный сайт относится к специфическим нуклеотидам, обнаруженным в полиморфной области, которые различаются между индивидуумами.

Мутация относится к изменению в природной или эталонной последовательности нуклеиновой кислоты, такому как вставка, делеция, дупликация, транслокация, замещение, мутация со сдвигом рамки, молчащая мутация, нонсенс-мутация, миссенс-мутация, точечная мутация, транзиция, трансверсия, обратная мутация или микросателлитное изменение. Согласно некоторым вариантам осуществления аминокислотная последовательность, кодируемая последовательностью нуклеиновой кислоты, содержит по меньшей мере одно изменение аминокислоты по сравнению с природной последовательностью.

Аллель относится к генам, которые занимают определенный локус.

Генетические данные, также "генотипические данные", относятся к данным, характеризующим аспекты генома одного или нескольких индивидуумов. Они могут относиться к одному локусу или их совокупности, частичным или целым последовательностям, частичным или целым хромосомам или всему геному. Они могут относиться к идентичности одного или множества нуклеотидов; они могут относиться к совокупности последовательных нуклеотидов или нуклеотидов из разных мест в геноме, или их комбинации. Генотипические данные представляют собой, как правило, in silico, однако, также можно рассматривать физические нуклеотиды в последовательности в виде химически закодированных генетических данных. Генотипические данные могут быть "в", "от", "из" индивидуума(ов). Генотипические данные относятся к выходным измерениям от платформы генотипирования, где эти измерения производятся на генетическом материале.

Генетический материал, также "генетический образец", относится к физической материи, такой как ткань или кровь, от одного или нескольких индивидуумов, содержащих ДНК или РНК.

Доверительный интервал относится к статистической вероятности того, что называемое SNP, аллелем, совокупностью аллелей, определенным количеством копий хромосомы или хромосомного сегмента или диагностикой наличия или отсутствия заболевания, правильно отражает реальное генетическое состояние индивидуума.

Распознавание плоидности, также "распознавание числа копий хромосом" или "распознавание числа копий" (CNC) может относиться к акту определения количества и/или хромосомной идентичности одной или нескольких хромосом или хромосомных сегментов, присутствующих в клетке.

Анеуплоидия относится к состоянию, когда в клетке присутствует неправильное число хромосом (например, неправильное число полных хромосом или неправильное число хромосомных сегментов, например, присутствуют делеции или дупликации хромосомного сегмента). В случае соматической клетки человека она может относиться к случаю, когда клетка не содержит 22 пары аутосомных хромосом и одну пару половых хромосом. В случае человеческой гаметы, она может относиться к случаю, когда клетка не содержит одну из каждой из 23 хромосом. В случае одного типа хромосом, она может относиться к случаю, когда присутствует больше или меньше двух гомологичных, но не идентичных копий хромосом или когда присутствуют две копии хромосомы, которые происходят от одного и того же родителя. Согласно некоторым вариантам осуществления делеция хромосомного сегмента представляет собой микроделецию.

Состояние плоидности относится к количеству и/или хромосомной идентичности одной или нескольких хромосом или хромосомных сегментов в клетке.

Хромосома может относиться к одной копии хромосомы, означая одну молекулу ДНК из 46 находящихся в нормальной соматической клетке; примером является "происходящая от матери хромосома 18''. Хромосома может также относиться к типу хромосом, которых 23 в нормальной человеческой соматической клетке; примером может служить "хромосома 18''.

Хромосомная идентичность может относиться к эталонному номеру хромосомы, т.е. типу хромосомы. Нормальные люди имеют 22 типа пронумерованных аутосомных типов хромосом, а также два типа половых хромосом. Она может также относиться к происходящим от родителей хромосомам. Она может также относиться к определенной хромосоме, унаследованной от родителей. Она может также относиться к другим характерным признакам хромосомы.

Аллельные данные относятся к набору генотипических данных, касающихся совокупности одного или нескольких аллелей. Они могут относиться к фазированным, гаплотипическим данным. Они могут относиться к идентификаторам SNP и они могут относиться к данным последовательности ДНК, включая в себя вставки, делеции, повторы и мутации. Они могут включать в себя родительское происхождение каждого аллеля.

Аллельное состояние относится к фактическому состоянию генов в совокупности одного или нескольких аллелей. Оно может относиться к фактическому состоянию генов, описанному аллельными данными.

Аллельное число относится к количеству последовательностей, которые картируют для конкретного локуса, и если этот локус представляет собой полиморфный, оно относится к числу последовательностей, которые картируют для каждого из аллелей. Если каждый аллель считается в двоичной системе исчисления, то аллельное число будет целым числом. Если аллели считаются в вероятностном смысле, то аллельное число может быть дробным числом.

Вероятность аллельного числа относится к количеству последовательностей, которые вероятно будут картированы в определенном локусе или совокупности аллелей в полиморфном локусе в сочетании с вероятностью картирования. Следует отметить, что аллельные числа эквивалентны вероятностям аллельного числа, где вероятность картирования для каждой подсчитываемой последовательности может быть двоичной (ноль или один). Согласно некоторым вариантам осуществления вероятности аллельного числа могут быть двоичными. Согласно некоторым вариантам осуществления вероятности аллельного числа могут быть установлены, чтобы равняться измерениям ДНК.

Аллельное распределение, или "распределение аллельного числа", относится к относительному количеству каждого аллеля, который присутствует в каждом локусе в совокупности локусов. Аллельное распределение может относиться к индивидууму, к образцу или к совокупности измерений, выполненных на образце. В контексте цифровых измерений аллелей, таких как секвенирование, аллельное распределение относится к количеству или вероятному количеству прочтений, которые отображаются на определенном аллеле для каждого аллеля в совокупности полиморфных локусов. В контексте аналоговых измерений аллелей, таких как матрицы SNP, аллельное распределение относится к аллельной интенсивности и/или соотношениям аллелей. Измерения аллелей могут быть обработаны вероятностно, то есть вероятность того, что данный аллель присутствует для данной считанной последовательности представляет собой фракцию от 0 до 1, или они могут быть обработаны в двоичной системе счисления, то есть, любое считывание рассматривается равным точно нулю или одной копии определенного аллеля.

Профиль аллельного распределения относится к совокупности различных аллельных распределений для различных контекстов, таких как различные родительские контексты. Некоторые профили аллельного распределения могут свидетельствовать о некоторых состояниях плоидности.

Аллельная систематическая ошибка относится к степени, в которой измеренное аллельное соотношение в гетерозиготном локусе отличается от соотношения, которое присутствовало в исходном образце ДНК или РНК. Степень аллельной систематической ошибки в конкретном локусе равна наблюдаемому аллельному соотношению в этом локусе, как измерено, деленному на соотношение аллелей в исходном образце ДНК или РНК в этом локусе. Аллельная систематическая ошибка может быть из-за систематической ошибки амплификации, систематической ошибки очистки или какого-либо другого явления, которое затрагивает различные аллели по-разному.

Аллельный дисбаланс относится к SNV, к доле аномальной ДНК, которую, как правило, измеряют с использованием частоты мутантных аллелей (количество мутантных аллелей в локусе/общее число аллелей в этом локусе). Так как разница между количествами двух гомологов в опухолях аналогично, авторы настоящего изобретения измеряют долю аномальной ДНК для CNV посредством среднего аллельного дисбаланса (AAI), который определяется как |(H1-H2)|/(H1+H2), где Hi представляет собой среднее количество копий гомолога i в образце и Hi/(H1+H2) представляет собой относительную распространенность, или соотношение гомологов, гомолога i. Максимальное соотношение гомологов представляет собой соотношение гомологов более распространенного гомолога.

Анализ частоты исключения из исследования представляет собой процент SNP без прочтений, оцениваемый с использованием всех SNP.

Частота исключения одиночных аллелей (ADO) представляет собой процент SNP с присутствующим только одним аллелем, оцениваемый с использованием только гетерозиготных SNP.

Праймер, также "ПЦР-зонд", относится к одной молекуле нуклеиновой кислоты (например, молекуле ДНК или олигомеру ДНК) или набору молекул нуклеиновых кислот (таких, как молекулы ДНК или олигомеры ДНК), где молекулы идентичны или практически идентичны и где праймер содержит область, которая предназначена для гибридизации с локусом-мишенью (например, полиморфным локусом-мишенью или неполиморфным локусом-мишенью) или с универсальной последовательностью прайминга и может содержать примирующую последовательность, предназначенную для возможности ПЦР-амплификации. Праймер может также содержать молекулярный штрих-код. Праймер может содержать случайную область, которая отличается для каждой отдельной молекулы.

Библиотека праймеров относится к популяции двух или нескольких праймеров. Согласно различным вариантам осуществления библиотека включает в себя по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных праймеров. Согласно различным вариантам осуществления библиотека включает в себя по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных пар праймеров, причем каждая пара праймеров включает в себя прямой тестовый праймер и обратный тестовый праймер, где каждая пара тестовых праймеров гибридизуется с локусом-мишенью. Согласно некоторым вариантам осуществления библиотека праймеров включает в себя по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных отдельных праймеров, каждый из которых гибридизуется с различным локусом-мишенью, причем отдельные праймеры не представляют собой часть пар праймеров. Согласно некоторым вариантам осуществления библиотека содержит, как (I) пару праймеров, так и (II) отдельные праймеры (такие как универсальные праймеры), которые не представляют собой часть пар праймеров.

Различные праймеры относятся к неидентичным праймерам.

Различные пулы относятся к неидентичным пулам.

Различные локусы-мишени относятся к неидентичным локусам-мишеням.

Различные ампликоны относятся к неидентичным ампликонам.

Зонд-гибридная ловушка относится к любой последовательности нуклеиновой кислоты, возможно, модифицированной, которая создается с помощью различных способов, таких как ПЦР или прямой синтез, и предназначена, чтобы быть комплементарной одной нити определенной последовательности ДНК-мишени в образце. Экзогенные зонды-гибридные ловушки могут быть добавлены к подготовленному образцу и гибридизованы с помощью процесса денатурации-повторного отжига с образованием дуплексов экзогенных-эндогенный фрагментов. Эти дуплексы затем могут быть физически отделены от образца с помощью различных средств.

Прочтения последовательностей относятся к данным, представляющим собой измеренную последовательность нуклеотидных оснований, например, с помощью способа клонального секвенирования. Клональное секвенирование может производить данные последовательности, представляющие собой единственную молекулу ДНК или клоны, или кластеры одной исходной молекулы ДНК. Прочтение последовательности также может быть связано с показателем качества в каждом положении основания последовательности, указывающего на вероятность того, что нуклеотид был назван правильно.

Картирование прочтения последовательности представляет собой процесс определения положения прочтения последовательности происхождения в последовательности генома конкретного организма. Положение происхождения прочтений последовательностей основывается на сходстве нуклеотидной последовательности почтения и геномной последовательности.

Сопряженная ошибка копирования, также "сопряженная хромосомная анеуплоидия" (МСА), относится к состоянию анеуплоидии, где одна клетка содержит две одинаковые или почти одинаковые хромосомы. Этот тип анеуплоидии может возникать при образовании половых клеток в мейозе и может упоминаться как мейотическая ошибка нерасхождения. Этот тип ошибки может возникать в митозе. Соответствующая трисомия может относиться к случаю, когда три копии данной хромосомы присутствуют у индивидуума и две из копий являются идентичными.

Несопряженная ошибка копирования, а также "уникальная хромосомная анеуплоидия" (UCA), относится к состоянию анеуплоидии, где одна клетка содержит две хромосомы от одного и того же родителя и они могут быть гомологичны, но не идентичны. Этот тип анеуплоидии может возникнуть во время мейоза и может упоминаться как ошибка мейоза. Несопряженная трисомия может относиться к случаю, когда три копии данной хромосомы присутствуют у индивидуума и две копии от одного и того же родителя, и представляют собой гомологичные, но не идентичные. Следует отметить, что несопряженная трисомия может относиться к случаю, когда присутствуют две гомологичные хромосомы от одного родителя, и где некоторые хромосомные сегменты идентичны, тогда как другие сегменты представляют собой лишь гомологичные.

Гомологичные хромосомы относятся к копиям хромосом, которые содержат один и тот же набор генов, которые обычно разделяются на пары во время мейоза.

Идентичные хромосомы относятся к копиям хромосом, которые содержат один и тот же набор генов и для каждого гена они имеют один и тот же набор аллелей, которые идентичны или почти идентичны.

Исключение аллеля (ADO) относится к ситуации, когда не обнаруживается по меньшей мере одна из пар оснований в совокупности пар оснований из гомологичных хромосом в данном аллеле.

Исключение локуса (LDO) относится к ситуации, когда не обнаруживаются обе пары оснований в совокупности пар оснований из гомологичных хромосом в данном аллеле.

Гомозиготный относится к наличию подобных аллелей, что и соответствующие хромосомные локусы.

Гетерозиготный относится к наличию неодинаковых аллелей в соответствующих хромосомных локусах.

Степень гетерозиготности относится к частоте индивидуумов в популяции, содержащей гетерозиготные аллели в данном локусе. Степень гетерозиготности может также относиться к ожидаемому или измеренному соотношению аллелей в данном локусе у индивидуума или образце ДНК или РНК.

Хромосомная область относится к сегменту хромосомы или полной хромосоме.

Сегмент хромосомы относится к секции хромосомы, которая может варьировать в размере от одной пары оснований до целой хромосомы.

Хромосома относится либо к целой хромосоме, либо сегменту или участку хромосомы.

Копии относятся к количеству копий хромосомного сегмента. Они могут относиться к идентичным копиям или неидентичным, гомологичным копиям хромосомного сегмента, причем различные копии хромосомного сегмента содержат по существу аналогичный набор локусов, и где один или нескольких аллелей различны. Следует отметить, что в некоторых случаях анеуплоидии, таких как ошибки копирования M2, возможно наличие нескольких копий данного хромосомного сегмента, которые идентичны, а также нескольких копий того же хромосомного сегмента, которые не являются идентичными.

Гаплотип относится к комбинации аллелей во множественных локусах, которые, как правило, наследуются вместе на той же самой хромосоме. Гаплотип может относиться только к двум локусам или целой хромосоме в зависимости от количества рекомбинационных событий, произошедших между заданной совокупностью локусов. Гаплотип может также относиться к совокупности SNP на одной хроматиде, которые статистически связаны.

Гаплотипические данные, также "фазированные данные" или "упорядоченные генетические данные" относятся к данным из одной хромосомы или хромосомного сегмента в диплоидном или полиплоидном геноме, например, либо в обособленной материнской, либо отцовской копии хромосомы в диплоидном геноме.

Фазированный относится к акту определения гаплотипических генетических данных индивидуума с учетом неупорядоченных, диплоидных (или полиплоидных) генетических данных. Может относиться к акту определения, какой из двух генов в аллеле для совокупности аллелей, обнаруженных на одной из хромосом, связан с каждой из двух гомологичных хромосом у индивидуума.

Фазированные данные относятся к генетическим данным, в которых был определен один или несколько гаплотипов.

Гипотезы относятся к возможному состоянию, такому как возможная степень превышение количества копий первой гомологичной хромосомы или хромосомного сегмента по сравнению со второй гомологичной хромосомой или хромосомным сегментом, возможному удалению, возможному дублированию, возможному состоянию плоидности при заданном наборе из одной или нескольких хромосом или хромосомных сегментов, возможному аллельному состоянию при заданном наборе из одного или нескольких локусов, возможной отцовской связи или возможной ДНК, РНК, фетальной фракции при заданном наборе из одной или нескольких хромосом или хромосомных сегментов, или набору количеств генетического материала из совокупности локусов. Генетические состояния могут быть необязательно связаны с вероятностями, указывающими на относительную возможность каждого из элементов в гипотезе быть истинным по отношению к другим элементам в гипотезе или относительной возможности гипотезы в целом быть истинной. Совокупность возможностей может содержать один или нескольких элементов.

Гипотеза числа копий, также "гипотеза состояния плоидности", относится к гипотезе, касающейся количества копий хромосомы или хромосомного сегмента у индивидуума. Она может также относиться к гипотезе, касающейся идентичности каждой из хромосом, включая в себя родоначальника происхождения каждой хромосомы, и какая из двух хромосом родителя присутствует у индивидуума. Она может также относиться к гипотезе, касающейся того, какие хромосомы или хромосомные сегменты, если таковые имеются, от родственного индивидуума генетически соответствуют данной хромосоме от индивидуума.

Родственный индивидуум относится к любому индивидууму, который генетически связан с, и, таким образом, разделяет блоки гаплотипов с индивидуумом-мишенью. В одном контексте, родственный индивидуум может быть генетическим родителем индивидуума-мишени или любым генетическим материалом, полученным от родителя, таким как сперма, полярное тело, эмбрион, плод или ребенок. Он может также относиться к родному брату/сестре, родителю или прародителю.

Сиблинг относится к любому индивидууму, чьи генетические родители являются теми же, что и у индивидуума, о котором идет речь. Согласно некоторым вариантам осуществления он может относиться к рожденному ребенку, эмбриону или плоду или одной или нескольким клеткам, происходящим от новорожденного ребенка, эмбриона или плода. Сиблинг может также относиться к гаплоидному индивидууму, который берет свое начало от одного из родителей, например, сперме, полярному телу или любому другому набору гаплотипической генетической материи. Индивидуум может считаться сиблингом самого себя.

Ребенок может относиться к эмбриону, бластомеру или плоду. Следует отметить, что в описанных в настоящем документе вариантах осуществления, описанные принципы в равной мере применимы к индивидуумам, которые представляют собой новорожденного ребенка, плод, зародыш, или набору его клеток. Использование термина "ребенок" может просто быть обозначением индивидуума, упоминаемого как ребенок в качестве генетического потомства родителей.

Фетальный относится к "плоду" или "области плаценты, генетически похожей на плод". У беременной женщины некоторая часть плаценты генетически похожа на плод, а также свободно плавающая ДНК плода, обнаруженная в крови матери, возможно, возникла из части плаценты с генотипом, который соответствует плоду. Следует отметить, что генетическая информация в половине хромосом у плода наследуется от матери к плоду. Согласно некоторым вариантам осуществления ДНК из этих наследуемых по материнской линии хромосом, которые пришли из фетальной клетки, рассматривается как "фетального происхождения", а не "материнского происхождения".

ДНК фетального происхождения относится к ДНК, которая первоначально была частью клетки, генотип которой был по существу эквивалентен таковому у плода.

ДНК материнского происхождения относится к ДНК, которая первоначально была частью клетки, генотип которой был по существу эквивалентен таковому у матери.

Родитель относится к генетической матери или отцу индивидуума. Индивидуум, как правило, имеет двух родителей, мать и отца, хотя это не обязательно может быть в случае, например, генетического или хромосомного химеризма. Родитель может рассматриваться как индивидуум.

Родительский контекст относится к генетическому состоянию данного SNP на каждой из двух соответствующих хромосомах для одного или обоих из двух родителей-мишеней.

Материнская плазма относится к плазменной части крови от женщины, которая беременна.

Клиническое решение относится к любому решению принимать или не принимать меры, результат которых влияет на здоровье или выживание индивидуума. Клиническое решение может также относиться к решению провести дополнительное исследование, чтобы прервать или сохранить беременность, принять меры для смягчения нежелательного фенотипа или принять меры, чтобы подготовиться к фенотипу.

Диагностическое устройство относится к одному или комбинации приборов, предназначенных для выполнения одного или множества аспектов описанных в настоящем документе способов. Согласно одному варианту осуществления диагностическое устройство может быть размещено в точке ухода за пациентами. Согласно одному варианту осуществления диагностическое устройство может выполнять направленную амплификацию с последующим секвенированием. Согласно одному варианту осуществления диагностическое устройство может работать самостоятельно или с помощью технического специалиста.

Основанный на информатике способ относится к способу, который в значительной мере опирается на статистику, чтобы разобраться с большим количеством данных. В контексте пренатальной диагностики, он относится к способу, предназначенному для определения состояния плоидности в одной или нескольких хромосомах или хромосомных сегментах, аллельного состояния в одном или нескольких аллелях или отцовства, статистически выводя наиболее вероятное состояние, а не непосредственное физическое измерение состояния, учитывая большое количество генетических данных, например, из молекулярной матрицы или секвенирования. Согласно одному варианту осуществления настоящего изобретения основанная на информатике техника может представлять собой одну из раскрытых в настоящей патентной заявке. Согласно одному варианту осуществления настоящего изобретения это может быть PARENTAL SUPPORT.

Первичные генетические данные относятся к аналоговым интенсивностным сигналам, которые выводятся с помощью платформы генотипирования. В контексте матриц SNP, первичные генетические данные относятся к сигналам интенсивности до того, как было сделано распознавание генотипа. В контексте секвенирования, первичные генетические данные относятся к аналоговым измерениям, аналогичным хроматограмме, которая выходит из секвенатора перед тем, как была определена идентичность любых пар оснований, и перед тем, как последовательность была картирована в геноме.

Вторичные генетические данные относятся к обработанным генетическим данным, которые выводятся с помощью платформы генотипирования. В контексте матрицы SNP, вторичные генетические данные относятся к аллельным распознаваниям, сделанным с помощью программного обеспечения, связанного с устройством считывания матриц SNP, причем программное обеспечение распознает, присутствует ли в образце данный аллель или нет. В контексте секвенирования, вторичные генетические данные относятся к идентичностям пар оснований последовательностей, которые были определены, а также, возможно, где последовательности были картированы в геном.

Преимущественное обогащение ДНК, которое соответствует локусу, или преимущественное обогащение ДНК в локусе, относится к любому способу, который приводит к более высокому проценту молекул ДНК в смеси ДНК после обогащения, которая соответствует локусу, чем процент молекул ДНК в смеси до обогащения ДНК, которая соответствует локусу. Способ может предусматривать селективную амплификацию молекул ДНК, которые соответствуют локусу. Способ может предусматривать удаление молекул ДНК, которые не соответствуют локусу. Способ может предусматривать комбинацию способов. Степень обогащения определяется как процент молекул ДНК в смеси после обогащения, которые соответствуют локусу, деленный на процент молекул ДНК в смеси до обогащения, которые соответствуют локусу. Преимущественное обогащение может быть осуществлено во множестве локусов. Согласно некоторым вариантам осуществления настоящего изобретения степень обогащения больше, чем 20, 200 или 2000. Когда преимущественное обогащение осуществляется во множестве локусов, степень обогащения может относиться к средней степени обогащения всех локусов в совокупности локусов.

Амплификация относится к способу, который увеличивает количество копий молекулы ДНК или РНК.

Селективная амплификация может относиться к способу, который увеличивает количество копий определенной молекулы ДНК (или РНК) или молекул ДНК (или РНК), которые соответствуют определенной области ДНК (или РНК). Она может также относиться к способу, который увеличивает число копий определенной молекулы-мишени ДНК (или РНК) или области-мишени ДНК (или РНК) в большей степени, чем происходит увеличение молекул-немишеней или областей-немишеней ДНК (или РНК). Селективная амплификация может представлять собой способ преимущественного обогащения.

Универсальная последовательность прайминга относится к последовательности ДНК (или РНК), которая может быть присоединена к популяции молекул-мишеней ДНК (или РНК), например, путем лигирования, ПЦР или опосредованной лигированием ПЦР. После добавления к популяции молекул-мишеней, праймеры, специфичные к универсальным последовательностям прайминга, могут быть использованы для амплификации популяции-мишени с использованием одной пары праймеров для амплификации. Универсальные последовательности прайминга, как правило, не связаны с последовательностями-мишенями.

Универсальные адаптеры или "адаптеры лигирования", или "теги библиотек" представляют собой молекулы нуклеиновых кислот, содержащие универсальную последовательность прайминга, которая может быть ковалентно связана с 5-прайм и 3-прайм концом популяции молекул-мишеней двухцепочечных нуклеиновых кислот. Добавление адаптеров обеспечивает универсальные последовательности прайминга к 5-прайм и 3-прайм концу популяции-мишени, с которой может начинаться ПЦР-амплификация, амплифицируя все молекулы из популяции-мишени с использованием одной пары праймеров для амплификации.

Направленное воздействие относится к способу, используемому для селективной амплификации или иного преимущественного обогащения теми молекулами ДНК (или РНК), которые соответствуют совокупности локусов в смеси ДНК (или РНК).

Модель совместного распределения относится к модели, которая определяет вероятность событий, определенных в терминах нескольких случайных переменных, учитывая множество случайных переменных, определенных на том же вероятностном пространстве, где вероятности переменной связаны между собой. Согласно некоторым вариантам осуществления может быть использован вырожденный случай, когда вероятности переменных не связаны между собой.

Связанный со злокачественной опухолью ген относится к гену, связанному с измененным риском развития злокачественной опухоли или измененным прогнозом для злокачественной опухоли. Иллюстративные связанные со злокачественной опухолью гены, которые вызывают злокачественную опухоль, включают в себя онкогены; гены, которые усиливают клеточную пролиферацию, инвазию или метастаз; гены, которые ингибируют апоптоз, и гены про-ангиогенеза. Связанные со злокачественной опухолью гены, ингибирующие злокачественную опухоль, включают в себя без ограничения гены-супрессоры опухолей; гены, которые ингибируют клеточную пролиферацию, инвазию или метастаз; гены, которые способствуют апоптозу и гены анти-ангиогенеза.

Связанная с эстрогеном злокачественная опухоль относится к злокачественной опухоли, которая модулируется эстрогеном. Примеры связанных с эстрогеном злокачественных опухолей включают в себя без ограничения злокачественную опухоль молочной железы и злокачественную опухоль яичников. Her2 сверхэкспрессируется при многих связанных с эстрогеном злокачественных опухолях (патент США №6165464, который полностью включен в настоящий документ посредством ссылки).

Связанная с андрогеном злокачественная опухоль относится к злокачественной опухоли, которая модулируется андрогеном. Примером связанных с андрогеном видов злокачественных опухолей является злокачественная опухоль предстательной железы.

Более высокий, чем нормальный уровень экспрессии относится к экспрессии мРНК или белка на уровне, который выше, чем средний уровень экспрессии соответствующей молекулы у контрольных субъектов (например, субъектов без заболевания или нарушения, такого как злокачественная опухоль). Согласно различным вариантам осуществления уровень экспрессии по меньшей мере на 20, 40, 50, 75, 90, 100, 200, 500 или даже 1000% выше, чем уровень у контрольных субъектов.

Более низкий, чем нормальный уровень экспрессии относится к экспрессии мРНК или белка на уровне, который ниже, чем средний уровень экспрессии соответствующей молекулы у контрольных субъектов (например, субъектов без заболевания или нарушения, такого как злокачественная опухоль). Согласно различным вариантам осуществления уровень экспрессии по меньшей мере на 20, 40, 50, 75, 90, 95 или 100% ниже, чем уровень у контрольных субъектов. Согласно некоторым вариантам осуществления экспрессия мРНК или белка не обнаруживается.

Модулирование экспрессии или активности относится к увеличению или уменьшению экспрессии или активности, например, последовательности белка или нуклеиновой кислоты, по сравнению с контрольными условиями. Согласно некоторым вариантам осуществления модуляция в экспрессии или активности представляет собой увеличение или уменьшение по меньшей мере на 10, 20, 40, 50, 75, 90, 100, 200, 500 или даже 1000%. Согласно различным вариантам осуществления транскрипция, трансляция, стабильность мРНК или белка или связывание мРНК или белка с другими молекулами in vivo модулируют посредством терапии. Согласно некоторым вариантам осуществления содержание мРНК определяют посредством стандартного анализа Нозерн-блоттинг, а содержание белка определяют с помощью стандартного анализа Вестерн-блоттинг, например, анализов, описанных в настоящем документе, или тех, которые описаны, например, в публикации Ausubel et al. (Current Protocols in Molecular Biology, John Wiley & Sons, New York, July 11, 2013, которая полностью включена в настоящий документ посредством ссылки). Согласно одному варианту осуществления содержание белка определяют путем измерения уровня ферментативной активности с использованием стандартных способов. Согласно другому предпочтительному варианту осуществления содержание мРНК, белка или ферментативная активность равны или менее чем в 20, 10, 5 или 2 раза выше соответствующего уровня в контрольных клетках, которые не экспрессируют функциональную форму белка, например, клетки, гомозиготные по нонсенс-мутации. Согласно еще одному варианту осуществления содержание мРНК, белка или ферментативная активность равны или менее чем в 20, 10, 5 или 2 раза выше соответствующего базального уровня в контрольных клетках, таких как незлокачественные клетки, клеток, которые не подвергались воздействию условий, индуцирующих аномальную пролиферацию клеток или ингибирующих апоптоз, или клеток от субъекта без представляющего интерес заболевания или нарушения.

Доза, достаточная для модулирования экспрессии или активности мРНК или белка, относится к количеству терапии, которое увеличивает или уменьшает экспрессию или активность мРНК или белка при введении субъекту. Согласно некоторым вариантам осуществления для соединения, которое уменьшает экспрессию или активность, модуляция представляет собой снижение экспрессии или активности, которое по меньшей мере на 10%, 30%, 40%, 50%, 75% или на 90% ниже у подвергаемого лечению субъекта, чем у того же субъекта до введения ингибитора или чем у не подвергнутого воздействию контрольного субъекта. Кроме того, согласно некоторым вариантам осуществления для соединения, которое повышает экспрессию или активность, уровень экспрессии или активности мРНК или белка по меньшей мере в 1,5, 2, 3, 5, 10 или 20 раз больше у подвергаемого лечению субъекта, чем у того же субъекта до введения ингибитора или чем у не подвергнутого воздействию контрольного субъекта.

Согласно некоторым вариантам осуществления соединения могут прямо или косвенно модулировать экспрессию или активность мРНК или белка. Например, соединение может косвенно модулировать экспрессию или активность представляющей интерес мРНК или белка путем модуляции экспрессии или активности молекулы (например, нуклеиновой кислоты, белка, сигнальной молекулы, фактора роста, цитокина или хемокина), которая прямо или косвенно влияет на экспрессию или активность представляющей интерес мРНК или белка. Согласно некоторым вариантам осуществления соединения ингибируют деление клеток или индуцируют апоптоз. Эти соединения в терапии могут включать в себя, например, неочищенные или очищенные белки, антитела, синтетические органические молекулы, природные органические молекулы, молекулы нуклеиновых кислот, а также их компоненты. Соединения в комбинированной терапии могут быть введены одновременно или последовательно. Иллюстративные соединения включают в себя ингибиторы сигнальной трансдукции.

Очищенные относится к соединениям, отделенным от других компонентов, которые естественным образом сопровождают их. Как правило, фактор представляет собой по существу чистый, когда он по меньшей мере на 50% по массе свободен от белков, антител и встречающихся в природе органических молекул, с которыми он связан в природе. Согласно некоторым вариантам осуществления фактор представляет собой чистый по меньшей мере на 75%, 90% или 99% по массе. По существу чистый фактор может быть получен путем химического синтеза, выделения фактора из природных источников или производства фактора в рекомбинантной клетке-хозяине, которая в природе не продуцирует фактор. Белки и малые молекулы могут быть очищены специалистом в настоящей области техники с использованием стандартных техник, таких как способы, описанные Ausubel с соавт. (публикация Current Protocols in Molecular Biology, John Wiley & Sons, New York, July 11, 2013, которая полностью включена в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления фактор по меньшей мере в 2, 5 или 10 раз чище, чем исходный материал, что измерено с использованием электрофореза в полиакриламидном геле, колоночной хроматографии, оптической плотности, анализа с помощью ВЭЖХ или вестерн-анализа (Ausubel с соавт., выше). Иллюстративные способы очистки включают в себя иммунопреципитацию, колоночную хроматографию, такую как иммуноаффинную хроматографию, иммунноаффинную очистку магнитными гранулами и пэннинг со связанным с планшетом антителом.

Другие особенности и преимущества настоящего изобретения будут очевидны из следующего подробного описания и формулы изобретения.

Краткое описание чертежей

Патент или файл заявки содержит по меньшей мере один чертеж, выполненный в цвете. Копии настоящего патента или публикации патентной заявки с цветным чертежом(ами) будут предоставлены Управлением по запросу и уплаты необходимой пошлины.

Описанные в настоящее время варианты осуществления будут дополнительно поясняться со ссылкой на прилагаемые графические материалы, на которых подобные структуры относятся к одним и тем же численным величинам на нескольких видах. Показанные графические материалы не обязательно выполнены с соблюдением масштаба, с особым вниманием, вместо этого они размещены для общей иллюстрации принципов раскрытых в настоящее время вариантов осуществления.

Фиг. 1A-1D представляют собой графики, показывающие распределение статистики критерия S, разделенное на Т (количество SNP) ("S/T"), для различных гипотез числа копий для глубины считывания (DOR) 500 и опухолевой фракции 1% для увеличивающегося количества SNP.

Фиг. 2A-2D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 500 и опухолевой фракции 2% для увеличивающегося количества SNP.

Фиг. 3A-3D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 500 и опухолевой фракции 3% для увеличивающегося количества SNP.

Фиг. 4A-4D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 500 и опухолевой фракции 4% для увеличивающегося количества SNP.

Фиг. 5A-5D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 500 и опухолевой фракции 5% для увеличивающегося количества SNP.

Фиг. 6A-6D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 500 и опухолевой фракции 6% для увеличивающегося количества SNP.

Фиг. 7A-7D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 1000 и опухолевой фракции 0,5% для увеличивающегося количества SNP.

Фиг. 8A-8D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 1000 и опухолевой фракции 1% для увеличивающегося количества SNP.

Фиг. 9A-9D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 1000 и опухолевой фракции 2% для увеличивающегося количества SNP.

Фиг. 10A-10D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 1000 и опухолевой фракции 3% для увеличивающегося количества SNP.

Фиг. 11A-11D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 1000 и опухолевой фракции 4% для увеличивающегося количества SNP.

Фиг. 12A-12D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 3000 и опухолевой фракции 0,5% для увеличивающегося количества SNP.

Фиг. 13A-13D представляют собой графики, показывающие распределение S/T для различных гипотез числа копий для DOR 3000 и опухолевой фракции 1% для увеличивающегося количества SNP.

Фиг. 14 представляет собой таблицу с указанием чувствительности и специфичности для обнаружения шести синдромов с микроделециями.

Фиг. 15А-15С представляют собой графические представления эуплоидии. Ось X представляет собой линейное положение отдельных полиморфных локусов вдоль хромосомы, а ось Y представляет собой число считываний аллеля А в виде доли от общих считываний аллелей (А+В). Материнский и фетальный генотипы указаны справа от графиков. Графики содержат цветную маркировку в соответствии с генотипом матери, такую, что красный указывает на материнский генотип АА, синий указывает на материнский генотип ВВ и зеленый указывает на материнский генотип АВ. Фиг. 15А представляет собой график, когда присутствуют две хромосомы и фракция фетальной вкДНК составляет 0%. Этот график представляет собой график от небеременной женщины и, таким образом, представляет собой образец, когда генотип полностью материнский. Аллельные кластеры, таким образом, сосредоточены вокруг 1 (аллели AA), 0,5 (аллели AB) и 0 (аллели BB). Фиг. 15B представляет собой график, когда присутствуют две хромосомы и фетальная фракция составляет 12%. Вклад фетальных аллелей во фракцию считываний аллеля A сдвигает положение некоторых пятен аллеля вверх или вниз вдоль оси Y. Фиг. 15C представляет собой график, когда присутствуют две хромосомы и фетальная фракция составляет 26%. Легко просматривается профиль, включающий в себя две красные и две синие периферийные полосы и трио центральных зеленых полос.

Фиг. 16A и 16B представляют собой графические представления синдрома делеции 22q11.2. Фиг. 16А для материнского носителя делеции 22q11.2 (как указано посредством отсутствия зеленых АВ SNP). Фиг. 16B для унаследованной от родителей делеции 22q11 у плода (как указано посредством наличия одной красной и одной синей периферической полосы). Ось X представляет собой линейное положение SNP, а ось Y указывает на фракцию прочтений аллеля А из всех прочтений. Каждое пятно представляет собой единственный локус SNP.

Фиг. 17 представляет собой графическое представление унаследованного от матери делеционного синдрома кошачьего крика (что указано посредством наличия двух центральных зеленых полос вместо трех зеленых полос). Ось X представляет собой линейное положение SNP, а ось Y указывает на фракцию прочтений аллеля А из всех прочтений. Каждое пятно представляет собой единственный локус SNP.

Фиг. 18 представляет собой графическое представление унаследованного от отца делеционного синдрома Вольфа-Хиршхорна (что указано посредством наличия одной красной и одной синей периферийной полосы). Ось X представляет собой линейное положение SNP, а ось Y указывает на фракцию прочтений аллеля А из всех прочтений. Каждое пятно представляет собой единственный локус SNP.

Фиг. 19A-19D представляют собой графические представления резкого скачка Х-хромосомы в экспериментах, чтобы представить дополнительную копию хромосомы или хромосомного сегмента. На графиках показаны различные количества ДНК от отца, смешанного с ДНК от дочери: 16% ДНК отца (Фиг. 19А), 10% ДНК отца (Фиг. 19B), 1% ДНК отца (Фиг. 19С) и 0,1% ДНК отца (Фиг. 19D). Ось X представляет собой линейное положение SNP на Х-хромосоме, а ось Y обозначает фракцию прочтений аллеля М из всех прочтений (М+R). Каждое пятно представляет собой единственный локус SNP с аллелем М или R.

Фиг. 20А и 20B представляют собой графики относительного числа ложно негативных заключений с использованием данных гаплотипов (Фиг. 20А) и без данных гаплотипов (Фиг. 20B).

Фиг. 21А и 21B представляют собой графики относительного числа ложно позитивных заключений при p=1% с использованием данных гаплотипов (Фиг. 21A) и без данных гаплотипов (Фиг. 21B).

Фиг. 22А и 22B представляют собой графики относительного числа ложно позитивных заключений при p=1,5% с использованием данных гаплотипов (Фиг. 22А) и без данных гаплотипов (Фиг. 22B).

Фиг. 23А и 23B представляют собой графики относительного числа ложно позитивных заключений при p=2% с использованием данных гаплотипов (Фиг. 23А) и без данных гаплотипов (Фиг. 23B).

Фиг. 24А и 24B представляют собой графики относительного числа ложно позитивных заключений при p=2,5% с использованием данных гаплотипов (Фиг. 24А) и без данных гаплотипов (Фиг. 24B).

Фиг. 25А и 25B представляют собой графики относительного числа ложно позитивных заключений при p=3% с использованием данных гаплотипов (Фиг. 25А) и без данных гаплотипов (Фиг. 25B).

Фиг. 26 представляет собой таблицу относительного числа ложно позитивных заключений для первой модели.

Фиг. 27 представляет собой таблицу относительного числа ложно негативных заключений для первой модели.

Фиг. 28А представляет собой график эталонных количеств (количеств одного аллеля, например, аллеля "А"), разделенных на общие количества для этого локуса для нормальной (незлокачественной) клеточной линии.

Фиг. 28B представляет собой график эталонных количеств, разделенных на общие количества для линии клеток злокачественной опухоли с делецией.

Фиг. 28C представляет собой график эталонных количеств, разделенных на общие количества для смеси ДНК из нормальной клеточной линии и клеточной линии злокачественной опухоли.

Фиг. 29 представляет собой график эталонных количеств, разделенных на общие количества для образца плазмы от пациента со злокачественной опухолью молочной железы стадии IIa с опухолевой фракцией, составляющей 4,33% (в котором 4,33% ДНК от опухолевых клеток). Зеленая часть графика представляет собой область, в которой нет CNV. Синяя и красная часть графика представляет собой область, в которой присутствует CNV и есть видимое разделение измеренных аллельных соотношений от ожидаемого аллельного соотношения 0,5. Синее окрашивание указывает на один гаплотип, а красное окрашивание указывает на другой гаплотип. Приблизительно 636 гетерозиготных SNP проанализировали в области CNV.

Фиг. 30 представляет собой график эталонных количеств, разделенных на общие количества для образца плазмы от пациента со злокачественной опухолью молочной железы стадии IIb с опухолевой фракцией, составляющей 0,58%. Зеленая часть графика представляет собой область, в которой нет CNV. Синяя и красная часть графика представляет собой область, в которой присутствует CNV, но нет явно видимого разделения измеренных аллельных соотношений от ожидаемого аллельного соотношения 0,5. Для этого анализа 86 гетерозиготных SNP проанализировали в области CNV.

Фиг. 31А и 31B представляют собой графики, показывающие оценку максимального правдоподобия опухолевой фракции. Оценка максимального правдоподобия указывается пиком на графике и составляет 4,33% на Фиг. 31А и 0,58% на Фиг. 31B.

Фиг. 32А представляет собой сравнение графиков логарифма отношения вероятностей для различных возможных опухолевых фракций для образца с высоким содержанием опухолевой фракции (4,33%) и образца с низким содержанием опухолевой фракции (0,58%). Если логарифм отношения вероятностей меньше 0, то эуплоидная гипотеза более вероятна. Если логарифм отношения вероятностей больше 0, то более вероятно наличие CNV.

Фиг. 32B представляет собой график вероятности делеции, деленной на вероятность отсутствия делеции для различных возможных опухолевых фракций для образца с низким содержанием опухолевой фракции (0,58%).

Фиг. 33 представляет собой график логарифма отношения вероятностей для различных возможных опухолевых фракций для образца с низким содержанием опухолевой фракции (0,58%). Фиг. 33 представляет собой увеличенную версию графика на Фиг. 32А для образца с низким содержанием опухолевой фракции.

Фиг. 34 представляет собой график, на котором показан предел обнаружения для однонуклеотидных вариантов в биопсии опухоли с использованием трех различных способов, описанных в примере 6.

Фиг. 35 представляет собой график, на котором показан предел обнаружения для однонуклеотидных вариантов в образце плазмы с использованием трех различных способов, описанных в примере 6.

Фиг. 36А и 36B представляют собой графики анализа геномной ДНК (Фиг. 36А) или ДНК из одной клетки (Фиг. 36B) с использованием библиотеки из приблизительно 28000 праймеров, предназначенных для обнаружения CNV. Наличие двух центральных полос вместо одной центральной полосы указывает на наличие CNV. Ось X представляет собой линейное положение SNP, а ось Y указывает на фракцию считываний аллеля А из общего числа считываний.

Фиг. 37А и 37B представляют собой графики анализа геномной ДНК (Фиг. 37А) или ДНК из одной клетки (Фиг. 37B) с использованием библиотеки из приблизительно 3000 праймеров, предназначенных для обнаружения CNV. Наличие двух центральных полос вместо одной центральной полосы указывает на наличие CNV. Ось X представляет собой линейное положение SNP, а ось Y указывает на фракцию считываний аллеля А из общего числа считываний.

Фиг. 38 представляет собой график, иллюстрирующий однородность DOR для этих ~3000 локусов.

Фиг. 39 представляет собой таблицу сравнения метрик распознавания ошибок для геномной ДНК и ДНК из одной клетки.

Фиг. 40 представляет собой график частоты появления ошибок для транзиций и трансверсий.

Фиг. 41a-d представляют собой графики чувствительности CoNVERGe, определенные с помощью PlasmArts. (a) Корреляция между вычисленным с помощью CoNVERGe AAI и фактической входной фракцией в образцах PlasmArt с ДНК из делеции 22q11.2 и соответствующих нормальных клеточных линий. (b) Корреляция между вычисленным AAI и фактическим вводом опухолевой ДНК в образцах PlasmArt с ДНК из клеток злокачественной опухоли молочной железы НСС2218 с CNV хромосом 2p и 2q и соответствующих нормальных клеток HCC2218BL, содержащих 0-9,09% фракций опухолевой ДНК. (c) Корреляция между вычисленным AAI и фактическим вводом опухолевой ДНК в образцах PlasmArt с ДНК из клеток злокачественной опухоли молочной железы НСС1954 с CNV хромосом 1p и 1q и соответствующих нормальных клеток HCC1954BL, содержащих 0-5,66% фракции опухолевой ДНК. (d) График аллельных частот для клеток НСС1954, используемых в (с). В (а), (b) и (с) точки данных и столбики ошибок указывают на среднее и стандартное отклонение (SD), соответственно, 3-8 повторов.

На Фиг. 42 представлены подробности относительно иллюстративных включенных в стандарт Plasmart графиков распределений размеров фрагмента в нижней части.

На Фиг. 43 справа представлены результаты от кривой разведения синтетических стандартов цоДНК Plasmart для проверки микроделеционной и злокачественной панелей. На Фиг. 43А; правой панели, показана максимальное правдоподобие опухоли, оценка результатов фракции ДНК в виде диаграммы относительного риска. Фиг. 43B представляет собой диаграмму для обнаружения событий трансверсий. Фиг. 43C представляет собой диаграмму для обнаружения транзиций.

Фиг. 44 представляет собой диаграмму, на которой показаны CNV для различных хромосомных областей, как указано для различных образцов при различных % цоДНК.

Фиг. 45 представляет собой диаграмму, на которой показаны CNV для различных хромосомных областей для различных образцов злокачественной опухоли яичника с различным % содержания цоДНК.

Фиг. 46 представляет собой таблицу, на которой показан процент пациентов со злокачественной опухолью молочной железы или легких с SNV или комбинацией SNV и/или CNV в цоДНК.

Фиг. 47 представляет собой график процента образцов на разных стадиях злокачественной опухоли молочной железы с опухолеспецифическими SNV и/или CNV в плазме и связанную с ним таблицу данных справа.

Фиг. 48 представляет собой график процента образцов на разных подстадиях злокачественной опухоли молочной железы с опухолеспецифическими SNV и/или CNV в плазме и связанную с ним таблицу данных справа.

Фиг. 49 представляет собой график процента образцов злокачественной опухоли легких на разных стадиях с опухолеспецифическими SNV и/или CNV в плазме и связанную с ним таблицу данных справа.

Фиг. 50 представляет собой график процента образцов на разных подстадиях злокачественной опухоли легких с опухолеспецифическими SNV и/или CNV в плазме и связанную с ним таблицу данных справа.

Фиг. 51А представляет собой гистологическое заключение/анамнез для первичных опухолей легких, проанализированных на клональную и субклональную опухолевую гетерогенность. Фиг. 51B представляет собой таблицу из идентичностей VAF биопсий опухолей легких посредством секвенирования всего генома и анализа с помощью AmpliSEQ.

На Фиг. 52 показано применение цоДНК из плазмы, чтобы идентифицировать как клональные и субклональные мутации SNA преодолевают опухолевую гетерогенность.

Фиг. 53 представляет собой таблицу сравнения распознаваний VAF с помощью AmpliSeq и mmPCR-NGS для обнаружения SNV в первичной опухоли, которые были пропущены при AmpliSeq, и мутаций SNV, выявленных в цоДНК из плазмы.

Фиг. 54А представляет собой диаграмму % VAF в первичной опухоли легких. Фиг. 54B представляет собой диаграмму линейной регрессии VAF AmpliSeq против VAF Natera.

Фиг. 55 представляет собой график 1/4 пула реакции ПЦР SNV с участием 84 праймеров, когда концентрация праймера ограничена.

Фиг. 56 представляет собой график 2/4 пула реакции ПЦР SNV с участием 84 праймеров, когда концентрация праймера ограничена

Фиг. 57 представляет собой график 3/4 пула реакции ПЦР SNV с участием 84 праймеров, когда концентрация праймера ограничена

Фиг. 58 представляет собой график 4/4 пула реакции ПЦР SNV с участием 84 праймеров, когда концентрация праймера ограничена

На Фиг. 59 показана диаграмма предела обнаружения (LOD) против глубины прочтений (DOR) для обнаружения мутаций транзиций и трансверсий SNV в реакции ПЦР с участием 84 последовательностей при 15 циклах ПЦР.

На Фиг. 60 показана диаграмма предела обнаружения (LOD) против глубины прочтений (DOR) для обнаружения мутаций транзиций и трансверсий SNV в реакции ПЦР с участием 84 последовательностей при 20 циклах ПЦР.

На Фиг. 61 показана диаграмма предела обнаружения (LOD) против глубины прочтений (DOR) для обнаружения мутаций транзиций и трансверсий SNV в реакции ПЦР с участием 84 последовательностей при 25 циклах ПЦР.

Фиг. 62 представляет собой диаграмму, иллюстрирующую сопоставимые чувствительности между геномными ДНК опухоли и единственной клетки. В верхней части показаны результаты с использованием геномной ДНК опухолевых клеток. В нижней части показаны результаты с использованием геномной ДНК единственной клетки.

На Фиг. 63 показана организация рабочего процесса для анализа CNV в различных типах образцов злокачественной опухоли в мультиплексном анализе ПЦР с большим количеством целевых последовательностей (mmPCR), направленном на SNP - Фиг. 63a. На Фиг. 63b-f приведено сравнение анализа CoNVERGe с микроматричным анализом на клеточных линиях злокачественной опухоли молочной железы против соответствующих нормальных клеточных линий.

На Фиг. 64 приведено сравнение свежемороженых (FF) и FFPE (фиксированных в формалине и залитых в парафин) образцов злокачественных опухолей молочной железы с соответствующими контролями. На Фиг. a-h представлено сравнение анализа CoNVERGe с микроматричным анализом на клеточных линиях злокачественной молочной железы против соответствующих контрольных образцов лейкоцитарных гДНК.

На Фиг. 65 показаны диаграммы частот аллелей для отражения числа копий хромосом с использованием анализа CoNVERGe для обнаружения CNV в одиночных клетках. Фиг. 65а-с представляют собой анализы из трех параллелей отдельных клеток злокачественной опухоли молочной железы. Фиг. 65d представляет собой анализ клеточной линии В-лимфоцитов без CNV в областях-мишенях.

На Фиг. 66 показаны диаграммы частот аллелей для отражения числа копий хромосом с использованием анализа CoNVERGe для обнаружения CNV в реальных образцах плазмы. Фиг. 66а представляет собой образец вкДНК плазмы при злокачественной опухоли молочной железы стадии II и гДНК соответствующей биопсии опухоли. Фиг. 66b представляет собой образец вкДНК плазмы при злокачественной опухоли яичника на поздней стадии и гДНК соответствующей биопсии. Фиг. 66c представляет собой диаграмму, иллюстрирующую опухолевую гетерогенность, как определено с помощью обнаружения CNV на пяти образцах плазмы при злокачественной опухоли яичников на поздней стадии и соответствующих тканей.

На Фиг. 67 показаны положения хромосом и мутационное изменение при злокачественной опухоли молочной железы.

На Фиг. 68 показаны частоты SNP основного (Фиг. 68А) и минорного аллеля (Фиг. 68B), используемые в реакции mmPCR 3168.

На Фиг. 69 показана иллюстративная архитектура системы Х00, применимая для выполнения вариантов осуществления согласно настоящему изобретению.

На Фиг. 70 показана иллюстративная компьютерная система для выполнения вариантов осуществления согласно настоящему изобретению.

В то время как идентифицированные выше графические материалы представляют описанные в настоящее время варианты осуществления, другие варианты осуществления также рассматриваются, как отмечено в обсуждении. Настоящее изобретение представляет иллюстративные варианты осуществления путем представления, а не ограничения. Специалистами в настоящей области техники могут быть разработаны многочисленные другие модификации и варианты осуществления, которые подпадают под объем и сущность принципов, раскрытых в настоящее время вариантов осуществления.

Подробное описание настоящего изобретения

Согласно одному аспекту настоящее изобретение относится, в общем, по меньшей мере частично, к усовершенствованным способам определения наличия или отсутствия вариаций числа копий, таким как делеции или дупликации хромосомных сегментов или целых хромосом. Эти способы особенно применимы для обнаружения небольших делеции или дупликаций, которые бывает трудно обнаружить с высокой специфичностью и чувствительностью с использованием предыдущих способов из-за небольшого объема данных, доступных из соответствующего хромосомного сегмента. Эти способы предусматривают более совершенные аналитические способы, более совершенные способы биоанализа и комбинации улучшенных аналитических способов и биоанализа. Способы согласно настоящему изобретению также могут быть использованы для обнаружения делеции или дупликации, которые присутствуют только у небольшого процента клеток или молекул нуклеиновых кислот, которые исследуют. Это позволяет обнаруживать делеции или дупликации до возникновения заболевания (например, на стадии до злокачественной опухоли) или на ранних стадиях заболевания, например, до накопления большого количества патологических клеток (таких как злокачественные клетки) с делециями или дупликациям. Более точное обнаружение делеции или дупликации, связанных с заболеванием или нарушением, позволяет улучшить способы диагностики, прогнозирования, профилактики, задержки, стабилизации или лечения заболевания или нарушения. Несколько делеции или дупликаций, как известно, связано со злокачественной опухолью или с тяжелыми психическими или физическими недостатками.

Согласно другому аспекту настоящее изобретение относится, в общем, по меньшей мере частично, к усовершенствованным способам обнаружения однонуклеотидных вариаций (SNV). Эти улучшенные способы предусматривают более совершенные аналитические способы, более совершенные способы биоанализа и усовершенствованные способы, которые используют комбинацию улучшенных аналитических способов и биоанализа. Способы согласно некоторым иллюстративным вариантам осуществления используются для обнаружения, диагностики, мониторинга или определения стадии злокачественной опухоли, например, в образцах, где SNV присутствует в очень низких концентрациях, например, менее чем 10%, 5%, 4%, 3%, 2,5%, 2%, 1%, 0,5%, 0,25% или 0,1% по отношению к общему числу нормальных копий локуса SNV, таких как образцы циркулирующих свободных ДНК. Т.е. эти способы согласно некоторым иллюстративным вариантам осуществления особенно хорошо подходят для образцов, где существует относительно низкий процент мутации или варианта по отношению к нормальным полиморфным аллелям, присутствующим для этих генетических локусов. Наконец, в настоящем документе предусмотрены способы, которые сочетают в себе улучшенные способы обнаружения вариаций числа копий с усовершенствованными способами обнаружения однонуклеотидных вариаций.

Успешное лечение таких заболеваний, как злокачественная опухоль, часто основывается на ранней диагностике, правильной постановке стадии заболевания, выборе эффективного терапевтического режима, а также тщательного контроля предотвращения или обнаружения рецидива. Для диагностики злокачественной опухоли, гистологическое исследование материала опухоли, полученного из биопсии ткани, часто считается самым надежным способом. Тем не менее, инвазивный характер основанного на биопсии взятия образца оказался непрактичным для массового скрининга и регулярного наблюдения. Таким образом, настоящие способы имеют преимущество, будучи в состоянии выполняться неинвазивно при желании при относительно низкой стоимости с быстрой скоростью обработки данных. Направленное секвенирование, которое может быть использовано способами согласно настоящему изобретению, требует меньшего количества прочтений, чем секвенирование способом "выстрела из дробового ружья", например, несколько миллионов прочтений вместо 40 миллионов прочтений, тем самым снижая затраты. Мультиплексная ПЦР и секвенирование следующего поколения, которые могут быть использованы, увеличивают пропускную способность и снижают затраты.

Согласно некоторым вариантам осуществления используются способы обнаружения делеции, дупликации или однонуклеотидного варианта у индивидуума. Может быть проанализирован образец от индивидуума, который содержит клетки или нуклеиновые кислоты, в которых подозревается делеция, дупликация или однонуклеотидный вариант. Согласно некоторым вариантам осуществления образец берут из ткани или органа с подозрением на наличие делеции, дупликации или однонуклеотидного варианта, например, клеток или массы с подозрением на злокачественность. Способы согласно настоящему изобретению могут быть использованы для обнаружения делеции, дупликации или однонуклеотидного варианта, которые присутствуют только в одной клетке или небольшом количестве клеток в смеси, содержащей клетки с делецией, дупликацией или однонуклеотидным вариантом или клетки без делеции, дупликации или однонуклеотидного варианта. Согласно некоторым вариантам осуществления анализируют вкДНК или вкРНК из образца крови от индивидуума. Согласно некоторым вариантам осуществления вкДНК или вкРНК секретируется клетками, такими как злокачественные клетки. Согласно некоторым вариантам осуществления вкДНК или вкРНК высвобождается клетками, подвергающимися некрозу или апоптозу, такими как злокачественные клетки. Способы согласно настоящему изобретению могут быть использованы для обнаружения делеции, дупликации или однонуклеотидного варианта, которые присутствуют только в небольшом проценте вкДНК или вкРНК. Согласно некоторым вариантам осуществления исследуют одну или несколько клеток из эмбриона.

Согласно некоторым вариантам осуществления используются способы для неинвазивной или инвазивной пренатальной диагностики плода. Эти способы могут быть использованы, чтобы определить наличие или отсутствие делеции или дупликаций хромосомного сегмента или целой хромосомы, например, делеции или дупликаций, о которых известно, что они связаны с серьезными умственными или физическими нарушениями, пониженной обучаемостью или злокачественной опухолью. Согласно некоторым вариантам осуществления для неинвазивной пренатальной диагностики (NIPT) исследуют клетки, вкДНК или вкРНК из образца крови от беременной матери. Эти способы позволяют обнаружить делецию или дупликацию в клетках, вкДНК или вкРНК от плода, несмотря на большое количество клеток, вкДНК или вкРНК от матери, которые также присутствуют. Согласно некоторым вариантам осуществления для инвазивной пренатальной диагностики исследуют ДНК или РНК из образца от плода (например, CVS или образец амниоцентеза). Даже если образец загрязнен ДНК или РНК от беременной матери, способы могут быть использованы для обнаружения делеции или дупликации в эмбриональной ДНК или РНК.

В дополнение к определению наличия или отсутствия вариации числа копий, при желании могут быть проанализированы один или нескольких других факторов. Эти факторы могут быть использованы для повышения точности диагностики (например, определение наличия или отсутствия злокачественной опухоли или повышенного риска развития злокачественной опухоли, классификация злокачественной опухоли или стадии злокачественной опухоли) или прогноза. Эти факторы также могут быть использованы для выбора конкретной терапии или схемы лечения, которая, вероятно, будет эффективной у субъекта. Иллюстративные факторы включают в себя наличие или отсутствие полиморфизмов или мутации; измененных (увеличенных или уменьшенных) уровней общей или конкретной вкДНК, вкРНК, микроРНК (миРНК); измененной (увеличенной или уменьшенной) опухолевой фракции; измененных (увеличенных или уменьшенных) уровней метилирования, измененной (увеличенной или уменьшенной) целостности ДНК, измененного (увеличенного или уменьшенного) или альтернативного сплайсинга мРНК.

В следующих разделах описаны способы обнаружения делеции или дупликаций с использованием фазированных данных (например, выведенных или измеренных фазированных данных) или нефазированных данных; образцы, которые могут быть проверены; способы подготовки образцов, амплификации и количественного определения; способы фазирования генетических данных; полиморфизмов, мутаций, изменений нуклеиновых кислот, изменений сплайсинга мРНК и изменений содержания нуклеиновых кислот, которые могут быть обнаружены; базы данных с результатами способов, других факторов риска и способов скрининга; злокачественные опухоли, которые могут быть диагностированы или подвергнуты лечению; способы лечения злокачественных опухолей; модели злокачественных опухолей для исследования способов лечения и способы для состава и введения лекарственных средств.

Иллюстративные способы определения плоидности с использованием фазированных данных

Некоторые из способов согласно настоящему изобретению частично основаны на обнаружении того факта, что использование фазированных данных для обнаружения CNV снижает частоту ложноотрицательных и ложноположительных значений по сравнению с использованием нефазированных данных (Фиг. 20А-27). Это улучшение представляет собой наибольшее для образцов с CNV, присутствующими на низких уровнях. Таким образом, фазированные данные повышают точность обнаружения CNV по сравнению с использованием нефазированных данных (например, способы, которые вычисляют аллельные соотношения в одном или нескольких локусах или агрегируют аллельные соотношения, чтобы получить агрегированное значение (например, среднее значение) в хромосоме или хромосомном сегменте без учета того, указывают ли аллельные соотношения в различных локусах на то, что одни и те же или различные гаплотипы присутствуют в ненормальном количестве). Использование фазированных данных позволяет получить более точное определение того, обусловлена ли разница между измеренным и ожидаемым аллельным соотношением шумом или наличием CNV. Например, если разности между измеренным и ожидаемым аллельным соотношением в большинстве или всех локусах в области показывают, что тот же гаплотип превалирует, то CNV, скорее всего, будет присутствовать. Использование связи между аллелями в гаплотипе позволяет определить, соответствуют ли измеренные генетические данные такому же гаплотипу при превалировании (а не случайном шуме). В противоположность этому, если разности между измеренными и ожидаемыми аллельными соотношениями обусловлены только шумом (например, ошибкой эксперимента), то согласно некоторым вариантам осуществления приблизительно в половине случаев первый гаплотип, по всей видимости, превалирует и приблизительно в половине случаев второй гаплотип, по всей видимости, превалирует.

Точность может быть увеличена с учетом связи между SNP и вероятностью кроссоверов, происходящих во время мейоза, которое приводит к гаметам, которые сформировали эмбрион, который перерос в плод. Использование связи при создании ожидаемого распределения измерений аллелей для одной или нескольких гипотез позволяет создавать ожидаемые распределения аллельных измерений, которые соответствуют действительности значительно лучше, чем когда связь не используется. Например, можно представить, что есть два SNP, 1 и 2, расположенные рядом друг с другом, а мать представляет собой A в SNP 1 и A в SNP 2 на одном гомологе, и B в SNP 1 и B в SNP 2 на гомологе два. Если отец представляет собой A для обоих SNP на обоих гомологах и B измеряется для SNP 1 плода, это указывает на то, что гомолог два унаследован плодом, и, следовательно, существует гораздо большая вероятность того, что B присутствует у плода в SNP 2. Модель, которая учитывает связь, может это предсказать, в то время как модель, которая не принимает во внимание связь, не может. С другой стороны, если мать представляет собой АВ в SNP 1 и АВ в соседнем SNP 2, то могут быть использованы две гипотезы, соответствующие материнской трисомии в этом положении - одна с участием нарушения расхождения сестринских хроматид (нерасхождение в мейозе II или митозе на ранних стадиях развития плода), и одна, предполагающая нарушение расхождения гомологичных хромосом (нерасхождение в мейозе I). В случае трисомии нарушения расхождения сестринских хроматид, если плод унаследовал AA от матери в SNP 1, то плод имеет гораздо больше шансов на наследование либо АА, либо BB от матери в SNP 2, но не АВ. В случае нарушение расхождения гомологичных хромосом плод наследует AB от матери в обоих SNP. Гипотезы аллельного распределения, выполненные с помощью способа распознавания CNV, который принимает во внимание связь, может сделать эти предсказания, и, следовательно, соответствует фактическим измерениям аллеля в значительно большей степени, чем способ распознавания CNV, который не принимает во внимание связь.

Согласно некоторым вариантам осуществления фазированные генетические данные используют для определения того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме индивидуума (например, в геноме одной или нескольких клеток или в вкДНК или вкРНК). Иллюстративные превышения включают в себя дупликацию первого гомологичного хромосомного сегмента или делецию второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления не существует превышения, так как первый и второй гомологичные хромосомные сегменты присутствуют в равных пропорциях (например, по одной копии каждого сегмента в диплоидном образце). Согласно некоторым вариантам осуществления вычисленные аллельные соотношения в образце нуклеиновой кислоты сравнивают с ожидаемыми аллельными соотношениями, чтобы определить, существует ли превышение, как описано далее ниже. В настоящем документе фраза "первый гомологичный хромосомный сегмент по сравнению со вторым гомологичным хромосомным сегментом" означает первый гомолог хромосомного сегмента и второй гомолог хромосомного сегмента.

Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентификатор аллеля, присутствующего в этом локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентификатор аллеля, присутствующего в данном локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, и получение измеренных генетических аллельных данных, содержащих, для каждого из аллелей в каждом из локусов в совокупности полиморфных локусов, количество каждого аллеля, присутствующего в образце ДНК или РНК из одной или нескольких клеток-мишеней и одной или нескольких клеток-немишеней от индивидуума. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, определяющих степень превалирования первого гомологичного хромосомного сегмента; вычисление для каждой из гипотез ожидаемых генетических данных для множества локусов в образце из полученных фазированных генетических данных для одного или нескольких возможных соотношений ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце; вычисление (например, вычисление на компьютере) для каждого возможного соотношения ДНК или РНК и для каждой гипотезы данных, согласующихся между полученными генетическими данными образца и ожидаемыми генетическими данными для образца для этого возможного соотношения ДНК или РНК и для этой гипотезы; ранжирование одной или нескольких гипотез соответственно согласованию данных и выбор гипотезы, которая занимает самое высокое положение при ранжировании, тем самым определяя степень превышения числа копий первого гомологичного хромосомного сегмента в геноме одной или нескольких клеток от индивидуума.

Согласно одному аспекту настоящее изобретение относится к способу определения числа копий представляющей интерес хромосомы или хромосомного сегмента в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных по меньшей мере для одного биологического родителя плода, причем фазированные генетические данные содержат идентификатор присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте у родителя. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в смешанном образце ДНК или РНК, содержащем фетальную ДНК или РНК и материнскую ДНК или РНК от матери плода, путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности одной или нескольких гипотез, указывающих на число копий представляющей интерес хромосомы или хромосомного сегмента, присутствующего в геноме плода. Согласно некоторым вариантам осуществления способ предусматривает создание (например, создание на компьютере) для каждой из гипотез распределения вероятности ожидаемого количества каждого аллеля в каждом из множества локусов в смешанном образце из (I) полученных фазированных генетических данных от родителя(ей) и необязательно (II) вероятности одного или нескольких кроссоверов, которые могут происходить при образовании гамет, что вносит вклад в копирование представляющей интерес хромосомы или хромосомного сегмента к плоду; вычисление (например, вычисление на компьютере) согласования для каждой из гипотез между (1) полученными генетическими данными смешанного образца и (2) распределением вероятности ожидаемого количества каждого аллеля в каждом из множества локусов в смешанном образце для этой гипотезы; ранжирования одной или нескольких гипотез в соответствии с согласованием данных и выбор гипотезы, которая занимает самое высокое положение при ранжировании, определяя тем самым число копий представляющего интерес хромосомного сегмента в геноме плода.

Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных с использованием любого из описанных в настоящей заявке способов или любого известного способа. Согласно некоторым вариантам осуществления способ предусматривает одновременное или последовательное в любом порядке (I) получение фазированных генетических данных для первого гомологичного хромосомного сегмента, содержащего идентификатор аллеля, присутствующего в данном локусе на первом гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте, (II) получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентификатор аллеля, присутствующего в данном локусе на втором гомологичном хромосомном сегменте, для каждого локуса в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте, и (III) получение измеренных генетических аллельные данных, содержащих количество каждого аллеля в каждом из локусов в совокупности полиморфных локусов в образце ДНК из одной или нескольких клеток от индивидуума.

Согласно некоторым вариантам осуществления способ предусматривает вычисление аллельных соотношений для одного или нескольких локусов в совокупности полиморфных локусов, которые представляют собой гетерозиготные по меньшей мере в одной клетке, из которой был получен образец (например, локусы, которые являются гетерозиготными у плода и/или гетерозиготными у матери). Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей (например, аллеля на первом гомологичном хромосомном сегменте), разделенное на измеренное количество одного или нескольких других аллелей (например, аллеля на втором гомологичном хромосомном сегменте) для локуса. Вычисленные аллельные соотношения могут быть вычислены с использованием любого из описанных в настоящей заявке способов или любого стандартного способа (например, любого математического преобразования вычисленных аллельных соотношений, описанного в настоящем документе).

Согласно некоторым вариантам осуществления способ предусматривает определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента, путем сравнения одного или нескольких вычисленных аллельных соотношений для локуса с аллельным соотношением, которое ожидается для этого локуса, если первый и второй гомологичные хромосомные сегменты присутствуют в равных пропорциях. Согласно некоторым вариантам осуществления ожидаемое аллельное соотношение предполагает, что возможные аллели для локуса характеризуются равной вероятностью присутствия. Согласно некоторым вариантам осуществления, в которых вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса, соответствующее ожидаемое аллельное соотношение составляет 0,5 для биаллельного локуса или 1/3 для триаллельного локуса. Согласно некоторым вариантам осуществления ожидаемое аллельное соотношение является одинаковым для всех локусов, например, 0,5 для всех локусов. Согласно некоторым вариантам осуществления ожидаемое аллельное соотношение предполагает, что возможные аллели для локуса могут иметь различную вероятность присутствия, например, вероятность на основе частоты каждого из аллелей в определенной популяции, к которой принадлежит субъект, например, популяция, на основе происхождения субъекта. Такие аллельные частоты находятся в открытом доступе (смотрите, например, HapMap Project; Perlegen Human Haplotype Project; web at ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward MH, Kholodov M, et al. dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1; 29(1): 308-11, каждая из которых полностью включена посредством ссылки). Согласно некоторым вариантам осуществления ожидаемое аллельное соотношение представляет собой аллельное соотношение, которое ожидается для конкретного исследуемого индивидуума для конкретной гипотезы, задающей степень превалирования первого гомологичного хромосомного сегмента. Например, ожидаемое аллельное соотношение для конкретного индивидуума может быть определено на основе фазированных или нефазированных генетических данных от индивидуума (например, из образца от индивидуума, который маловероятно будет иметь делецию или дупликацию, например, незлокачественного образца) или данных от одного или нескольких родственников индивидуума. Согласно некоторым вариантам осуществления для пренатальной диагностики ожидаемое аллельное соотношение представляет собой аллельное соотношение, которое ожидается для смешанного образца, который включает в себя ДНК или РНК от беременной матери и плода (например, образец материнской плазмы или сыворотки, который включает в себя вкДНК от матери и вкДНК от плода) для конкретной гипотезы, задающей степень превалирования первого гомологичного хромосомного сегмента. Например, ожидаемое аллельное соотношение для смешанного образца может быть определено на основе генетических данных от матери и предсказанных генетических данных для плода (например, предсказания для аллелей, которые плод, возможно, унаследовали от матери и/или отца). Согласно некоторым вариантам осуществления фазированные или нефазированные генетические данные из образца ДНК или РНК, полученные только от матери (например, лейкоцитарный слой из образца материнской крови), определяют аллели из материнской ДНК или РНК в смешанном образце, а также аллели, которые плод возможно унаследовал от матери (и, таким образом, могут присутствовать в фетальной ДНК или РНК в смешанном образце). Согласно некоторым вариантам осуществления фазированные или нефазированные генетические данные из образца ДНК или РНК только от отца используют, чтобы определить аллели, которые плод возможно унаследовал от отца (и, таким образом, могут присутствовать в фетальной ДНК или РНК в смешанном образце). Ожидаемые аллельные соотношения могут быть вычислены с использованием любого из описанных в настоящей заявке способов или любого стандартного способа (например, любого математического преобразования ожидаемых аллельных соотношений, описанных в настоящем документе) (публикация патента США №2012/0270212, поданная 18 ноября 2011 г., которая полностью включена в настоящий документ посредством ссылки).

Согласно некоторым вариантам осуществления вычисленное аллельное соотношение свидетельствует о превышении числа копий первого гомологичного хромосомного сегмента, если (I) аллельное соотношение для измеренного количества аллеля, присутствующего в этом локусе на первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, больше, чем ожидаемое аллельное соотношение для этого локуса, или (II) аллельное соотношение для измеренного количества аллеля, присутствующего в этом локусе на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше, чем ожидаемое аллельное соотношение для этого локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение только считается показателем превышения, если оно значительно больше или меньше, чем ожидаемое соотношение для данного локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение представляет собой показатель не превышения числа копий первого гомологичного хромосомного сегмента, если (I) аллельное соотношение для измеренного количества аллеля, присутствующего в этом локусе на первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше или равно ожидаемому аллельному соотношению для этого локуса, или (II) аллельное соотношение для измеренного количества аллеля, присутствующего в этом локусе на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, больше или равно ожидаемому аллельному соотношению для этого локуса. Согласно некоторым вариантам осуществления вычисленные отношения, равные соответствующему ожидаемому соотношению, игнорируются (поскольку они указывают на отсутствие превышения).

Согласно различным вариантам осуществления один или нескольких из следующих способов используют для сравнения одного или нескольких вычисленных аллельных соотношений с соответствующим ожидаемым аллельным соотношением(ями). Согласно некоторым вариантам осуществления он определяет, выше или ниже вычисленное аллельное соотношение, чем ожидаемое аллельное соотношение для конкретного локуса независимо от величины разницы. Согласно некоторым вариантам осуществления он определяет величину разницы между вычисленным аллельным соотношением и ожидаемым аллельным соотношением для конкретного локуса независимо от того, выше или ниже вычисленное аллельное соотношение, чем ожидаемое аллельное соотношение. Согласно некоторым вариантам осуществления он определяет, выше или ниже вычисленное аллельное соотношение, чем ожидаемое аллельное соотношение, и величину разницы для конкретного локуса. Согласно некоторым вариантам осуществления он определяет, выше или ниже среднее или средневзвешенное значение вычисленных аллельных соотношений, чем среднее или средневзвешенное значение ожидаемых аллельных соотношений, независимо от величины разницы. Согласно некоторым вариантам осуществления он определяет величину разницы между средним или средневзвешенным значением вычисленных аллельных соотношений и средним или средневзвешенным значением ожидаемых аллельных соотношений, независимо от того, выше или ниже среднее или средневзвешенное вычисленное аллельное соотношение, чем среднее или средневзвешенное значение ожидаемых аллельных соотношений. Согласно некоторым вариантам осуществления он определяет, выше или ниже среднее или средневзвешенное вычисленное аллельное соотношение, чем среднее или средневзвешенное значение ожидаемых аллельных соотношений, и величину разницы. Согласно некоторым вариантам осуществления он определяет среднее или средневзвешенное значение величины разницы между вычисленными аллельными соотношениями и ожидаемыми аллельными соотношениями.

Согласно некоторым вариантам осуществления величина разницы между вычисленным аллельным соотношением и ожидаемым аллельным соотношением для одного или нескольких локусов используется для определения того, превышает ли число копий первого гомологичной хромосомного сегмента из-за дупликации первого гомологичного хромосомного сегмента или делеции второго гомологичного хромосомного сегмента в геноме одной или нескольких клеток.

Согласно некоторым вариантам осуществления превышение числа копий первого гомологичного хромосомного сегмента определяется как присутствующее, если удовлетворяется одно или несколько из следующих условий. Согласно некоторым вариантам осуществления количество вычисленных аллельных соотношений, которое свидетельствует о превышении числа копий первого гомологичного хромосомного сегмента, выше порогового значения. Согласно некоторым вариантам осуществления количество вычисленных аллельных соотношений, которое свидетельствует о превышении числа копий первого гомологичного хромосомного сегмента, ниже порогового значения. Согласно некоторым вариантам осуществления настоящего изобретения величина разницы между вычисленными аллельными соотношениями, которая свидетельствует о превышении числа копий первого гомологичного хромосомного сегмента, и соответствующих ожидаемых аллельных соотношений выше порогового значения. Согласно некоторым вариантам осуществления для всех вычисленных аллельных соотношений, которые свидетельствуют о превалировании, сумма величины разницы между вычисленным аллельным соотношением и соответствующим ожидаемым аллельным соотношением выше порогового значения. Согласно некоторым вариантам осуществления величина разницы между вычисленными аллельными соотношениями, которые свидетельствуют об отсутствии превышения числа копий первого гомологичного хромосомного сегмента, и соответствующими ожидаемыми аллельными соотношениями ниже порогового значения. Согласно некоторым вариантам осуществления среднее или средневзвешенное значение вычисленных аллельных соотношений для измеренного количества аллеля, присутствующего на первой гомологичной хромосоме, деленное на общее отмеренное количество всех аллелей для локуса, больше среднего или средневзвешенного значения ожидаемых аллельных соотношений по меньшей мере на пороговое значение. Согласно некоторым вариантам осуществления среднее или средневзвешенное значение вычисленных аллельных соотношений для измеренного количества аллеля, присутствующего на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше среднего или средневзвешенного значения ожидаемых аллельных соотношений по меньшей мере на пороговое значение. Согласно некоторым вариантам осуществления совпадение данных между вычисленными аллельными соотношениями и аллельными соотношениями, которые прогнозируются для превышения числа копий первого гомологичного хромосомного сегмента, ниже порогового значения (показатель хорошего совпадения данных). Согласно некоторым вариантам осуществления совпадение данных между вычисленными аллельными соотношениями и аллельными соотношениями, которые прогнозируются для отсутствия превышения числа копий первого гомологичного хромосомного сегмента, выше порогового значения (показатель слабого совпадения данных).

Согласно некоторым вариантам осуществления превышение числа копий первого гомологичного хромосомного сегмента определяется как отсутствующее, если выполняется одно или несколько из следующих условий. Согласно некоторым вариантам осуществления количество вычисленных аллельных соотношений, которое свидетельствуют о превышении числа копий первого гомологичного хромосомного сегмента, ниже порогового значения. Согласно некоторым вариантам осуществления количество вычисленных аллельных соотношений, которое свидетельствуют об отсутствии превышения числа копий первого гомологичного хромосомного сегмента, выше порогового значения. Согласно некоторым вариантам осуществления величина разницы между вычисленными аллельными соотношениями, которые свидетельствуют о превышении числа копий первого гомологичного хромосомного сегмента, и соответствующими ожидаемыми аллельными соотношениями ниже порогового значения. Согласно некоторым вариантам осуществления величина разницы между вычисленными аллельными соотношениями, которые свидетельствуют о превышении числа копий первого гомологичного хромосомного сегмента, и соответствующими ожидаемыми аллельными соотношениями, ниже порогового значения. Согласно некоторым вариантам осуществления среднее или средневзвешенное значение вычисленных аллельных соотношений для измеряемого количества аллеля, присутствующего на первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса минус среднее или средневзвешенное значение ожидаемых аллельных соотношений, меньше, чем пороговое значение. Согласно некоторым вариантам осуществления среднее или средневзвешенное значение ожидаемых аллельных соотношений минус среднее или средневзвешенное значение вычисленных аллельных соотношений для измеряемого количества аллеля, присутствующего на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше, чем пороговое значение. Согласно некоторым вариантам осуществления совпадение данных между вычисленными аллельными соотношениями и аллельными соотношениями, которые прогнозируются для превышения числа копий первого гомологичного хромосомного сегмента, выше порогового значения. Согласно некоторым вариантам осуществления совпадение данных между вычисленными аллельными соотношениями и аллельными соотношениями, которые прогнозируются для отсутствия превышения числа копий первого гомологичного хромосомного сегмента, ниже порогового значения. Согласно некоторым вариантам осуществления пороговое значение определяется из эмпирической проверки образцов, про которые известно, что они содержат представляющие интерес CNV, и/или образцов, про которые известно, что они не содержат CNV.

Согласно некоторым вариантам осуществления определение того, существует ли превышение числа копий первого гомологичного хромосомного сегмента, предусматривает перечисление совокупности из одной или нескольких гипотез, определяющих степень превышения первого гомологичного хромосомного сегмента. Иллюстративная гипотеза представляет собой отсутствие превышения, поскольку первый и второй гомологичные хромосомные сегменты присутствуют в равных пропорциях (например, по одной копии каждого сегмента в диплоидном образце). Другие иллюстративные гипотезы включают в себя первый гомологичный хромосомный сегмент, дублированный один или несколько раз (например, 1, 2, 3, 4, 5 или нескольких дополнительных копий первой гомологичной хромосомы по сравнению с числом копий второго гомологичного хромосомного сегмента). Другая иллюстративная гипотеза предусматривает удаление второго гомологичного хромосомного сегмента. Еще одна иллюстративная гипотеза представляет собой удаление, как первого, так и второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления прогнозируемые аллельные соотношения для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусы, которые являются гетерозиготными у плода и/или гетерозиготными у матери), оценивают для каждой гипотезы с учетом степени превышения, заданного данной гипотезой. Согласно некоторым вариантам осуществления вероятность того, что гипотеза верна, вычисляют посредством сравнения вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, и выбирают гипотезу с наибольшим правдоподобием.

Согласно некоторым вариантам осуществления ожидаемое распределение статистики критерия вычисляется с использованием предсказанных аллельных соотношений для каждой гипотезы. Согласно некоторым вариантам осуществления вероятность того, что гипотеза верна, рассчитывается путем сравнения статистики критерия, которую рассчитывают с использованием вычисленных аллельных соотношений с ожидаемым распределением статистики критерия, которую рассчитывают с использованием прогнозируемых аллельных соотношений, и выбирают гипотезу с наибольшей вероятностью.

Согласно некоторым вариантам осуществления прогнозируемые аллельные соотношения для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусы, которые являются гетерозиготными у плода и/или гетерозиготными у матери), оценивают с учетом фазированных генетических данных для первого гомологичного хромосомного сегмента, фазированных генетических данных для второго гомологичного хромосомного сегмента, а степень превышение задается этой гипотезой. Согласно некоторым вариантам осуществления вероятность того, что гипотеза верна, рассчитывают путем сравнения вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями и выбирают гипотезу с наибольшей вероятностью.

Использование смешанных образцов

Следует понимать, что для многих вариантов осуществления образец представляет собой смешанный образец с ДНК или РНК из одной или нескольких клеток-мишеней и одной или нескольких клеток-немишеней. Согласно некоторым вариантам осуществления клетки-мишени представляют собой клетки, у которых есть CNV, такие как представляющая интерес делеция или дупликация, и клетки-немишени представляют собой клетки, в которых нет представляющей интерес вариации числа копий (например, исследуемая смесь клеток с представляющей интерес делецией или дупликацией и клеток без каких-либо делеции или дупликаций). Согласно некоторым вариантам осуществления клетки-мишени представляют собой клетки, которые связаны с заболеванием или нарушением или повышенным риском развития заболевания или нарушения (например, злокачественные клетки), а клетки-немишени представляют собой клетки, которые не связаны с заболеванием или нарушением или повышенным риском развития заболевания или нарушения (например, незлокачественные клетки). Согласно некоторым вариантам осуществления клетки-мишени характеризуются наличием одинаковых CNV. Согласно некоторым вариантам осуществления две или более клеток-мишеней характеризуются наличием разных CNV. Согласно некоторым вариантам осуществления одна или нескольких клеток-мишеней характеризуются наличием CNV, полиморфизма или мутации, связанной с заболеванием или нарушением или повышенным риском развития заболевания или нарушения, которые не обнаруживаются по меньшей мере в одной другой клетке-мишени. Согласно некоторым таким вариантам осуществления предполагается, что доля клеток, которые связаны с заболеванием или нарушением или повышенным риском развития заболевания или нарушения от общего количества клеток из образца больше или равна доле наиболее частых из этих CNV, полиморфизмов или мутаций в образце. Например, если 6% клеток характеризуются наличием мутации K-ras и 8% клеток характеризуются наличием мутации BRAF, по меньшей мере 8% этих клеток считаются злокачественными.

Согласно некоторым вариантам осуществления вычисляют отношение ДНК (или РНК) из одной или нескольких клеток-мишеней к общей ДНК (или РНК) в образце. Согласно некоторым вариантам осуществления перечисляют совокупность из одной или нескольких гипотез, задающих степень превалирования первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления для каждой гипотезы оценивают прогнозируемые аллельные соотношения для локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери), оцениваются с учетом вычисленного соотношения ДНК или РНК и степени превышения, заданной этой гипотезе. Согласно некоторым вариантам осуществления вероятность того, что гипотеза верна, рассчитывается путем сравнения вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, и выбирают гипотезу с наибольшей вероятностью.

Согласно некоторым вариантам осуществления ожидаемое распределение статистики критерия вычисляют с использованием предсказанных аллельных соотношений и оценивают вычисленное отношение ДНК или РНК для каждой гипотезы. Согласно некоторым вариантам осуществления вероятность того, что гипотеза верна, определяют путем сравнения статистики критерия, рассчитанной с использованием вычисленных аллельных соотношений и вычисленного отношения ДНК или РНК с ожидаемым распределением статистики критерия, вычисленной с использованием прогнозируемых аллельных соотношений и вычисленного отношения ДНК или РНК, и выбирают гипотезу с наибольшей вероятностью.

Согласно некоторым вариантам осуществления способ предусматривает перечисление совокупности из одной или нескольких гипотез, задающих степень превалирования первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления настоящего изобретения способ предусматривает оценку, для каждой гипотезы, либо (I) прогнозируемых аллельных соотношений локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери), учитывая степень превышения, определяемую этой гипотезой, либо (II) для одного или нескольких возможных соотношений ДНК или РНК, ожидаемого распределения статистики критерия, вычисленного с использованием прогнозируемых аллельных соотношений и возможного соотношения ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце. Согласно некоторым вариантам осуществления совпадение данных рассчитывают путем сравнения либо (I), вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, либо (II) статистики критерия, рассчитанной с использованием вычисленных аллельных соотношений и возможного соотношения ДНК или РНК, с ожидаемым распределением статистики критерия, вычисленной с использованием прогнозируемых аллельных соотношений и возможного соотношения ДНК или РНК. Согласно некоторым вариантам осуществления одну или нескольких из гипотез ранжируют по совпадению данных и выбирают гипотезу, которая занимает самое высокое положение при ранжировании. Согласно некоторым вариантам осуществления технику или алгоритм, например, алгоритм поиска, используют для одной или нескольких следующих стадий: вычисление совпадения данных, ранжирование гипотез или выбор гипотезы, которая занимает самое высокое положение при ранжировании. Согласно некоторым вариантам осуществления совпадение данных представляет собой совпадение с бета-биномиальным распределением или совпадение с биномиальным распределением. Согласно некоторым вариантам осуществления технику или алгоритм выбирают из группы, состоящей из оценки по максимуму правдоподобия, оценки с помощью апостериорного максимума, Байесовской оценки, динамической оценки (например, динамической Байесовской оценки) и оценки на основе максимизации ожидания. Согласно некоторым вариантам осуществления способ предусматривает применение техники или алгоритма к полученным генетическим данных и ожидаемым генетическим данным.

Согласно некоторым вариантам осуществления способ предусматривает создание разложения возможных соотношений, которые варьируют от нижнего предела до верхнего предела для отношения ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце. Согласно некоторым вариантам осуществления перечислена совокупность из одной или нескольких гипотез, указывающих на степень превалирования первого гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления способ предусматривает оценку, для каждого из возможных соотношений ДНК или РНК в разложении и для каждой гипотезы, либо (I) прогнозируемых аллельных соотношений локусов, которые являются гетерозиготными по меньшей мере в одной клетке (например, локусов, которые являются гетерозиготными у плода и/или гетерозиготными у матери), учитывая возможное соотношение ДНК или РНК и степень превалирования, определенную этой гипотезой, либо (II) ожидаемого распределения статистики критерия, рассчитанной с использованием прогнозируемых аллельных соотношений и возможного отношения ДНК или РНК. Согласно некоторым вариантам осуществления способ предусматривает вычисление, для каждого из возможных соотношений ДНК или РНК в разложении и для каждой гипотезы, вероятность того, что гипотеза верна путем сравнения либо (I) вычисленных аллельных соотношений с прогнозируемыми аллельными соотношениями, либо (II) статистики критерия, рассчитанной с использованием вычисленных аллельных соотношений и возможного соотношения ДНК или РНК с ожидаемым распределением статистики критерия, рассчитанной с использованием прогнозируемых аллельных соотношений и возможного соотношения ДНК или РНК. Согласно некоторым вариантам осуществления совместную вероятность для каждой гипотезы определяют путем объединения вероятностей этой гипотезы для каждого из возможных соотношений в разложении; и выбирают гипотезу с наибольшей совместной вероятностью. Согласно некоторым вариантам осуществления совместную вероятность для каждой гипотезы определяют путем взвешивания вероятности гипотезы для конкретного возможного соотношения на основе вероятности того, что это возможно соотношение представляет собой правильное соотношение.

Согласно некоторым вариантам осуществления технику, выбранную из группы, состоящей из оценки по максимуму правдоподобия, оценки с помощью апостериорного максимума, Байесовской оценки, динамической оценки (например, динамической Байесовской оценки) и оценки на основе максимизации ожидания, используют для оценки соотношения ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце. Согласно некоторым вариантам осуществления предполагается, что отношение ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце одинаковое для двух или более (или всех) представляющих интерес CNV. Согласно некоторым вариантам осуществления отношение ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце вычисляют для каждой представляющей интерес CNV.

Иллюстративные способы использования недостаточно фазированных данных

Следует понимать, что для многих вариантов осуществления используются недостаточно фазированные данные. Например, может быть не известно со 100% уверенностью, какой аллель присутствует для одного или нескольких локусов на первом и/или втором гомологичном хромосомном сегменте. Согласно некоторым вариантам осуществления априорные вероятности для возможных гаплотипов индивидуума (например, гаплотипов основанных на популяции частот гаплотипов) используют при вычисления вероятности каждой гипотезы. Согласно некоторым вариантам осуществления априорные вероятности для возможных гаплотипов сглаживаются либо с использованием другого способа для фазирования генетических данных, либо с помощью фазированных данных от других субъектов (например, предыдущих субъектов) для уточнения демографических данных для основанного на информатике фазирования индивидуума.

Согласно некоторым вариантам осуществления фазированные генетические данные содержат вероятностные данные для двух или более возможных совокупностей фазированных генетических данных, причем каждая из возможных совокупностей фазированных данных содержит возможную идентификацию аллеля, присутствующего в каждом локусе во множестве полиморфных локусов на первом гомологичном хромосомном сегменте, и возможную идентификацию аллеля, присутствующего в каждом локусе в совокупности полиморфных локусов на втором гомологичном хромосомном сегменте. Согласно некоторым вариантам осуществления вероятность по меньшей мере для одной из гипотез определяют для каждой из возможных совокупностей фазированных генетических данных. Согласно некоторым вариантам осуществления совместную вероятность для гипотезы определяют путем объединения вероятностей гипотезы для каждой из возможных совокупностей фазированных генетических данных; и выбирают гипотезу с наибольшей совместной вероятностью.

Любой из раскрытых в настоящем документе способов или любой известный способ может быть использован для получения недостаточно фазированных данных (например, использование основанных на популяциях частот гаплотипов для выведения наиболее вероятной фазы) для использования в заявленных способах. Согласно некоторым вариантам осуществления фазированные данные получают путем вероятностного комбинирования гаплотипов небольших сегментов. Например, возможные гаплотипы могут быть определены на основании возможных комбинаций одного гаплотипа из первой области с другим гаплотипом из другой области из той же самой хромосомы. Вероятность того, что отдельные гаплотипы из разных областей представляют собой часть того же, большего блока гаплотипов на той же хромосоме может быть определена с использованием, например, основанных на популяциях частот гаплотипов и/или известных скоростей рекомбинации между различными областями.

Согласно некоторым вариантам осуществления используется тест отвержения одной гипотезы для нулевой гипотезы дисомии. Согласно некоторым вариантам осуществления вычисляется вероятность гипотезы дисомии и гипотеза дисомии отвергается, если вероятность меньше заданного порогового значения (например, менее чем 1 на 1000). Если нулевая гипотеза отвергается, это может происходить из-за ошибок в недостаточно фазированных данных или из-за наличия CNV. Согласно некоторым вариантам осуществления получают более точные фазированные данные (например, фазированные данные от любого из способов молекулярного фазирования, раскрытых в настоящем документе, чтобы получить фактические фазированные данные, а не основанные на биоинформатике предполагаемые фазированные данные). Согласно некоторым вариантам осуществления вероятность гипотезы дисомии пересчитывается с использованием более точных фазированных данных, чтобы определить, должна ли гипотеза дисомии по-прежнему отвергаться. Отвержение этой гипотезы свидетельствует о том, что дупликация или делеция хромосомного сегмента присутствует. При желании, процент ложных срабатываний может быть изменен путем изменения порогового значения.

Дополнительные иллюстративные варианты осуществления для определения плоидности с использованием фазированных данных

Согласно иллюстративным вариантам осуществления в настоящем документе предусмотрен способ определения плоидности хромосомного сегмента в образце индивидуума. Способ предусматривает следующие стадии:

a. получение данных о частотах аллелей, содержащих количество каждого аллеля, присутствующего в образце в каждом локусе в совокупности локусов на хромосомном сегменте;

b. получение фазированной аллельной информации для совокупности локусов путем оценки фазы данных о частотах аллелей;

c. получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности с использованием данных по частотам аллелей;

d. получение совместных вероятностей для совокупности полиморфных локусов с использованием отдельных вероятностей и фазированной аллельной информации; а также

e. выбор, основанный на совместных вероятностях, лучшей модели совпадения, указывающей на хромосомную плоидность, тем самым определяя плоидность хромосомного сегмента.

Как описано в настоящем документе, данные о частотах аллелей (также называемые в настоящем документе измеренными генетическими аллельными данными) могут быть получены способами, известными в настоящей области техники. Например, данные могут быть получены с использованием кПЦР или микроматричного анализа. Согласно одному иллюстративному варианту осуществления данные получают с использованием данных о последовательности нуклеиновой кислоты, в особенности, данные о последовательности нуклеиновой кислоты с высокой пропускной способностью.

Согласно некоторым иллюстративным примерам данные о частотах аллелей корректируется на наличие ошибок до того, как они используются для получения индивидуальных вероятностей. Согласно конкретным иллюстративным вариантам осуществления ошибки, которые исправляются, включают в себя систематическую ошибку эффективности амплификации аллелей. Согласно другим вариантам осуществления ошибки, которые исправляются, включают в себя загрязнение окружающей среды и загрязнение генотипа. Согласно некоторым вариантам осуществления ошибки, которые исправляются, включают в себя систематическую ошибку амплификации аллелей, загрязнение окружающей среды и загрязнение генотипа.

Согласно некоторым вариантам осуществления индивидуальные вероятности получают с использованием совокупности моделей, как различных состояний плоидности, так и фракции аллельного дисбаланса для совокупности полиморфных локусов. Согласно этим вариантам осуществления и другим вариантам осуществления совместные вероятности получают с учетом взаимосвязи между полиморфными локусами на хромосомном сегменте.

Соответственно, согласно одному иллюстративному варианту осуществления, который объединяет некоторые из этих вариантов осуществления, в настоящем документе предусмотрен способ определения хромосомной плоидности в образце индивидуума, который предусматривает следующие стадии:

a. получение данных о последовательностях нуклеиновых кислот для аллелей в совокупности локусов в хромосомном сегменте у индивидуума;

b. обнаружение частот аллелей в совокупности локусов с использованием данных о последовательностях нуклеиновых кислот;

c. коррекция систематической ошибки эффективности амплификации аллелей в обнаруженных частотах аллелей для получения скорректированных частот аллелей для совокупности полиморфных локусов;

d. получение фазированной аллельной информации для совокупности полиморфных локусов путем оценки фазы данных о последовательностях нуклеиновых кислот;

e. получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения скорректированных частот аллелей с совокупностью моделей различных состояний плоидности и фракций аллельных дисбалансов совокупности полиморфных локусов;

f. получение совместных вероятностей для совокупности локусов путем объединения индивидуальных вероятностей с учетом связи между полиморфными локусами на хромосомном сегменте; а также

g. выбор, основанный на совместных вероятностях, модели наилучшего совпадения, указывающей на хромосомную анеуплоидию.

Как описано в настоящем документе, отдельные вероятности могут быть получены с использованием совокупности моделей или гипотез, как различных состояний плоидности, так и фракций среднего аллельного дисбаланса для множества полиморфных локусов. Например, в особенно иллюстративном примере отдельные вероятности получают путем моделирования состояний плоидности первого гомологичного хромосомного сегмента и второго гомологичного хромосомного сегмента. Состояния плоидности, которые моделируются, включают в себя следующие:

(1) все клетки не содержат делецию или амплификацию первого гомолога или второго гомолога хромосомного сегмента;

(2) по меньшей мере некоторые клетки содержат делецию первого гомолога или амплификацию второго гомолога хромосомного сегмента; а также

(3) по меньшей мере некоторые клетки содержат делецию второго гомолога или амплификацию первого гомолога хромосомного сегмента.

Следует понимать, что вышеуказанные модели также могут быть отнесены к гипотезе, которую используют для ограничения модели. Таким образом, выше представлены 3 гипотезы, которые могут быть использованы.

Смоделированные фракции среднего аллельного дисбаланса могут включать в себя любой диапазон среднего аллельного дисбаланса, который включает в себя фактический средний аллельный дисбаланс хромосомного сегмента. Например, согласно некоторым иллюстративным вариантам осуществления диапазон моделируемого среднего аллельного дисбаланса может быть в пределах от 0, 0,1, 0,2, 0,25, 0,3, 0,4, 0,5, 0,6, 0,75, 1, 2, 2,5, 3, 4 и 5% на нижнем уровне до 1, 2, 2,5, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70 80 90, 95 и 99% на верхнем уровне. Интервалы для моделирования с диапазоном могут представлять собой любой интервал в зависимости от используемой вычислительной мощности и времени, отведенного для анализа. Например, могут быть смоделированы интервалы 0,01, 0,05, 0,02 или 0,1.

Согласно некоторым иллюстративным вариантам осуществления образец характеризуется средним аллельным дисбалансом для хромосомного сегмента от 0,4% до 5%. Согласно некоторым вариантам осуществления средний аллельный дисбаланс представляет собой низкий. Согласно этим вариантам осуществления средний аллельный дисбаланс составляет, как правило, менее чем 10%. Согласно некоторым иллюстративным вариантам осуществления аллельный дисбаланс составляет от 0,25, 0,3, 0,4, 0,5, 0,6, 0,75, 1, 2, 2,5, 3, 4 и 5% на нижнем уровне до 1,2, 2,5, 3, 4 и 5% на верхнем уровне. Согласно другим иллюстративным вариантам осуществления средний аллельный дисбаланс составляет от 0,4, 0,45, 0,5, 0,6, 0,7, 0,8, 0,9 или 1,0% на нижнем уровне до 0,5, 0,6, 0,7, 0,8, 0,9, 1,0, 1,5, 2,0, 3,0, 4,0 или 5,0% на верхнем уровне. Например, средний аллельный дисбаланс образца в иллюстративном примере составляет от 0,45 до 2,5%. В другом примере средний аллельный дисбаланс обнаруживается с чувствительностью 0,45, 0,5, 0,6, 0,8, 0,8, 0,9 или 1,0. Иллюстративный образец с низким аллельным дисбалансом в способах согласно настоящему изобретению включает в себя образцы плазмы от индивидуумов со злокачественной опухолью, содержащих циркулирующую опухолевую ДНК, или образцы плазмы от беременных женщин, содержащих циркулирующую ДНК плода.

Следует понимать, что для SNV долю аномальной ДНК, как правило, измеряют с использованием частоты мутантных аллелей (число мутантных аллелей в локусе/общее число аллелей в этом локусе). Так как разница между количествами двух гомологов в опухолях аналогична, авторы настоящего изобретения измеряли долю аномальной ДНК для CNV с помощью среднего аллельного дисбаланса (AAI), который определяется как |(H1-H2)|/(H1+H2), где Hi представляет собой среднее число копий гомолога i в образце и Hi/(H1+H2) представляет собой относительную распространенность, или отношение гомологов, гомолога i. Максимальное отношение гомологов представляет собой отношение гомологов более распространенного гомолога.

Анализ частоты отсева представляет собой процент SNP без прочтений, оцениваемый с использованием всех SNP. Частота одноаллельного исключения (ADO) представляет собой процент SNP только с одной аллелью, оцениваемый с использованием только гетерозиготных SNP. Доверительный интервал генотипа может быть определен путем сопоставления биномиального распределения с числом прочтений в каждом SNP, которые представляли собой B-аллельные прочтения, и использование статуса плоидности фокальной области SNP, чтобы оценить вероятность каждого генотипа.

Для получения образцов опухолевых тканей, хромосомная анеуплоидия (представлена на примере I этого раздела с помощью CNV) может быть выражена переходами между распределениями частот аллелей. В образцах плазмы, CNV могут быть идентифицированы с помощью алгоритма максимального правдоподобия, который ищет CNV плазмы в тех областях, где опухолевый образец от того же индивидуума также имеет CNV, используя информацию о гаплотипе, выведенную из опухолевого образца. Этот алгоритм может моделировать ожидаемые частоты аллелей во всех соотношениях аллельного дисбаланса в интервалах 0,025% для трех совокупностей гипотез: (1) все клетки представляют собой нормальные (нет аллельного дисбаланса), (2) некоторые/все клетки характеризуются наличием делеции гомолога 1 или амплификации гомолога 2 или (3) некоторые/все клетки характеризуются наличием делеции гомолога 2 или амплификации гомолога 1. Вероятность каждой гипотезы может быть определена в каждом SNP, используя Байесовский классификатор, основанный на бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей во всех гетерозиготных SNP, а затем может быть вычислена совместная вероятность на нескольких SNP, согласно некоторым иллюстративным вариантам осуществления, принимая связь локусов SNP в рассмотрение в качестве примера в настоящем документе. Может быть выбрана гипотеза максимального правдоподобия.

Можно рассмотреть хромосомную область со средним числом копий N в опухоли, и пусть с обозначает фракцию ДНК в плазме, полученную из смеси нормальных и опухолевых клеток в дисомной области. AAI вычисляют следующим образом:

В некоторых иллюстративных примерах данные о частотах аллелей корректируется на наличие ошибок, прежде чем они используются для получения индивидуальных вероятностей. В настоящем документе раскрыты различные типы ошибок и/или коррекция стандартных ошибок. Согласно конкретным иллюстративным вариантам осуществления ошибки, которые корректируются, представляют собой систематические ошибки эффективности аллельной амплификации. Согласно другим вариантам осуществления ошибки, которые корректируются, включают в себя загрязнение окружающей среды и загрязнение генотипа. Согласно некоторым вариантам осуществления ошибки, которые корректируются, включают в себя систематические ошибки аллельной амплификации, загрязнение окружающей среды и загрязнение генотипа.

Следует понимать, что систематические ошибки эффективности аллельной амплификации могут быть определены для аллеля как части экспериментального или лабораторного определения, которое осуществляется на исследуемом образце, или они могут быть определены в разное время с использованием совокупности образцов, которые включают в себя аллель, эффективность которого вычисляется. Загрязнение окружающей среды и загрязнение генотипа, как правило, определяют в том же пробеге, что и анализ исследуемого образца.

Согласно некоторым вариантам осуществления загрязнение окружающей среды и загрязнение генотипа определяют для гомозиготных аллелей в образце. Следует понимать, что для любого данного образца из индивидуума некоторые локусы в образце будут гетерозиготными, а другие будут гомозиготными, даже если локус выбран для анализа по причине того, что он имеет относительно высокую гетерозиготность в популяции. Целесообразно согласно некоторым вариантам осуществления, хотя плоидность хромосомного сегмента может быть определена с использованием гетерозиготных локусов для индивидуума, гомозиготные локусы могут быть использованы для вычисления загрязнения окружающей среды и генотипа.

В некоторых иллюстративных примерах выбор выполняется путем анализа величины разницы между фазированной аллельной информацией и оцененными аллельными частотами, полученными для моделей.

В иллюстративных примерах отдельные вероятности частот аллелей получают на основе бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей в совокупности полиморфных локусов. В иллюстративных примерах индивидуальные вероятности получают с использованием Байесовского классификатора.

Согласно некоторым иллюстративным вариантам осуществления настоящего изобретения данные о последовательности нуклеиновой кислоты получают путем выполнения секвенирования ДНК с высокой пропускной способностью множества копий серии ампликонов, полученных с использованием мультиплексной реакции амплификации, причем каждый ампликон серии ампликонов охватывает по меньшей мере один полиморфный локус совокупности локусов и причем каждый из полимерных локусов совокупности амплифицируется. Согласно некоторым вариантам осуществления мультиплексную реакцию амплификации осуществляют в условиях ограниченного количества праймера по меньшей мере для реакций. Согласно некоторым вариантам осуществления ограничивающие концентрации праймера используют в 1/10, 1/5, , 1/3, или всех реакциях мультиплексной реакции. В настоящем документе предусмотрены факторы, которые необходимо учитывать для достижения условий ограниченного количества праймера в реакции амплификации, такой как ПЦР.

Согласно некоторым вариантам осуществления предусмотренные в настоящем документе способы обнаруживают плоидность для нескольких хромосомных сегментов на нескольких хромосомах. Соответственно, хромосомную плоидность в этих вариантах осуществления определяют для совокупности хромосомных сегментов в образце. Для этих вариантов осуществления необходимы более высокоэффективные реакции мультиплексной амплификации. Соответственно, для этих вариантов осуществления мультиплексная реакция амплификации может включать в себя, например, от 2500 до 50000 мультиплексных реакций. Согласно некоторым вариантам осуществления проводят следующие диапазоны мультиплексных реакций: от 100, 200, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000, 50000 на нижнем уровне диапазона и до 200, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000, 50000 и 100000 на верхнем уровне диапазона.

Согласно иллюстративным вариантам осуществления совокупность полиморфных локусов представляет собой совокупность локусов, которые, как известно, обладают высокой гетерозиготностью. Тем не менее, предполагается, что для любого данного индивидуума некоторые из этих локусов будут гомозиготными. Согласно некоторым иллюстративным вариантам осуществления способы по настоящему изобретению используют информацию о последовательности нуклеиновой кислоты, как для гомозиготных, так и гетерозиготных локусов для индивидуума. Гомозиготные локусы индивидуума используются, например, для коррекции ошибок, тогда как гетерозиготные локусы используются для определения аллельного дисбаланса образца. Согласно некоторым вариантам осуществления по меньшей мере 10% полиморфных локусов представляют собой гетерозиготные локусы для индивидуума.

Как описано в настоящем документе, предпочтение отдается для анализа локусов SNP-мишеней, которые, как известно, являются гетерозиготными в популяции. Соответственно, согласно некоторым вариантам осуществления выбирают локусы, в которых по меньшей мере 10, 20, 25, 50, 75, 80, 90, 95, 99 или 100% от полиморфных локусов с известной гетерозиготностью в популяции.

Как описано в настоящем документе, согласно некоторым вариантам осуществления образец представляет собой образец плазмы от беременной особи женского пола.

В некоторых примерах способ дополнительно предусматривает выполнение способа на контрольном образце с известным средним соотношением аллельного дисбаланса. Контроль может характеризоваться средним соотношением аллельного дисбаланса для конкретного аллельного состояния, указывающего на анеуплоидию хромосомного сегмента, от 0,4 до 10%, чтобы имитировать средний аллельный дисбаланс аллеля в образце, который присутствует в таких низких концентрациях, какие можно было бы ожидать для циркулирующей свободной ДНК от плода или из опухоли.

Согласно некоторым вариантам осуществления в качестве контролей используют раскрытые в настоящем документе контроли PlasmArt. Соответственно, согласно некоторым аспектам образец представляет собой образец, полученный способом, предусматривающим фрагментацию образца нуклеиновой кислоты, про которую известно, что она обладает хромосомной анеуплоидией на фрагментах, которые имитируют размер фрагментов ДНК, циркулирующих в плазме человека. Согласно некоторым аспектам используется контроль, который не характеризуется анеуплоидией для хромосомного сегмента.

Согласно иллюстративным вариантам осуществления данные от одного или нескольких контролей могут быть проанализированы в способе вместе с исследуемым образцом. Контроли, например, могут включать в себя различные образцы от индивидуума, который, предположительно, не характеризуется наличием хромосомной анеуплоидии, или образец, который, предположительно, содержит CNV или хромосомную анеуплоидию. Например, когда исследуемый образец представляет собой образец плазмы, в которой предположительно содержится циркулирующая свободная опухолевая ДНК, этот способ может быть также выполнен для контрольного образца из опухоли от субъекта вместе с образцом плазмы. Как раскрыто в настоящем документе, контрольный образец может быть получен путем фрагментации образца ДНК, про который известно, что он не обладает хромосомной анеуплоидией. Такая фрагментация может приводить к образцу ДНК, который имитирует композицию ДНК апоптической клетки, особенно если образец от индивидуума, характеризующегося наличием злокачественной опухоли. Данные от контрольного образца будут увеличивать доверительный интервал обнаружения хромосомной анеуплоидии.

Согласно некоторым вариантам осуществления способов определения плоидности, образец представляет собой образец плазмы от индивидуума, у которого подозревают наличие злокачественной опухоли. Согласно этим вариантам осуществления способ дополнительно предусматривает определение, основанное на выборе того, присутствует ли вариация числа копий в клетках опухоли индивидуума. Для этих вариантов осуществления образец может представлять собой образец плазмы от индивидуума. Для этих вариантов осуществления способ может дополнительно предусматривать определение, основанное на выборе того, присутствует ли у индивидуума злокачественная опухоль.

Эти варианты осуществления для определения плоидности хромосомного сегмента могут дополнительно предусматривать обнаружение однонуклеотидного варианта в положении однонуклеотидной дисперсии в совокупности положений однонуклеотидных дисперсий, причем обнаружение либо хромосомной анеуплоидии, либо однонуклеотидного варианта, либо и того и другого указывает на наличие циркулирующих опухолевых нуклеиновых кислот в образце.

Эти варианты осуществления могут дополнительно предусматривать получение информации о гаплотипе хромосомного сегмента для опухоли индивидуума и использование информации о гаплотипе для получения набора моделей различных состояний плоидности и фракций аллельного дисбаланса совокупности полиморфных локусов.

Как описано в настоящем документе, некоторые варианты осуществления способов определения плоидности могут дополнительно предусматривать удаление исключений из исходных или скорректированных данных о частоте аллелей перед сравнением начальных или скорректированных частот аллелей с множеством моделей. Например, согласно некоторым вариантам осуществления частоты аллельных локусов, которые по меньшей мере на 2 или 3 стандартных отклонения выше или ниже среднего значения для других локусов на хромосомном сегменте, удаляются из данных до их использования для моделирования.

Как уже упоминалось в настоящем документе, следует понимать, что для многих предусмотренных в настоящем документе вариантов осуществления, в том числе для определения плоидности хромосомного сегмента, предпочтительно используют неполностью или полностью фазированные данные. Также следует понимать, что в настоящем документе предусмотрен целый ряд особенностей, которые обеспечивают улучшение по сравнению с известными ранее способами для обнаружения плоидности, и что могут быть использованы многие из различных комбинаций из этих особенностей.

Согласно некоторым вариантам осуществления как показано на Фиг. 69-70, в настоящем документе предусмотрены компьютерные системы и машиночитаемые носители для выполнения любых способов согласно настоящему изобретению. К ним относятся системы и машиночитаемые носители информации для выполнения способов определения плоидности. Соответственно, и в качестве не ограничивающих примеров вариантов осуществления систем для того чтобы продемонстрировать, что любой из способов, приведенных в настоящем документе, может быть выполнен с использованием системы и машиночитаемого носителя с использованием данного раскрытия, согласно другому аспекту в настоящем документе предусмотрена система обнаружения хромосомной плоидности в образце индивидуума, причем эта система содержит:

a. входной процессор, выполненный с возможностью приема данных о частоте аллелей, содержащих количество каждого аллеля, присутствующего в образце в каждом локусе в совокупности локусов на хромосомном сегменте;

b. моделирующее устройство, выполненное с возможностью:

I. получать фазированную аллельную информацию для совокупности полиморфных локусов путем оценки фазы данных о частоте аллелей; а также

II. получать индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности с использованием данных о частоте аллеля; а также

III. получать совместные вероятности для совокупности полиморфных локусов с использованием индивидуальных вероятностей и фазированной аллельной информации; а также

c. менеджер гипотез, выполненный с возможностью выбора, основанного на совместных вероятностях, модели наилучших совпадений, указывающей на хромосомную плоидность, тем самым определяя плоидность хромосомного сегмента.

Согласно некоторым вариантам осуществления этого варианта осуществления системы данные о частоте аллелей представляют собой данные, полученные системой для секвенирования нуклеиновых кислот. Согласно некоторым вариантам осуществления система дополнительно содержит блок исправления ошибок, выполненный с возможностью исправления ошибок в данных о частоте аллелей, причем исправленные данные о частоте аллелей используются инструментом моделирования для получения индивидуальных вероятностей. Согласно некоторым вариантам осуществления блок коррекции ошибок корректирует стандартные ошибки эффективности амплификации аллеля. Согласно некоторым вариантам осуществления инструмент моделирования получает индивидуальные вероятности, используя совокупность моделей, как различных состояний плоидности, так и фракций аллельного дисбаланса для множества локусов. Инструмент моделирования, согласно некоторым иллюстративным вариантам осуществления, получает совместные вероятности, рассматривая связь между полиморфными локусами на хромосомном сегменте.

Согласно одному иллюстративному варианту осуществления в настоящем документе предусмотрена система обнаружения хромосомной плоидности в образце индивидуума, которая включает в себя следующее:

a. входной процессор, выполненный с возможностью приема данных о последовательности нуклеиновой кислоты для аллелей в совокупности полиморфных локусов на хромосомном сегменте у индивидуума и обнаружения частоты аллелей в совокупности локусов с использованием данных о последовательности нуклеиновой кислоты;

b. блок исправления ошибок, выполненный с возможностью исправления ошибок в обнаруженных частотах аллелей и получения скорректированных частот аллелей для совокупности полиморфных локусов;

c. инструмент моделирования, выполненный с возможностью:

I. получать фазированную аллельную информацию для совокупности локусов путем оценки фазы данных о последовательности нуклеиновой кислоты;

II. получать индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения фазированной аллельной информации с совокупностью моделей различных состояний плоидности и фракций аллельного дисбаланса совокупности полиморфных локусов; а также

III. получать совместные вероятности для совокупности полиморфных локусов путем объединения индивидуальных вероятностей с учетом относительного расстояния между полиморфными локусами на хромосомном сегменте; а также

d. менеджер гипотез, выполненный с возможностью выбора на основании совместных вероятностей наиболее подходящей модели, указывающей на хромосомную анеуплоидию.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренная в настоящем документе совокупность полиморфных локусов содержит от 1000 до 50000 полиморфных локусов. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренная в настоящем документе совокупность полиморфных локусов содержит 100 известных гетерозиготных локусов горячих точек. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренная в настоящем документе совокупность полиморфных локусов содержит 100 локусов, которые находятся в пределах горячей точки рекомбинации или в пределах 0,5 т.п.н. от нее.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренная в настоящем документе наиболее подходящая модель анализирует следующие состояния плоидности первого гомологичного хромосомного сегмента и второго гомологичного хромосомного сегмента:

(1) у всех клеток отсутствует делеция или амплификация первого гомолога или второго гомолога хромосомного сегмента;

(2) у некоторых клеток или у всех имеется делеция первого гомолога или амплификация второго гомолога хромосомного сегмента; а также

(3) у некоторых клеток или у всех имеется делеция второго гомолога или амплификация первого гомолога хромосомного сегмента.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренное в настоящем документе исправление ошибок включают в себя исправление систематических ошибок эффективности аллельной амплификации, ошибок загрязнения и/или секвенирования. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренное в настоящем документе загрязнение включает в себя загрязнение окружения и загрязнение генотипа. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренное в настоящем документе загрязнение окружающей среды и загрязнение генотипа определяется на гомозиготных аллелях.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе менеджер гипотез выполнен с возможностью анализировать величину разницы между фазированной аллельной информацией и оцененными аллельными частотами, получаемыми для моделей. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе инструмент моделирования получает индивидуальные вероятности аллельных частот на основе бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей в совокупности полиморфных локусов. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе инструмент моделирования получает индивидуальные вероятности с использованием Байесовского классификатора.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренные в настоящем документе данные о последовательностях нуклеиновых кислот получают путем выполнения секвенирования ДНК с высокой пропускной способностью множества копий серии ампликонов, полученных с использованием мультиплексной реакции амплификации, в которой каждый ампликон из серии ампликонов охватывает по меньшей мере один полиморфный локус совокупности локусов и в которой каждый из полимерных локусов набора амплифицируется. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренную в настоящем документе мультиплексную реакцию амплификации проводят в условиях ограниченного количества праймера по меньшей мере для реакций. Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе образец характеризуется средним аллельным дисбалансом от 0,4% до 5%.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе образец представляет собой образец плазмы от индивидуума с подозрением на злокачественную опухоль, и дополнительно выполнен менеджер гипотез с возможностью определения, на основе наиболее подходящей модели, присутствует ли вариация числа копий в опухолевых клетках индивидуума.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе образец представляет собой образец плазмы от индивидуума, и дополнительно выполнен менеджер гипотез с возможностью определения, на основе наиболее подходящей модели, что злокачественная опухоль присутствует у индивидуума. Согласно этим вариантам осуществления менеджер гипотез может быть дополнительно выполнен с возможностью обнаружения однонуклеотидного варианта в положении однонуклеотидной дисперсии в совокупности положений однонуклеотидных дисперсий, причем обнаружение либо хромосомной анеуплоидий, либо однонуклеотидного варианта, либо и того и другого указывает на наличие циркулирующих опухолевых нуклеиновых кислот в образце.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренный в настоящем документе входной процессор дополнительно выполнен с возможностью приема информации о гаплотипе хромосомного сегмента для опухоли индивидуума, а инструмент моделирования выполнен с возможностью использования информации о гаплотипе для формирования совокупности моделей разных состояний плоидности и фракций аллельного дисбаланса совокупности полиморфных локусов.

Согласно некоторым иллюстративным вариантам осуществления системы предусмотренное в настоящем документе моделирующее устройство создает модели фракций аллельного дисбаланса в диапазоне от 0% до 25%.

Следует понимать, что любой из предусмотренных в настоящем документе способов может быть выполнен посредством машиночитаемого кода, который хранится на энергонезависимом машиночитаемом носителе. Соответственно, в настоящем документе согласно одному варианту осуществления предусмотрен энергонезависимый машиночитаемый носитель для обнаружения хромосомной плоидности в образце индивидуума, включающий в себя машиночитаемый код, который, когда он выполняется устройством обработки данных, приводит к тому, что устройство обработки данных:

a. принимает данные о частоте аллелей, содержащие количество каждого аллеля, присутствующего в образце в каждом локусе в совокупности полиморфных локусов на хромосомном сегменте;

b. вырабатывает фазированную аллельную информацию для совокупности полиморфных локусов путем оценки фазы данных о частоте аллелей;

c. создает индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности с использованием данных о частоте аллеля;

d. создает совместные вероятности для совокупности полиморфных локусов с использованием индивидуальных вероятностей и фазированной аллельной информации; а также

e. выбирает, основываясь на совместных вероятностях, наиболее подходящую модель, указывающую на хромосомную плоидность, определяя тем самым плоидность хромосомного сегмента.

Согласно некоторым вариантам осуществления машиночитаемых носителей данные о частотах аллелей получают из данных о последовательности нуклеиновой кислоты. Некоторые варианты осуществления машиночитаемых носителей дополнительно предусматривают исправление ошибок в данных о частоте аллеля и использование исправленных данных о частоте аллеля для получения стадии индивидуальных вероятностей. Согласно определенным вариантам осуществления машиночитаемых носителей ошибки, которые исправляются, представляют собой систематические ошибки эффективности амплификации аллелей. Согласно определенным вариантам осуществления машиночитаемых носителей индивидуальные вероятности получают с использованием совокупности моделей, как различных состояний плоидности, так и фракций с аллельным дисбалансом для множества полиморфных локусов. Согласно некоторым вариантам осуществления машиночитаемых носителей совместные вероятности получают с учетом связи между полиморфными локусам на хромосомном сегменте.

Согласно одному конкретному варианту осуществления в настоящем документе предусмотрен энергонезависимый машиночитаемый носитель для обнаружения хромосомной плоидности в образце индивидуума, содержащий машиночитаемый код, который, когда он выполняется устройством обработки данных, приводит к тому, что устройство обработки данных:

a. принимает данные о последовательности нуклеиновых кислот для аллелей в совокупности полиморфных локусов на хромосомном сегменте у индивидуума;

b. обнаруживает частоты аллелей в совокупности локусов с использованием данных о последовательности нуклеиновой кислоты;

c. корректирует систематические ошибки эффективности амплификации аллелей в обнаруженных частотах аллелей для получения скорректированных частот аллелей для совокупности полиморфных локусов;

d. производит фазированную аллельную информацию для совокупности полиморфных локусов путем оценки фазы данных о последовательности нуклеиновой кислоты;

e. создает индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения скорректированных частот аллелей с совокупностью моделей различных состояний плоидности и фракций аллельного дисбаланса совокупности полиморфных локусов;

f. получает совместные вероятности для совокупности полиморфных локусов путем объединения индивидуальных вероятностей с учетом связи между полиморфными локусами на хромосомном сегменте; а также

g. выбирает, основываясь на совместных вероятностях, наиболее подходящую модель, указывающую на хромосомную анеуплоидию.

Согласно некоторым иллюстративным вариантам осуществления машиночитаемых носителей выбор выполняется путем анализа величины разницы между фазированной аллельной информацией и расчетными аллельными частотами, получаемыми для моделей.

Согласно некоторым иллюстративным вариантам осуществления машиночитаемых носителей индивидуальные вероятности частот аллелей создаются на основании бета-биномиальной модели ожидаемой и наблюдаемой частот аллелей в совокупности полиморфных локусов.

Следует понимать, что любой из предусмотренных в настоящем документе вариантов осуществления способа может быть выполнен путем выполнения кода, хранящегося на энергонезависимом машиночитаемом носителе.

Иллюстративные варианты осуществления для обнаружения злокачественной опухоли

Согласно некоторым аспектам в настоящем изобретении предусмотрен способ обнаружения злокачественной опухоли. Понятно, что образец может представлять собой опухолевый образец или жидкий образец, такой как плазма, от индивидуума, у которого подозревают наличие злокачественной опухоли. Эти способы особенно эффективны при выявлении генетических мутаций, таких как однонуклеотидные изменения, такие как SNV, или изменения числа копий, такие как CNV, в образцах с низким уровнем этих генетических изменений в виде доли от общей ДНК в образце. Таким образом, чувствительность для обнаружения ДНК или РНК в образцах злокачественной опухоли представляет собой исключительную. Способы могут комбинировать любые или все из усовершенствований, представленных в настоящем документе, для обнаружения CNV и SNV для достижения этой исключительной чувствительности.

Соответственно, согласно некоторым вариантам осуществления в настоящем документе предусмотрен способ определения того, присутствуют ли в образце у индивидуума циркулирующие опухолевые нуклеиновые кислоты, и энергонезависимый машиночитаемый носитель, содержащий машиночитаемый код, который, при исполнении обрабатывающим устройством, приводит к выполнению способа устройством обработки данных. Способ предусматривает следующие стадии:

c. анализ образца для определения плоидности в совокупности полиморфных локусов на хромосомном сегменте у индивидуума; а также

d. определение уровня среднего аллельного дисбаланса, присутствующего в полиморфных локусах, на основании определения плоидности, причем средний аллельный дисбаланс, равный или больше 0,4%, 0,45%, 0,5%, 0,6%, 0,7%, 0,75%, 0,8%, 0,9% или 1%, свидетельствует о присутствии циркулирующих опухолевых нуклеиновых кислот, таких как цоДНК, в образце.

В некоторых иллюстративных примерах средний аллельный дисбаланс больше, чем 0,4, 0,45 или 0,5%, свидетельствует о наличии цоДНК. Согласно некоторым вариантам осуществления способ определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты, дополнительно предусматривает обнаружение однонуклеотидного варианта в сайте однонуклеотидной дисперсии в совокупности положений однонуклеотидных дисперсий, причем обнаружение либо аллельного дисбаланса, равного или большего чем 0,5%, либо обнаружение однонуклеотидного варианта, либо и того и другого указывает на наличие циркулирующих опухолевых нуклеиновых кислот в образце. Следует понимать, что любой из способов, предусмотренных для выявления хромосомной плоидности или CNV, может быть использован для определения уровня аллельного дисбаланса, как правило, выражаемый как средний аллельный дисбаланс. Следует понимать, что любой из представленных в настоящем документе способов обнаружения SNV может быть использован для обнаружения единственного нуклеотида для этого аспекта настоящего изобретения.

Согласно некоторым вариантам осуществления способ определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты, дополнительно предусматривает выполнения способа на контрольном образце с известным средним отношением аллельного дисбаланса. Контроль, например, может представлять собой образец из опухоли индивидуума. Согласно некоторым вариантам осуществления контроль характеризуется средним аллельным дисбалансом, ожидаемым для образца при анализе. Например, AAI от 0,5% до 5% или соотношение среднего аллельного дисбаланса 0,5%.

Согласно некоторым вариантам осуществления стадия анализа в способе определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты, предусматривает анализ совокупности хромосомных сегментов, про которые известно, что они проявляют анеуплоидий при злокачественной опухоли. Согласно некоторым вариантам осуществления стадия анализа в способе определения того, присутствуют ли циркулирующих опухолевых нуклеиновые кислоты, предусматривает анализ от 1000 до 50000 или от 100 до 1000 полиморфных локусов для плоидности. Согласно некоторым вариантам осуществления стадия анализа в способе определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты, предусматривает анализ от 100 до 1000 участков однонуклеотидных вариантов. Например, согласно этим вариантам осуществления стадия анализа может включать в себя выполнение мультиплексной ПЦР для амплификации ампликонов вдоль 1000-50000 полимерных локусов и 100-1000 сайтов однонуклеотидных вариантов. Эта мультиплексная реакция может быть установлена в качестве единственной реакции или в качестве пулов различных совокупностей мультиплексных реакций. Предусмотренные в настоящем документе способы мультиплексной реакции, такие как описанная в настоящем документе мультиплексная ПЦР с большим количеством целевых последовательностей, обеспечивают иллюстративный процесс проведения реакции амплификации, чтобы помочь достичь улучшенного мультиплексирования и, таким образом, уровней чувствительности.

Согласно некоторым вариантам осуществления мультиплексную реакцию ПЦР проводят в условиях ограниченного количества праймера по меньшей мере для 10%, 20%, 25%, 50%, 75%, 90%, 95%, 98%, 99% или 100% реакций. Могут быть использованы улучшенные условия для проведения предусмотренной в настоящем документе мультиплексной реакции с большим количеством целевых последовательностей.

Согласно некоторым аспектам вышеуказанный способ определения того, присутствуют ли циркулирующие опухолевые нуклеиновые кислоты в образце у индивидуума, и все его варианты осуществления могут быть выполнены с системой. В настоящем изобретении предусмотрены идеи относительно конкретных функциональных и структурных особенностей для выполнения способов. В качестве неограничивающего примера система включает в себя следующее:

a. Входной процессор, выполненный с возможностью анализировать данные от образца, для определения плоидности в совокупности полиморфных локусов на хромосомном сегменте у индивидуума; а также

b. Моделирующее устройство, выполненное с возможностью определения уровня аллельного дисбаланса, присутствующего в полиморфных локусах, на основании определения плоидности, причем аллельный дисбаланс, равный 0,5% или больше, свидетельствует о присутствии циркуляции.

Иллюстративные варианты осуществления для обнаружения однонуклеотидных вариантов

Согласно некоторым аспектам в настоящем документе предусмотрены способы обнаружения однонуклеотидных вариантов в образце. Предусмотренные в настоящем документе усовершенствованные способы могут достигать пределов обнаружения в 0,015, 0,017, 0,02, 0,05, 0,1, 0,2, 0,3, 0,4 или 0,5 процентах SNV в образце. Все варианты осуществления для обнаружения SNV могут быть осуществлены с системой. В настоящем изобретении представлены идеи относительно конкретных функциональных и структурных особенностей для выполнения способов. Кроме того, в настоящем документе представлены варианты осуществления, предусматривающие энергонезависимый машиночитаемый носитель, содержащий машиночитаемый код, который, когда выполняется устройством обработки данных, приводит к тому, что устройство обработки данных выполняет способы обнаружения SNV, представленные в настоящем документе.

Соответственно, в настоящем документе согласно одному варианту осуществления предусмотрен способ определения того, присутствует ли в совокупности геномных положений в образце у индивидуума однонуклеотидный вариант, причем способ предусматривает:

a. для каждой геномного положения получение оценки эффективности и частоты появления ошибок за цикл для ампликона, покрывающего это геномное положение, используя обучающий набор данных;

b. получение наблюдаемой информации об идентичности нуклеотидов для каждого геномного положения в образце;

c. определение совокупности вероятностей процента однонуклеотидных вариантов в результате одной или нескольких реальных мутаций в каждом геномном положении, путем сравнения информации о наблюдаемой нуклеотидной идентичности в каждом геномном положении с моделью различных процентов вариантов с использованием оцененной эффективности амплификации и частоты появления ошибок за цикл для каждого геномного положения независимо; а также

d. определение наиболее вероятного реального процента вариантов и доверительного интервала из совокупности вероятностей для каждого геномного положения.

Согласно иллюстративным вариантам осуществления способа определения того, присутствует ли однонуклеотидный вариант, проводят оценку эффективности и частоты появления ошибок за цикл для набора ампликонов, которые охватывают геномное положение. Например, могут быть включены 2, 3, 4, 5, 10, 15, 20, 25, 50, 100 или более ампликонов, которые охватывают геномное положение.

Согласно иллюстративным вариантам осуществления способа определения того, присутствует ли однонуклеотидный вариант, наблюдаемая информация о нуклеотидной идентичности предусматривает наблюдаемое общее количество прочтений для каждого геномного положения и наблюдаемое число прочтений аллельных вариантов для каждого геномного положения.

Согласно иллюстративным вариантам осуществления способа определения того, присутствует ли однонуклеотидный вариант, образец представляет собой образец плазмы, и однонуклеотидный вариант присутствует в циркулирующей опухолевой ДНК образца.

Согласно другому варианту осуществления в настоящем документе предусмотрен способ оценки процента однонуклеотидных вариантов, которые присутствуют в образце от индивидуума. Способ предусматривает следующие стадии:

a. в совокупности геномных положений получение оценки эффективности и частоты появления ошибок за цикл для ампликона, охватывающего эти геномные положения, используя обучающий набор данных;

b. получение наблюдаемой информации об идентичности нуклеотидов для каждого геномного положения в образце;

c. получение оценки среднего значения и дисперсии для общего числа молекул, молекул с фоновыми ошибками и молекул с реальными мутациями для пространства поиска, предусматривающего начальный процент молекул с реальными мутациями с использованием эффективности амплификации и частоты появления ошибок за цикл ампликонов; а также

d. определение процентного содержания однонуклеотидных вариантов, присутствующих в образце, в результате реальных мутаций путем определения наиболее вероятного реального процента однонуклеотидных вариантов путем подгонки распределения с использованием расчетных средних значений и дисперсий к наблюдаемой информации о нуклеотидной идентичности в образце.

В иллюстративных примерах данного способа оценки процента однонуклеотидных вариантов, которые присутствуют в образце, образец представляет собой образец плазмы, и однонуклеотидный вариант присутствует в циркулирующей опухолевой ДНК образца.

Набор обучающих данных для этого варианта осуществления настоящего изобретения, как правило, включает в себя образцы от одного или, предпочтительно, группы здоровых индивидуумов. Согласно некоторым иллюстративным вариантам осуществления набор обучающих данных анализируют в тот же день или даже в тот же пробег, что и один или несколько исследуемых образцов. Например, могут быть использованы образцы из группы из 2, 3, 4, 5, 10, 15, 20, 25, 30, 36, 48, 96, 100, 192, 200, 250, 500, 1000 или более здоровых индивидуумов для формирования набора обучающих данных. Там, где данные доступны для большего числа здоровых индивидуумов, например, 96 или более, доверительный интервал возрастает для оценок эффективности амплификации, даже если пробеги выполняются перед выполнением способа для анализируемых образцов. В частоте появления ошибок ПЦР может использоваться информация о последовательности нуклеиновой кислоты, получаемая не только для положения оснований с SNV, но и для всей амплифицированной области вокруг SNV, так как частота ошибок представляет собой на ампликон. Например, использование образцов от 50 индивидуумов и секвенирования ампликона из 20 пар оснований вокруг SNV, данные о частоте ошибок от 1000 считываний оснований могут быть использованы для определения частоты ошибок.

Как правило, эффективность амплификации оценивают путем оценки среднего значения и стандартного отклонения для эффективности амплификации для амплифицируемого сегмента, а затем подгоняют к модели распределения, такой как биномиальное распределение или бета-биномиальное распределение. Частота появления ошибок определяется для реакции ПЦР с известным числом циклов, а затем оценивается частота появления ошибок за один цикл.

Согласно некоторым иллюстративным вариантам осуществления оценка исходных молекул совокупности тестовых данных дополнительно включает в себя обновление оценки эффективности для совокупности тестовых данных с использованием исходного числа молекул, оцененных на стадии (b), если наблюдаемое число считываний значительно отличается от оцененного числа считываний. Тогда оценка может быть обновлена для новой эффективности и/или исходных молекул.

Пространство поиска, используемое для оценки общего количества молекул, молекул с фоновыми ошибками и молекул с реальными мутациями, может включать в себя пространство поиска с 0,1%, 0,2%, 0,25%, 0,5%, 1%, 2,5%, 5%, 10%, 15%, 20%, или 25% на нижнем пределе и 1%, 2%, 2,5%, 5%, 10%, 12,5%, 15%, 20%, 25%, 50%, 75%, 90% или 95% на верхнем пределе копий основания в положении SNV, представляющего собой основание SNV. Более узкие диапазоны, 0,1%, 0,2%, 0,25%, 0,5% или 1% на нижнем пределе и 1%, 2%, 2,5%, 5%, 10%, 12,5% или 15% на верхнем пределе могут быть использованы в иллюстративных примерах для образцов плазмы, где способ представляет собой обнаружение циркулирующей опухолевой ДНК. Более широкие диапазоны используются для опухолевых образцов.

Распределение представляет собой подгон к числу всех ошибочных молекул (фоновая ошибка и реальная мутация) во всех молекулах, чтобы вычислить правдоподобие или вероятность для каждой возможной реальной мутации в пространстве поиска. Такое распределение может представлять собой биномиальное распределение или бета-биномиальное распределение.

Наиболее вероятно, реальную мутацию определяют путем определения процента наиболее вероятной реальной мутации и вычисления доверительного интервала с использованием данных из подгонки распределения. В качестве иллюстративного примера, а не для ограничения клинической интерпретации предусмотренных в настоящем документе способов, если средняя частота мутаций высока, то процент доверительного интервала, который необходим, чтобы сделать положительное определение SNV, ниже. Например, если средняя частота мутаций для SNV в образце с использованием наиболее вероятной гипотезы составляет 5%, а процент доверительного интервала составляет 99%, то будет сделан положительное распознавание SNV. С другой стороны, для этого иллюстративного примера, если средняя частота мутаций для SNV в образце с использованием наиболее вероятной гипотезы составляет 1%, а процент доверительного интервала составляет 50%, то в определенных ситуациях не будет сделано положительное распознавание SNV. Следует понимать, что клиническая интерпретация данных будет представлять собой функцию чувствительности, специфичности, показателя распространенности, а также альтернативной доступности продукта.

Согласно одному иллюстративному варианту осуществления образец представляет собой образец циркулирующей ДНК, такой как образец циркулирующей опухолевой ДНК.

Согласно другому варианту осуществления в настоящем документе предусмотрен способ обнаружения одного или нескольких однонуклеотидных вариантов в исследуемом образце от индивидуума. Способ, согласно настоящему варианту осуществления, предусматривает следующие стадии:

d. определение медианной частоты вариантных аллелей для множества контрольных образцов от каждого из множества нормальных индивидуумов, для каждого положения однонуклеотидного варианта в совокупности положений однонуклеотидных дисперсий, на основе результатов, полученных в пробеге секвенирования, чтобы идентифицировать положения выбранных однонуклеотидных вариантов, характеризующихся вариантными медианными частотами аллелей в нормальных образцах ниже порогового значения, и определение фоновой ошибки для каждого из положений однонуклеотидных вариантов после удаления образцов-выбросов для каждого из положений однонуклеотидных вариантов;

e. определение наблюдаемой глубины считывания средневзвешенного значения и дисперсии для положений выбранных однонуклеотидных вариантов для исследуемого образца на основе данных, полученных в пробеге секвенирования для исследуемого образца; а также

f. идентификация с использованием компьютера одного или нескольких положений однонуклеотидных вариантов со статистически значимой глубиной прочтения средневзвешенного значения по сравнению с фоновой ошибкой для этого положения, тем самым определяя один или несколько однонуклеотидных вариантов.

Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV, образец представляет собой образец плазмы, контрольные образцы представляют собой образцы плазмы и обнаруженный один или несколько однонуклеотидных вариантов присутствует в образце циркулирующей опухолевой ДНК. Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV множество контрольных образцов содержит по меньшей мере 25 образцов. Согласно некоторым иллюстративным вариантам осуществления множество контрольных образцов представляет собой по меньшей мере 5, 10, 15, 20, 25, 50, 75, 100, 200 или 250 образцов на нижнем уровне и 10, 15, 20, 25, 50, 75, 100, 200, 250, 500 и 1000 образцов на верхнем уровне.

Согласно некоторым вариантам осуществления этого способа обнаружения одного или нескольких SNV, выбросы удаляются из данных, полученных в пробеге секвенирования с высокой пропускной способностью, чтобы вычислить наблюдаемую глубину прочтения средневзвешенного и определяют наблюдаемую дисперсию. Согласно определенным вариантам осуществления этого способа обнаружения одного или нескольких SNV глубина прочтения для каждого положения однонуклеотидного варианта для исследуемого образца составляет по меньшей мере 100 прочтений.

Согласно некоторым вариантам осуществления этого способа для обнаружения одного или нескольких SNV, пробег секвенирования предусматривает мультиплексную реакцию амплификации, выполняемую в условиях реакции ограниченного количества праймера. Предусмотренные в настоящем документе усовершенствованные способы выполнения мультиплексных реакций амплификации используются для выполнения этих вариантов осуществления в иллюстративных примерах.

Без ограничения теорией способы настоящего варианта осуществления используют модель фоновых ошибок с использованием образцов нормальной плазмы, которые секвенируют на том же пробеге секвенирования в качестве исследуемого образца, чтобы учесть специфические для пробега артефакты. Шумные положения с нормальными медианными частотами вариантных аллелей выше порогового значения, например, >0,1%, 0,2%, 0,25%, 0,5% 0,75% и 1,0%, при этом удаляются.

Образцы-выбросы итеративно удаляют из модели для учета шума и загрязнения. Для каждого замещения основания каждого геномного локуса вычисляют глубину считывания средневзвешенного значения и стандартного отклонения погрешности. Согласно некоторым иллюстративным вариантам осуществления такие образцы, как опухолевые или внеклеточные образцы плазмы, с положениями однонуклеотидных вариантов по меньшей мере с пороговым количеством считываний, например, по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 250, 500 или 1000 вариантных считываний и Z-показателем больше, чем 2,5, 5, 7,5 или 10 по сравнению с моделью фоновых ошибок согласно некоторым вариантам осуществления, подсчитываются в качестве кандидатной мутации.

Согласно некоторым вариантам осуществления глубина прочтения выше 100, 250, 500, 1000, 2000, 2500, 5000, 10000, 20000, 50000, 25,0000 или 100000 на нижнем уровне диапазона и 2000, 2500, 5000, 7500, 10000, 25000, 50000, 100000, 250000 или 500000 прочтений на верхнем уровне, достигается в пробеге секвенирования для каждого положения однонуклеотидного варианта в совокупности положений однонуклеотидных вариантов. Как правило, пробег секвенирования представляет собой пробег секвенирования с высокой пропускной способностью. Средние или медианные значения, полученные для исследуемых образцов, согласно иллюстративным вариантам осуществления, представляют собой взвешенные по глубине прочтения. Таким образом, вероятность того, что определение вариантного аллеля реально в образце с 1 вариантным аллелем, обнаруженным в 1000 прочтений, представляет собой взвешенное выше, чем образец с 1 вариантным аллелем, обнаруженным в 10000 считываний. Поскольку определения вариантного аллеля (т.е. мутации) не производят со 100% доверительным интервалом, идентифицированный однонуклеотидный вариант можно рассматривать как кандидатный вариант или кандидатную мутацию.

Иллюстративная статистика критерия для анализа фазированных данных

Иллюстративная статистика критерия описана ниже для анализа фазированных данных из образца, представляющего собой смешанный или предположительно смешанный образец, содержащий ДНК или РНК, который получен из двух или нескольких клеток, которые не являются генетически идентичными. Пусть ƒ обозначает представляющую интерес фракцию ДНК или РНК, например, фракцию ДНК или РНК с представляющей интерес CNV или фракцию ДНК или РНК из представляющих интерес клеток, таких как злокачественные клетки. Согласно некоторым вариантам осуществления для пренатальной диагностики, ƒ обозначает долю фетальной ДНК, РНК или клеток в смеси плодовых и материнских ДНК, РНК или клеток. Следует отметить, что она относится к фракции ДНК из представляющих интерес клеток, предполагая, что две копии ДНК даются каждой представляющей интерес клеткой. Она отличается от фракции ДНК из представляющих интерес клеток в сегменте, который удален или дублирован.

Возможные аллельные значения каждого SNP обозначаются A и B. AA, AB, BA и BB используются для обозначения всех возможных упорядоченных пар аллелей. Согласно некоторым вариантам осуществления анализируют SNP с упорядоченными аллелями АВ или ВА. Пусть Ni обозначает число считываний последовательности i-го SNP, a Ai и Bi обозначают число считываний i-го SNP, которые указывают на аллель A и B, соответственно. Предполагается:

Ni=Ai+Bi

Аллельное соотношение Ri определяется:

Пусть T обозначает число нацеленных SNP.

Без ограничения общностью некоторые варианты осуществления сосредоточены на одном хромосомном сегменте. Для дополнительной наглядности в настоящем документе фраза "первый гомологичный хромосомный сегмент по сравнению со вторым гомологичным хромосомным сегментом" означает первый гомолог хромосомного сегмента и второй гомолог хромосомного сегмента. Согласно некоторым таким вариантам осуществления все SNP-мишени содержатся в представляющем интерес хромосомном сегменте. Согласно другим вариантам осуществления анализируют несколько хромосомных сегментов на возможные вариации числа копий.

Оценка MAP

В этом способе используют знание фазирования с помощью упорядоченных аллелей для обнаружения делеций или дупликации сегмента-мишени. Для каждого SNP i следует определить

Затем следует определить

Распределения Xi и S в гипотезах различного числа копий (например, гипотезы дисомии, удаления первого или второго гомолога или дупликации первого или второго гомолога), описаны ниже.

Гипотеза дисомии

Согласно гипотезе того, что сегмент-мишень не удаляется или дуплицируется

где

Если предположить постоянную глубину прочтения N, это дает биномиальное распределение S с параметрами

и T.

Гипотеза удаления

Согласно гипотезе, что первый гомолог удаляется (т.е., SNP АВ становится B и SNP BA становится А), то Ri характеризуется биномиальным распределением с параметрами и T для SNP АВ, и и T для SNP ВА. Следовательно,

Если предположить постоянную глубину прочтения N, это дает биномиальное распределение S с параметрами

и Т.

Согласно гипотезе, что второй гомолог удаляется (т.е., SNP AB становится A и SNP BA становится B), то Ri характеризуется биномиальным распределением с параметрами и T для SNP АВ, и и T для SNP ВА. Следовательно,

Если предположить постоянную глубину прочтения N, это дает биномиальное распределение S с параметрами

и T.

Гипотезы дупликации

Согласно гипотезе, что дублируется первый гомолог (т.е., SNP АВ становится ААВ, и SNP ВА становится ВВА), то Ri характеризуется биномиальным распределением с параметрами и T для SNP АВ, и и T для SNP BA. Следовательно,

Если предположить постоянную глубину прочтения N, это дает биномиальное распределение S с параметрами

и T.

Согласно гипотезе, что дублируется второй гомолог (т.е., SNP АВ становится ABB и SNP ВА становится ВАА), то Ri характеризуется биномиальным распределением с параметрами и T для SNP АВ, и и T для SNP ВА. Следовательно,

Если предположить постоянную глубину прочтения N, это дает биномиальное распределение с параметрами

и T.

Классификация

Как было показано в предыдущих разделах, Xi представляет собой двоичную случайную величину с

Это позволяет вычислить вероятность статистики критерия S в рамках каждой гипотезы. Может быть вычислена вероятность каждой гипотезы измеренных данных. Согласно некоторым вариантам осуществления выбирают гипотезу с наибольшей вероятностью. При желании, распределение на S можно упростить посредством либо приближения каждого N с постоянной глубиной досягаемости N, либо усечения глубины прочтения до постоянной N. Это упрощение дает

Значение для ƒ может быть оценено путем выбора наиболее вероятного значения измеренных данных ƒ, таких как значение ƒ, которое производит лучшее совпадение данных с использованием алгоритма (например, алгоритма поиска), такого как оценка по максимуму правдоподобия, оценка по апостериорному максимуму или Байесовская оценка. Согласно некоторым вариантам осуществления анализируют множественные хромосомные сегменты, и значение для ƒ оценивают на основе данных для каждого сегмента. Если все клетки-мишени имеют эти дупликации или делеции, расчетные значения для ƒ, основанные на данных для этих различных сегментов, похожи. Согласно некоторым вариантам осуществления ƒ представляет собой измеренную экспериментально, например, путем определения доли ДНК или РНК из злокачественных клеток на основе разницы метилирования (гипометилировании или гиперметилировании) между злокачественными и незлокачественными ДНК или РНК.

Согласно некоторым вариантам осуществления для смешанных образцов нуклеиновых кислот плода и матери, значение ƒ представляет собой фетальную фракцию, то есть долю ДНК (или РНК) плода от общего количества ДНК (или РНК) в образце. Согласно некоторым вариантам осуществления фетальную фракцию определяют путем получения генотипических данных из образца материнской крови (или ее фракции) для совокупности полиморфных локусов по меньшей мере на одной хромосоме, которая, как ожидается, будет дисомической, как у матери, так и плода; создания множества гипотез, каждая из которых соответствует различным возможным фетальным фракциям на хромосоме; построения модели для ожидаемых измерений аллелей в образце крови в совокупности полиморфных локусов на хромосоме для возможных фетальных фракций; вычисления относительной вероятности каждой из гипотез для фетальных фракций с использованием модели и аллельных измерений из образца крови или ее фракции; и определения фетальной фракции в образце крови путем выбора фетальный фракции, соответствующей гипотезе с наибольшей вероятностью. Согласно некоторым вариантам осуществления настоящего изобретения фетальную фракцию определяют путем идентификации тех полиморфных локусов, где мать является гомозиготной по первому аллелю в полиморфном локусе и отец является (I) гетерозиготным по первому аллелю и второму аллелю или (II) гомозиготным по второму аллелю в полиморфном локусе; и использования количества второго аллеля, обнаруженного в образце крови для каждого из идентифицированных полиморфных локусов, для определения фетальной фракции в образце крови (смотрите, например, публикацию патента США №2012/0185176, поданную 29 марта 2012 г., и публикацию патента США №2014/0065621, поданную 13 марта 2013 г., каждая из которых полностью включена в настоящий документ посредством ссылки).

Другой способ определения фетальной фракции предусматривает использование секвенатора ДНК с высокой пропускной способностью для вычисления аллелей в большом числе полиморфных (например, SNP) генетических локусов и моделирование вероятной фетальной фракции (смотрите, например, публикацию патента США №2012/0264121, которая полностью включена в настоящий документ посредством ссылки). Другой способ вычисления фетальной фракции можно найти в публикации Sparks et al., "Noninvasive prenatal detection and selective analysis of cell-free DNA obtained from maternal blood: evaluation for trisomy 21 and trisomy 18," Am J Obstet Gynecol 2012; 206: 319.e1-9, которая полностью включена в настоящий документ посредством ссылки. Согласно некоторым вариантам осуществления фетальную фракцию определяют с использованием анализа метилирования (смотрите, например, патенты США №7754428; 7901884 и 8166382, каждый из которых полностью включен в настоящее описание посредством ссылки), который допускает, что определенные локусы представляют собой метилированные или преимущественно метилированные у плода и те же самые локусы представляют собой неметилированные или преимущественно неметилированные у матери.

Фиг. 1A-13D представляют собой графики, показывающие распределение статистики критерия S, разделенное на T (количество SNP) ("S/T") для различных гипотез числа копий для различной глубины прочтения и опухолевых фракций (где ƒ представляет собой долю опухолевой ДНК из общей ДНК) для увеличивающегося числа SNP.

Отвержение единственной гипотезы

Распределение S для гипотезы дисомии не зависит от ƒ. Таким образом, вероятность измеренных данных можно вычислить для гипотезы дисомии без вычисления ƒ. Тест отвержения единственной гипотезы может быть использован для нулевой гипотезы дисомии. Согласно некоторым вариантам осуществления вычисляется вероятность S согласно гипотезе дисомии, и гипотеза дисомии отвергается, если вероятность меньше заданного порогового значения (например, меньше чем 1 на 1000). Это указывает на то, что присутствует дупликация или делеция хромосомного сегмента. При желании, процент ложно позитивных срабатываний может быть изменен путем изменения порогового значения.

Иллюстративные способы анализа фазированных данных

Ниже описаны иллюстративные способы анализа данных из образца, который известен или подозревается в том, что он представляет собой смешанный образец, содержащий ДНК или РНК, которые возникли из двух или нескольких клеток, которые генетически не идентичны. Согласно некоторым вариантам осуществления используются фазированные данные. Согласно некоторым вариантам осуществления способ предусматривает определение, для каждого вычисленного аллельного соотношения, того, выше ли или ниже ожидаемое аллельное соотношение и величина разницы для конкретного локуса. Согласно некоторым вариантам осуществления распределение правдоподобия вычисляют для аллельного соотношения в локусе для конкретной гипотезы и, чем ближе вычисленное аллельное соотношение к центру распределения правдоподобия, тем более вероятно, что гипотеза верна. Согласно некоторым вариантам осуществления способ предусматривает определение правдоподобия того, что гипотеза верна для каждого локуса. Согласно некоторым вариантам осуществления способ предусматривает определение правдоподобия того, что гипотеза верна для каждого локуса, и объединение вероятностей этой гипотезы для каждого локуса, и выбирают гипотезу с наибольшей совместной вероятностью. Согласно некоторым вариантам осуществления способ предусматривает определение правдоподобия того, что гипотеза верна для каждого локуса и для каждого возможного отношения ДНК или РНК из одной или нескольких клеток-мишеней к общей ДНК или РНК в образце. Согласно некоторым вариантам осуществления совместная вероятность для каждой гипотезы определяется путем объединения вероятностей этой гипотезы для каждого локуса и каждого возможного соотношения, и выбирают гипотезу с наибольшей совместной вероятностью.

Согласно одному варианту осуществления рассматриваются следующие гипотезы: H11 (все клетки нормальные), H10 (наличие клеток только с гомологом 1, следовательно, делецией гомолога 2), H01 (наличие клеток только с гомологом 2, следовательно, делецией гомолога 1), H21 (наличие клеток с дупликацией гомолога 1), H12 (наличие клеток с дупликацией гомолога 2). Для получения фракции ƒ клеток-мишеней, таких как злокачественные клетки или мозаичные клетки (или фракции ДНК или РНК из клеток-мишеней), ожидаемое аллельное соотношение для гетерозиготных (AB или BA) SNP можно найти следующим образом:

Уравнение (1):

Систематическая ошибка, загрязнение и исправление ошибок секвенирования:

Наблюдение Ds в SNP состоит из числа исходных картированных прочтений с каждым присутствующим аллелем, nA0 и nB0. Тогда можно найти исправленные прочтения nA и nB с использованием ожидаемой систематической ошибки в амплификации аллелей A и B.

Пусть ca для обозначает загрязнения окружающей среды (например, загрязнение от ДНК в воздухе или окружающей среды) и r(ca) обозначает аллельное соотношение для окружающего загрязнителя (который принимается равным 0,5 на начальном этапе). Кроме того, cg обозначает степень генотипированного загрязнения (например, загрязнение от другого образца) и r(cg) представляет собой аллельное соотношение для загрязнителя. Пусть Se(A,B) и Se(B,A) обозначают ошибки секвенирования для распознавания одного аллеля как другого аллеля (например, ошибочного обнаружения аллеля A, когда присутствует аллель B).

Можно найти наблюдаемое аллельное соотношение q(r, ca, r(ca), cg, r(cg), Se(A,B), Se(B,A)) для данного ожидаемого аллельного соотношения r путем исправления для окружающего загрязнения, генотипированного загрязнения и ошибок секвенирования.

Поскольку загрязняющие генотипы неизвестны, популяционные частоты могут быть использованы для нахождения P(r(cg)). Более конкретно, пусть p будет популяционной частотой для одного из аллелей (который может быть назван как эталонный аллель). Тогда P(r(cg)=0)=(1-р)2, P(r(cg)=0)=2р(1-р) и P(r(cg)=0)=p.2 Условное математическое ожидание по r(cg) может быть использовано для определения E[q(r, са, r(ca), cg, r(cg), Se(A,B), Se(B,A))]. Следует отметить, что загрязнения окружающей среды и генотипирования определяют с использованием гомозиготных SNP, следовательно, они не зависят от отсутствия или наличия делеции или дупликаций. Кроме того, при желании можно измерить загрязнение окружающей среды и генотипирования с использованием эталонной хромосомы.

Правдоподобие в каждом SNP:

Уравнение ниже дает вероятность наблюдения данных nA и nB для аллельного соотношения r:

Уравнение (2):

Пусть Ds обозначает данные для SNP. Для каждой гипотезы h∈{H11, H01, H10, H21, H12}, можно позволить r=r(AB,h) или r=r(BA,h) в уравнении (1) и найти условное математическое ожидание по r(cg), чтобы определить наблюдаемое аллельное соотношение E[q(r, са, r(ca), cg, r(cg))]. Тогда, полагая r=E[q(r, ca, r(ca), cg, r(cg), Se(A,B), Se(B,A))] в уравнении (2) можно определить P(Ds|h,ƒ).

Алгоритм поиска:

Согласно некоторым вариантам осуществления SNP с аллельными соотношениями, которые кажутся выпадающими, игнорируются (например, путем игнорирования или устранения SNP с аллельными соотношениями, которые по меньшей мере на 2 или 3 стандартных отклонения выше или ниже среднего значения). Следует отметить, что определенное для этого подхода преимущество состоит в том, что при наличии более высокого процента мозаицизма, изменчивость в аллельных соотношениях может быть высокой, следовательно, это гарантирует, что SNP не будут обрезаны из-за мозаицизма.

Пусть F={ƒ1, …, ƒN} обозначает пространство поиска для процента мозаицизма (например, опухолевой фракции). Можно определить P(Ds|h,ƒ) в каждом SNP s и ƒ∈F, и комбинировать вероятность над всеми SNP.

Алгоритм переходит каждый ƒ для каждой гипотезы. Используя способ поиска, можно сделать вывод, что мозаицизм существует, если существует диапазон F* в ƒ, где доверительный интервал гипотезы делеций или дупликации выше, чем доверительный интервал гипотезы отсутствия делеций и дупликации. Согласно некоторым вариантам осуществления определяют оценку максимального правдоподобия для P(Ds|h,ƒ) в F*. При желании, может быть определено условное математическое ожидание по ƒ∈F*. При желании, может быть определен доверительный интервал для каждой гипотезы.

Дополнительные варианты осуществления:

Согласно некоторым вариантам осуществления используется бета-биномиальное распределение вместо биномиального распределения. Согласно некоторым вариантам осуществления эталонная хромосома или хромосомный сегмент используется для определения специфических для образца параметров бета-биномиала.

Теоретическая производительность с использованием имитационного моделирования:

При желании можно оценить теоретическую производительность алгоритма путем случайного присвоения числа эталонных считываний SNP с заданной глубиной прочтения (DOR). Для нормального случая, используют p=0,5 для параметра биномиальной вероятности, а для делеций или дупликации, p пересматривают соответствующим образом. Иллюстративные входные параметры для каждого моделирования представляют собой следующие: (1) количество SNP S (2) константа DOR D на SNP, (3) p и (4) число экспериментов.

Первый имитационный эксперимент:

Этот эксперимент фокусируется на S ∈ {500, 1000}, D ∈ {500, 1000} и p ∈ {0%, 1%, 2%, 3%, 4%, 5%}. Авторы настоящего изобретения выполнили 1000 имитационных экспериментов в каждой установке (следовательно, 24000 экспериментов с фазой и 24000 без фазы). Авторы настоящего изобретения моделировали число прочтений из биномиального распределения (при желании, могут быть использованы другие распределения). Относительное число ложноположительных срабатываний (в случае p=0%) и относительное число ложноотрицательных срабатываний (в случае p>0%) определяли, как с фазовой информацией, так и без нее. Относительные числа ложноположительных срабатываний приведены на Фиг. 26. Следует отметить, что фазовая информация может быть очень полезной, особенно для S=1000, D=1000. Хотя для S=500, D=500 алгоритм характеризовался наиболее высоким относительным числом ложноположительных срабатываний с поэтапным отказом от условий испытания или без него. Относительное число ложноотрицательных срабатываний приведено на Фиг. 27.

Фазовая информация особенно применима при низких процентах мозаицизма (≤3%). Без фазовой информации наблюдался высокий уровень ложноотрицательных срабатываний при p=1%, потому что доверительный интервал на делеции определяли путем присвоения равных возможностей H10 и H01, и небольшое отклонение в пользу одной из гипотез не достаточно, чтобы компенсировать низкое правдоподобие от другой гипотезы. Это относится и к дупликации также. Следует отметить также, что алгоритм, как представляется, более чувствителен к глубине прочтения по сравнению с количеством SNP. Для получения результатов с фазовой информацией, авторы настоящего изобретения предполагают, что совершенная фазовая информация доступна для большого количества последовательных гетерозиготных SNP. При желании, информация о гаплотипе может быть получена путем вероятностного объединения гаплотипов на более мелких сегментах.

Второй имитационный эксперимент:

Этот эксперимент фокусируется на S ∈ {100, 200, 300, 400, 500}, D ∈ {1000, 2000, 3000, 4000, 5000} и p ∈ {0%, 1%,1,5%, 2%,2,5%, 3%} и 10000 случайных экспериментов при различных параметрах. Относительное число ложноположительных срабатываний (в случае p=0%) и относительное число ложноотрицательных срабатываний (в случае p>0%) определяли, как с фазовой информацией, так и без нее. Относительное число ложноотрицательных срабатываний составляло ниже 10% для D≥3000 и N≥200 с использованием информации о гаплотипе, в то время как та же производительность достигается при D=5000 и N≥400 (Фиг. 20А и 20B). Разница между относительным числом ложноотрицательных срабатываний была особенно заметна для небольших процентов мозаицизма (Фиг. 21А-25B). Например, при p=1%, менее чем 20% относительного числа ложноотрицательных срабатываний никогда не достигается без данных гаплотипов, в то время как оно близко к 0% для N≥300 и D≥3000. При p=3%, относительное число ложноотрицательных срабатываний 0% наблюдается с данными гаплотипов, в то время как N≥300 и D≥3000 необходимо для достижения той же производительности без данных о гаплотипах.

Иллюстративные способы обнаружения делеции и дупликаций без фазированных данных

Согласно некоторым вариантам осуществления нефазированные генетические данные используют для определения, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментов в геноме индивидуума (например, в геноме одной или нескольких клеток или в вкДНК или вкРНК). Согласно некоторым вариантам осуществления используют фазированные генетические данные, но фазирование игнорируется. Согласно некоторым вариантам осуществления образец ДНК или РНК, представляет собой смешанный образец вкДНК или вкРНК от индивидуума, который включает в себя вкДНК или вкРНК из двух или нескольких генетически различных клеток. Согласно некоторым вариантам осуществления в способе используют величину разности между вычисленным аллельным соотношением и ожидаемым аллельным соотношением для каждого из локусов.

Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в образце ДНК или РНК из одной или нескольких клеток от индивидуума путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления аллельные соотношения вычисляют для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, из которой был получен образец (например, локусов, которые гетерозиготны у плода и/или гетерозиготны у матери). Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. Согласно некоторым вариантам осуществления вычисленное аллельное соотношение для конкретного локуса представляет собой измеренное количество одного из аллелей (например, аллеля на первом гомологичном хромосомном сегменте), разделенное на измеренное количество одного или нескольких других аллелей (например, аллеля на втором гомологичном хромосомном сегменте) для локуса. Вычисленные аллельные соотношения и ожидаемые аллельные соотношения могут быть вычислены с использованием любого из способов, описанных в настоящей заявке, или любым стандартным способом (например, как любым математическим преобразованием вычисленных аллельных соотношений или ожидаемых аллельных соотношений, описанных в настоящем документе).

Согласно некоторым вариантам осуществления статистику критерия вычисляют на основании величины разности между вычисленным аллельным соотношением и ожидаемым аллельным соотношением для каждого из локусов. Согласно некоторым вариантам осуществления статистику критерия A вычисляют по следующей формуле

где δi представляет собой величину разности между вычисленным аллельным соотношением и ожидаемым аллельным соотношением для i локусов;

где μi представляет собой среднее значение δi и

где представляет собой стандартное отклонение δi.

Например, можно определить δi следующим образом, когда ожидаемое аллельное соотношение составляет 0,5:

Значения μi и σi можно вычислить с использованием того факта, что Ri представляет собой биномиальную случайную величину. Согласно некоторым вариантам осуществления предполагается, что стандартное отклонение будет одинаковым для всех локусов. Согласно некоторым вариантам осуществления среднее или средневзвешенное значение стандартного отклонения или оценка стандартного отклонения используется для значения . Согласно некоторым вариантам осуществления предполагается, что статистика критерия характеризуется нормальным распределением. Например, центральная предельная теорема вытекает из того, что распределение Δ сходится к стандартному нормальному, поскольку увеличивается число локусов (например, число T SNP).

Согласно некоторым вариантам осуществления перечислена совокупность из одной или нескольких гипотез, задающих число копий хромосомы или хромосомного сегмента в геноме одной или нескольких клеток. Согласно некоторым вариантам осуществления выбирают гипотезу, которая представляет собой наиболее вероятную на основании статистики критерия, тем самым определяя число копий хромосомы или хромосомного сегмента в геноме одной или нескольких клеток. Согласно некоторым вариантам осуществления гипотезу выбирают, если вероятность того, что статистика критерия принадлежит к распределению статистики критерия для этой гипотезы, выше верхнего порога; одну или несколько гипотез отвергают, если вероятность того, что статистика критерия принадлежит к распределению статистики критерия для этой гипотезы, ниже нижнего порога; или гипотезу ни выбирают, ни отвергают, если вероятность того, что статистика критерия относится к распределению статистики критерия для этой гипотезы, между нижним порогом и верхним порогом или если вероятность не определяется с достаточно высоким интервалом достоверности. Согласно некоторым варианта осуществления верхний и/или нижний порог определяют из эмпирического распределения, такого как распределение от обучающих данных (например, образцов с известным числом копий, таких как диплоидные образцы или образцы, у которых известно наличие конкретной делеций или дупликации). Такое эмпирическое распределение может быть использовано для выбора порогового значения для теста отвержения единственной гипотезы.

Следует отметить, что статистика критерия Δ не зависит от S и, следовательно, оба они могут быть использованы независимо друг от друга, если это желательно.

Иллюстративные способы обнаружения делеций и дупликации с использованием аллельного распределения или профилей

Этот раздел включает в себя способы определения того, существует ли превышение числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом. Согласно некоторым вариантам осуществления способ предусматривает перечисление (I) множества гипотез, задающих число копий хромосомы или хромосомного сегмента, которые присутствуют в геноме одной или нескольких клеток (таких как злокачественные клетки) индивидуума, или (II) множества гипотез, задающих степень превышения числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток индивидуума. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных от индивидуума во множестве полиморфных локусов (например, локусов SNP) на хромосоме или хромосомном сегменте. Согласно некоторым вариантам осуществления создается распределение вероятностей ожидаемых генотипов индивидуума для каждой из гипотез. Согласно некоторым вариантам осуществления вычисляется соответствие между полученными генетическими данными индивидуума и распределением вероятностей ожидаемых генотипов индивидуума. Согласно некоторым вариантам осуществления одну или несколько гипотез ранжируют в соответствии с совпадением данных и выбирают гипотезу, которая занимает самое высокое положение при ранжировании. Согласно некоторым вариантам осуществления технику или алгоритм, например, алгоритм поиска, используют для одной или нескольких из следующих стадий: вычисление совпадения данных, ранжирование гипотез или выбор гипотезы, которая занимает самое высокое положение при ранжировании. Согласно некоторым вариантам осуществления совпадение данных представляет собой совпадение с бета-биномиальным распределением или совпадение с биномиальным распределением. Согласно некоторым вариантам осуществления технику или алгоритм выбирают из группы, состоящей из оценки по максимуму правдоподобия, оценки по апостериорному максимуму, Байесовской оценки, динамической оценки (например, динамической Байесовской оценки) и оценки на основе максимизации ожидания. Согласно некоторым вариантам осуществления способ предусматривает применение техники или алгоритма к полученным генетическим данным и ожидаемым генетическим данным.

Согласно некоторым вариантам осуществления способ предусматривает перечисление (I) множества гипотез, задающих число копий хромосомы или хромосомного сегмента, которые присутствуют в геноме одной или нескольких клеток (таких как злокачественные клетки) индивидуума, или (II) множества гипотез, задающих степень превышения числа копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток индивидуума. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных от индивидуума во множестве полиморфных локусов (например, локусов SNP) на хромосоме или хромосомном сегменте. Согласно некоторым вариантам осуществления генетические данные включают в себя подсчеты аллелей для множества полиморфных локусов. Согласно некоторым вариантам осуществления модель совместного распределения создается для ожидаемых подсчетов аллелей во множестве полиморфных локусов на хромосоме или хромосомном сегменте для каждой гипотезы. Согласно некоторым вариантам осуществления относительная вероятность для одной или нескольких гипотез определяется с использованием модели совместного распределения и подсчетов аллелей, измеренных на образце, и выбирают гипотезу с наибольшей вероятностью.

Согласно некоторым вариантам осуществления распределение или профиль аллелей (например, профиль вычисленных аллельных соотношений) используют для определения наличия или отсутствия CNV, таких как делеция или дупликация. При желании на основе этого профиля может быть определено родительское происхождение CNV. Наследуемая по материнской линии дупликация представляет собой дополнительную копию хромосомного сегмента от матери, а наследуемая по материнской линии делеция представляет собой отсутствие копии хромосомного сегмента от матери, так что присутствует единственная копия хромосомного сегмента от отца. Иллюстративные профили показаны на Фиг. 15A-19D и описаны ниже.

Для того чтобы определить наличие или отсутствие делеции представляющего интерес хромосомного сегмента, алгоритм учитывает распределение подсчетов последовательностей от каждого из двух возможных аллелей в большом количестве SNP на хромосому. Важно отметить, что некоторые варианты осуществления алгоритма используют подход, который не поддается визуализации. Таким образом, для целей иллюстрации, данные отображаются на Фиг. 15А-18 в упрощенном виде как соотношения двух наиболее вероятных аллелей, обозначенных как A и B, таким образом, что соответствующие тенденции могут быть более легко визуализированы. Эта упрощенная иллюстрация не принимает во внимание некоторые из возможных особенностей алгоритма. Например, два варианта осуществления для алгоритма, которые не возможно проиллюстрировать с помощью способа визуализации, который показывает аллельные соотношения, представляют собой: 1) возможность использовать неравновесия по сцеплению, то есть влияние того, что измерение в одном SNP имеет преимущество перед вероятной идентичностью соседних SNP, и 2) использование негауссовских моделей данных, описывающих ожидаемое распределение измерений аллелей в SNP данных характеристик платформы и стандартными ошибками амплификации. Также следует отметить, что упрощенная версия алгоритма учитывает только два наиболее распространенных аллеля в каждом SNP, игнорируя другие возможные аллели.

Представляющие интерес делеции были обнаружены в геномных и материнских образцах крови. Согласно некоторым вариантам осуществления геномные и материнские образцы плазмы анализировали с использованием способа мультиплексной ПЦР и секвенирования, описанного в примере 1. Исследуемые образцы геномной ДНК с синдромом не содержали гетерозиготные SNP в областях-мишенях, подтверждая способность анализов различать моносомию (пораженную) от дисомии (без изменений). Анализ вкДНК из образца материнской крови был в состоянии обнаружить синдром делеции 22q11.2, синдром кошачьего крика и синдром Вольфа-Хиршхорн, а также другие синдромы делеции на Фиг. 14 у плода.

На Фиг. 15А-15С изображены данные, которые указывают на наличие двух хромосом, когда образец представляет собой полностью материнский (не присутствует вкДНК плода, Фиг. 15А), содержит умеренную фетальную фракцию вкДНК 12% (Фиг. 15B) или содержит высокую фетальную фракцию вкДНК 26% (Фиг. 15C). Ось X представляет собой линейное положение отдельных полиморфных локусов по хромосоме, а ось Y представляет собой число прочтений аллеля А в виде доли от всех прочтений аллелей (А+В). Материнские и фетальные генотипы указаны справа от диаграмм. Диаграммы характеризуются цветовой маркировкой в соответствии с генотипом матери, таким образом, что красный указывает на материнский генотип АА, синий указывает на материнский генотип BB, а зеленый указывает на материнский генотип АВ. Следует отметить, что измерения производятся на общей вкДНК, выделенной из материнской крови, и вкДНК включает в себя вкДНК, как матери, так и плода; таким образом, каждое пятно представляет собой сочетание вклада ДНК матери и плода для этого SNP. Таким образом, увеличение доли материнской вкДНК от 0% до 100% будет постепенно смещать некоторые пятна вверх или вниз в пределах диаграмм в зависимости от генотипа матери и плода.

Во всех случаях, обнаруживается, что SNP, которые являются гомозиготными по аллелю A (AA), как у матери, так и плода, плотно связаны с верхним пределом диаграмм, а фракция прочтения A высока, потому что не должно присутствовать никаких аллелей В. И наоборот, обнаруживается, что SNP, которые являются гомозиготными по аллелю В у матери и плода, плотно связаны с нижним пределом диаграмм, поскольку фракция прочтения аллеля A низка, потому что должны быть только аллели B. Пятна, которые не плотно связаны с верхним и нижним пределами диаграмм, представляют собой SNP, для которых мать, плод или оба являются гетерозиготными; эти пятна применимы для идентификации фетальных делеции или дупликаций, но также могут быть информативными для определения отцовского наследования, по сравнению с материнским. Эти пятна сегрегируют на основе, как материнского, так и фетального генотипов и фетальной фракции, а также такое точное положение каждого отдельного пятна вдоль оси Y зависит как от стехиометрии, так и фетальной фракции. Например, локусы, где мать представляет собой АА, а плод - АВ, как ожидается, имеют различную долю прочтений аллелей, и, таким образом, различное положение вдоль оси Y в зависимости от эмбриональной фракции.

На Фиг. 15А представлены данные для небеременной женщины, и, таким образом, она представляет собой образец, когда генотип полностью материнский. Эта модель включает в себя "кластеры" пятен: красный кластер плотно связан с верхней частью диаграммы (SNP, где материнский генотип представляет собой AA), синий кластер тесно связан с нижней частью диаграммы (SNP, где материнский генотип представляет собой BB) и единственный, расположенный в центре зеленый кластер (SNP, где материнский генотип представляет собой АВ). На Фиг. 15B, вклад фетальных аллелей в долю прочтений аллеля А сдвигает положение некоторых пятен аллеля вверх или вниз вдоль оси Y. На Фиг. 15С легко просматривается профиль, включающий в себя две красные и две синие периферические полосы и трио центральных зеленых полос. Три центральные зеленые полосы соответствуют SNP, которые являются гетерозиготными у матери, а также две "периферические" группы сверху (красный) и снизу (синий) диаграммы соответствуют SNP, которые являются гомозиготными у матери.

Анализ носителя делеции 22q11.2 (мать с этой делецией) показан на Фиг. 16А. Носитель делеции не содержит гетерозиготных SNP в этой области, так как носитель характеризуется наличием только одной копии этой области. Таким образом, эта делеция указывает на отсутствие зеленого SNP АВ. Анализ наследуемой по отцовской линии делеции 22q11 у плода показан на Фиг. 16B. Когда плод наследует только одну копию хромосомного сегмента (в случае наследования делеции по отцовской линии, присутствующая у плода копия происходит от матери) и, таким образом, наследует только единственный аллель для каждого локуса в этом сегменте, гетерозиготность плода не возможна. Таким образом, единственными возможными идентификаторами фетальных SNP являются A или B. Следует отметить отсутствие внутренних периферических полос. Для унаследованной по отцовской линии делеций характерный профиль включает в себя две центральные зеленые полосы, которые представляют собой SNP, для которых мать является гетерозиготной, и имеются только единственные периферические красные и синие полосы, которые представляют собой SNP, для которых мать является гомозиготной и которые остаются тесно связанными с верхним и нижним пределами диаграмм (1 и 0), соответственно.

Анализ наследуемого по материнской линии делеционного синдрома кошачьего крика показан на Фиг. 17. Наблюдаются две центральные зеленые полосы вместо трех зеленых полос и есть две красные и две синие периферические полосы. Наследуемая по материнской линии делеция (например, носитель по материнской линии мышечной дистрофии Дюшенна) также может быть обнаружена на основе небольшого количества сигнала в этой области делеций в смешанном образце материнской и фетальной ДНК (например, образца плазмы) из-за того, что как мать, так и плод характеризуются наличием делеций.

Фиг. 18 представляет собой график с унаследованным по отцовской линии делеционным синдромом Вольфа-Хиршхорна, как указано благодаря наличию одной красной и одной синей периферической полосы.

При желании, подобные графики могут быть получены для образца от индивидуума с подозрением на наличие делеций или дупликации, например, CNV, связанной со злокачественной опухолью. На таких графиках, может использоваться следующее цветовое кодирование на основе генотипа клеток без CNV: красный указывает на генотип АА, синий указывает на генотип BB и зеленый указывает на генотип АВ. Согласно некоторым вариантам осуществления для делеций, профиль включает в себя две центральные зеленые полосы, которые представляют собой SNP, для которых индивидуум является гетерозиготным (верхняя зеленая полоса представляет собой АВ из клеток без делеций и A из клеток с делецией, а нижняя зеленая полоса представляет собой АВ из клеток без делеций и В из клеток с делецией), а содержит только единственные периферические красные и синие полосы, которые представляют собой SNP, для которых индивидуум является гомозиготным, и которые остаются тесно связанными с верхним и нижним пределами диаграмм (1 и 0), соответственно. Согласно некоторым вариантам осуществления разделение двух зеленых полос возрастает с увеличением доли клеток, ДНК или РНК с делецией.

Иллюстративные способы идентификации и анализа многоплодных беременностей

Согласно некоторым вариантам осуществления любой из способов согласно настоящему изобретению используют для обнаружения наличия многоплодной беременности, такой как беременности двойней, где по меньшей мере один из плодов генетически отличается от по меньшей мере одного другого плода. Согласно некоторым вариантам осуществления разнояйцевых близнецов идентифицируют на основании наличия двух плодов с различным аллелем, различными аллельными соотношениями или различными аллельными распределениями в некоторых (или всех) исследуемых локусах. Согласно некоторым вариантам осуществления разнояйцевых близнецов идентифицируют посредством определения ожидаемого аллельного соотношения в каждом локусе (например, локусах SNP) для двух плодов, которые могут иметь одинаковые или различные фетальные фракции в образце (например, образце плазмы). Согласно некоторым вариантам осуществления правдоподобие конкретной пары фетальных фракций (где f1 представляет собой фетальную фракцию для плода 1 и f2 представляет собой фетальную фракцию для плода 2) вычисляют с учетом некоторых или всех возможных генотипов двух плодов, обусловлено генотипом и популяционными частотами генотипа матери. Смесь двух фетальных и одного материнского генотипа в сочетании с фетальными фракциями, определяет ожидаемое аллельное соотношение в SNP. Например, если мать представляет собой АА, плод 1 представляет собой АА и плод 2 представляет собой АВ, то общая доля аллеля B в SNP составляет половину от f2. Расчет вероятности спрашивает, насколько хорошо все SNP вместе соответствуют ожидаемым аллельным отношениям, основанным на всех возможных комбинациях фетальных генотипов. Выбирают пару фетальных фракций (f1, f2), которая наилучшим образом соответствует данным. Нет необходимости в вычислении конкретных генотипов плодов; вместо этого, можно, например, рассматривать все возможные генотипы в статистическом сочетании. Согласно некоторым вариантам осуществления, если способ не делает различия между синглтоном и идентичными близнецами, может быть выполнено ультразвуковое исследование, чтобы определить, имеется одноплодная беременность или однояйцевые близнецы. Если УЗИ обнаруживает двойную беременность, можно предположить, что беременность представляет собой беременность однояйцевыми близнецами, потому что беременность двуяйцевыми близнецами была бы обнаружена на основе анализа SNP, рассмотренного выше.

Согласно некоторым вариантам осуществления известно, что беременная женщина характеризуется наличием многоплодной беременности (например, беременности двойней) на основе предварительного исследования, например, ультразвукового исследования. Любой из способов по настоящему изобретению может быть использован для определения того, включает ли многоплодная беременность однояйцевых или двуяйцевых близнецов. Например, измеренные аллельные соотношения можно сравнить с таковыми, которые можно было бы ожидать для однояйцевых близнецов (например, такие же аллельные соотношения как при одноплодной беременности) или для двуяйцевых близнецов (например, вычисление аллельных соотношений, как описано выше). Некоторые однояйцевые близнецы представляют собой монохориальную двойню, которые характеризуются риском развития синдрома фето-фетальной трансфузии. Таким образом, близнецы, определенные как однояйцевые близнецы с использованием способа согласно настоящему изобретению, желательно должны быть исследованы (например, с помощью ультразвука), чтобы определить, являются ли они монохориальной двойней, и если да, то этих близнецов можно контролировать (например, посредством ультразвукового исследования каждые две недели начиная с 16 недель) на наличие признаков синдрома фето-фетальной трансфузии.

Согласно некоторым вариантам осуществления любой из способов согласно настоящему изобретению используют для определения того, представляет ли собой какой-либо из плодов в многоплодной беременности, например, беременности двойней, анеуплоидный. Исследование анеуплоидий для близнецов начинается с оценки фетальных фракций. Согласно некоторым вариантам осуществления выбирают пару фетальных фракций (f1, f2), которая наилучшим образом соответствует данным, как описано выше. Согласно некоторым вариантам осуществления оценку способом максимального правдоподобия выполняют для пары параметров (f1, f2) в диапазоне возможных фетальных фракций. Согласно некоторым вариантам осуществления диапазон f2 составляет от 0 до f1, так как f2 определяется как меньшая фетальная фракция. Учитывая пару (f1, f2), данные правдоподобия вычисляют из аллельных соотношений, наблюдаемых в совокупности локусов, таких как локусы SNP. Согласно некоторым вариантам осуществления данные правдоподобия отражают генотипы матери, отца, если доступны, популяционные частоты, и полученные в результате вероятности генотипов плода. Согласно некоторым вариантам осуществления SNP предполагаются независимыми. Оцененная пара фетальных фракций представляет собой ту, которая производит самое высокое правдоподобие данных. Если f2 равна 0, то данные лучше всего объясняются только одной совокупностью фетальных генотипов, что указывает на однояйцевых близнецов, где f1 представляет собой комбинированную фетальную фракцию. В противном случае f1 и f2 представляют собой оценки отдельных фетальных фракций близнецов. Установив наилучшую оценку (f1, f2), можно прогнозировать общую фракцию аллеля B в плазме для любой комбинации материнского и фетального генотипов, при желании. Не нужно присваивать прочтения отдельных последовательностей отдельным плодам. Исследование плоидности проводят с использованием другой оценки способом максимального правдоподобия, который сравнивает правдоподобность данных двух гипотез. Согласно некоторым вариантам осуществления для однояйцевых близнецов рассматривают гипотезы (I) оба близнеца являются эуплоидными и (II) оба близнеца являются трисомными. Согласно некоторым вариантам осуществления для двуяйцевых близнецов рассматриваются гипотезы (I) оба близнеца являются эуплоидными и (II) по меньшей мере один близнец является трисомным. Гипотезы трисомии для двуяйцевых близнецов основаны на более низкой фетальной фракции, так как трисомия у близнеца с более высокой фетальной фракцией также будет обнаружена. Правдоподобия плоидности вычисляют с использованием способа, который предсказывает ожидаемое число считываний в каждом нацеленном локусе генома, обусловленное гипотезами либо дисомии, либо трисомии. Для эталонной дисомии хромосом требования отсутствуют. Модель дисперсии для ожидаемого числа считываний учитывает производительность отдельных локусов-мишеней, а также корреляцию между локусами (смотрите, например, патент США с серийным №62/008235, поданный 5 июня 2014 г., и патент США с серийным номером 62/032785, поданный 4 августа 2014 г., каждый из которых полностью включен в настоящий документ посредством ссылки). Если меньший близнец характеризуется наличием фетальной фракции f1, способность обнаружить трисомию у этого близнеца эквивалентна способности обнаружить трисомию при одноплодной беременности в той же фетальной фракции. Это объясняется тем, что часть способа, который обнаруживает трисомию согласно некоторым вариантам осуществления, не зависит от генотипов и не различает многоплодную или одноплодную беременность. Он просто ищет увеличенное число прочтений в соответствии с определенной фетальной фракцией.

Согласно некоторым вариантам осуществления способ предусматривает обнаружение наличия близнецов на основании локусов SNP (например, как описано выше). Если близнецы обнаружены, SPN используются для определения фетальной фракции каждого плода (f1, f2), как описано выше. Согласно некоторым вариантам осуществления образцы, которые характеризуются высоким доверительным интервалом обнаружения дисомии, используются для определения систематической ошибки амплификации на основе каждого SNP. Согласно некоторым вариантам осуществления эти образцы с высоким доверительным интервалом обнаружения дисомии анализируют в том же пробеге, что и один или нескольких представляющих интерес образцов. Согласно некоторым вариантам осуществления систематические погрешности амплификации на основе каждого SNP используются для моделирования распределения прочтений для одной или нескольких представляющих интерес хромосом или хромосомных сегментов, таких, как ожидаемая 21-я хромосома, или гипотезы дисомии и трисомии, заданной наименьшей из двух фетальных фракций близнецов. Правдоподобие или вероятность дисомии или трисомии вычисляется с учетом двух моделей и измеренного количества представляющей интерес хромосомы или хромосомного сегмента.

Согласно некоторым вариантам осуществления пороговое значение для распознанной положительной анеуплоидии (например, распознанной трисомии) устанавливается на основании близнеца с меньшей фетальной фракцией. Таким образом, если другой близнец представляет собой положительный или если оба положительны, то общее хромосомное представление точно выше порогового значения.

Иллюстративные способы подсчета/количественные способы Согласно некоторым вариантам осуществления один или несколько способов подсчета (также упоминается как количественные способы) используются для обнаружения одного или нескольких CNS, такие как делеции или дупликации хромосомных сегментов или целых хромосом. Согласно некоторым вариантам осуществления один или несколько способов подсчета используются для определения того, представляет собой превышение числа копий первого гомологичного хромосомного сегмента результат дупликации первого гомологичного хромосомного сегмента или результат делеции второго гомологичного хромосомного сегмента. Согласно некоторым вариантам осуществления один или несколько способов подсчета используются для определения числа дополнительных копий хромосомного сегмента или хромосомы, которая дублируется (например, существует ли 1, 2, 3, 4 или более дополнительных копий). Согласно некоторым вариантам осуществления один или несколько способов подсчета используются для дифференциации образца, который характеризуется многими дупликациями и меньшей опухолевой фракцией из образца с меньшим числом дупликаций и большей опухолевой фракцией. Например, один или несколько способов подсчета могут быть использованы для дифференциации образца с четырьмя дополнительными копиями хромосом и опухолевой фракцией, составляющей 10%, от образца с двумя дополнительными копиями хромосом и опухолевой фракцией 20%. Иллюстративные способы описаны, например, в публикациях патента США №2007/0184467; 2013/0172211 и 2012/0003637; в патентах США №8467976, 7888017; 8008018; 8296076 и 8195415; в патенте США с серийным №62/008235, поданном 5 июня 2014 г., и патенте США с серийным №62/032785, поданном 4 августа 2014 г., каждый из которых полностью включен в настоящий документ посредством ссылки.

Согласно некоторым вариантам осуществления способ подсчета предусматривает подсчет количества основанных на последовательности ДНК прочтений, которые картируют на одну или несколько данных хромосом или хромосомных сегментов. Некоторые такие способы предусматривают создание эталонного значения (предельного значения) для числа считываний последовательностей ДНК, отображенных на определенной хромосоме или хромосомном сегменте, причем число считываний сверх значения представляет собой показатель определенной генетической аномалии.

Согласно некоторым вариантам осуществления общее измеренное количество всех аллелей одного или нескольких локусов (например, общее количество полиморфного или не полиморфного локуса) сравнивается с эталонным количеством. Согласно некоторым вариантам осуществления эталонное количество представляет собой (I) пороговое значение или (II) предполагаемое количество для гипотезы определенного числа копий. Согласно некоторым вариантам осуществления эталонное количество (для отсутствия CNV) представляет собой общее измеренное количество всех аллелей для одного или нескольких локусов, для одной или нескольких хромосом или хромосомных сегментов, про которые известно или предполагается, что у них отсутствует делеция или дупликация. Согласно некоторым вариантам осуществления эталонное количество (для наличия CNV) представляет собой общее измеренное количество всех аллелей для одного или нескольких локусов, для одной или нескольких хромосом или хромосомных сегментов, про которые известно или предполагается, что у них присутствует делеция или дупликация. Согласно некоторым вариантам осуществления эталонное количество представляет собой общей измеренное количество всех аллелей для одного или нескольких локусов, для одной или нескольких эталонных хромосом или хромосомных сегментов. Согласно некоторым вариантам осуществления эталонное количество представляет собой среднее или медианное значения, определенные для двух или более различных хромосом, хромосомных сегментов или разных образцов. Согласно некоторым вариантам осуществления случайное (например, массовое параллельное секвенирование способом выстрела из дробового ружья) или направленное секвенирование используется для определения количества одного или нескольких полиморфных или не полиморфных локусов.

Согласно некоторым вариантам осуществления использования эталонного количества, способ предусматривает (a) измерение количества генетического материала на представляющей интерес хромосоме или хромосомном сегменте; (b) сравнение количества со стадии (a) с эталонным количеством и (c) идентификация на основе сравнения наличия или отсутствия делеции или дупликации.

Согласно некоторым вариантам осуществления использования эталонной хромосомы или хромосомного сегмента, способ предусматривает секвенирование ДНК или РНК из образца, чтобы получить множество тегов последовательностей, выравнивающих по локусам-мишеням. Согласно некоторым вариантам осуществления теги последовательностей характеризуются достаточной длиной, чтобы быть отнесенными к конкретному локусу-мишени (например, 15-100 нуклеотидов в длину); локусы-мишени представляют собой локусы из множества различных хромосом или хромосомных сегментов, которые включают в себя по меньшей мере одну первую хромосому или хромосомный сегмент, подозреваемый в аномальном распределении в образце, и по меньшей мере одну вторую хромосому или хромосомный сегмент, который как предполагают, имеет нормальное распределение в образце. Согласно некоторым вариантам осуществления множество тегов последовательностей назначают соответствующим локусам. Согласно некоторым вариантам осуществления определяется число тегов последовательностей, выравнивающих по локусам-мишеням первой хромосомы или хромосомного сегмента, и число тегов последовательностей выравнивающих по локусам-мишеням второй хромосомы или хромосомного сегмента. Согласно некоторым вариантам осуществления эти числа сравниваются, чтобы определить наличие или отсутствие аномального распределения (например, делеции или дупликации) первой хромосомы или хромосомного сегмента.

Согласно некоторым вариантам осуществления значение ƒ (например, фетальная фракция или опухолевая фракция) используют при определении CNV, например, для сравнения наблюдаемых различий между количеством двух хромосом или хромосомных сегментов с разницей, которую можно было бы ожидать для конкретного типа CNV, принимая во внимание значение ƒ (смотрите, например, публикацию патента США №2012/0190020, публикацию патента США №2012/0190021, публикацию патента США №2012/0190557, публикацию патента США №2012/0191358, каждый из которых полностью включен в настоящий документ посредством ссылки). Например, разница в количестве хромосомного сегмента, которая дублируется у плода, по сравнению с дисомным эталонным хромосомным сегментом в образце крови от матери, несущей плод, возрастает с увеличением фетальной фракции. Кроме того, разница в количестве хромосомного сегмента, которая дублируется в опухоли, по сравнению с дисомным эталонным хромосомным сегментом увеличивается, когда увеличивается фетальная фракция. Согласно некоторым вариантам осуществления способ предусматривает сравнение относительной частоты представляющей интерес хромосомы или хромосомного сегмента с эталонной хромосомой или хромосомным сегментом (например, хромосоме или хромосомному сегменту с ожидаемой или известной дисомией) до значения ƒ, чтобы определить вероятность CNV. Например, разницу в количестве между первой хромосомой или хромосомным сегментом с эталонной хромосомой или хромосомным сегментом можно сравнить с тем, что можно было бы ожидать, учитывая значение ƒ для различных возможных CNV (например, одной или двух дополнительных копий представляющего интерес хромосомного сегмента).

Следующие примеры возможного использования иллюстрируют использование способа подсчета/количественного способа, чтобы различать дупликацию первого гомологичного хромосомного сегмента и делецию второго гомологичного хромосомного сегмента. Если нормальный дисомный геном хозяина рассматривать исходным уровнем, тогда анализ смеси нормальных и злокачественных клеток дает среднюю разницу между исходным уровнем и злокачественной ДНК в смеси. Например, представим случай, когда 10% ДНК в образце происходит из клеток с делецией в области хромосомы, нацеленной с помощью анализа. Согласно некоторым вариантам осуществления количественный подход показывает, что количество прочтений, соответствующих этой области, как ожидается, будет 95% от ожидаемого для нормального образца. Это объясняется тем, что одна из двух хромосомных областей-мишеней в каждой из опухолевых клеток с делецией нацеленной области отсутствует, и, таким образом, общее количество отображения ДНК в этой области составляет 90% (для нормальных клеток) плюс (для опухолевых клеток) = 95%. Альтернативно, согласно некоторым вариантам осуществления аллельный подход показывает, что соотношение аллелей в гетерозиготных локусах в среднем составляет 19:20. Теперь представим случай, когда 10% ДНК в образце происходит от клеток с пятикратной фокусной амплификацией области хромосомы, нацеленной с помощью анализа. Согласно некоторым вариантам осуществления количественный подход показывает, что количество прочтений, соответствующих этой области, как ожидается, будет 125% от того, которое ожидается для нормального образца. Это объясняется тем, что одна из двух хромосомных областей-мишеней в каждой из опухолевых клеток с пятикратной фокальной амплификацией копируется дополнительные пять раз в нацеленной области, и, таким образом, общее количество отображения ДНК в этой области составляет 90% (для нормальных клеток) плюс (2+5)×10%/2 (для опухолевых клеток) = 125%. Альтернативно, согласно некоторым вариантам осуществления аллельный подход показывает, что соотношение аллелей в гетерозиготных локусах составляет в среднем 25:20. Следует отметить, что при использовании только аллельного подхода, пятикратная фокусная амплификация хромосомной области в образце с 10% вкДНК может оказаться такой же, как делеция той же области в образце с 40% вкДНК; в этих двух случаях, гаплотип, который недостаточно представлен в случае делеций, по-видимому, представляет собой гаплотип без CNV в случае с фокусной дупликацией, а гаплотип без CNV в случае делеций, по-видимому, представляет собой превалирующий гаплотип в случае с фокусной дупликацией. Сочетание правдоподобий, полученных посредством этого аллельного подхода, с правдоподобиями, полученными с помощью количественного подхода, проводит различия между этими двумя возможностями.

Иллюстративные способы подсчета/количественные способы с использованием эталонных образцов

Иллюстративный количественный способ, который использует один или несколько эталонных образцов, описан в патенте США с серийным номером 62/008235, поданном 5 июня 2014 г., и патенте США с серийным номером 62/032785, поданном 4 августа 2014 г., которые полностью включены в настоящий документ посредством ссылки. Согласно некоторым вариантам осуществления один или нескольких эталонных образцов, наиболее вероятно не имеющие каких-либо CNV на одной или нескольких представляющих интерес хромосомах или хромосомных сегментах (например, нормальный образец), идентифицируют путем выбора образцов с самой высокой долей опухолевой ДНК, отбора образцов с Z-показателем ближе всего к нулю, выбора образцов, где данные соответствуют гипотезе, соответствующей отсутствию CNV с наивысшим доверительным интервалом или правдоподобием, выбора образцов с известной нормальностью, выбора образцов от индивидуумов с самым низким правдоподобием наличия злокачественной опухоли (например, характеризующихся небольшим возрастом, мужским полом при скрининге на злокачественную опухоль молочной железы, без семейного анамнеза и т.д.), выбора образцов с наибольшим входным количеством ДНК, выбора образцов с наибольшим отношением сигнал-шум, выбора образцов на основе других критериев, которые, как полагают, коррелируют с правдоподобием наличия злокачественной опухоли, или выбора образцов с использованием некоторой комбинации критерий. После выбора эталонной совокупности, можно сделать предположение о том, что эти случаи представляют собой дисомию, а затем оценить систематическую погрешность на SNP, которая представляет собой специфическую для эксперимента амплификацию, и другие систематические ошибки обработки для каждого локуса. Затем можно использовать эту оценку специфической для эксперимента систематической ошибки для исправления систематической ошибки в измерениях представляющей интерес хромосомы, например, локусов хромосомы 21, и для других хромосомных локусов в зависимости от обстоятельств, для образцов, которые не представляют собой часть подмножества, где дисомия предполагается для хромосомы 21. После исправления систематических погрешностей для этих образцов неизвестной плоидности, данные для этих образцов затем могут быть проанализированы во второй раз с использованием того же или другого способа, чтобы определить, характеризуются ли индивидуумы (например, плоды) наличием трисомии 21. Например, количественный способ может быть использован на оставшемся образце неизвестной плоидности, и Z-показатель может быть вычислен с использованием исправленных измеренных генетических данных на хромосоме 21. Альтернативно, в рамках предварительной оценки состояния плоидности хромосомы 21, может быть вычислена фетальная фракция (или опухолевая фракция для образцов от индивидуума с подозрением на злокачественную опухоль). Доля исправленных прочтений, которая ожидается в случае дисомии (гипотеза дисомии) и доля исправленных прочтений, которая ожидается в случае трисомии (гипотеза трисомии) может быть вычислена для случая с этой фетальной фракцией. Альтернативно, если фетальная фракция не была измерена ранее, совокупность гипотез дисомии и трисомии может быть получена для различных фетальных фракций. Для каждого случая, ожидаемое распределение доли исправленных прочтений можно рассчитать с учетом ожидаемой статистической вариации в выборе и измерении различных локусов ДНК. Наблюдаемую исправленную долю прочтений можно сравнить с распределением ожидаемой доли исправленных прочтений, и может быть вычислено отношение правдоподобия для гипотез дисомии и трисомии для каждого из образцов неизвестной плоидности. Состояние плоидности, связанное с гипотезой с самым высоким вычисленным правдоподобием, может быть выбрано в качестве правильного состояния плоидности.

Согласно некоторым вариантам осуществления может быть выбрано подмножество образцов с достаточно низким правдоподобием наличия злокачественной опухоли, чтобы выступать в качестве контрольной совокупности образцов. Подмножество может представлять собой фиксированное количество или оно может представлять собой переменное количество, которое основано на выборе только тех образцов, которые падают ниже порогового значения. Количественные данные из подмножества образцов могут быть объединены, усреднены или объединены с использованием средневзвешенного, где взвешивание основывается на правдоподобии нормального образца. Количественные данные могут быть использованы для определения статистической ошибки каждого локуса для амплификации секвенирования образцов в данном пакете контрольных образцов. Систематические ошибки на локус могут также включать в себя данные из других партий образцов. Систематические ошибки на локус могут указывать на относительную избыточную или недостаточную амплификацию, которая наблюдается для данного локуса по сравнению с другими локусами, что делает предположение о том, что подмножество образцов не содержит никаких CNV, и что любая наблюдаемая избыточная или недостаточная амплификация представляет собой результат амплификации и/или секвенирования, или другой систематической ошибки. Систематические ошибки на локус могут принимать во внимание содержание GC ампликона. Локусы могут быть сгруппированы в группы локусов с целью вычисления систематической ошибки на локус. После того, как систематическая ошибка на локус было рассчитана для каждого локуса во множестве локусов, данные секвенирования для одного или нескольких образцов, которые не в подгруппе образцов, и необязательно одного или нескольких образцов, которые находятся в подмножестве образцов, могут быть исправлены путем корректировки количественных измерений для каждого локуса, чтобы устранить эффект систематической ошибки в этом локусе. Например, если SNP 1 наблюдался в подгруппе пациентов, характеризующихся глубиной прочтения, которая в два раза больше, чем в среднем, корректировка может включать в себя замену числа прочтений, соответствующих SNP 1 на число, которое в два раза больше. Если исследуемый локус представляет собой SNP, корректировка может включать в себя сокращение числа прочтений, соответствующих каждому из аллелей в этом локусе наполовину. После того как данные секвенирования для каждого из локусов в одном или нескольких образцах были скорректированы, они могут быть проанализированы с использованием способа с целью обнаружения присутствия CNV в одной или нескольких хромосомных областях.

В качестве примера, образец A представляет собой смесь амплифицированной ДНК, происходящей из смеси нормальных и злокачественных клеток, которые анализируют с помощью количественного способа. Ниже показаны иллюстративные возможные данные. Область плеча q на хромосоме 22 встречается только у 90% ожидаемых отображений ДНК в этой области; фокальная область, соответствующая гену HER2, обнаружена у 150% ожидаемых отображений ДНК в этой области и p-плечо хромосомы 5 обнаружено у 105% ожидаемых отображений ДНК в этой области. Клиницист может сделать вывод, что образец содержит делецию области на q-плече на хромосоме 22 и дупликацию гена HER2. Клиницист может сделать вывод, что, так как делеции 22q распространены при злокачественной опухоли молочной железы и что, так как клетки с делецией области 22q на обеих хромосомах, как правило, не выживают, то приблизительно 20% ДНК в образце происходит от клеток с делецией 22q на одной из двух хромосом. Клиницист может также сделать вывод, что если ДНК из смешанного образца, который происходит из опухолевых клеток, происходящих из совокупности генетически опухолевых клеток, у которых область HER2 и области 22q были однородными, то клетки содержали пятикратную дупликацию области HER2.

В качестве примера, образец A также анализируют с использованием аллельного способа. Ниже показаны иллюстративные возможные данные. Два гаплотипа на одной и той же области на плече q на хромосоме 22 присутствуют в соотношении 4:5; два гаплотипа в фокальной области, соответствующие гену HER2, присутствуют в соотношении 1:2; и два гаплотипа на p-плече хромосомы 5 присутствуют в соотношении 20:21. Все остальные исследованные области генома не имеют статистически значимого превышения любого гаплотипа. Клиницист может сделать вывод, что образец содержит ДНК из опухоли с CNV в области 22q, области HER2 и плече 5р. Основываясь на знании того, что делеций 22q очень распространены при злокачественной опухоли молочной железы, и/или количественном анализе, показывающем превышение количества картированной ДНК на область 22q генома, клиницист может сделать вывод о существовании опухоли с делецией 22q. Основываясь на знании того, что амплификации HER2 очень распространены при злокачественной опухоли молочной железы, и/или количественном анализе, показывающем превышение количества картирования ДНК на область HER2 генома, клиницист может сделать вывод о существовании опухоли с амплификацией HER2.

Иллюстративные эталонные хромосомы или хромосомные сегменты

Согласно некоторым вариантам осуществления любой из описанных в настоящем документе способов также выполняется на одной или нескольких эталонных хромосомах или хромосомных сегментах и результаты сравнивают с таковыми для одной или нескольких представляющих интерес хромосом или хромосомных сегментов.

Согласно некоторым вариантам осуществления эталонная хромосома или хромосомный сегмент используют в качестве контроля для того, что можно было бы ожидать при отсутствии CNV. Согласно некоторым вариантам осуществления эталон представляет собой ту же хромосому или хромосомный сегмент из одного или нескольких различных образцов, про которые известно или предполагается, что у них отсутствует делеция или дупликация в этой хромосоме или хромосомном сегменте. Согласно некоторым вариантам осуществления эталон представляет собой другую хромосому или хромосомный сегмент из исследуемого образца, который, как ожидается, будет дисомным. Согласно некоторым вариантам осуществления эталон представляет собой другой сегмент от одной из представляющих интерес хромосом в том же исследуемом образце. Например, эталонным может быть один или несколько сегментов за пределами области потенциальной делеций или дупликации. Наличие эталона на той же самой хромосоме, которая исследуется, избегает изменчивости между разными хромосомами, такими как различия в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между хромосомами. Анализ сегментов без CNV на той же самой исследуемой хромосоме также может быть использован для определения различий в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между гомологами, позволяя определить уровень изменчивости между гомологами в отсутствие CNV для сравнения с результатами от потенциального CNV. Согласно некоторым вариантам осуществления величина разницы между вычисленными и ожидаемыми аллельными соотношениями для потенциального CNV выше, чем соответствующая величина для эталона, тем самым подтверждая наличие CNV.

Согласно некоторым вариантам осуществления эталонную хромосому или хромосомный сегмент используют в качестве контроля для того, что можно было бы ожидать при наличии CNV, такой как определенная представляющая интерес делеция или дупликация. Согласно некоторым вариантам осуществления эталон представляет собой ту же хромосому или хромосомный сегмент из одного или нескольких различных образцов, у которых известно или предполагается наличие делеции или дупликации в этой хромосоме или хромосомном сегменте. Согласно некоторым вариантам осуществления эталон представляет собой другую хромосому или хромосомный сегмент из исследуемого образца, у которого известно или ожидается наличие CNV. Согласно некоторым вариантам осуществления величина разности между вычисленными и ожидаемыми аллельными соотношениями на потенциальную CNV подобна (например, не сильно отличается), в отличие от соответствующей величины для эталона на CNV, тем самым подтверждая наличие CNV. Согласно некоторым вариантам осуществления величина разности между вычисленными и ожидаемыми аллельными соотношениями на потенциальную CNV меньше (например, значительно меньше), чем соответствующая величина для эталона на CNV, тем самым подтверждая отсутствие CNV. Согласно некоторым вариантам осуществления один или несколько локусов, для которых генотип злокачественной клетки (или ДНК или РНК из злокачественной клетки, такой как вкДНК или вкРНК) отличается от генотипа незлокачественной клетки (или ДНК или РНК из незлокачественной клетки, такой как вкДНК или вкРНК), что используют для определения опухолевой фракции. Опухолевая фракция может быть использована, чтобы определить, объясняется ли превышение числа копий первого гомологичного хромосомного сегмента дупликацией первого гомологичного хромосомного сегмента или делецией второго гомологичного хромосомного сегмента. Опухолевая фракция также может быть использована для определения количества дополнительных копий хромосомного сегмента или хромосомы, которая дублируется (например, имеется ли 1, 2, 3, 4 или более дополнительных копий), например, чтобы дифференцировать образец с четырьмя дополнительными копиями хромосом и опухолевой фракцией 10% от образца с двумя дополнительными копиями хромосом и опухолевой фракцией 20%. Опухолевая фракция также может быть использована для определения того, насколько хорошо наблюдаемые данные соответствуют ожидаемым данным на возможные CNV. Согласно некоторым вариантам осуществления степень превышения CNV используется для выбора конкретной терапии или терапевтической схемы лечения для индивидуума. Например, некоторые терапевтические средства эффективны только по меньшей мере для четырех, шести или более копий хромосомного сегмента.

Согласно некоторым вариантам осуществления один или нескольких локусов, используемых для определения опухолевой фракции на эталонной хромосоме или хромосомном сегменте, таком как хромосома или хромосомный сегмент, про который известно или предполагается, что он является дисомным, хромосома или хромосомный сегмент, который редко дублируется или удаляется в злокачественных клетках в целом или при конкретном типе злокачественной опухоли, которая имеется у индивидуума или он подвержен повышенному риску наличия, или хромосома или хромосомный сегмент, который вряд ли будет анеуплоидным (такой сегмент, как ожидается, приведет к клеточной гибели при делеции или дупликации). Согласно некоторым вариантам осуществления любой из способов согласно настоящему изобретению используют для подтверждения того, что эталонная хромосома или хромосомный сегмент является дисомным, как в злокачественных, так и незлокачественных клетках. Согласно некоторым вариантам осуществления используют одну или несколько хромосом или хромосомных сегментов, для которых доверительный интервал для распознавания дисомии высок.

Иллюстративные локусы, которые могут быть использованы для определения опухолевой фракции, включают в себя полиморфизмы или мутации (например, SNP) в злокачественных клетках (или ДНК или РНК, такие как вкДНК или вкРНК из злокачественной клетки), которые не присутствуют в незлокачественной клетке (или ДНК или РНК из незлокачественной клетки) у индивидуума. Согласно некоторым вариантам осуществления опухолевую фракцию определяют путем идентификации тех полиморфных локусов, где злокачественная клетка (или ДНК или РНК из злокачественной клетки) содержит аллель, который отсутствует в незлокачественных клетках (или ДНК или РНК из незлокачественных клеток) в образце (например, образце плазмы или биопсии опухоли) от индивидуума; и использования количества аллеля, уникального для злокачественной клетки в одном или нескольких из идентифицированных полиморфных локусов для определения опухолевой фракции в образце. Согласно некоторым вариантам осуществления незлокачественная клетка представляет собой гомозиготную для первого аллеля в полиморфном локусе, а злокачественная клетка является (I) гетерозиготной по первому аллелю и второму аллелю или (II) гомозиготной по второму аллелю в полиморфном локусе. Согласно некоторым вариантам осуществления незлокачественная клетка является гетерозиготной по первому аллелю и второму аллелю в полиморфном локусе, а злокачественная клетка (I) содержит одну или две копии третьего аллеля в полиморфном локусе. Согласно некоторым вариантам осуществления злокачественные клетки, как предполагается или известно, содержат только одну копию аллеля, который не присутствует в незлокачественных клетках. Например, если генотип незлокачественных клеток представляет собой AA, а злокачественных клеток представляет собой АВ, и 5% сигнала в этом локусе в образце от аллеля B, а 95% от аллеля A, то опухолевая фракция образца составляет 10%. Согласно некоторым вариантам осуществления злокачественные клетки, как предполагается или известно, содержат две копии аллеля, который не присутствует в незлокачественных клетках. Например, если генотип незлокачественных клеток представляет собой АА, а злокачественных клеток представляет собой ВВ, и 5% сигнала в этом локусе в образце от аллеля B, а 95% от аллеля A, опухолевая фракция образца составляет 5%. Согласно некоторым вариантам осуществления множественные локусы, для которых имеют аллель злокачественные клетки, а не незлокачественные клетки, анализируют, чтобы определить, какие из локусов в злокачественных клетках гетерозиготны, а какие гомозиготны. Например, для локусов, в которых незлокачественные клетки представляют собой АА, если сигнал от аллеля B составляет ~5% в некоторых локусах и ~10% в некоторых локусах, то злокачественные клетки считаются гетерозиготными в локусах с ~5% аллелем B и гомозиготными в локусах с ~10% аллелем В (указывая на то, что опухолевая фракция составляет ~10%).

Иллюстративные локусы, которые могут быть использованы для определения опухолевой фракции включают в себя локусы, для которых злокачественная клетка и незлокачественная клетка имеют один общий аллель (такие как локусы, в которых злокачественная клетка представляет собой АВ, а незлокачественная клетка представляет собой BB, или злокачественная клетка представляет собой BB, а незлокачественная клетка представляет собой АВ). Количество сигнала A, количество сигнала B или отношение сигнала A к B в смешанном образце (содержащем ДНК или РНК из злокачественной клетки и незлокачественной клетки) сравнивают с соответствующим значением для (I) образца, содержащего ДНК или РНК, полученные только из злокачественных клеток, или (II) образца, содержащего ДНК или РНК только из незлокачественных клеток. Различие в значениях используют для определения опухолевой фракции смешанного образца.

Согласно некоторым вариантам осуществления локусы, которые могут быть использованы для определения опухолевой фракции, выбираются на основе генотипа (I) образца, содержащего ДНК или РНК только из злокачественных клеток, и/или (II) образца, содержащего ДНК или РНК только из незлокачественных клеток. Согласно некоторым вариантам осуществления локусы выбирают на основе анализа смешанного образца, такие как локусы, для которых абсолютные или относительные количества каждого аллеля отличается от того, что можно было бы ожидать, если бы злокачественные и незлокачественные клетки характеризовались бы одинаковым генотипом в определенном локусе. Например, если злокачественные и незлокачественные клетки характеризуются одинаковым генотипом, можно было бы ожидать, что локусы производили бы сигнал B 0%, если все клетки представляют собой АА, сигнал B 50%, если все клетки представляют собой АВ, или сигнал B 100%, если все клетки представляют собой ВВ. Другие значения для сигнала B показывают, что генотип злокачественных и незлокачественных клеток различается в этом локусе и, таким образом, что локус может быть использован для определения опухолевой фракции.

Согласно некоторым вариантам осуществления опухолевую фракцию, рассчитанную на основании аллелей в одном или нескольких локусов, сравнивают с опухолевой фракцией, рассчитанной с использованием одного или нескольких способов подсчета, раскрытых в настоящем документе.

Иллюстративные способы обнаружения фенотипа или анализа множественных мутаций

Согласно некоторым вариантам осуществления способ предусматривает анализ образца на совокупность мутаций, ассоциированных с заболеванием или нарушением (например, злокачественной опухолью) или повышенным риском развития заболевания или нарушения. Существуют сильные корреляции между событиями в пределах классов (например, классами злокачественных опухолей М или С), которые могут быть использованы для улучшения отношения сигнала к шуму способа и классификации опухолей в различных клинических подмножествах. Например, пограничные результаты для нескольких мутаций (например, нескольких CNV) на одной или нескольких хромосомах или хромосомных сегментах, рассматриваемых совместно, могут представлять собой очень сильный сигнал. Согласно некоторым вариантам осуществления определение наличия или отсутствия представляющих интерес множественных полиморфизмов или мутаций (например, 2, 3, 4, 5, 8, 10, 12, 15 или более) повышает чувствительность и/или специфичность определения наличия или отсутствия заболевания или нарушения, такого как злокачественная опухоль, или повышенный риск развития заболевания или нарушения, такого как злокачественная опухоль. Согласно некоторым вариантам осуществления корреляция между событиями в нескольких хромосомах используется для более серьезной оценки сигнала, по сравнению с оценкой каждого из них по отдельности. Разработка самого способа может быть оптимизирована, чтобы наилучшим образом классифицировать опухоли. Это может быть очень полезным для раннего выявления и скрининга рецидива, где чувствительность к одной конкретной мутации/CNV может иметь первостепенное значение. Согласно некоторым вариантам осуществления эти события не всегда коррелируют, но имеется вероятность их корреляции. Согласно некоторым вариантам осуществления используется формулировка оценки матрицы с матрицей ковариации шума, которая воспроизводит недиагональные термины.

Согласно некоторым вариантам осуществления настоящее изобретение относится к способу обнаружения фенотипа (например, злокачественного фенотипа) у индивидуума, причем фенотип определяется наличием по меньшей мере одной из совокупностей мутаций. Согласно некоторым вариантам осуществления способ предусматривает получение измерений ДНК или РНК в образце ДНК или РНК из одной или нескольких клеток от индивидуума, причем у одной или нескольких из клеток подозревается наличие фенотипа; и анализ измерений ДНК или РНК для определения, для каждой из мутаций в совокупности мутаций, вероятности того, что по меньшей мере одна из клеток содержит эту мутацию. Согласно некоторым вариантам осуществления способ предусматривает определение того, что индивидуум характеризуется наличием фенотипа, если (I) по меньшей мере для одной из мутаций правдоподобие того, что по меньшей мере одна из клеток содержит эти мутации больше, чем пороговое значение, или (II) по меньшей мере для одной из мутаций, правдоподобие того, что по меньшей мере одна из клеток содержит эти мутации меньше, чем пороговое значение, и для множества мутаций, совокупное правдоподобие того, что по меньшей мере одна из клеток содержит по меньшей мере одну из мутаций больше, чем пороговое значение. Согласно некоторым вариантам осуществления одна или нескольких клеток содержат подмножество или все мутации в совокупности мутаций. Согласно некоторым вариантам осуществления подмножество мутаций связано со злокачественной опухолью или повышенным риском развития злокачественной опухоли. Согласно некоторым вариантам осуществления совокупность мутаций включает в себя подмножество или все мутации в классе М злокачественных мутаций (публикация Ciriello, Nat Genet. 45(10): 1127-1133, 2013, doi: 10.1038/ng.2762, которая полностью включена в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления совокупность мутаций включает в себя подмножество или все мутации в классе C злокачественных мутаций (Ciriello, выше). Согласно некоторым вариантам осуществления образец включает в себя внеклеточную ДНК или РНК. Согласно некоторым вариантам осуществления измерения ДНК или РНК включают в себя измерения (например, количество каждого аллеля в каждом локусе) в совокупности полиморфных локусов на одной или нескольких представляющих интерес хромосомах или хромосомных сегментах.

Иллюстративные способы исследования на отцовство или исследования на генетическое родство

Способы согласно настоящему изобретению могут быть использованы для повышения точности исследования на отцовство или других исследований на генетическое родство (смотрите, например, публикацию патента США №2012/0122701, поданную 22 декабря 2011 г., которая полностью включена в настоящий документ посредством ссылки). Например, способ мультиплексной ПЦР может позволить проанализировать тысячи полиморфных локусов (таких как SNP) для использования в алгоритме PARENTAL SUPPORT, описанном в настоящем документе, чтобы определить представляет ли собой предполагаемый отец биологического отца плода. Согласно некоторым вариантам осуществления настоящее изобретение относится к способу для установления того, является ли предполагаемый отец биологическим отцом плода, которого вынашивает беременная мать. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для предполагаемого отца (например, с использованием других описанных в настоящем документе способов для фазирования генетических данных), причем фазированные генетические данные содержат идентификацию присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте у предполагаемого отца. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в смешанном образце ДНК, содержащем ДНК плода и ДНК матери от матери плода, путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления способ предусматривает вычисление на компьютере ожидаемых генетических данных для смешанного образца ДНК из фазированных генетических данных для предполагаемого отца; определение на компьютере вероятности того, что предполагаемый отец представляет собой биологического отца плода путем сравнения с получением генетических данных, сделанным на смешанном образце ДНК с ожидаемыми генетическими данными для смешанного образца ДНК; а также установление того, является ли предполагаемый отец биологическим отцом плода с использованием определенной вероятности того, что предполагаемый отец представляет собой биологического отца плода. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для биологической матери плода (например, с использованием другого из способов, описанных в настоящем документе, для фазирования генетических данных), причем фазированные генетические данные содержат идентификацию присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте у матери. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для плода (например, с использованием другого из способов, описанных в настоящем документе, для фазирования генетических данных), причем фазированные генетические данные содержат идентификацию присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте у плода. Согласно некоторым вариантам осуществления способ предусматривает вычисление на компьютере ожидаемых генетических данных для смешанного образца ДНК с использованием фазированных генетических данных для предполагаемого отца и использованием фазированных генетических данных для матери и/или фазированных генетических данных для плода.

Согласно некоторым вариантам осуществления настоящее изобретение относится к способу установления того, является ли предполагаемый отец биологическим отцом плода, который вынашивает беременная мать. Согласно некоторым вариантам осуществления способ предусматривает получение фазированных генетических данных для предполагаемого отца (например, с использованием другого из способов, описанных в настоящем документе, для фазирования генетических данных), причем фазированные генетические данные содержат идентичность присутствующего аллеля для каждого локуса в совокупности полиморфных локусов на первом гомологичном хромосомном сегменте и втором гомологичном хромосомном сегменте у предполагаемого отца. Согласно некоторым вариантам осуществления способ предусматривает получение генетических данных в совокупности полиморфных локусов на хромосоме или хромосомном сегменте в смешанном образце ДНК, содержащем ДНК плода и ДНК матери, от матери плода путем измерения количества каждого аллеля в каждом локусе. Согласно некоторым вариантам осуществления способ предусматривает идентификацию (I) аллелей, которые присутствуют в ДНК плода, но отсутствуют в материнской ДНК в полиморфных локусах, и/или идентификацию (I) аллелей, которые отсутствуют в ДНК плода и материнской ДНК в полиморфных локусах. Согласно некоторым вариантам осуществления способ предусматривает определение на компьютере вероятности того, что предполагаемый отец представляет собой биологического отца плода; причем определение предусматривает: (1) сравнение (I) аллелей, которые присутствуют в фетальной ДНК, но отсутствуют в материнской ДНК, в полиморфных локусах с (II) аллелями в соответствующих полиморфных локусах в генетическом материале от предполагаемого отца, и/или (2) сравнение (I) аллелей, которые отсутствуют в ДНК плода и ДНК матери в полиморфных локусах, с (II) аллелями в соответствующих полиморфных локусах в генетическом материале от предполагаемого отца; и установление того, является ли предполагаемый отец биологическим отцом плода с использованием определенной вероятности того, что предполагаемый отец представляет собой биологического отца плода.

Согласно некоторым вариантам осуществления описанный выше способ определения того, является ли предполагаемый отец биологическим отцом плода, используется для определения, является ли предполагаемый родственник (например, бабушка или дедушка, родной брат/сестра, тетя или дядя) плода фактическим биологическим родственником плода (например, с использованием генетических данных предполагаемого родственника вместо генетических данных предполагаемого отца).

Иллюстративные комбинации способов

Для повышения точности результатов выполняют два или несколько способов (например, любой из способов согласно настоящему изобретению или любой известный способ) обнаружения наличия или отсутствия CNV. Согласно некоторым вариантам осуществления выполняют один или несколько способов анализа фактора (например, любой из описанных в настоящем документе способов или любой известный способ), указывающих на наличие или отсутствие заболевания или нарушения или повышенный риск развития заболевания или нарушения.

Согласно некоторым вариантам осуществления стандартные математические техники используются для вычисления ковариации и/или корреляции между двумя или более способами. Стандартные математические техники могут быть также использованы для определения совокупной вероятности конкретной гипотезы, основанной на двух или нескольких тестах. Иллюстративные техники включают в себя мета-анализ, комбинированный тест вероятности Фишера для независимых испытаний, способ Брауна для объединения зависимых p-значений с известными ковариациями и метод Коста для комбинирования зависимых p-значений с неизвестными ковариации. В тех случаях, когда правдоподобие определяют первым способом ортогональным путем или путем, который не связан с путем, в котором правдоподобие определяют для второго способа, объединение правдоподобий не вызывает затруднений и может быть сделано путем умножения и нормализации или с использованием формулы, такой как:

Rобъед.=R1R2/[R1R2+(1-R1)(1-R2)]

Rобъед. представляет собой объединенное правдоподобие, а R1 и R2 представляют собой отдельные правдоподобия. Например, если правдоподобие трисомии из способа 1 составляет 90% и правдоподобие трисомии из способа 2 составляет 95%, то объединение выходов из двух способов позволяет клиницисту сделать вывод о том, что плод представляет собой плод с трисомией с вероятностью (0,90)(0,95)/[(0,90)(0,95)+(1-0,90)(1-0,95)]=99,42%. В тех случаях, когда первый и второй способы не представляют собой ортогональные, то есть, где существует корреляция между этими двумя способами, то правдоподобия все еще могут быть объединены.

Иллюстративные способы анализа нескольких факторов или переменных описаны в патенте США №8024128, выданном 20 сентября 2011 г.; публикации США №2007/0027636, поданной 31 июля 2006 г., и в публикации США №2007/0178501, поданной 6 декабря 2006 г., каждая из которых полностью включена в настоящий документ посредством ссылки).

Согласно различным вариантам осуществления совместная вероятность конкретной гипотезы или диагноза превышает 80, 85, 90, 92, 94, 96, 98, 99 или 99,9% или больше, чем какая-либо другая пороговая величина.

Предел обнаружения

Согласно некоторым вариантам осуществления предел обнаружения мутации (например, SNV или CNV) способа согласно настоящему изобретению составляет 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее. Согласно некоторым вариантам осуществления предел обнаружения мутации (например, SNV или CNV) способа согласно настоящему изобретению составляет от 15 до 0,005%, например, от 10 до 0,005%, от 10 до 0,01%, от 10 до 0,1%, от 5 до 0,005%, от 5 до 0,01%, от 5 до 0,1%, от 1 до 0,005%, от 1 до 0,01%, от 1 до 0,1%, от 0,5 до 0,005%, от 0,5 до 0,01%, от 0,5 до 0,1% или от 0,1 до 0,01, включительно. Согласно некоторым вариантам осуществления предел обнаружения таков, что обнаруживается (или может быть обнаружена) мутация (например, SNV или CNV), присутствие которой составляет 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее от молекулы ДНК или РНК с этим локусом в образце (например, образце вкДНК или вкРНК). Например, мутация может быть обнаружена, даже если ее присутствие составляет 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее от молекул ДНК или РНК, у которых есть этот локус с мутацией в локусе (вместо, например, версии дикого типа или немутированной версии локуса или иной мутации в этом локусе). Согласно некоторым вариантам осуществления предел обнаружения таков, что обнаруживается (или может быть обнаружена) мутация (например, SNV или CNV), присутствие которой составляет 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее от молекул ДНК или РНК в образце (например, образце вкДНК или вкРНК). Согласно некоторым вариантам осуществления, в которых CNV представляет собой делецию, делеция может быть обнаружена, даже если ее присутствие составляет только 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее молекул ДНК или РНК, которые содержат представляющую интерес область, которая может содержать или не содержать делеции в образце. Согласно некоторым вариантам осуществления, в которых CNV представляет собой делецию, делеция может быть обнаружена, даже если ее присутствие составляет только 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее молекул ДНК или РНК в образце. Согласно некоторым вариантам осуществления, в которых CNV представляет собой дупликацию, дупликация может быть обнаружена, даже если присутствие дополнительно продублированной ДНК или РНК составляет 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее молекул ДНК или РНК, которые содержат представляющую интерес область, которая может быть продублирована или не продублирована в образце. Согласно некоторым вариантам осуществления, в которых CNV представляет собой дупликацию, дупликация может быть обнаружена, даже если присутствие дополнительно продублированной ДНК или РНК составляет 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% или менее молекул ДНК или РНК в образце. В примере 6 приведены иллюстративные способы для вычисления предела обнаружения. Согласно некоторым вариантам осуществления используется способ "LOD-zs5.0-mr5" примера 6.

Иллюстративные образцы

Согласно некоторым вариантам осуществления любого из аспектов настоящего изобретения, образец включает в себя клеточный и/или внеклеточный генетический материал из клеток, в которых подозревается наличие делеции или дупликации, например, клеток, которые подозреваются в злокачественности. Согласно некоторым вариантам осуществления образец содержит любую ткань или биологическую жидкость, предположительно содержащую клетки, ДНК или РНК с делецией или дупликацией, такие как злокачественные клетки, ДНК или РНК. Генетические измерения, используемые в рамках этих способов, могут быть выполнены на любом образце, содержащем ДНК или РНК, например, но без ограничения, на ткани, крови, сыворотке, плазме, моче, волосах, слезах, слюне, коже, ногтях, фекалиях, желчи, лимфе, цервикальной слизи, семенной жидкости или других клетках или материалах, содержащих нуклеиновые кислоты. Образцы могут включать в себя любой тип клеток или ДНК или РНК из любого типа клеток (например, клетки из любого органа или ткани, подозреваемых в злокачественности, или нейронов). Согласно некоторым вариантам осуществления образец включает в себя ядерную и/или митохондриальную ДНК. Согласно некоторым вариантам осуществления образец происходит от любого из раскрытых в настоящем документе индивидуумов-мишеней. Согласно некоторым вариантам осуществления индивидуум-мишень представляет собой рожденного индивидуума, вынашиваемый плод, невынашиваемый плод, например, образец продуктов оплодотворенной яйцеклетки, эмбриона или любого другого индивидуума.

Иллюстративные образцы включают в себя те, которые содержат вкДНК или вкРНК. Согласно некоторым вариантам осуществления вкДНК доступна для анализа, не требуя стадии лизирования клеток. Внеклеточная ДНК может быть получена из различных тканей, таких как ткани, которые находятся в жидкой форме, например, кровь, плазма, лимфа, асцитная жидкость или спинно-мозговая жидкость. В некоторых случаях вкДНК состоит из ДНК, полученной из эмбриональных клеток. В некоторых случаях вкДНК состоит из ДНК, полученной, как из фетальных, так и материнских клеток. В некоторых случаях вкДНК выделяют из плазмы, которая была выделена из цельной крови, которую центрифугировали для удаления клеточного материала. ВкДНК может представлять собой смесь ДНК, полученную из клеток-мишеней (например, злокачественных клеток) и клеток-немишеней (например, незлокачественных клеток).

Согласно некоторым вариантам осуществления образец содержит или предположительно содержит смесь ДНК (или РНК), такую как смесь злокачественной ДНК (или РНК), а также незлокачественной ДНК (или РНК). Согласно некоторым вариантам осуществления по меньшей мере 0,5, 1, 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% клеток в образце представляют собой злокачественные клетки. Согласно некоторым вариантам осуществления по меньшей мере 0,5, 1, 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% ДНК (например, вкДНК) или РНК (например, вкРНК) в образце происходят из злокачественной клетки (клеток). Согласно различным вариантам осуществления процент клеток в образце, которые представляют собой злокачественные клетки, составляет от 0,5 до 99%, например, от 1 до 95%, от 5 до 95%, от 10 до 90%, от 5 до 70%, от 10 до 70%, от 20 до 90% или от 20 до 70%, включительно. Согласно некоторым вариантам осуществления образец обогащен злокачественными клетками или ДНК или РНК из злокачественных клеток. Согласно некоторым вариантам осуществления в котором образец обогащен злокачественными клетками, по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% клеток в обогащенном образце представляют собой злокачественные клетки. Согласно некоторым вариантам осуществления, в которых образец обогащен ДНК или РНК из злокачественных клеток, по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% ДНК или РНК в обогащенном образце происходят из злокачественной клетки(ок). Согласно некоторым вариантам осуществления сортировка клеток (например, сортировка флуоресцентно-активированных клеток (FACS)) используется для обогащения злокачественными клетками (публикации Barteneva et. al., Biochim Biophys Acta., 1836(1): 105-22, Aug 2013. doi: 10.1016/j.bbcan.2013.02.004. Epub 2013 Feb 24 и Ibrahim et al., Adv Biochem Eng Biotechnol. 106: 19-39, 2007, каждая из которых полностью включена в настоящий документ посредством ссылки).

Согласно некоторым вариантам осуществления любого из аспектов согласно настоящему изобретению образец содержит любую ткань, которая предполагает по меньшей мере частичное фетальное происхождение. Согласно некоторым вариантам осуществления образец включает в себя клеточный и/или внеклеточный генетический материал от плода, загрязняющий клеточный и/или внеклеточный генетический материал (например, генетический материал от матери плода) или их сочетание. Согласно некоторым вариантам осуществления образец содержит клеточный генетический материал от плода, загрязняющий клеточный генетический материал или их комбинацию.

Согласно некоторым вариантам осуществления образец происходит от вынашиваемого плода. Согласно некоторым вариантам осуществления образец происходит от невынашиваемого плода, например, продуктов образца оплодотворенной яйцеклетки или образца из любой ткани плода после гибели плода. Согласно некоторым вариантам осуществления образец представляет собой образец цельной крови матери, клетки, выделенные из образца крови матери, образец плазмы матери, образец сыворотки матери, образец амниоцентеза, образец плацентарной ткани (например, хорионбиопсию, децидуальную или плацентарную мембрану), образец цервикальной слизи или другой образец от плода. Согласно некоторым вариантам осуществления по меньшей мере 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% клеток в образце представляют собой материнские клетки. Согласно различным вариантам осуществления процент клеток в образце, которые представляют собой материнские клетки, находится в пределах от 5 до 99%, например, от 10 до 95%, от 20 до 95%, от 30 до 90%, от 30 до 70%, от 40 до 90%, от 40 до 70%, от 50 до 90% или от 50 до 80%, включительно.

Согласно некоторым вариантам осуществления образец обогащен фетальными клетками. Согласно некоторым вариантам осуществления, в которых образец обогащен фетальными клетками, по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7% или более клеток в обогащенном образце представляют собой клетки плода. Согласно некоторым вариантам осуществления процент клеток в образце, которые представляют собой клетки плода, составляет от 0,5 до 100%, например, от 1 до 99%, от 5 до 95%, от 10 до 95%, от 10 до 95%, от 20 до 90% или от 30 до 70%, включительно. Согласно некоторым вариантам осуществления образец обогащен ДНК плода. Согласно некоторым вариантам осуществления, в котором образец обогащен ДНК плода, по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7% или более ДНК в обогащенном образце представляют собой ДНК плода. Согласно некоторым вариантам осуществления процент ДНК в образце, которые представляют собой ДНК плода, составляет от 0,5 до 100%, например, от 1 до 99%, от 5 до 95%, от 10 до 95%, от 10 до 95%, от 20 до 90% или от 30 до 70%, включительно.

Согласно некоторым вариантам осуществления образец включает в себя единственную клетку или включает в себя ДНК и/или РНК из одной клетки. Согласно некоторым вариантам осуществления множество отдельных клеток (например, по меньшей мере 5, 10, 20, 30, 40 или 50 клеток от того же субъекта или разных субъектов) анализируют параллельно. Согласно некоторым вариантам осуществления клетки от нескольких образцов от того же индивидуума объединяют, что уменьшает объем работ по сравнению с анализом образцов по отдельности. Объединение нескольких образцов может также позволить одновременное исследование нескольких тканей на наличие злокачественной опухоли (которые могут быть использованы для обеспечения или более тщательного скрининга на наличие злокачественной опухоли или чтобы определить, имеются ли злокачественные метастазы в другие ткани).

Согласно некоторым вариантам осуществления образец содержит одну клетку или небольшое число клеток, например, 2, 3, 5, 6, 7, 8, 9 или 10 клеток. Согласно некоторым вариантам осуществления настоящего изобретения образец содержит от 1 до 100, от 100 до 500 или от 500 до 1000 клеток, включительно. Согласно некоторым вариантам осуществления образец содержит от 1 до 10 пикограмм, от 10 до 100 пикограмм, от 100 пикограмм до 1 нанограммов, от 1 до 10 нанограмм, от 10 до 100 нанограмм или 100 нанограмм до 1 микрограмма РНК и/или ДНК, включительно.

Согласно некоторым вариантам осуществления образец заключают в парафиновую пленку. Согласно некоторым вариантам осуществления образец сохраняется с консервантом, таким как формальдегид, и необязательно, заключенным в парафин, что может вызывать сшивание ДНК таким образом, что он становится менее доступным для ПЦР. Согласно некоторым вариантам осуществления образец представляет собой фиксированный в формальдегиде заключенный в парафин (FFPE) образец. Согласно некоторым вариантам осуществления образец представляет собой свежий образец (например, образец, полученный в течение 1 или 2 дней анализа). Согласно некоторым вариантам осуществления образец замораживают перед анализом. Согласно некоторым вариантам осуществления образец представляет собой исторический образец.

Эти образцы могут быть использованы в любом из способов согласно настоящему изобретению.

Иллюстративные способы подготовки образцов

Согласно некоторым вариантам осуществления способ предусматривает выделение или очистку ДНК и/или РНК. Существует целый ряд стандартных процедур, известных в настоящей области техники, для достижения такого конца. Согласно некоторым вариантам осуществления образец может быть центрифугирован для отделения различных слоев. Согласно некоторым вариантам осуществления ДНК или РНК может быть выделена с использованием фильтрации. Согласно некоторым вариантам осуществления подготовка ДНК или РНК может включать в себя амплификацию, сепарацию, очистку с помощью хроматографии, жидкость-жидкостное разделение, выделение, преимущественное обогащение, преимущественную амплификацию, направленную амплификацию или любую из ряда других техник, либо известных в настоящей области техники, либо описанных в настоящем документе. Согласно некоторым вариантам осуществления для выделения ДНК используется РНКаза для разрушения РНК. Согласно некоторым вариантам осуществления для выделения РНК используется ДНКаза (например, ДНКаза I от Invitrogen, Carlsbad, СА, США) для разрушения ДНК. Согласно некоторым вариантам осуществления используется мини набор RNeasy (QIAGEN) для выделения РНК в соответствии с протоколом производителя. Согласно некоторым вариантам осуществления небольшие молекулы РНК выделяют с использованием набора mirVana PARIS (Амбион, Остин, штат Техас, США) в соответствии с протоколом производителя (публикация Gu et al., J. Neurochem. 122: 641-649, 2012, которая полностью включена в настоящий документ посредством ссылки). Концентрация и чистота РНК необязательно может быть определена с использованием Nanovue (GE Healthcare, Piscataway, NJ, США), a целостность РНК необязательно может быть измерена путем использования биоанализатора 2100 (Agilent Technologies, Санта-Клара, Калифорния, США) (публикация Gu et al., J. Neurochem. 122: 641-649, 2012, которая полностью включена в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления TRIZOL или RNAlater (Ambion) используют для стабилизации РНК в процессе хранения.

Согласно некоторым вариантам осуществления добавляют универсальные меченые адаптеры, чтобы получить библиотеку. До лигирования ДНК-образец может быть тупоконечным, а затем одно аденозиновое основание добавляют к 3'-концу. До лигирования ДНК может быть расщеплена с использованием рестриктазы или некоторых других способов расщепления. При лигации 3'-аденозиных фрагментов образца и комплементарного 3'-тирозинового липкого конца адаптора можно повысить эффективность лигации. Согласно некоторым вариантам осуществления лигирование адаптора выполняется с использованием набора для лигирования, найденном в наборе AGILENT SURESELECT. Согласно некоторым вариантам осуществления библиотеку амплифицируют с использованием универсальных праймеров. Согласно одному варианту осуществления амплифицированную библиотеку фракционируют путем сепарации по размеру или с использованием таких продуктов, как гранулы AGENCOURT AMPURE или других подобных способов. Согласно некоторым вариантам осуществления ПЦР-амплификацию используют для амплификации локусов-мишеней. Согласно некоторым вариантам осуществления амплифицированную ДНК секвенируют (например, секвенирование с использованием секвенсора ILLUMINA IIGAX или HiSeq). Согласно некоторым вариантам осуществления амплифицированную ДНК секвенируют с каждого конца амплифицированной ДНК, чтобы уменьшить количество ошибок секвенирования. Если находится ошибка последовательности в конкретном основании при секвенировании с одного конца амплифицированной ДНК, менее вероятно, что будет ошибка последовательности в комплементарном основании при секвенировании с другой стороны амплифицированной ДНК (по сравнению с секвенированием несколько раз с одного и того же конца амплифицированной ДНК).

Согласно некоторым вариантам осуществления амплификацию целого генома (WGA) используют для амплификации образца нуклеиновой кислоты. Существует целый ряд способов, доступных для WGA: опосредованная лигированием ПЦР (LM-PCR), ПЦР с вырожденным олигонуклеотидным праймером (DOP-PCR) и амплификации с множественным вытеснением цепи (MDA). При LM-PCR короткие ДНК-последовательности, называемые адапторы, лигируют с тупоконечной ДНК. Эти адаптеры содержат универсальные последовательности амплификации, которые используют для амплификации ДНК с помощью ПЦР. При DOP-PCR случайные праймеры, которые также содержат универсальные последовательности амплификации, используются в первом раунде отжига и ПЦР. Затем второй раунд ПЦР используется для дальнейшей амплификации последовательностей с универсальными праймерными последовательностями. MDA использует phi-29-полимеразу, которая представляет собой высоко процессивный и неспецифический фермент, который реплицирует ДНК и используется для одноклеточного анализа. Согласно некоторым вариантам осуществления WGA не выполняется.

Согласно некоторым вариантам осуществления селективную амплификацию или обогащение используют для амплификации или обогащения локусов-мишеней. Согласно некоторым вариантам осуществления техника амплификации и/или селективного обогащения может включать в себя такую ПЦР, как опосредованная лигацией ПЦР, захват фрагментов путем гибридизации, инвертируемые молекулярные зонды или другие циркулирующие зонды. Согласно некоторым вариантам осуществления используют количественную ПЦР в режиме реального времени (RT-qPCR), цифровую ПЦР или эмульсионную ПЦР, реакцию достройки по одному аллельному основанию с последующей масс-спектрометрией (публикация Hung et al., J Clin Pathol 62: 308-313, 2009, которая полностью включена в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления захват с помощью гибридизации с гибридными зондами захвата используют для предпочтительного обогащения ДНК. Согласно некоторым вариантам осуществления способы амплификации или селективного обогащения могут включать в себя использование зондов, где, при правильной гибридизации с последовательностью-мишенью, 3'-конец или 5'-конец нуклеотидного зонда отделяют от полиморфного сайта полиморфного аллеля посредством небольшого числа нуклеотидов. Такое отделение снижает преимущественную амплификацию одного аллеля, названную аллельной систематической погрешностью. Это улучшение по сравнению со способами, которые связаны с использованием зондов, где 3'-конец или 5'-конец правильно гибридизированного зонда непосредственно примыкает или находится в непосредственной близости от полиморфного сайта аллеля. Согласно одному варианту осуществления зонды, в которых область гибридизации может содержать или точно содержит полиморфный сайт, исключаются. Полиморфные сайты в сайте гибридизации могут вызывать неравную гибридизацию или ингибировать гибридизацию вообще в некоторых аллелях, приводя к преимущественной амплификации определенных аллелей. Эти варианты осуществления представляют собой улучшения по сравнению с другими способами, которые включают в себя нацеленную амплификацию и/или селективное обогащение в том, что они лучше сохраняют исходные частоты аллелей образца в каждом полиморфном локусе, представляет ли собой образец чистый геномный образец от одного индивидуума или смеси индивидуумов.

Согласно некоторым вариантам осуществления ПЦР (называемую мини-ПЦР) используют для получения очень коротких ампликонов (заявка на патент США №13/683604, поданная 21 ноября 2012 г., публикация заявки США №2013/0123120, заявка на патент США №13/300235, поданная 18 ноября 2011 г., публикация заявки США №2012/0270212, поданная 18 ноября 2011 г. и патент США с серийным №61/994791, поданный 16 мая 2014 г., каждый из которых полностью включен в настоящий документ посредством ссылки). ВкДНК (например, фетальная вкДНК в сыворотке крови матери или некротически или апоптически высвобожденная злокачественная вкДНК) представляет собой сильно фрагментированную. Для фетальной вкДНК размеры фрагментов распределены приблизительно по гауссовому распределению со средним значением 160 п.н., стандартное отклонение 15 п.н., минимальный размер приблизительно 100 п.н., а максимальный размер приблизительно 220 п.н. Полиморфный сайт одного конкретного локуса-мишени может занимать любое положение от начала до конца между различными фрагментами, происходящими из этого локуса. Поскольку фрагменты вкДНК являются короткими, правдоподобие обоих присутствующих участков праймеров и правдоподобие фрагмента длиной L, содержащего участки как прямого, так и обратного праймера, представляет собой отношение длины ампликона к длине фрагмента. В идеальных условиях анализы, в которых ампликон составляет 45, 50, 55, 60, 65 или 70 п.н., будут успешно амплифицировать 72%, 69%, 66%, 63%, 59% или 56%, соответственно, имеющихся в наличии шаблонных молекул фрагментов. Согласно некоторым вариантам осуществления, которые наиболее предпочтительно касаются вкДНК из образцов индивидуумов, у которых подозревается наличие злокачественной опухоли, вкДНК амплифицируют с использованием праймеров, которые дают максимальную длину ампликона 85, 80, 75 или 70 п.н., а согласно некоторым предпочтительным вариантам осуществления 75 п.н., и которые характеризуются температурой плавления от 50 до 65°C, а согласно некоторым предпочтительным вариантам осуществления от 54 до 60,5°C. Длина ампликона представляет собой расстоянием между 5'-концами прямого и обратного примирующих сайтов. Длина ампликона, которая короче, чем те, которые обычно используют в настоящей области техники, может привести к более эффективным измерениям желаемых полиморфных локусов посредством необходимости только коротких прочтений последовательности. Согласно одному варианту осуществления значительная фракция ампликонов составляет менее 100 п.н., менее 90 п.н., менее 80 п.н., менее 70 п.н., менее 65 п.н., менее 60 п.н., менее 55 п.н., менее 50 п.н. или менее 45 п.н..

Согласно некоторым вариантам осуществления амплификацию осуществляют с использованием прямой мультиплексной ПЦР, последовательной ПЦР, вложенной ПЦР, дважды вложенной ПЦР, полуторносторонней вложенной ПЦР, полностью вложенной ПЦР, односторонней полностью вложенной ПЦР, односторонней вложенной ПЦР, полугнездовой ПЦР, трехкратно полу-гнездовой ПЦР, полугнездовую ПЦР, односторонней полугнездовой ПЦР, реверсной полугнездовой ПЦР или односторонней ПЦР, которые описаны в заявке на патент США №13/683604, поданной 21 ноября 2012 г., публикации США №2013/0123120, заявке на патент США №13/300235, поданной 18 ноября 2011 г., публикации США №2012/0270212 и патенте США с серийным №61/994791, поданным 16 мая 2014 г., которые полностью включены в настоящий документ посредством ссылки. Если желательно, любой из этих способов может быть использован для мини-ПЦР.

При необходимости, стадия удлинения ПЦР-амплификации может быть ограничена с точки зрения времени, чтобы уменьшить амплификацию из фрагментов длиной более 200 нуклеотидов, 300 нуклеотидов, 400 нуклеотидов, 500 нуклеотидов или 1000 нуклеотидов. Это может привести к обогащению фрагментированной или более короткой ДНК (такой как фетальная ДНК или ДНК из злокачественных клеток, претерпевших апоптоз или некроз) и улучшению производительности теста.

Согласно некоторым вариантам осуществления используется мультиплексная ПЦР. Согласно некоторым вариантам осуществления способ амплификации локусов-мишеней в образце нуклеиновой кислоты предусматривает (I) контактирование образца нуклеиновой кислоты с библиотекой праймеров, которые одновременно гибридизуют по меньшей мере с 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных локусов-мишеней для получения реакционной смеси; и (II) подвергание реакционной смеси воздействию реакционных условий для достройки праймером (например, условий ПЦР) для производства амплифицированных продуктов, которые включают в себя ампликоны-мишени. Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% локусов-мишеней. Согласно различным вариантам осуществления менее чем 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% амплифицированных продуктов представляют собой димеры праймеров. Согласно некоторым вариантам осуществления праймеры находятся в растворе (например, растворенные в жидкой фазе, а не в твердой фазе). Согласно некоторым вариантам осуществления праймеры находятся в растворе и не иммобилизованы на твердом носителе. Согласно некоторым вариантам осуществления праймеры не представляют собой часть микрочипов. Согласно некоторым вариантам осуществления праймеры не включают в себя молекулярные инвертируемые зонды (MIP).

Согласно некоторым вариантам осуществления два или более (например, 3 или 4) ампликона-мишени (такие как ампликоны из раскрытого в настоящем документе способа миниПЦР) лигируют вместе и затем секвенируют лигированные продукты. Объединение нескольких ампликонов в один лигированный продукт повышает эффективность последующей стадии секвенирования. Согласно некоторым вариантам осуществления ампликоны-мишени составляют менее чем 150, 100, 90, 75 или 50 п.н. в длину до лигирования. Селективное обогащение и/или амплификация может включать в себя мечение каждой отдельной молекулы различными метками, молекулярными штрих-кодами, тегами для амплификации и/или тегами для секвенирования. Согласно некоторым вариантам осуществления амплифицированные продукты анализируют с помощью секвенирования (например, секвенирования с высокой пропускной способностью) или путем гибридизации с матрицей, такой как матрица SNP, матрица ILLUMINA INFINIUM или генный чип AFFYMETRIX. Согласно некоторым вариантам осуществления используют секвенирование нанопор, такое как технология секвенирования нанопор, разработанная Genia (смотрите, например, в интернете по адресу geniachip.com/technology~~pobj, который полностью включен в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления используется дуплексное секвенирование (публикация Schmitt et al., "Detection of ultra-rare mutations by next-generation sequencing," Proc Natl Acad Sci USA. 109(36): 14508-14513, 2012, которая полностью включена в настоящий документ посредством ссылки). Такой подход значительно снижает количество ошибок посредством независимого мечения и секвенирования каждой из двух нитей дуплекса ДНК. Поскольку две нити комплементарны, истинные мутации встречаются в том же самом положении в обеих нитях. В отличие от этого, ошибки ПЦР или секвенирования приводят к мутациям только в одной нити и, таким образом, могут считаться технической ошибкой. Согласно некоторым вариантам осуществления способ предусматривает мечение обеих нитей дуплексной ДНК случайной, но комплементарной двухцепочечной нуклеотидной последовательностью, указанной в качестве дуплексного тега. Двухцепочечные теговые последовательности включены в стандартные адапторы секвенирования путем введения сначала одноцепочечной рандомизированной нуклеотидной последовательности в одну адапторную нить, а затем удлинения противоположной нити с помощью ДНК-полимеразы с образованием комплементарного двухцепочечного тега. После лигирования меченых адаптеров к фрагментированной ДНК, индивидуально меченные нити амплифицируют с помощью ПЦР из асимметричных сайтов праймеров на адапторных хвостах и подвергают секвенированию спаренных концов. Согласно некоторым вариантам осуществления образец (например, образец ДНК или РНК) делится на множество фракций, таких как различные лунки (например, лунки WaferGen SmartChip). Деление образца на различные фракции (например, по меньшей мере на 5, 10, 20, 50, 75, 100, 150, 200 или 300 фракций) может увеличить чувствительность анализа, так как процент молекул с мутацией выше в некоторых из лунок, чем в общей выборке. Согласно некоторым вариантам осуществления каждая фракция содержит менее чем 500,400,200,100, 50,20, 10, 5, 2 или 1 молекулу ДНК или РНК. Согласно некоторым вариантам осуществления молекулы в каждой фракции секвенируют по отдельности. Согласно некоторым вариантам осуществления тот же штрих-код (например, случайную или отличную от человеческой последовательность) добавляют ко всем молекулам в той же фракции (например, путем амплификации с праймером, содержащим штрих-код или путем лигирования штрих-кода), а также различные штрих-коды добавляют к молекулам в различных фракциях. Эти молекулы-штрих-коды могут быть объединены и секвенировали вместе. Согласно некоторым вариантам осуществления молекулы амплифицируют перед тем, как они будут объединены и секвенированы, например, с использованием вложенной ПЦР. Согласно некоторым вариантам осуществления используют один прямой и два обратных праймера или два прямых и один обратный праймер.

Согласно некоторым вариантам осуществления обнаруживается (или может быть обнаружена) мутация (такая как SNV или CNV), которая присутствует менее чем в 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекул ДНК или РНК в образце (например, образце вкДНК или вкРНК). Согласно некоторым вариантам осуществления обнаруживается (или может быть обнаружена) мутация (такая как SNV или CNV), которая присутствует менее чем в 1000, 500, 100, 50, 20, 10, 5, 4, 3 или 2 исходных молекулах ДНК или РНК (до амплификации) в образце (например, образце вкДНК или вкРНК из, например, образца крови). Согласно некоторым вариантам осуществления обнаруживается (или может быть обнаружена) мутация (такая как SNV или CNV), которая присутствует только в 1 исходной молекуле ДНК или РНК (до амплификации) в образце (например, образце вкДНК или вкРНК, например, из образца крови).

Например, если предел обнаружения мутации (например, однонуклеотидного варианта (SNV)) составляет 0,1%, значит мутация, присутствующая в 0,01%, может быть обнаружена путем деления фракции на множество фракций, таких как 100 лунок. Большинство лунок не содержат никаких копий мутации. Для несколько лунок с мутацией, мутация находится в гораздо более высоком проценте прочтений. В одном примере существует 20000 первоначальных копий ДНК из локуса-мишени и две из этих копий включают в себя представляющий интерес SNV. Если образец разделен на 100 лунок, 98 скважин содержат SNV, а 2 лунки содержат SNV в 0,5%. ДНК в каждой лунке может быть со штрих-кодом, амплифицирована, объединена с ДНК из других лунок и секвенирована. Лунки без SNV могут быть использованы для измерения фоновой частоты ошибок амплификации/секвенирования, чтобы определить, выше ли фонового уровня шума сигнал от лунок-выбросов.

Согласно некоторым вариантам осуществления амплифицированные продукты обнаруживают с помощью матрицы, например, матрицы, особенно микроматрицы с зондами к одной или нескольким представляющим интерес хромосомам (например, хромосоме 13, 18, 21, X, Y или любой их комбинации). Будет понятно, что, например, может быть использован коммерчески доступная микроматрица обнаружения SNP, такая как, например, анализ генотипирования Illumina (Сан-Диего, Калифорния) GoldenGate, DASL, Infmium или CytoSNP-12 или микроматричный продукт обнаружения SNP от Affymetrix, такой как микрочип OncoScan. Согласно некоторым вариантам осуществления фазированные генетические данные для одного или обоих биологических родителей эмбриона или плода используют для повышения точности анализа массива данных от одной клетки.

Согласно некоторым вариантам осуществления, включающим в себя секвенирование, глубина прочтений представляет собой число прочтений секвенирования, которые картированы для данного локуса. Глубина прочтений может быть нормализована по отношению к общему числу прочтений. Согласно некоторым вариантам осуществления для глубины прочтений образца, глубина прочтения представляет собой среднюю глубину прочтения нацеленных локусов. Согласно некоторым вариантам осуществления для глубины прочтений локуса, глубина прочтений представляет собой число прочтений, измеренных посредством секвенсорного картирования в этот локус. В общем случае, чем больше глубина прочтения локуса, тем ближе соотношение аллелей в локусе, как правило, представляет собой соотношение аллелей в исходном образце ДНК. Глубина прочтений может быть выражена различными способами, включая в себя без ограничения процент или долю. Так, например, в высокопараллельном секвенатре ДНК, таком как Illumina HISEQ, который, например, производит последовательность из 1 миллиона клонов, секвенирование одного локуса 3000 раз приводит к глубине прочтения 3000 прочтений в этом локусе. Доля прочтений в этом локусе составляет 3000, деленные на 1 млн всех прочтений, или 0,3% от общего количества прочтений.

Согласно некоторым вариантам осуществления получают аллельные данные, причем данные включают в себя аллельные количественное измерения, указывающие на число копий определенного аллеля полиморфного локуса. Согласно некоторым вариантам осуществления аллельные данные включают в себя количественные измерения, указывающие на число копий каждого из аллелей, наблюдаемых в полиморфном локусе. Как правило, количественные измерения получают для всех возможных аллелей представляющего интерес полиморфного локуса. Например, любой из описанных в предыдущих параграфах способов для определения аллеля для локуса SNP или SNV, например, микроматричный анализ, кПЦР, секвенирование ДНК, такое как высоко эффективное секвенирование ДНК, может быть использован для создания количественных измерений числа копий определенного аллеля полиморфного локуса. Это количественное измерение упоминается в настоящем документе как данные о частоте аллелей или измеренные генетические аллельные данные. Способы с использованием аллельных данных иногда называют количественными аллельными способами; в отличие от количественных способов, которые используют исключительно количественные данные из неполиморфных локусов или из полиморфных локусов, но без учета аллельной идентичности. Когда аллельные данные измеряют с помощью секвенирования с высокой пропускной способностью, аллельные данные, как правило, включают в себя число прочтений каждого аллельного картирования в представляющий интерес локус.

Согласно некоторым вариантам осуществления получают неаллельные данные, причем неаллельные данные включают в себя количественное измерение(я), указывающее на число копий конкретного локуса. Локус может быть полиморфным или неполиморфным. Согласно некоторым вариантам осуществления, когда локус является неполиморфным, неаллельные данные не содержат информацию об относительном или абсолютном количестве отдельных аллелей, которые могут присутствовать в этом локусе. Способы, использующие только неаллельные данные (то есть, количественные данные от неполиморфных аллелей или количественные данные от полиморфных локусов, но безотносительно к аллельной идентичности каждого фрагмента), называются количественными способами. Как правило, количественные измерения получают для всех возможных аллелей представляющего интерес полиморфного локуса, с одним значением, связанным с измеряемым количеством для всех аллелей в этом локусе, в общей сложности. Неаллельные данные для полиморфного локуса могут быть получены путем суммирования количественных аллельных данных для каждого аллеля в этом локусе. Когда аллельные данные измеряют с использованием высокопроизводительного секвенирования, неаллельные данные, как правило, включают в себя число прочтений картирования в представляющий интерес локус. Измерения при секвенировании могут указать на относительное и/или абсолютное число каждого из аллелей, присутствующих в локусе, и неаллельные данные включают в себя сумму прочтений, независимо от аллельной идентичности, отображающей в локусе. Согласно некоторым вариантам осуществления такой же набор измерений при секвенировании может быть использован для получения, как аллельных данных, так и неаллельных данных. Согласно некоторым вариантам осуществления аллельные данные используют в качестве части способа определения числа копий в представляющей интерес хромосоме, и получаемые неаллельные данные могут быть использованы как часть другого способа определения числа копий в представляющей интерес хромосоме. Согласно некоторым вариантам осуществления эти два способа представляют собой статистически ортогональные и объединяются, чтобы дать более точное определение числа копий в представляющей интерес хромосоме.

Согласно некоторым вариантам осуществления получение генетических данных включает в себя (I) получение информации о последовательности ДНК с помощью лабораторных способов, например, путем использования автоматизированного секвенатора ДНК с высокой пропускной способностью, или (II) получение информации, которая была ранее получена посредством лабораторных способов, причем информация передается в электронном виде, например, с помощью компьютера через интернет или с помощью электронного переноса от устройства секвенирования.

Дополнительные иллюстративные способы подготовки, амплификации и количественного определения образцов описаны в заявке на патент США №13/683604, поданной 21 ноября 2012 г. (публикации США №2013/0123120 и патенте США с серийным №61/994791, поданном 16 мая 2014 г., который полностью включен в настоящий документ посредством ссылки). Эти способы могут быть использованы для анализа любого из раскрытых в настоящем описании образцов.

Иллюстративные способы количественной оценки внеклеточной ДНК При желании, это количество или концентрация вкДНК или вкРНК могут быть измерены с использованием стандартных способов. Согласно некоторым вариантам осуществления определяют количество или концентрацию внеклеточной митохондриальной ДНК (вк мДНК). Согласно некоторым вариантам осуществления определяют количество или концентрацию внеклеточной ДНК, которая происходит от ядерной ДНК (вк яДНК). Согласно некоторым вариантам осуществления количество или концентрацию вк мДНК и вк яДНК определяют одновременно.

Согласно некоторым вариантам осуществления кПЦР используют для измерения вк яДНК и/или вк мДНК (публикация Kohler et al. "Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors." Mol Cancer 8: 105, 2009, 8: doi: 10.1186/1476-4598-8-105, которая полностью включена в настоящий документе посредством ссылки). Например, один или несколько локусов из вк яДНК (например, глицеральдегид-3-фосфатдегидрогеназы, GAPDH) и один или несколько локусов из вк мДНК (АТФазы 8, МТАТР 8) могут быть измерены с использованием мультиплексной кПЦР. Согласно некоторым вариантам осуществления флуоресцентно меченную ПЦР используют для измерения вк яДНК и/или вк мДНК (публикация Schwarzenbach et al., "Evaluation of cell-free tumour DNA and RNA in patients with breast cancer and benign breast disease." Mol Biosys 7: 2848-2854, 2011, которая полностью включена в настоящее описание посредством ссылки). Если это желательно, то распределение нормальности данных может быть определено с использованием стандартных способов, таких как тест Шапиро-Уилка. Если это желательно, содержание вк яДНК и вк мДНК можно сравнить с использованием стандартных способов, таких как тест Манна-Уитни-U. Согласно некоторым вариантам осуществления содержание вк яДНК и вк мДНК сравнивают с другими установленными прогностическими факторами с использованием стандартных способов, таких как тесты Манна-Уитни-U или Крускала-Уоллиса.

Иллюстративные способы амплификации, количественного определения и анализа РНК

Любой из следующих иллюстративных способов может быть использован для амплификации и необязательного количественного определения РНК, например, вкРНК, клеточной РНК, цитоплазматической РНК, кодирующей цитоплазматической РНК, некодирующей цитоплазматической РНК, мРНК, микроРНК, митохондриальной РНК, рРНК или тРНК. Согласно некоторым вариантам осуществления миРНК представляет собой любую из молекул миРНК, перечисленных в базе данных, miRBase, доступной в интернете по адресу mirbase.org, который полностью включен в настоящий документ посредством ссылки. Иллюстративные молекулы миРНК включают в себя miR-509; miR-21 и miR-146a.

Согласно некоторым вариантам осуществления мультиплексную амплификацию лигированных зондов с обратной транскриптазой (ОТ-ММПУ) используют для амплификации РНК. Согласно некоторым вариантам осуществления каждая совокупность гибридизирующих зондов состоит из двух коротких синтетических олигонуклеотидов, охватывающих SNP и один олигонуклеотид (публикации Li et al., Arch Gynecol Obstet. "Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers," July 5, 2013, DOI10.1007/s00404-013-2926-5; Schouten et al. "Relative quantification of 40 nucleic acid sequences by multiplex ligation-dependent probe amplification." Nucleic Acids Res 30: e57, 2002; Deng et al. (2011) "Noninvasive prenatal diagnosis of trisomy 21 by reverse transcriptase multiplex ligation-dependent probe amplification," Clin, Chem. Lab Med. 49: 641-646, 2011, каждая из которых полностью включена в настоящий документ посредством ссылки).

Согласно некоторым вариантам осуществления РНК амплифицируют посредством ПЦР с обратной транскриптазой. Согласно некоторым вариантам осуществления РНК амплифицируют посредством ПЦР в реальном времени с обратной транскриптазой, например, ранее описанная одностадийная ПЦР в реальном времени с обратной транскриптазой с SYBRGREENI (публикации Li et al., Arch Gynecol Obstet. "Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers," July 5, 2013, DOI10.1007/s00404-013-2926-5; Loetal., "Plasmaplacental RNA allelic ratio permits noninvasive prenatal chromosomal aneuploidydetection, "NatMed13: 218-223, 2007; Tsuietal., Systematic micro-array based identification of placental mRNA in maternal plasma: towards non-invasive prenatal gene expression profiling. J Med Genet 41: 461-467, 2004; Gu et al., J. Neurochem. 122: 641-649, 2012, каждая из которых полностью включена в настоящий документ посредством ссылки).

Согласно некоторым вариантам осуществления микроматричный анализ используют для обнаружения РНК. Например, микроматрица миРНК человека от компании Agilent Technologies может быть использована в соответствии с протоколом производителя. Вкратце, выделенную РНК дефосфорилируют и сшивают с pCp-Cy3. Меченую РНК очищают и гибридизуют с матрицами миРНК, содержащими зонды для зрелых миРНК человека на основе Sanger miRBase релиз 14.0. Матрицы промывают и сканируют с использованием сканера микроматриц (G2565BA, Agilent Technologies). Интенсивность каждого гибридизационного сигнала оценивают с помощью программного обеспечения Agilent v9.5.3. Мечение, гибридизация и сканирование могут быть выполнены в соответствии с протоколами в системе микроматричного анализа компании миРНК Agilent (публикация Gu et al., J. Neurochem. 122: 641-649, 2012, которая полностью включена в настоящий документе посредством ссылки).

Согласно некоторым вариантам осуществления анализ TaqMan используется для обнаружения РНК. Иллюстративный анализ представляет собой панель матрицы микроРНК человека TaqMan версии 1.0 (ранний доступ) (Applied Biosystems), которая содержит 157 анализов микроРНК TaqMan, включая в себя соответствующие праймеры обратной транскрипции, ПЦР-праймеры и зонд TaqMan (публикация Chim et al., "Detection and characterization of placental microRNAs in maternal plasma," Clin Chem. 54(3): 482-90, 2008, которая полностью включена в настоящий документ посредством ссылки).

При желании профиль сплайсинга мРНК одной или нескольких мРНК можно определить с помощью стандартных способов (публикация Fackenthall and Godley, Disease Models & Mechanisms 1: 37-42, 2008, doi: 10.1242/dmm.000331, которая полностью включена в настоящий документ посредством ссылки). Например, микроматрицы с высокой плотностью записи и/или секвенирование ДНК с высокой пропускной способностью могут быть использованы для обнаружения вариантов сплайсинга мРНК.

Согласно некоторым вариантам осуществления секвенирование всего транскриптома способом выстрела из дробового ружья или микроматричный анализ используют для измерения транскриптома.

Иллюстративные способы амплификации

Также были разработаны усовершенствованные способы ПЦР-амплификации, которые сводят к минимуму или предотвращают помехи из-за амплификации ближайших или прилегающих локусов-мишеней в том же реакционном объеме (например, часть мультиплексной реакции ПЦР образца, которая одновременно амплифицирует все локусы-мишени). Эти способы могут быть использованы для одновременной амплификации ближайших или прилегающих локусов-мишеней, которые быстрее и дешевле, чем разделение близлежащих локусов-мишеней в различных реакционных объемах так, чтобы они могли быть амплифицированы по отдельности во избежание помех.

Согласно некоторым вариантам осуществления амплификацию локусов-мишеней осуществляют с использованием полимеразы (например, ДНК-полимеразы, РНК-полимеразы или обратной транскриптазы) с низкой экзонуклеазной активностью 5'→3' и/или низкой активностью замещения цепи. Согласно некоторым вариантам осуществления низкий уровень экзонуклеазы 5'→3' уменьшает или предотвращает деградацию соседнего праймера (например, непродленного праймера или праймера, который содержал один или несколько нуклеотидов, добавленных в процессе удлинения праймера). Согласно некоторым вариантам осуществления настоящего изобретения низкий уровень активности замещения цепи снижает или предотвращает смещение соседнего праймера (например, непродленного праймера или праймера, который содержал один или несколько нуклеотидов, добавленных в процессе удлинения праймера). Согласно некоторым вариантам осуществления амплифицируют локусы-мишени, которые примыкают друг к другу (например, нет оснований между локусами-мишенями) или расположены рядом (например, локусы находятся в пределах 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 или 1 основания). Согласно некоторым вариантам осуществления настоящего изобретения 3'-конец одного локуса находится в пределах 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 или 1 основания 5'-конца следующего по направлению транскрипции локуса.

Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 100, 200, 500, 750, 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных локусов-мишеней, например, путем одновременной амплификации в одном реакционном объеме Согласно некоторым вариантам осуществления по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представляют собой ампликоны-мишени. Согласно различным вариантам осуществления количество амплифицированных продуктов, которые представляют собой ампликоны-мишени, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 98%, от 90 до 99,5% или от 95 до 99,5%, включительно. Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% локусов-мишеней (например, амплифицируют по меньшей мере в 5, 10, 20, 30, 50 или в 100 раз больше по сравнению с количеством до амплификации), например, путем одновременной амплификации в одном реакционном объеме. Согласно различным вариантам осуществления количество локусов-мишеней, которые амплифицируют (например, амплифицируют по меньшей мере в 5, 10, 20, 30, 50 или 100 раз больше по сравнению с количеством до амплификации), составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 99%, от 90 до 99,5%, от 95 до 99,9% или от 98 до 99,99%, включительно. Согласно некоторым вариантам осуществления производят меньше ампликонов-немишеней, например, меньшее количество ампликонов, образованных из прямого праймера из первой пары праймеров и обратного праймера из второй пары праймеров. Такие нежелательные ампликоны-немишени могут быть получены с использованием известных ранее способов амплификации, если, например, обратный праймер из первой пары праймеров и/или прямой праймер из второй пары праймеров распадается и/или смещается.

Согласно некоторым вариантам осуществления эти способы делают более длительным время, которое можно использовать для удлинения, так как полимераза, связываемая с удлиняющимся праймером, менее вероятно, деградирует и/или сместится на соседний праймер (например, на следующий праймер ниже по ходу транскрипции), учитывая низкую экзонуклеазную активность 5'→3' и/или низкую активность замещения цепи полимеразы. Согласно различным вариантам осуществления условия реакции (например, время удлинения и температура) используют таким образом, что скорость удлинения полимеразы позволяет числу нуклеотидов, которые добавляют к удлиняемому праймеру, составлять 80, 90, 95, 100, 110, 120, 130, 140, 150, 175 или 200% или больше от числа нуклеотидов между 3'-концом сайта связывания праймера и 5'-концом следующего по ходу транскрипции сайта связывания праймера на той же нити.

Согласно некоторым вариантам осуществления ДНК-полимеразу используют, чтобы производить ампликоны ДНК с использованием ДНК в качестве шаблона. Согласно некоторым вариантам осуществления РНК-полимеразу используют, чтобы производить ампликоны РНК с использованием ДНК в качестве шаблона. Согласно некоторым вариантам осуществления обратную транскриптазу используют для получения ампликонов кДНК с использованием РНК в качестве шаблона.

Согласно некоторым вариантам осуществления низкий уровень 5'→3' экзонуклеазы полимеразы составляет менее 80, 70, 60, 50, 40, 30, 20, 10, 5, 1 или 0,1% от активности того же самого количества полимеразы Thermus aquaticus (полимераза "Taq", которая представляет собой обычно используемую ДНК-полимеразу из термофильной бактерии, PDB1BGX, EC 2.7.7.7, Murali et al., "Crystal structure of Taq DNA polymerase in complex with an inhibitory Fab: the Fab is directed against an intermediate in the helix-coil dynamics of the enzyme," Proc. Natl. Acad. Sci. USA 95: 12562-12567, 1998, которая полностью включена в настоящий документ посредством ссылки) в тех же условиях. Согласно некоторым вариантам осуществления низкий уровень активности замещения цепи полимеразы составляет менее 80, 70, 60, 50, 40, 30, 20, 10, 5, 1 или 0,1% от активности того же количества Taq-полимеразы при тех же самых условиях.

Согласно некоторым вариантам осуществления полимераза представляет собой ДНК-полимеразу PUSHION, такую как ДНК-полимеразу PHUSION High Fidelity (M0530S, New England Biolabs, Inc.) или ДНК-полимеразу PHUSION Hot Start Flex (M0535S, New England BioLabs, Inc.; Frey and Suppman BioChemica. 2: 34-35, 1995; Chester and Marshak Analytical Biochemistry. 209: 284-290, 1993, каждая из которых полностью включена в настоящий документ посредством ссылки). ДНК-полимераза PHUSION представляет собой подобный Pyrococcus фермент, слитый с усиливающим процессивность доменом. ДНК-полимераза PHUSION обладает 5'→3' полимеразной активностью и 3'→5' экзонуклеазной активностью и образует тупоконечные продукты. ДНК-полимераза PHUSION характеризуется отсутствием 5'→3' экзонуклеазной активности и активности замещения цепи.

Согласно некоторым вариантам осуществления полимераза представляет собой ДНК-полимеразу Q5®, такую как ДНК-полимераза Q5® High-Fidelity (M0491S, New England Biolabs, Inc.) или ДНК-полимераза Q5® Hot Start High-Fidelity (M0493S, New England BioLabs, Inc.). ДНК-полимераза Q5® High-Fidelity представляет собой высокоточную, термостабильную ДНК-полимеразу с 3'→5' экзонуклеазной активностью, слитую с повышающим процессивность доменом Sso7d. ДНК-полимераза Q5® High-Fidelity характеризуется отсутствием 5'→3' экзонуклеазной активности и активности замещения цепи.

Согласно некоторым вариантам осуществления полимераза представляет собой ДНК-полимеразу T4 (M0203S, New England Biolabs, Inc.; Tabor and Struh. (1989). "DNA-Dependent DNA Polymerases," In Ausebel et al. (Ed.), Current Protocols in Molecular Biology. 3.5.10-3.5.12. New York: John Wiley & Sons, Inc., 1989; Sambrook et al. Molecular Cloning: A Laboratory Manual. (2nd ed.), 5.44-5.47. Cold Spring Harbor: Cold Spring Harbor Laboratory Press, 1989, каждая из которых полностью включена в настоящий документ посредством ссылки). ДНК-полимераза T4 катализирует синтез ДНК в направлении 5'→3' и требует наличия шаблона и праймера. Этот фермент обладает 3'→5' экзонуклеазной активностью, которая гораздо более активна, чем обнаруженная у ДНК-полимеразы I. ДНК-полимераза Т4 характеризуется отсутствием 5'→3' экзонуклеазной активности и активности замещения цепи.

Согласно некоторым вариантам осуществления полимераза представляет собой ДНК-полимеразу Sulfolobus IV (M0327S, New England Biolabs, Inc.; (Boudsocq,. et al. (2001). Nucleic Acids Res., 29: 4607-4616, 2001; McDonald, et al. (2006). Nucleic Acids Res., 34: 1102-1111, 2006, каждая из которых полностью включена в настоящий документ посредством ссылки). ДНК-полимераза Sulfolobus IV представляет собой термостабильную обходящую повреждения ДНК-полимеразу Y-семейства, которая эффективно синтезирует ДНК при различных повреждениях ДНК-матрицы (публикация McDonald, J.P. et al. (2006). Nucleic Acids Res.,. 34, 1102-1111, которая полностью включена в настоящий документ посредством ссылки). ДНК полимераза Sulfolobus IV характеризуется отсутствием 5'→3' экзонуклеазной активности и активности замещения цепи.

Согласно некоторым вариантам осуществления, если праймер связывается с областью с SNP, праймер может связываться и амплифицировать различные аллели с различной эффективностью или может связываться и амплифицировать только один аллель. Для гетерозиготных субъектов один из аллелей может не быть амплифицирован с помощью праймера. Согласно некоторым вариантам осуществления праймер предназначен для каждого аллеля. Например, если существуют два аллеля (например, биаллельный SNP), тогда могут быть использованы два праймера для связывания с тем же положением локуса-мишени (например, прямой праймер для связывания аллеля "A" и прямой праймер для связывания аллеля "B"). Стандартные способы, такие как база данных dbSNP, могут быть использованы для определения местоположения известных SNP, таких как горячие точки SNP, которые характеризуются высокой степенью гетерозиготности.

Согласно некоторым вариантам осуществления ампликоны близки по размеру. Согласно некоторым вариантам осуществления диапазон длины ампликонов-мишеней составляет менее 100, 75, 50, 25, 15, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления (например, амплификация локусов-мишеней в фрагментированной ДНК или РНК) длина ампликонов-мишеней составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов или от 60 до 75 нуклеотидов, включительно. Согласно некоторым вариантам осуществления (например, амплификация нескольких локусов-мишеней на протяжении экзона или гена) длина ампликонов-мишеней составляет от 100 до 500 нуклеотидов, например, от 150 до 450 нуклеотидов, от 200 до 400 нуклеотидов, от 200 до 300 нуклеотидов или от 300 до 400 нуклеотидов, включительно.

Согласно некоторым вариантам осуществления множественные локусы-мишени одновременно амплифицируют с использованием пары праймеров, которая включает в себя прямой и обратный праймер для каждого подлежащего амплификации локуса-мишени в этом объеме реакционной смеси. Согласно некоторым вариантам осуществления один раунд ПЦР выполняют с помощью одного праймера на локус-мишень, а затем второй раунд ПЦР проводят с парой праймеров на локус-мишень. Например, первый раунд ПЦР может быть выполнен с одним праймером на локус-мишень таким образом, что все праймеры связываются той же цепью (например, с использованием прямого праймера для каждого локуса-мишени). Это позволяет ПЦР амплифицировать линейным образом и уменьшать или устранять систематические погрешности амплификации между ампликонами из-за различий в последовательности или длине. Согласно некоторым вариантам осуществления ампликоны затем амплифицируют с использованием прямого и обратного праймера для каждого локуса-мишени.

Иллюстративные способы разработки праймеров

При желании мультиплексная ПЦР может быть выполнена с использованием праймеров с пониженным правдоподобием образования димеров праймеров. В частности, высоко мультиплексная ПЦР может часто приводить к получению очень высокой доли ДНК-продукта, который образуется из бесполезных побочных реакций, таких как образование димера праймера. Согласно одному варианту осуществления конкретные праймеры, которые наиболее вероятно вызывают бесполезные побочные реакции, могут быть удалены из библиотеки праймеров, чтобы получить библиотеку праймеров, которая приведет к большей доли амплифицированной ДНК, которая локализована в геноме. Стадия удаления проблемных праймеров, то есть тех праймеров, которые более вероятно образуют димеры, неожиданно сделала возможными чрезвычайно высокие уровни мультиплексирования ПЦР для последующего анализа с помощью секвенирования.

Существуют несколько способов выбора праймеров для библиотеки, где сведено к минимуму количество не картированного димера праймера или других праймерных продуктов. Эмпирические данные указывают на то, что небольшое количество "плохих" праймеров ответственно за большое количество побочных некартированных димеров праймеров. Удаление этих "плохих" праймеров может увеличивать процент прочтений последовательности, которые локализованы в локусах-мишенях. Один из способов определить "плохие" праймеры заключается в том, чтобы посмотреть на секвенируемые данные ДНК, которая была амплифицирована посредством нацеленной амплификации; эти димеры праймеров, которые видны с наибольшей частотой, могут быть удалены, чтобы дать библиотеку праймеров, которая значительно менее вероятно приведет к побочному ДНК-продукту, который не связан с геномом. Существуют также общедоступные программы, которые могут вычислять энергию связывания различных комбинаций праймеров, и удаление тех, у которых наибольшая энергия связи, также даст библиотеку праймеров, которая значительно менее вероятно приведет к побочному ДНК-продукту, который не связан с геномом.

Согласно некоторым вариантам осуществления для выбора праймеров, начальная библиотека потенциальных праймеров создается путем разработки одного или нескольких праймеров или пар праймеров к потенциальным локусам-мишеням. Совокупность потенциальных локусов-мишеней (например, SNP) можно выбирать на основе общедоступной информации о требуемых параметрах для локусов-мишеней, таких как частота SNP в пределах популяции-мишени или степень гетерозиготности SNP. Согласно одному варианту осуществления ПЦР-праймеры могут быть сконструированы с использованием программы Primer3 (в интернете по адресу primer3.sourceforge.net; libprimer3 релиз 2.2.3, который полностью включен в настоящий документ посредством ссылки). При желании, праймеры могут быть разработаны, чтобы подвергать отжигу в пределах определенного диапазона температур отжига, характеризоваться определенным диапазоном содержания GC, характеризоваться определенным диапазоном размеров, производить ампликоны-мишени в определенном диапазоне размеров и/или иметь другие характеристики параметров. Начало с нескольких праймеров или пар праймеров на потенциальный локус-мишень увеличивает вероятность того, что праймер или пара премьеров будет оставаться в библиотеке для большинства или всех локусов-мишеней. Согласно одному варианту осуществления критерии выбора могут потребовать, чтобы по меньшей мере одна пара праймеров на локус-мишень оставалась в библиотеке. Таким образом, большинство или все локусы-мишени будут амплифицированы при использовании окончательной библиотеки праймеров. Это желательно для приложений, таких как скрининг на делеций или дупликации при большом количестве положений в геноме или скрининг на большое число последовательностей (таких как полиморфизмы или другие мутации), связанных с заболеванием или повышенным риском развития заболевания. Если пара праймеров из библиотеки будет производить ампликон-мишень, который перекрывается с ампликоном-мишенью произведенным другой парой праймеров, одна из пар праймеров может быть удалена из библиотеки, чтобы не создавать помех.

Согласно некоторым вариантам осуществления "балл нежелательности" (более высокий балл, представляющий наименьшую желательность) вычисляется (например, вычисление на компьютере) для большей части или всех возможных комбинаций двух праймеров из библиотеки праймеров-кандидатов. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% от возможных комбинаций праймеров-кандидатов в библиотеке. Каждый балл нежелательности основан, по меньшей мере частично, на правдоподобности образования димеров между двумя праймерами-кандидатами. При желании, балл нежелательности также может быть основан на одном или нескольких других параметрах, выбранных из группы, состоящей из степени гетерозиготности локуса-мишени, распространенности заболевания, связанного с последовательностью (например, полиморфизмом) в локусе-мишени, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в локусе-мишени, специфичностью праймера-кандидата к локусу-мишени, размера праймера-кандидата, температуры плавления ампликона-мишени, содержания GC ампликона-мишени, эффективности амплификации ампликона-мишени, размера ампликона-мишени и расстояния от центра горячей точки рекомбинации. Согласно некоторым вариантам осуществления специфичность праймера-кандидата к локусу-мишени предусматривает правдоподобие того, что праймер-кандидат будет связываться с нецелевой последовательностью путем связывания и амплификации локуса отличного от локуса-мишени, который он должен амлифицировать. Согласно некоторым вариантам осуществления один или нескольких или все праймеры-кандидаты, которые связываются с нецелевой последовательностью, удаляются из библиотеки. Согласно некоторым вариантам осуществления, чтобы увеличить число праймеров-кандидатов, из которых производят выбор, праймеры-кандидаты, которые могут связываться с нецелевой последовательностью не удаляются из библиотеки. Если учитывается несколько факторов, балл нежелательности может быть рассчитан на основе средневзвешенного значения различных параметров. Параметрам могут быть присвоены различные веса в зависимости от их важности для конкретного применения, в котором праймеры будут использоваться. Согласно некоторым вариантам осуществления праймер с наивысшим баллом нежелательности удаляется из библиотеки. Если удаляемый праймер является представителем пары праймеров, которая гибридизуется с одним локусом-мишенью, то другой представитель пары праймеров может быть удален из библиотеки. Процесс удаления праймеров может повторяться по желанию. Согласно некоторым вариантам осуществления способ выбора выполняется до тех пор, пока баллы нежелательности для комбинаций праймеров-кандидатов, оставшихся в библиотеке, не станут все равны или ниже минимального порога. Согласно некоторым вариантам осуществления способ выбора выполняется до тех пор, пока число праймеров-кандидатов, оставшихся в библиотеке, не снижается до требуемого числа.

Согласно различным вариантам осуществления после того, как вычисляются баллы нежелательности, праймер-кандидат, который представляет собой часть самого большого числа комбинаций двух праймеров-кандидатов с баллом нежелательности выше первого минимального порога, удаляется из библиотеки. Эта стадия игнорирует взаимодействия, равные или ниже первого минимального порогового значения, так как эти взаимодействия представляют собой менее значительные. Если удаляемый праймер является представителем пары праймеров, которая гибридизуется с одним локусом-мишенью, то другой представитель пары праймеров может быть удален из библиотеки. Процесс удаления праймеров может повторяться по желанию. Согласно некоторым вариантам осуществления способ выбора выполняется до тех пор, пока баллы нежелательности для комбинаций праймеров-кандидатов, оставшихся в библиотеке, не станут все равны или ниже первого минимального порога. Если число праймеров-кандидатов, оставшихся в библиотеке, выше, чем желательно, число праймеров может быть уменьшено путем уменьшения первого минимального порога до более низкого второго минимального порога и повторен процесс удаления праймеров. Если количество праймеров-кандидатов, оставшихся в библиотеке, ниже, чем это желательно, способ может быть продолжен за счет увеличения первого минимального порога до более высокого второго минимального порога и повторен процесс удаления праймеров с использованием первоначальной библиотеки праймеров-кандидатов, таким образом, позволяя большему количеству праймеров-кандидатов остаться в библиотеке. Согласно некоторым вариантам осуществления способ выбора выполняется до тех пор, пока баллы нежелательности для комбинаций праймеров-кандидатов, оставшихся в библиотеке, не станут все равны или ниже второго минимального порогового значения, или пока число праймеров-кандидатов, оставшихся в библиотеке, не снизится до требуемого числа.

При желании пары праймеров, которые производят ампликон-мишень, который перекрывает ампликон-мишень, произведенный другой парой праймеров, можно разделить на отдельные реакции амплификации. Множественные реакции ПЦР-амплификации могут быть желательны для применений, в которых желательно проанализировать все потенциальные локусы-мишени (вместо пропуска потенциальных локусов-мишеней из анализа вследствие перекрывания ампликонов-мишеней).

Эти способы выбора сводят к минимуму количество праймеров-кандидатов, которые должны были быть удалены из библиотеки, чтобы достичь желаемого снижения димеров праймера. Удаляя меньшее число праймеров-кандидатов из библиотеки, больше (или все) локусов-мишеней может быть амплифицировано с использованием полученной библиотеки праймеров.

Мультиплексирование большого числа праймеров накладывает значительное ограничение на анализы, которые могут быть включены. Анализы, которые непреднамеренно взаимодействуют, приводят к побочным продуктам амплификации. Ограничения размера в миниПЦР может привести к дальнейшим ограничениям. Согласно одному варианту осуществления можно начать с очень большого числа потенциальных SNP-мишеней (от приблизительно 500 до более чем 1 миллиона) и попытаться разработать праймеры для амплификации каждого SNP. Там, где праймеры могут быть разработаны, можно попытаться идентифицировать пары праймеров, вероятно способные образовывать ложные продукты путем вычисления вероятности образования ложных дуплексов праймеров между всеми возможными парами праймеров с использованием опубликованных термодинамических параметров для образования дуплекса ДНК. Взаимодействия праймеров могут быть ранжированы по оценочной функции, связанной с взаимодействием, и праймеры с наихудшими оценками взаимодействия устраняют, пока число требуемых праймеров не будет выполнено. В тех случаях, когда SNP, вероятно, являющиеся гетерозиготными, наиболее применимы, можно также ранжировать список анализов и выбрать наиболее совместимые с гетерозиготностью анализы. Эксперименты подтвердили, что праймеры с высокими баллами взаимодействия, скорее всего, образуют димеры праймеров. При высоком мультиплексировании не представляется возможным устранить все ложные взаимодействия, но важным является удаление праймеров или пар праймеров с самыми высокими баллами взаимодействия in silico, так как они могут доминировать над целой реакцией, что значительно ограничивает амплификацию от намеченных мишеней. Авторы настоящего изобретения выполнили эту процедуру для создания мультиплекса наборов праймеров до 10000 праймеров, а в некоторых случаях и больше. Улучшение благодаря этой процедуре представляет собой существенное, что делает возможной амплификацию более чем 80%, более чем 90%, более чем 95%, более чем 98% и даже более чем 99% продуктов-мишеней, что определено с помощью секвенирования всех продуктов ПЦР, по сравнению с 10% в результате реакции, в которой худшие праймеры не были удалены. В сочетании с частичным полугнездовым подходом, как описано выше, более чем 90% и даже более чем 95% ампликонов могут отображаться на нацеленных последовательностях.

Следует отметить, что существуют и другие способы определения того, какие ПЦР-зонды, вероятно, будут образовывать димеры. Согласно одному варианту осуществления анализа пула ДНК, который был амплифицирован с использованием неоптимизированного набора праймеров, может быть достаточно, чтобы определить проблемные праймеры. Например, анализ может быть сделан с помощью секвенирования, и те димеры, которые присутствуют в наибольшем количестве, определяются как те, которые, скорее всего, образуют димеры и могут быть удалены. Согласно одному варианту осуществления способ разработки праймеров может быть использован в сочетании с описанным в настоящем документе способом мини-ПЦР.

Применение тегов на праймерах может привести к снижению амплификации и секвенирования продуктов димеров праймеров. Согласно некоторым вариантам осуществления праймер содержит внутреннюю область, которая образует структуру петли с тегом. Согласно конкретным вариантам осуществления праймеры включают в себя 5'-область, специфичную для локуса-мишени, внутреннюю область, которая не специфична для локуса-мишени и образует петлевую структуру, и 3'-область, которая специфична для локуса-мишени. Согласно некоторым вариантам осуществления петлевая область может находиться между двумя связующими областями, где две области связывания предназначены для связывания с соприкасающимися или соседними областями ДНК-шаблона. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 до 20 нуклеотидов, например, от 7 до 15 нуклеотидов или от 7 до 10 нуклеотидов, включительно. Согласно различным вариантам осуществления праймеры включают в себя 5'-область, которая не специфична для локуса-мишени (например, тег или сайт связывания универсального праймера), за которым следует область, которая специфична к локусу-мишени, внутренняя область, которая не специфична к локусу-мишени и образует петлевую структуру, и 3'-область, которая специфична к локусу-мишени. Ter-праймеры могут быть использованы для сокращения необходимых специфичных к мишени последовательностей до менее 20, менее 15, менее 12 и даже менее 10 пар оснований. Это может быть непрогнозируемо при стандартной конструкции праймера, когда последовательность-мишень фрагментируется в пределах сайта связывания праймера или он может быть разработан в дизайн праймера. Преимущества этого способа включают в себя следующие: он увеличивает количество анализов, которые могут быть разработаны для определенной максимальной длины ампликонов и укорачивает "неинформативное" секвенирование последовательности праймера. Он также может быть использован в сочетании с внутренним мечением.

Согласно одному варианту осуществления относительное количество непродуктивных продуктов в мультиплексированной нацеленной ПЦР-амплификации может быть уменьшено за счет повышения температуры отжига. В тех случаях, когда амплифицируют библиотеки с тем же тегом, что и специфические праймеры-мишени, температура отжига может быть увеличена по сравнению с геномной ДНК, так как метки будут способствовать связыванию праймеров. Согласно некоторым вариантам осуществления используются уменьшенные концентрации праймеров, при необходимости вместе с более длительным временем отжига. Согласно некоторым вариантам осуществления время отжига может быть более чем 3 минуты, более чем 5 минут, более чем 8 минут, более чем 10 минут, более чем 15 минут, более чем 20 минут, более чем 30 минут, более чем 60 минут, более чем 120 минут, более чем 240 минут, более чем 480 минут и даже более чем 960 минут. Согласно некоторым иллюстративным вариантам осуществления более длительный отжиг используют вместе с уменьшенными концентрациями праймера. Согласно различным вариантам осуществления используют более длительное, чем обычное время удлинения, например, более чем 3, 5, 8, 10 или 15 минут. Согласно некоторым вариантам осуществления концентрации праймера составляют 50 нМ, 20 нМ, 10 нМ, 5 нМ, 1 нМ и ниже 1 нМ. Это, на удивление, приводит к устойчивой производительности высоко мультиплексированных реакций, например, реакций с участием 1000, 2000, 5000, 10000, 20000, 50000 и даже 100000 последовательностей. Согласно одному варианту осуществления при амплификации используется один, два, три, четыре или пять циклов пробега с длительным временем отжига, с последующими ПЦР-циклами с более обычным временем отжига с мечеными праймерами.

Для выбора положений-мишеней можно начать с пула дизайнов пар праймеров-кандидатов и создать термодинамическую модель потенциально отрицательных взаимодействий между парами праймеров, а затем использовать эту модель для устранения дизайнов, которые несовместимы с другими дизайнами в пуле.

Согласно одному варианту осуществления настоящее изобретение относится к способу уменьшения числа локусов-мишеней (например, локусов, которые могут содержать полиморфизм или мутацию, связанную с заболеванием или нарушением или повышенным риском развития заболевания или нарушения, такого как злокачественная опухоль) и/или увеличения нагрузки заболевания, которое обнаруживают (например, увеличение числа полиморфизмов или мутаций, которые обнаруживают). Согласно некоторым вариантам осуществления способ предусматривает ранжирование (например, ранжирование от высшего к низшему) локусов по частоте или повторяемости полиморфизма или мутации (например, однонуклеотидной вариации, вставки или делеции, или любой из других вариаций, описанных в настоящем документе) в каждом локусе у пациентов с заболеванием или нарушением, таким как злокачественная опухоль. Согласно некоторым вариантам осуществления ПЦР-праймеры предназначены для некоторых или всех локусов. При выборе ПЦР-праймеров для библиотеки праймеров, праймеры к локусам, которые имеют более высокую частоту или повторяемость (более высокий рейтинг локусов) имеют преимущество по сравнению с более низкой частотой или повторяемостью (низкий рейтинг локусов). Согласно некоторым вариантам осуществления этот параметр включен в качестве одного из параметров в расчете баллов нежелательности, описанных в настоящем документе. При желании праймеры (например, праймеры к локусам с высоким рейтингом), которые несовместимы с другими конструкциями в библиотеке, могут быть включены в другую библиотеку/пул ПЦР. Согласно некоторым вариантам осуществления несколько библиотек/пулов (например, 2, 3, 4, 5 или более) используются в отдельных ПЦР-реакциях, с тем, чтобы амплифицировать все (или большинство) локусы, представленные всеми библиотеками/пулами. Согласно некоторым вариантам осуществления этот способ продолжают, пока достаточное количество праймеров не включат в одну или несколько библиотек/пулов, таким образом, что праймеры, в совокупности, делают возможным захват пораженности требуемым заболеванием или нарушением (например, путем обнаружения не менее 80, 85, 90, 95 или 99% пораженности заболеванием).

Иллюстративные библиотеки праймеров

Согласно одному аспекту настоящее изобретение относится библиотекам праймеров, таких как праймеры, выбранные из библиотеки праймеров-кандидатов с использованием любого из способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления библиотека включает в себя праймеры, которые одновременно гибридизуются (или способны к одновременной гибридизации) или которые одновременно амплифицируют (или способны к одновременной амплификации) по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7,500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных локусов-мишеней в одном объеме реакционной смеси. Согласно различным вариантам осуществления библиотека включает в себя праймеры, которые одновременно амплифицируют (или способны к одновременной амплификации) от 100 до 500; от 500 до 1000; от 1000 до 2000; от 2000 до 5000; от 5000 до 7500; от 7500 до 10000; от 10000 до 20000; от 20000 до 25000; от 25000 до 30000; от 30000 до 40000; от 40000 до 50000; от 50000 до 75000; или от 75000 до 100000 различных локусов в одном объеме реакционной смеси, включительно. Согласно различным вариантам осуществления библиотека включает в себя праймеры, которые одновременно амплифицируют (или способны к одновременной амплификации) от 1000 до 100000 различных локусов-мишеней в одном объеме реакционной смеси, например, от 1000 до 50000; от 1000 до 30000; от 1000 до 20000; от 1000 до 10000; от 2000 до 30000; от 2000 до 20000; от 2000 до 10000; от 5000 до 30000; от 5000 до 20000 или от 5000 до 10000 различных локусов-мишеней, включительно. Согласно некоторым вариантам осуществления библиотека включает в себя праймеры, которые одновременно амплифицируют (или способны к одновременной амплификации) локусы-мишени в таком одном реакционном объеме, что менее чем 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,5% амплифицированньгх продуктов представляют собой димеры праймеров. Согласно различным вариантам осуществления количество амплифицированных продуктов, которые представляют собой димеры праймеров, составляет от 0,5 до 60%, например, от 0,1 до 40%, от 0,1 до 20%, от 0,25 до 20%, от 0,25 до 10%, от 0,5 до 20%, от 0,5 до 10%, от 1 до 20%, или от 1 до 10%, включительно. Согласно некоторым вариантам осуществления праймеры одновременно амплифицируют (или способны к одновременной амплификации) локусы-мишени в одном объеме реакционной смеси таким образом, что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представляют собой ампликоны-мишени. Согласно различным вариантам осуществления количество амплифицированных продуктов, которые представляют собой ампликоны-мишени, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 98%, от 90 до 99,5% или от 95 до 99,5%, включительно. Согласно некоторым вариантам осуществления праймеры одновременно амплифицируют (или способны к одновременной амплификации) локусы-мишени в одном объеме реакционной смеси таким образом, что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% нацеленных локусов амплифицируются (например, амплифицируются по меньшей мере в 5, 10, 20, 30, 50 или 100 раз по сравнению с количеством до амплификации). Согласно различным вариантам осуществления количество локусов-мишеней, которые амплифицируются (например, амплифицируются по меньшей мере в 5, 10, 20, 30, 50 или 100 раз по сравнению с количеством до амплификации), составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 99%, от 90 до 99,5%, от 95 до 99,9% или от 98 до 99,99%, включительно. Согласно некоторым вариантам осуществления библиотека праймеров включает в себя по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 пар праймеров, причем каждая пара праймеров включает в себя прямой исследуемый праймер и обратный исследуемый праймер, где каждая пара исследуемых праймеров гибридизует с локусом-мишенью. Согласно некоторым вариантам осуществления библиотека праймеров включает в себя по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 отдельных праймеров, каждый из которых гибридизует с различным локусом-мишенью, причем отдельные праймеры не представляют собой часть пар праймеров.

Согласно различным вариантам осуществления концентрация каждого праймера составляет менее 100, 75, 50, 25, 20, 10, 5, 2 или 1 нМ или менее 500, 100, 10 или 1 мкМ. Согласно различным вариантам осуществления концентрация каждого праймера составляет от 1 мкМ до 100 нМ, например от 1 мкМ до 1 нМ, от 1 до 75 нМ, от 2 до 50 нМ или от 5 до 50 нМ, включительно. Согласно различным вариантам осуществления содержание GC праймеров составляет от 30 до 80%, например, от 40 до 70% или от 50 до 60%, включительно. Согласно некоторым вариантам осуществления диапазон содержания GC праймеров составляет менее 30, 20, 10 или 5%. Согласно некоторым вариантам осуществления диапазон содержания GC праймеров составляет от 5 до 30%, например, от 5 до 20% или от 5 до 10%, включительно. Согласно некоторым вариантам осуществления температура плавления (Tm) исследуемых праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C или от 57 до 60,5°C, включительно. Согласно некоторым вариантам осуществления Tm вычисляют с использованием программы Primer3 (libprimer3 релиз 2.2.3) с использованием встроенных параметров SantaLucia (в интернете по адресу primer3.sourceforge.net). Согласно некоторым вариантам осуществления диапазон температуры плавления праймеров составляет менее чем 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления диапазон температуры плавления праймеров составляет от 1 до 15°C, например, от 1 до 10°C, от 1 до 5°C или от 1 до 3°C, включительно. Согласно некоторым вариантам осуществления длина праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов или от 20 до 65 нуклеотидов, включительно. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет менее чем 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет от 5 до 50 нуклеотидов, например, от 5 до 40 нуклеотидов, от 5 до 20 нуклеотидов или от 5 до 10 нуклеотидов, включительно. Согласно некоторым вариантам осуществления длина ампликонов-мишеней составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов или от 60 до 75 нуклеотидов, включительно. Согласно некоторым вариантам осуществления диапазон длин ампликонов-мишеней составляет менее 50, 25, 15, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления диапазон длин ампликонов-мишеней составляет от 5 до 50 нуклеотидов, например, от 5 до 25 нуклеотидов, от 5 до 15 нуклеотидов или от 5 до 10 нуклеотидов, включительно. Согласно некоторым вариантам осуществления библиотека не содержит микрочип. Согласно некоторым вариантам осуществления библиотека содержит микрочип.

Согласно некоторым вариантам осуществления некоторые (например, по меньшей мере 80, 90 или 95%) или все из адаптеров или праймеров включают в себя одну или несколько связей между смежными нуклеотидами отличную, от встречающейся в природе фосфодиэфирной связи. Примеры таких связей включают в себя фосфорамидные, фосфоротиоатные и фосфородитиоатные связи. Согласно некоторым вариантам осуществления некоторые (например, по меньшей мере 80, 90 или 95%) или все из адаптеров или праймеров включают в себя тиофосфат (например, монотиофосфат) между последним 3' нуклеотидом и предпоследним 3' нуклеотидом. Согласно некоторым вариантам осуществления некоторые (например, по меньшей мере 80, 90 или 95%) или все из адаптеров или праймеров включают в себя тиофосфат (например, монотиофосфат) между последними 2, 3, 4 или 5 нуклеотидами на 3'-конце. Согласно некоторым вариантам осуществления некоторые (например, по меньшей мере 80, 90 или 95%) или все из адаптеров или праймеров включают в себя тиофосфат (например, монотиофосфат) между по меньшей мере 1, 2, 3, 4 или 5 нуклеотидами из последних 10 нуклеотидов на 3'-конце. Согласно некоторым вариантам осуществления такие праймеры, менее вероятно будут расщепляться или деградировать. Согласно некоторым вариантам осуществления праймеры не содержат сайт расщепления ферментом (например, сайт расщепления протеазой).

Дополнительные иллюстративные способы мультиплексной ПЦР и библиотеки описаны в заявке на патент США №13/683604, поданной 21 ноября 2012 г. (публикация США №2013/0123120) и патенте США с серийным номером 61/994791, поданном 16 мая 2014 г., каждый из которых полностью включен в настоящий документ посредством ссылки). Эти способы и библиотеки могут быть использованы для анализа любого из образцов, раскрытых в настоящем документе, и для применения в любом из способов согласно настоящему изобретению.

Иллюстративные библиотеки праймеров для обнаружения рекомбинации

Согласно некоторым вариантам осуществления праймеры в библиотеке праймеров предназначены для определения того, действительно ли рекомбинация происходит в одной или нескольких известных горячих точках рекомбинации (например, кроссоверы между гомологичными хромосомами человека). Знание о том, какие кроссоверы произошли между хромосомами, позволяет определять более точные фазированные генетические данные для индивидуума. Горячие точки рекомбинации представляют собой локальные области хромосом, в которых имеют тенденцию концентрироваться события рекомбинации. Часто они находятся по бокам "холодных точек", областей с более низкой, чем средняя частота рекомбинации. Горячие точки рекомбинации, как правило, разделяют подобную морфологию и составляют приблизительно от 1 до 2 т.п.н. в длину. Распределение горячих точек положительно коррелирует с содержанием GC и повторяющимся распределением элементов. Частично вырожденный 13-мерный мотив CCNCCNTNNCCNC играет важную роль в некоторой активности горячих точек. Было показано, что белок "цинковый палец", называемый PRDM9, связывается с этим мотивом и инициирует рекомбинацию в этом положении. Среднее расстояние между центрами горячих точек рекомбинации, как сообщается, составляет ~80 т.п.н. Согласно некоторым вариантам осуществления расстояние между центрами горячих точек рекомбинации колеблется в пределах от ~3 т.п.н. до ~100 т.п.н. Общедоступные базы данных включают в себя большое количество известных горячих точек рекомбинации человека, такие как базы данных HUMHOT и Международный проект HapMap (смотрите, например, публикации Nishant et al., "HUMHOT: a database of human meiotic recombination hot spots," Nucleic Acids Research, 34: D25-D28, 2006, Database issue; Mackiewicz et al., "Distribution of Recombination Hotspots in the Human Genome - A Comparison of Computer Simulations with Real Data" PLoS ONE 8(6): e65272, doi: 10.1371/journal.pone.0065272 и в интернете по адресу hapmap.ncbi.nlm.nih.gov/downloads/index.html.en, каждая из которых полностью включена в настоящий документ посредством ссылки).

Согласно некоторым вариантам осуществления праймеры в библиотеке праймеров сгруппированы в горячих точках рекомбинации или вблизи них (например, известные горячие точки рекомбинации человека). Согласно некоторым вариантам осуществления соответствующие ампликоны используют для определения последовательности внутри горячих точек рекомбинации или вблизи них, чтобы определить, происходит или нет рекомбинация в этой конкретной горячей точке (например, представляет ли собой последовательность ампликона ожидаемую последовательность, если рекомбинация произошла, или ожидаемую последовательность, если рекомбинация не произошла). Согласно некоторым вариантам осуществления праймеры предназначены для амплификации части или всей горячей точки рекомбинации (и необязательно последовательности, фланкирующей горячую точку рекомбинации). Согласно некоторым вариантам осуществления секвенирование длинных прочтений (например, секвенирование с использованием Moleculo Technology, разработанной Illumina, для секвенирования до ~10 т.п.н.) или секвенирование спаренных концов используется для части или всей последовательности горячей точки рекомбинации. Знание того, произошло ли событие рекомбинации или нет, может быть использовано для определения того, какие блоки гаплотипов фланкируют горячую точку. При желании, наличие определенных блоков гаплотипов может быть подтверждено с использованием праймеров, специфичных к областям внутри блоков гаплотипа. Согласно некоторым вариантам осуществления предполагается, что нет кроссоверов между известными горячими точками рекомбинации. Согласно некоторым вариантам осуществления праймеры в библиотеке праймеров сгруппированы на концах хромосом или вблизи них. Например, такие праймеры могут быть использованы для определения того, присутствует или нет конкретное плечо или часть в конце хромосомы. Согласно некоторым вариантам осуществления праймеры в библиотеке праймеров сгруппированы в горячих точках рекомбинации или вблизи них и на концах хромосом или вблизи них.

Согласно некоторым вариантам осуществления библиотека праймеров включает в себя один или несколько праймеров (например, по меньшей мере 5, 10, 50; 100; 200; 500; 750; 1000, 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000 или 50000 различных праймеров или различных пар праймеров), которые специфичны к горячей точке рекомбинации (например, известная горячая точка рекомбинации человека) и/или специфичны к области вблизи горячей точки рекомбинации (например, в пределах 10, 8, 5, 3, 2, 1 или 0,5 т.п.н. 5' или 3' конца горячей точки рекомбинации). Согласно некоторым вариантам осуществления по меньшей мере 1, 5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны к той же горячей точке рекомбинации или специфичны к области вблизи горячей точки рекомбинации. Согласно некоторым вариантам осуществления по меньшей мере 1,5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны к области между горячими точками рекомбинации (например, область, которая маловероятно претерпевает рекомбинацию); эти праймеры могут быть использованы для подтверждения наличия блоков гаплотипов (таких, как те, которые можно было бы ожидать в зависимости от того, произошла или нет рекомбинация). Согласно некоторым вариантам осуществления по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны к горячей точке рекомбинации и/или специфичны к области вблизи горячей точки рекомбинации (например, в пределах 10, 8, 5, 3, 2, 1 или 0,5 т.п.н. 5' или 3' конца горячей точки рекомбинации). Согласно некоторым вариантам осуществления библиотеку праймеров используют для определения того, произошла или нет рекомбинация в 5; 10; 50; 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000 или 50000 или более различных горячих точках рекомбинации (такие как известные горячие точки рекомбинации человека). Согласно некоторым вариантам осуществления области, на которые направленно воздействуют праймеры к горячей точке рекомбинации или соседней области, приблизительно равномерно распределены вдоль той части генома. Согласно некоторым вариантам осуществления по меньшей мере 1,5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны к области на конце хромосомы или вблизи нее (такой как область, в 20, 10, 5, 1, 0,5, 0,1, 0,01 или 0,001 Мб от конца хромосомы). Согласно некоторым вариантам осуществления по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% из праймеров в библиотеке праймеров специфичны к области на конце хромосомы или вблизи нее (например, области в пределах 20, 10, 5, 1, 0,5, 0,1, 0,01 или 0,001 Мб от конца хромосомы). Согласно некоторым вариантам осуществления по меньшей мере 1, 5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны к области в пределах потенциальной микроделеции в хромосоме. Согласно некоторым вариантам осуществления по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны к области в пределах потенциальной микроделеции в хромосоме. Согласно некоторым вариантам осуществления по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны к горячей точке рекомбинации, области вблизи горячей точки рекомбинации, области на конце хромосомы или возле нее или области в пределах потенциальной микроделеции в хромосоме.

Иллюстративные наборы

Согласно одному аспекту в настоящем изобретении предусмотрен набор, такой как набор для амплификации локусов-мишеней в образце нуклеиновой кислоты, для обнаружения делеций и/или дупликаций хромосомных сегментов или целых хромосом с использованием любого из описанных в настоящем документе способов. Согласно некоторым вариантам осуществления набор может включать в себя любую из библиотек праймеров согласно настоящему изобретению. Согласно одному варианту осуществления набор содержит множество внутренних прямых праймеров и, необязательно, множество внутренних обратных праймеров, и, необязательно, внешние прямые праймеры и внешние обратные праймеры, где каждый из праймеров разработан для гибридизации с областью ДНК, расположенной непосредственно выше против хода транскрипции и/или ниже по ходу транскрипции от одного из сайтов-мишеней (например, полиморфных сайтов) на хромосоме(ах)-мишени(ях) или хромосомном сегменте(ах)-мишени(ях) и, необязательно, дополнительных хромосомах или хромосомных сегментах. Согласно некоторым вариантам осуществления набор включает в себя инструкции по использованию библиотеки праймеров для амплификации локусов-мишеней, например, для обнаружения одной или нескольких делеции и/или дупликаций одного или нескольких хромосомных сегментов или целых хромосом с использованием любого из описанных в настоящем документе способов.

Согласно некоторым вариантам осуществления наборы по настоящему изобретению обеспечивают пары праймеров для обнаружения хромосомной анеуплоидии и определения CNV, например, пары праймеров для мультиплексных реакций с большим количеством целевых последовательностей для обнаружения хромосомной анеуплоидии, такой как CNV (CoNVERGe) (генотипически раскрытые события вариантов числа копий) и/или SNV. Согласно этим вариантам осуществления наборы могут включать в себя по меньшей мере от 100, 200, 250, 300, 500, 1000, 2000, 2500, 3000, 5000, 10000, 20000, 25000, 28000, 50000 или 75000 до не более чем 200, 250, 300, 500, 1000, 2000, 2500, 3000, 5000, 10000, 20000, 25000, 28000, 50000, 75000 или 100000 пар праймеров, которые поставляются вместе. Пары праймеров могут содержаться в одном сосуде, например, в виде одной пробирки или коробки или нескольких пробирок или коробок. Согласно некоторым вариантам осуществления пары праймеров предварительно квалифицируются коммерческим поставщиком услуг и продаются вместе и, согласно другим вариантам осуществления, клиент выбирает пользовательские гены-мишени и/или праймеры, а коммерческий поставщик производит и поставляет пул праймеров клиенту или в одной пробирке, или во множестве пробирок. Согласно некоторым иллюстративным вариантам осуществления наборы включают в себя праймеры для обнаружения как CNV, так и SNV, особенно CNV и SNV, известные как коррелирующие по меньшей мере с одним типом злокачественной опухоли.

Наборы для обнаружения циркулирующей ДНК в соответствии с некоторыми вариантами осуществления настоящего изобретения включают в себя стандарты и/или контроли для обнаружения циркуляции ДНК. Например, согласно некоторым вариантам осуществления стандарты и/или контроли продаются и, возможно, поставляются и упаковываются вместе с праймерами, используемыми для проведения описанных в настоящем документе реакций амплификации, такие как праймеры для выполнения CoNVERGe. Согласно некоторым вариантам осуществления контроли включают в себя полинуклеотиды, такие как ДНК, включающие в себя выделенную геномную ДНК, которая проявляет одну или несколько хромосомных анеуплоидии, таких как CNV, и/или включает в себя один или несколько SNV. Согласно некоторым вариантам осуществления стандарты и/или контроли называются стандартами PlasmArt и включают в себя полинуклеотиды, характеризующиеся идентичностью последовательности с областями генома, про которые известно, что они обладают CNV, особенно при некоторых наследственных заболеваниях, а также при некоторых патологических состояниях, таких как злокачественная опухоль, а также распределением размера, которое отражает, что фрагменты вкДНК естественно обнаруживаются в плазме крови. Иллюстративные способы изготовления стандартов PlasmArt представлены в приведенных в настоящем документе примерах. В общем, геномную ДНК из источника, про который известно, что он характеризуется хромосомной анеуплоидией, выделяют, фрагментируют, очищают и выбирают размер.

Соответственно, искусственные стандарты полинуклеотидных вкДНК и/или контроли могут быть получены с помощью добавления выделенных полинуклеотидных образцов, полученных, как сформулировано выше, в образцы ДНК, заведомо не обладающие хромосомной анеуплоидией и/или SNV, в концентрациях, аналогичных тем, которые наблюдались для вкДНК in vivo, например, от 0,01% до 20%, от 0,1 до 15% или от 0,4 до 10% ДНК в этой жидкости. Эти стандарты/контроли могут быть использованы в качестве контролей для анализа проектирования, определения характеристик, разработки и/или оценки, а также в качестве стандартов контроля во время исследования, таких как исследование злокачественной опухоли, выполняемое в лаборатории CLIA, и/или в качестве стандартов, включенных только в исследовательское применение или диагностические тест-наборы.

Примерные способы нормализации/коррекции

Согласно некоторым вариантам осуществления измерения для различных локусов, хромосомных сегментов или хромосом корректируются с учетом систематической ошибки, например, систематической ошибки из-за различий в содержании GC или систематической ошибки из-за других различий в эффективности амплификации, или корректируются с учетом ошибок секвенирования. Согласно некоторым вариантам осуществления измерения для различных аллелей для того же локуса корректируются с учетом различий в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между аллелями. Согласно некоторым вариантам осуществления измерения для различных аллелей для того же локуса в РНК корректируются с учетом различий в скоростях транскрипции или стабильности между различными аллелями РНК.

Иллюстративные способы фазирования генетических данных

Согласно некоторым вариантам осуществления генетические данные фазируют с использованием способов, описанных в настоящем документе, или любых известных способов фазирования генетических данных (смотрите, например, публикацию РСТ № WO 2009/105531, поданную 9 февраля 2009 г., и публикацию РСТ № WO 2010/017214, поданную 4 августа 2009 г., публикацию США №2013/0123120, поданную 21 ноября 2012 г.; публикацию США №2011/0033862, поданную 7 октября 2010 г., публикацию США №2011/0033862, поданную 19 августа 2010 г.; публикацию США №2011/0178719, поданную 3 февраля 2011 г.; патент США №8515679, поданный 17 марта 2008 г.; публикацию США №2007/0184467, поданную 22 ноября 2006 г.; публикацию США №2008/0243398, поданную 17 марта 2008 г., и патент США с серийным номером 61/994791, поданный 16 мая 2014 г., каждый из которых полностью включен в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления фазу определяют для одной или нескольких областей, которые точно или предположительно содержат представляющую интерес CNV. Согласно некоторым вариантам осуществления фазу также определяют для одной или нескольких областей, фланкирующих область(и) CNV и/или для одной или нескольких эталонных областей. Согласно одному варианту осуществления генетические данные индивидуума (например, индивидуума, исследуемого с использованием способов согласно настоящему изобретению, или родственника вынашиваемого плода или эмбриона, такого как родитель плода или эмбриона) фазируют путем логического вывода посредством измерения ткани от индивидуума, который является гаплоидным, например, путем измерения одного или нескольких сперматозоидов или яйцеклеток. Согласно одному варианту осуществления генетические данные индивидуума фазируют путем логического вывода с использованием измеренных генотипических данных одного или нескольких родственников первой степени, таких как родители индивидуума (например, сперма от отца индивидуума) или братьев и сестер.

Согласно одному варианту осуществления генетические данные индивидуума фазируют путем разбавления, где ДНК или РНК разводят в одной или множестве лунок, например, с использованием цифровой ПЦР. Согласно некоторым вариантам осуществления ДНК или РНК разводят до точки, где, как ожидается, будет не больше, чем приблизительно одна копия каждого гаплотипа в каждой лунке, а затем измеряют ДНК или РНК в одной или нескольких лунках. Согласно некоторым вариантам осуществления клетки останавливают в фазе митоза, когда хромосомы представляют собой плотные пучки, и используют микрожидкости, чтобы помещать отдельные хромосомы в отдельные лунки. Поскольку ДНК или РНК разводят, то маловероятно, что более чем один гаплотип будет находиться в той же фракции (или пробирке). Таким образом, может быть эффективной одна молекула ДНК в пробирке, что позволяет определить гаплотип на одной молекуле ДНК или РНК. Согласно некоторым вариантам осуществления способ предусматривает деление образца ДНК или РНК на множество фракций, таким образом, что по меньшей мере одна из фракций включает в себя одну хромосому или один хромосомный сегмент из пары хромосом, и генотипирование (например, определение наличия двух или нескольких полиморфных локусов) образца ДНК или РНК по меньшей мере в одной из фракций, тем самым определяя гаплотип. Согласно некоторым вариантам осуществления генотипирование включает в себя секвенирование (например, секвенирование способом выстрела из дробового оружия или секвенирование одной молекулы) матрицы SNP для обнаружения полиморфных локусов, или мультиплексную ПЦР. Согласно некоторым вариантам осуществления генотипирование предусматривает использование матрицы SNP для обнаружения полиморфных локусов, таких как по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных полиморфных локусов. Согласно некоторым вариантам осуществления генотипирование предусматривает использование мультиплексной ПЦР. Согласно некоторым вариантам осуществления способ предусматривает контактирование образца во фракции с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различными полиморфными локусами (например, SNP) с получением реакционной смеси; и подверганию реакционной смеси воздействию условий реакции удлинения праймера для получения продуктов амплификации, которые измеряются с помощью секвенатора с высокой пропускной способностью, для получения данных секвенирования. Согласно некоторым вариантам осуществления секвенируют РНК (например, мРНК). Поскольку мРНК содержит только экзоны, секвенирование мРНК позволяет определить аллель для полиморфных локусов (например, SNP) на большом расстоянии в геноме, например, несколько мегабаз. Согласно некоторым вариантам осуществления гаплотип индивидуума определяют с помощью сортировки хромосом. Иллюстративный способ сортировки хромосом предусматривает остановку клеток на фазе митоза, когда хромосомы находятся в плотном пучке, и с помощью микрожидкостей помещение отдельных хромосом в отдельные лунки. Другой способ предусматривает сбор одиночных хромосом с помощью FACS-опосредованной однохромосомной сортировки. Стандартные способы (такие как секвенирование или матричный анализ) могут быть использованы для идентификации аллелей на одной хромосоме, чтобы определить гаплотип индивидуума.

Согласно некоторым вариантам осуществления гаплотип индивидуума определяют посредством секвенирования длинных прочтений, например, с использованием технологии Moleculo, разработанной Illumina. Согласно некоторым вариантам осуществления стадия получения библиотеки предусматривает деление ДНК на фрагменты, такие как фрагменты размером ~10 т.п.н., разведение фрагментов и размещение их в лунки (таким образом, что приблизительно 3000 фрагментов находятся в одной лунке), амплификацию фрагментов в каждой лунке посредством ПЦР длинных фрагментов и нарезания на короткие фрагменты и штриховое кодирование фрагментов, а также объединение фрагментов со штрих-кодами из каждой лунки вместе, чтобы секвенировать их всех. После секвенирования вычислительные стадии предусматривают разделение прочтений из каждой лунки на основе прикрепленных штрих-кодов и группирование их во фрагменты, сборку фрагментов в их перекрывающихся гетерозиготных SNV в блоки гаплотипов и фазирование блоков статистически на основе фазированной эталонной панели, и производство длинных контигов гаплотипов.

Согласно некоторым вариантам осуществления гаплотип индивидуума определяют с использованием данных от родственника индивидуума. Согласно некоторым вариантам осуществления матрицу SNP используют для определения наличия по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных полиморфных локусов в образце ДНК или РНК от индивидуума и родственника индивидуума. Согласно некоторым вариантам осуществления способ предусматривает контактирование образца ДНК от индивидуума и/или родственника индивидуума с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различными полиморфными локусами (например, SNP), с получением реакционной смеси; и подвергание реакционной смеси воздействию условий реакции удлинения праймера для получения продуктов амплификации, которые измеряются с помощью секвенсора с высокой пропускной способностью для получения данных секвенирования.

Согласно одному варианту осуществления генетические данные индивидуума фазируют с помощью компьютерной программы, которая использует основанные на популяции частоты гаплотипов, чтобы сделать вывод о наиболее вероятной фазе, например, основанное на HapMap фазирование. Например, наборы гаплоидных данных могут быть выведены непосредственно из диплоидных данных с использованием статистических способов, которые используют известные блоки гаплотипов в общей популяции (например, те, которые создаются для общественного проекта HapMap и для проекта человеческого гаплотипа Perlegen). Блок гаплотипа представляет собой по существу ряд коррелированных аллелей, которые происходят неоднократно в различных популяциях. Так как эти блоки гаплотипов часто представляют собой древние и общие, они могут быть использованы для прогнозирования гаплотипов от диплоидных генотипов. Публично доступные алгоритмы выполнения этой задачи включают в себя подход несовершенной филогении, Байесовские подходы, основанные на сопряженных априорных вероятностях и априорных вероятностях из популяционной генетики. Некоторые из этих алгоритмов используют скрытую модель Маркова.

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных генотипов, например, алгоритма, который использует кластеризацию локализованного гаплотипа (смотрите, например, публикацию Browning and Browning, "Rapid and Accurate Haplotype Phasing and Missing-Data Inference for Whole-Genome Association Studies By Use of Localized Haplotype Clustering" Am J Hum Genet. Nov 2007; 81(5): 1084-1097, которая полностью включена в настоящий документе посредством ссылки). Иллюстративная программа представляет собой Beagle версии: 3.3.2 или версии 4 (доступна в интернете по адресу hfaculty.washington.edu/browning/beagle/beagle.html~~pobj, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных генотипов, например, алгоритм, который использует распад неравновесного сцепления с расстоянием, порядком и расстоянием между генотипированными маркерами, условной подстановкой недостающих данных, оценками частоты рекомбинации или их комбинации (смотрите, например, публикацию Stephens and Scheet, "Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation" Am. J. Hum. Genet. 76: 449-462, 2005, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой PHASE v.2.1 или v2.1.1. (доступна в интернете по адресу stephenslab.uchicago.edu/software.html~~pobj, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных популяционного генотипа, например, алгоритма, который позволяет кластерной принадлежности непрерывно изменяться вдоль хромосомы согласно скрытой Марковской модели. Такой подход представляет собой гибкий, что делает возможными, как профили "типа блока" неравновесного сцепления, так и постепенное снижение в неравновесном сцеплении с расстоянием (смотрите, например, публикацию Scheet and Stephens, "A fast and f1exible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase." Am J Hum Genet, 78: 629-644, 2006, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой fastPHASE (доступна в интернете по адресу stephenslab.uchicago.edu/software.html~~pobj, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием способа подстановок генотипа, например, способа, который использует один или несколько из следующих эталонных наборов данных: набор данных HapMap, наборы данных контролей, генотипированных на нескольких чипах SNP, и плотно типизированные образцы из проекта геномов 1000. Иллюстративный подход представляет собой гибкую структуру моделирования, которая повышает точность и объединяет информацию по нескольким эталонным панелям (смотрите, например, публикацию Howie, Donnelly, and Marchini (2009) "A f1exible and accurate genotype imputation method for the next generation of genome-wide association studies." PLoS Genetics 5(6): e1000529, 2009, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой IMPUTE или IMPUTE версии 2 (также известная как IMPUTE2) (доступна в интернете по адресу atmathgen.stats.ox.ac.uk/impute/impute_v2.html, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который делает вывод о гаплотипах, например, алгоритма, который делает вывод о гаплотипах под генетической моделью коалесценции с рекомбинацией, как, например, разработанная Stephens PHASE v2.1. Основные алгоритмические усовершенствования опираются на использование бинарных деревьев для представления набора потенциальных гаплотипов для каждого индивидуума. Эти представления бинарного дерева: (1) ускоряют вычисления апостериорных вероятностей гаплотипов, избегая избыточных операций, выполняемых в PHASE v2.1, и (2) преодолевают экспоненциальный аспект вывода о проблеме гаплотипов с помощью смарт-разведки наиболее вероятных путей (т.е. гаплотипов) в бинарных деревьях (смотрите, например, публикацию Delaneau, Coulonges and Zagury, "Shape-IT: new rapid and accurate algorithm for haplotype inference," BMC Bioinformatics 9: 540, 2008 doi: 10.1186/1471-2105-9-540, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой SHAPEIT (доступна в интернете по адресу atmathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных популяционных генотипов, например, алгоритма, который использует частоты гаплотипов-фрагментов для получения основанных на эмпирических вероятностей для более длинных гаплотипов. Согласно некоторым вариантам осуществления алгоритм реконструирует гаплотипы таким образом, что они характеризуются максимальной локальной когерентностью (смотрите, например, публикацию Eronen, Geerts, and Toivonen, "HaploRec: Efficient and accurate large-scale reconstruction of haplotypes, "BMC Bioinformatics 7: 542, 2006, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой HaploRec, например, HaploRec версии 2.3. (доступна в интернете по адресу cs.helsinki.fi/group/genetics/haplotyping.html~~pobj, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных популяционных генотипов, например, алгоритма, который использует стратегию разложения-сшивания и основанный на максимизации ожидания алгоритм (смотрите, например, публикацию Qin, Niu, and Liu, "Partition-Ligation-Expectation-Maximization Algorithm for Haplotype Inference with Single-Nucleotide Polymorphisms," Am J Hum Genet. 71(5): 1242-1247, 2002, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой PL-EM (доступна в интернете по адресу people.fas.harvard.edu/~junliu/plem/click.html~~pobj, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных популяционных генотипов, например, алгоритма одновременного фазирования генотипов в гаплотипы и блочное разделение. Согласно некоторым вариантам осуществления используется алгоритм максимизации ожидания (смотрите, например, публикацию Kimmel and Shamir,"GERBIL: Genotype Resolution and Block Identification Using Likelihood, "Proceedings of the National Academy of Sciences of the United States of America (PNAS) 102: 158-162, 2005, которая полностью включена в настоящий документе посредством ссылки). Иллюстративная программа представляет собой GERBIL, которая доступна как часть программы GEVALT версии 2 (доступна в интернете по адресу acgt.cs.tau.ac.il/gevalt/, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных популяционных генотипов, например, алгоритма, который использует EM-алгоритм для расчета оценок ML частот гаплотипов данных измерений генотипов, которые не определяют фазу. Алгоритм также учитывает некоторое отсутствие измерений генотипа (за счет, например, неудачной ПЦР). Он также позволяет множественные условные подстановки отдельных гаплотипов (смотрите, например, публикацию Clayton, D. (2002), "SNPHAP: A Program for Estimating Frequencies of Large Haplotypes of SNPs", которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой SNPHAP (доступна в интернете по адресу gene.cimr.cam.ac.uk/clayton/software/snphap.txt, который полностью включен в настоящий документ посредством ссылки).

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием алгоритма, который оценивает гаплотипы из данных популяционных генотипов, например, алгоритма для вывода гаплотипов на основе статистических данных генотипов, собранных для пар SNP. Это программное обеспечение может быть использовано для сравнительно точного фазирования большого количества длинных последовательностей генома, например, полученных из массивов ДНК. Иллюстративная программа принимает матрицу генотипа в качестве входных данных и выдает соответствующую матрицу гаплотипа (смотрите, например, публикацию Brinza and Zelikovsky, "2SNP: scalable phasing based on 2-SNP haplotypes," Bioinformatics. 22(3): 371-3, 2006, которая полностью включена в настоящий документ посредством ссылки). Иллюстративная программа представляет собой 2SNP (доступна в интернете по адресу alla.cs.gsu.edu/~software/2SNP~~pobj, который полностью включен в настоящий документ посредством ссылки).

Согласно различным вариантам осуществления генетические данные индивидуума фазируют с использованием данных о вероятности хромосом перекрещиваться в разных положениях хромосомы или хромосомного сегмента (например, с использованием данных о рекомбинации, таких как те, которые можно найти в базе данных HapMap для создания балла риска рекомбинации для любого интервала) для моделирования зависимости между полиморфными аллелями на хромосоме или хромосомном сегменте. Согласно некоторым вариантам осуществления подсчеты аллелей в полиморфных локусах вычисляют на компьютере на основе данных секвенирования или данных микроматричного анализа SNP. Согласно некоторым вариантам осуществления создают множество гипотез, каждая из которых относится к различным возможным состояниям хромосомы или хромосомного сегмента (например, превышение количества копий первого гомологичного хромосомного сегмента по сравнению со вторым гомологичным хромосомным сегментом в геноме одной или нескольких клеток от индивидуума, дублирование первого гомологичного хромосомного сегмента, делеция второго гомологичного хромосомного сегмента или равное представление первого и второго гомологичных хромосомных сегментов) (например, создание на компьютере); для каждой гипотезы строят (например, строительство на компьютере) модель (например, модель совместного распределения) для ожидаемых подсчетов аллелей в полиморфных локусах на хромосоме; определяют относительную вероятность каждой из гипотез (например, определение на компьютере) с помощью модели совместного распределения и подсчетов аллелей; и выбирают гипотезу с наибольшей вероятностью. Согласно некоторым вариантам осуществления построение модели совместного распределения для подсчета аллелей и стадию определения относительной вероятности каждой гипотезы выполняют с использованием способа, который не требует использования эталонной хромосомы.

Согласно одному варианту осуществления генетические данные индивидуума фазируют с использованием генетических данных одного или нескольких родственников индивидуума (например, одного или нескольких из родителей, братьев, сестер, детей, плодов, эмбрионов, бабушек и дедушек, дядей, тетей или кузенов). Согласно одному варианту осуществления генетические данные человека фазируют с использованием генетических данных одного или нескольких генетических потомков индивидуума (например, 1, 2, 3 или больше потомков), например, эмбриона, плода, новорожденных детей или образца выкидыша. Согласно одному варианту осуществления генетические данные родителя (например, родителя вынашиваемого плода или эмбриона) фазируют с использованием фазированных гаплотипических данных для другого родителя вместе с нефазированными генетическими данными одного или нескольких генетических потомков родителей.

Согласно некоторым вариантам осуществления образец (например, биопсия, такая как опухолевая биопсия, образец крови, образец плазмы, образец сыворотки или другой образец, который вероятно содержит главным образом или только клетки, ДНК или РНК с представляющими интерес CNV) от индивидуума (например, индивидуума, у которого подозревается наличие злокачественной опухоли, плода или эмбриона) анализируют для определения фазы для одной или нескольких областей, которые точно или предположительно содержат представляющие интерес CNV (например, делецию или дупликацию). Согласно некоторым вариантам осуществления образец содержит высокую опухолевую фракцию (например, 30, 40, 50, 60, 70, 80, 90, 95, 98, 99 или 100%). Согласно некоторым вариантам осуществления образец (например, образец цельной крови матери, клетки, выделенные из образца крови матери, образец плазмы матери, образец сыворотки матери, образец амниоцентеза, образец плацентарной ткани (например, хориона, децидуальной или плацентарной мембраны), образец цервикальной слизи, ткань плода после гибели плода, другой образец из плода или другой образец, который вероятно содержит в основном или только клетки, ДНК или РНК с представляющими интерес CNV) от плода или беременной матери плода анализируют для определения фазы для одной или нескольких областей, которые точно или предположительно содержат представляющие интерес CNV (например, делецию или дупликацию). Согласно некоторым вариантам осуществления образец содержит высокую эмбриональную фракцию (например, 25, 30, 40, 50, 60, 70, 80, 90, 95, 98, 99 или 100%).

Согласно некоторым вариантам осуществления образец характеризуется гаплотипическим дисбалансом или любой анеуплоидией. Согласно некоторым вариантам осуществления образец включает в себя любую смесь двух типов ДНК, где два типа характеризуются различными соотношениями двух гаплотипов и разделяют по меньшей мере один гаплотип. Например, в фетально-материнском случае, мать представляет собой 1:1, а плод 1:0 (плюс отцовский гаплотип). Например, в случае опухоли, нормальная ткань представляет собой 1:1, а опухолевая ткань представляет собой 1:0 или 1:2, 1:3, 1:4 и т.д. Согласно некоторым вариантам осуществления анализируют по меньшей мере 10; 100; 500; 1000; 2000; 3000; 5000; 8000 или 10000 полиморфных локусов для определения фазы аллелей в некоторых или всех локусах. Согласно некоторым вариантам осуществления образец получают из клетки или ткани, которая была обработана, чтобы стать анеуплоидной, например, анеуплоидия, индуцированная длительным культивированием клеток.

Согласно некоторым вариантам осуществления большой процент или вся ДНК или РНК в образце содержат представляющую интерес CNV. Согласно некоторым вариантам осуществления отношение ДНК или РНК из одной или нескольких клеток-мишеней, которые содержат представляющую интерес CNV, к общей ДНК или РНК в образце составляет по меньшей мере 80, 85, 90, 95 или 100%. Для образцов с делецией, только один гаплотип присутствует для клеток (или ДНК, или РНК) с делецией. Этот первый гаплотип может быть определен с помощью стандартных способов определения идентичности аллелей, присутствующих в области делеции. В образцах, содержащих только клетки (или ДНК, или РНК) с делецией, будет только сигнал от первого гаплотипа, который присутствует в этих клетках. В образцах, которые также содержат небольшое количество клеток (или ДНК, или РНК) без делеции (например, небольшое количество незлокачественных клеток), слабый сигнал от второго гаплотипа в этих клетках (или ДНК, или РНК) может быть проигнорирован. Второй гаплотип, который присутствует в других клетках, ДНК или РНК от индивидуума, у которого отсутствует делеция, может быть определен с помощью логического вывода. Например, если генотип клеток от индивидуума без делеции представляет собой (AB, AB) и фазированные данные для индивидуума указывают на то, что первый гаплотип представляет собой (A, A); то можно сделать вывод, что другой гаплотип представляет собой (B, B).

Для получения образцов, в которых присутствуют, как клетки (или ДНК, или РНК) с делецией, так и клетки (или ДНК, или РНК) без делеции, фаза по-прежнему может быть определена. Например, могут быть созданы диаграммы, аналогичные показанным на Фиг. 18 или 29, в которой ось X представляет собой линейное положение отдельных локусов по хромосоме, а ось Y представляет собой число прочтений аллеля А в виде доли от общего числа (А+В) прочтений аллелей. Согласно некоторым вариантам осуществления для делеции, профиль включает в себя две центральные полосы, которые представляют собой SNP, для которых индивидуум является гетерозиготным (верхняя полоса представляет собой АВ из клеток без делеции и A из клеток с делецией, а нижняя полоса представляет собой АВ из клеток без делеции и B из клеток с делецией). Согласно некоторым вариантам осуществления разделение этих двух полос возрастает с увеличением доли клеток, ДНК или РНК с делецией. Таким образом, идентичность аллелей A может быть использована для определения первого гаплотипа, а идентичность аллелей B может быть использована для определения второго гаплотипа.

Для образцов с дупликацией, дополнительная копия гаплотипа присутствует для клеток (или ДНК, или РНК) с дупликацией. Этот гаплотип дублированной области может быть определен с использованием стандартных способов для определения идентичности аллелей, присутствующих в увеличенном количестве в области дупликации, или гаплотип области, который не дублируется, может быть определен с использованием стандартных способов для определения идентичности аллелей, присутствующих в уменьшенном количестве. После того, как один гаплотип определен, другой гаплотип может быть определен с помощью логического вывода.

Для получения образцов, в которых присутствуют, как клетки (или ДНК, или РНК) с дупликацией, так и клетки (или ДНК, или РНК) без дупликации, фаза по-прежнему может быть определена с использованием способа, аналогичного тому, который описан выше для делеции. Например, могут быть созданы графики, аналогичные показанным на Фиг. 18 или 29, в которых ось X представляет собой линейное положение отдельных локусов по хромосоме, а ось Y представляет собой число прочтений аллеля А в виде доли от общего числа (А+В) прочтений аллелей. Согласно некоторым вариантам осуществления для делеции профиль включает в себя две центральные полосы, которые представляют собой SNP, для которых индивидуум является гетерозиготным (верхняя полоса представляет собой АВ из клеток без дупликации и ААВ из клеток с дупликацией, а нижняя полоса представляет собой АВ из клеток без дупликации и ABB из клетки с дупликацией). Согласно некоторым вариантам осуществления разделение этих двух полос возрастает с увеличением доли клеток, ДНК или РНК с дупликацией. Таким образом, идентичность аллелей A может быть использована для определения первого гаплотипа, а идентичность аллелей B может быть использована для определения второго гаплотипа. Согласно некоторым вариантам осуществления фазу одной или нескольких областей CNV (например, фазу по меньшей мере 50, 60, 70, 80, 90, 95 или 100% полиморфных локусов в области, которую измеряли) определяют для образца (например, опухолевой биопсии или образца плазмы) от индивидуума, у которого известно наличие злокачественной опухоли, и используют для анализа последующих образцов от того же индивидуума, чтобы контролировать прогрессирование злокачественной опухоли (например, контроль за ремиссией или рецидивом злокачественной опухоли). Согласно некоторым вариантам осуществления образец с высокой опухолевой фракцией (например, опухолевая биопсия или образец плазмы от индивидуума с высокой опухолевой нагрузкой) используют для получения фазированной данных, которые используются для анализа последующих образцов с более низкой опухолевой фракцией (например, образца плазмы от индивидуума, проходящего курс лечения злокачественной опухоли или в стадии ремиссии).

Согласно другому варианту осуществления для пренатальной диагностики, фазированные родительские гаплотипические данные обнаруживают наличие более чем одного гомолога от отца, подразумевая, что генетический материал от более чем одного плода присутствует в образце материнской крови. Сосредоточив внимание на хромосомах, которые, как ожидается, будут эуплоидными у плода, можно было бы исключить возможность того, что плод поражен трисомией. Кроме того, можно определить, является ли ДНК плода не от нынешнего отца.

Согласно некоторым вариантам осуществления два или более из описанных в настоящем документе способов используют для фазирования генетических данных индивидуума. Согласно некоторым вариантам осуществления используется как способ биоинформатики (например, использование основанных на популяции частот гаплотипов, чтобы сделать вывод о наиболее вероятной фазе), так и способ молекулярной биологии (например, любой из раскрытых в настоящем документе способов молекулярного фазирования, чтобы получить фактические фазированные данные, а не основанные на биоинформатике выведенные фазированные данные). Согласно некоторым вариантам осуществления фазированные данные от других субъектов (например, предыдущих субъектов) используют для уточнения популяционных данных. Например, фазированные данные от других субъектов могут быть добавлены к популяционным данным для расчета априорных вероятностей для возможных гаплотипов для другого субъекта. Согласно некоторым вариантам осуществления фазированные данные от других субъектов (например, предыдущих субъектов) используют для расчета априорных вероятностей для возможных гаплотипов для другого субъекта.

Согласно некоторым вариантам осуществления могут быть использованы вероятностные данные. Например, в связи с вероятностным характером представления молекул ДНК в образце, а также различными статистическими погрешностями амплификации и измерений, относительное число молекул ДНК, измеренных от двух разных локусов или от различных аллелей в данном локусе, не всегда является типичным показателем относительного числа молекул в смеси или у индивидуума. При попытке определить генотип нормального диплоидного индивидуума в данном локусе на аутосомной хромосоме путем секвенирования ДНК из плазмы индивидуума, можно было бы ожидать, либо наличие только одного аллеля (гомозиготное), либо равное количество двух аллелей (гетерозиготное). Если, в этом аллеле наблюдалось десять молекул аллеля A и наблюдалось две молекулы аллеля B, то не будет понятно, индивидуум был гомозиготным в локусе, а две молекулы аллеля B были обусловлены шумом или загрязнением, или индивидуум был гетерозиготным, а меньшее число молекул аллеля В было обусловлено случайной, статистической вариацией числа молекул ДНК в плазме, систематической ошибкой амплификации, загрязнением или любым количеством других причин. В этом случае может быть вычислена вероятность того, что индивидуум был гомозиготным, и соответствующая вероятность того, что индивидуум был гетерозиготным, и эти вероятностные генотипы могут быть использованы в дальнейших вычислениях.

Следует отметить, что при заданном аллельном соотношении, правдоподобие того, что соотношение близко представляет собой отношение молекул ДНК у индивидуума больше, чем больше число молекул, которые наблюдают. Например, если бы было измерено 100 молекул A и 100 молекул В, правдоподобие того, что фактическое соотношение составляло 50%, значительно больше, чем если бы было измерено 10 молекул A и 10 молекул B. Согласно одному варианту осуществления Байесовскую теорию в сочетании с детальной моделью данных используют для определения правдоподобия того, что конкретная гипотеза верна для данного наблюдения. Например, при рассмотрении двух гипотез - одна соответствует трисомному индивидууму, а вторая соответствует дисомному индивидууму - тогда вероятность правильности дисомной гипотезы была бы значительно выше, для случая, когда наблюдали 100 молекул каждого из двух аллелей, по сравнению со случаем, когда наблюдали 10 молекул каждого из двух аллелей. По мере того как данные становятся шумными из-за систематической ошибки, загрязнения или какого-либо другого источника шума, или по мере того, как число наблюдений в данном локусе уменьшается, вероятность истинности гипотезы максимального правдоподобия для наблюдаемых данных падает. На практике, можно собрать вместе вероятности по многим локусам, чтобы увеличить достоверный интервал, с которым гипотеза максимального правдоподобия может быть определена как правильная гипотеза. Согласно некоторым вариантам осуществления вероятности просто собирают вместе без учета рекомбинации. Согласно некоторым вариантам осуществления вычисления учитывают кроссоверы.

Согласно одному варианту осуществления вероятностно фазированные данные используют в определении вариации числа копий. Согласно некоторым вариантам осуществления вероятностно фазированные данные представляют собой основанные на популяции данные о частотах блоков гаплотипов из источника данных, например, базы данных HapMap. Согласно некоторым вариантам осуществления вероятностно фазированные данные представляют собой гаплотипические данные, полученные с помощью молекулярного способа, например, фазирования путем разбавления, где отдельные сегменты хромосом разводят до одной молекулы на реакцию, но где из-за стохаистического шума идентичности гаплотипов не могут быть абсолютно известны. Согласно некоторым вариантам осуществления вероятностно фазированные данные представляют собой гаплотипические данные, полученные с помощью молекулярного способа, где идентичности гаплотипов могут быть известны с высокой степенью достоверности.

Если представить гипотетический случай, где врач хотел бы определить, имеются ли у индивидуума некоторые клетки в организме, которые содержат делению на определенном хромосомном сегменте путем измерения ДНК плазмы от индивидуума. Врач может использовать знания того, что, если все клетки, из которых происходит ДНК плазмы, были диплоидными и с одним и тем же генотипом, то для гетерозиготных локусов, относительное число молекул ДНК, наблюдаемое для каждого из двух аллелей, будет попадать в одно распределение, которое сосредоточено на 50% аллеля A и 50% аллеля B. Тем не менее, если доля клеток, из которых возникла ДНК плазмы, содержала делецию в определенном хромосомном сегменте, тогда для гетерозиготных локусов можно было бы ожидать, что относительное число молекул ДНК, наблюдаемое для каждого из двух аллелей, разделялось бы на два распределения, одно с центром в точке выше 50% аллеля A для локусов, где была делеция хромосомного сегмента, содержащего аллель B, и одно с центром ниже 50% для локусов, где произошла делеция хромосомного сегмента, содержащего аллель A. Чем большая доля клеток, из которых возникла ДНК плазмы, содержит делецию, тем дальше от 50% будут эти два распределения.

В этом гипотетическом случае можно представить клинициста, который хочет определить, имеется ли у индивидуума делеция хромосомной области в части клеток в организме. Клиницист может собрать кровь у индивидуума в вакутейнер или пробирку для сбора крови другого типа, центрифугировать кровь и выделить слой плазмы. Клиницист может выделить ДНК из плазмы крови, обогатить ДНК на нацеленные локусы, возможно, за счет нацеленной или другой амплификации, способов захвата локуса, обогащения размера или другие способов обогащения. Клиницист может анализировать, например, путем измерения числа аллелей в совокупности SNP, другими словами путем получения данных о частоте аллелей, обогащенной и/или амплифицированной ДНК с использованием такого анализа, как кПЦР, секвенирование, микроматричный анализ или другие способы, которые измеряют количество ДНК в образце. Авторы настоящего изобретения будут рассматривать анализ данных для случая, когда клиницист амплифицировал внеклеточную ДНК плазмы с использованием способа нацеленной амплификации, а затем секвенировал амплифицированную ДНК, чтобы получить следующие иллюстративные возможные данные в шести SNP, обнаруженных на хромосомном сегменте, что свидетельствует о злокачественной опухоли, где индивидуум был гетерозиготным по этим SNP:

SNP 1: 460 прочтений аллеля A; 540 прочтений аллеля B (46% A)

SNP 2: 530 прочтений аллеля A; 470 прочтений аллеля B (53% А)

SNP 3: 40 прочтений аллеля A; 60 прочтений аллеля B (40% А)

SNP 4: 46 прочтений аллеля A; 54 прочтения аллеля B (46% А)

SNP 5: 520 прочтений аллеля A; 480 прочтений аллеля B (52% А)

SNP 6: 200 прочтений аллеля A; 200 прочтений аллеля B (50% А)

Из этого набора данных может быть трудно провести различие между случаем, когда индивидуум является нормальным со всеми дисомическими клетками или когда индивидуум может характеризоваться наличием злокачественной опухоли с некоторой части клеток, ДНК, внесших вклад во внеклеточную ДНК, обнаруженную в плазме с делецией или дупликацией на хромосоме. Например, две гипотезы с максимальным правдоподобием могут быть такими, что индивидуум характеризуется наличием делеции в этом хромосомном сегменте с опухолевой фракцией 6%, а удаленный хромосомный сегмент характеризуется генотипом шести полиморфизмов (А,В,А,А,В,В) или (А,В,А,А,В,А). В этом представлении генотипа индивидуума над набором SNP, первая буква в скобках соответствует генотипу гаплотипа для SNP 1, вторая - для SNP 2 и т.д.

Если используется способ определения гаплотипа индивидуума в этом хромосомном сегменте и обнаруживается, что гаплотип для одной из двух хромосом представляет собой (А,В,А,А,В,В), то это согласуется с гипотезой максимального правдоподобия, и вычисленное правдоподобие, что индивидуум содержит делецию в этом сегменте и, следовательно, может характеризоваться наличием злокачественных или предшественников злокачественных клеток, будет значительно увеличено. С другой стороны, если было обнаружено, что индивидуум характеризуется наличием гаплотипа (А,А,А,А,А,А), то правдоподобие того, что индивидуум содержит делецию в этом хромосомной сегменте, будет значительно уменьшено, и, возможно, правдоподобие гипотезы отсутствия делеции будет выше (фактические значения правдоподобия будут зависеть от других параметров, таких как измеренный шум в системе, среди прочего).

Существует много способов определить гаплотип индивидуума, многие из которых описаны в настоящем документе. Неполный список приведен в настоящем документе и не претендует на исчерпывающий характер. Одним из способов является биологический способ, в котором отдельные молекулы ДНК разводят до приблизительно одной молекулы от каждой хромосомной области в любом заданном объеме реакционной смеси, а затем такие способы, как секвенирование, используют для измерения генотипа. Другой способ основан на информатике, где популяционные данные о различных гаплотипах в сочетании с их частотой могут быть использованы в вероятностной форме. Другой способ заключается в измерении диплоидных данных индивидуума вместе с одним или множеством родственных индивидуумов, которые, как предполагается, разделяют блоки гаплотипов с индивидуумом, и подведение логического вывода о блоках гаплотипов. Другой способ заключается в том, чтобы взять образец ткани с высокой концентрацией удаленного или дублированного сегмента и определить гаплотип, основанный на аллельном дисбалансе, например, измерениях генотипа из образца опухолевой ткани с делецией может быть использован для определения фазированных данных для этой области с делецией, и эти данные затем могут быть использованы для определения, не появилась ли повторно злокачественная опухоль после резекции.

На практике, как правило, измеряют более 20 SNP, более 50 SNP, более 100 SNP, более 500 SNP, более 1000 SNP или более 5000 SNP на данном хромосомном сегменте.

Иллюстративные способы фазирования, предсказания аллельных соотношений и восстановления фетальных генетических данных

Согласно одному аспекту настоящее изобретение относится к способам определения одного или нескольких гаплотипов плода. Согласно различным вариантам осуществления этот способ позволяет определить, какой из полиморфных локусов (например, SNP) унаследован плодом, и реконструировать гомологи (в том числе и события рекомбинации), которые присутствуют у плода (и, таким образом, интерполировать последовательность между полиморфных локусов). При желании, по существу, весь геном плода может быть реконструирован. Если существует некоторая оставшаяся неоднозначность в геноме плода (например, в интервалах с кроссовером), эта неоднозначность может быть сведена к минимуму, при желании, с помощью анализа дополнительных полиморфных локусов. Согласно различным вариантам осуществления полиморфные локусы выбирают так, чтобы охватывать одну или несколько хромосом с такой плотностью, чтобы уменьшить любую неоднозначность до желательного уровня. Этот способ имеет важное применение для обнаружения полиморфизмов или других представляющих интерес мутаций (например, делеций или дупликаций) у плода, так как он делает возможным их обнаружение на основании сцепления (например, наличие сцепленных полиморфных локусов в фетальном геноме), а не направляя обнаружения полиморфизма или другой представляющей интерес мутации в фетальном геноме. Например, если один из родителей представляет собой носителя мутации, связанной с кистозным фиброзом (CF), образец нуклеиновой кислоты, который включает в себя материнскую ДНК от матери плода и фетальную ДНК от плода, может быть проанализирован, чтобы определить, включает ли ДНК плода гаплотип, содержащий мутацию CF. В частности, полиморфные локусы могут быть проанализированы, чтобы определить, содержит ли ДНК плода гаплотип, содержащий мутацию CF, без обнаружения самой мутации CF в фетальной ДНК. Это полезно для скрининга на одну или несколько мутаций, таких как связанных с заболеванием, без необходимости непосредственного обнаружения мутаций.

Согласно некоторым вариантам осуществления способ предусматривает определение родительского гаплотипа (например, гаплотипа матери или отца плода), например, с использованием любого из описанных в настоящем документе способов. Согласно некоторым вариантам осуществления это определение производят без использования данных от родственника матери или отца. Согласно некоторым вариантам осуществления родительский гаплотип определяют с использованием подхода разбавления с последующим генотипированием или секвенированием SNP, как описано в настоящем документе. Согласно некоторым вариантам осуществления гаплотип матери (или отца) определяют с помощью любого из описанных в настоящем документе способов с использованием данных от родственника матери (или отца). Согласно некоторым вариантам осуществления гаплотип определяют как для отца, так и для матери.

Этот данные о родительском гаплотипе могут быть использованы для определения того, унаследовал ли плод родительский гаплотип. Согласно некоторым вариантам осуществления образец нуклеиновой кислоты, которая включает в себя материнскую ДНК от матери плода и фетальную ДНК от плода анализируют с использованием матрицы SNP, чтобы обнаружить по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных полиморфных локусов. Согласно некоторым вариантам осуществления образец нуклеиновой кислоты, который включает в себя материнскую ДНК от матери плода и фетальную ДНК от плода, анализируют путем приведения в контакт образца с библиотекой праймеров, которые одновременно гибридизуют по меньшей мере с 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различными полиморфными локусами (например, SNP) для получения реакционной смеси. Согласно некоторым вариантам осуществления реакционную смесь подвергают воздействию условий реакции для удлинения праймера для получения продуктов амплификации. Согласно некоторым вариантам осуществления амплифицированные продукты измеряют посредством секвенатора с высокой пропускной способностью для получения данных секвенирования.

Согласно различным вариантам осуществления фетальный гаплотип определяют с использованием данных о вероятности пересечения хромосом в разных местах в хромосоме или хромосомном сегменте (например, с использованием таких данных о рекомбинации, которые могут быть обнаружены в базе данных HapMap, чтобы создать оценку риска рекомбинации для любого интервала), чтобы моделировать зависимость между полиморфными аллелями на хромосоме или хромосомном сегменте, как описано выше. Согласно некоторым вариантам осуществления способ учитывает физическое расстояние от SNP (например, SNP, фланкирующие представляющий интерес ген или мутацию) и данные рекомбинации от положения конкретных правдоподобий рекомбинации, и данные, наблюдаемые от генетических измерений материнской плазмы, чтобы получить наиболее вероятный генотип плода. Тогда может быть выполнен PARENTAL SUPPORT™ на нацеленной последовательности или данных матрицы SPN, полученных от этих SNP, чтобы определить, какие гомологи были унаследованы плодом от обоих родителей (смотрите, например, заявку на патент США №11/603406 (публикация США №20070184467), заявку на патент США №12/076348 (публикация США №20080243398), заявку на патент США №13/110685 (публикация США №2011/0288780), заявку РСТ PCT/US09/52730 (публикация РСТ WO/2010/017214) и заявку РСТ PCT/US10/050824 (публикация РСТ WO/2011/041485), заявку на патент США №13/300235 (публикация США №2012/0270212), заявку на патент США №13/335043 (публикация США №2012/0122701), заявку на патент США №13/683604 и заявку на патент США №13/780022, каждая из которых полностью включена в настоящий документ посредством ссылки).

В обобщенном примере, где возможные аллели в одном локусе представляют собой A и B; установление идентичности A или B к конкретным аллелям представляет собой произвольное. Родительские генотипы для конкретного SNP, называемые генетическими контекстами, выражаются в виде материнского генотипа|отцовского генотипа. Таким образом, если мать является гомозиготной, а отец - гетерозиготен, это будет представлено как АА|АВ. Точно так же, если оба родителя являются гомозиготными по тому же аллелю, родительские генотипы будут представлены в виде АА|АА. Кроме того, плод никогда не будет иметь состояний АВ или ВВ, и число прочтений последовательности с аллелем B будет низким, и, следовательно, могут быть использованы для определения ответов шума анализа и платформы генотипирования, в том числе и такие эффекты, как загрязнение низкого уровня ДНК и ошибки секвенирования; эти ответы шума полезны для моделирования ожидаемых профилей генетических данных. Существует только пять возможных материнских|отцовских генетических контекстов: АА|АА, АА|АВ, АВ|АА, АВ|АВ и АА|ВВ; другие контексты эквивалентны по симметрии. SNP, где родители являются гомозиготными по одному и тому же аллелю, представляют собой информативные только для определения уровней шума и загрязнения. SNP, где родители не являются гомозиготными по одному и тому же аллелю, представляют собой информативные при определении фетальной фракции и подсчет числа копий.

Пусть NA,i и NB,i представляют собой число прочтений каждого аллеля в SNP i и пусть Ci представляет собой родительский генетический контекст в этом локусе. Набор данных для конкретной хромосомы представлена NAB={NA,i, NB,i}=1…N и C={Ci}, i=1…N. Для восстановления части или всего фетального генома, при желании можно определить, характеризуется ли плод анеуплоидией (например, отсутствующей или дополнительной копией хромосомы или хромосомного сегмента). Для каждой отдельной хромосомы или исследуемой хромосомы, пусть H представляет собой набор из одной или нескольких гипотез для общего числа хромосом, родительского происхождения каждой хромосомы и положений на родительских хромосомах, где произошла рекомбинация во время образования половых клеток, которые были оплодотворены для получения ребенка. Вероятность гипотезы P(H) может быть вычислена с использованием данных из базы данных HapMap и априорной информации, связанной с каждым из состояний плоидности.

Кроме того, пусть F представляет собой фетальную фракцию вкДНК в образце. Принимая во внимание множество возможных H, C и F, можно вычислить вероятность NAB, P(NAB|H,F,C), основанную на моделировании источников шума платформы молекулярного анализа и секвенирования. Цель состоит в том, чтобы найти гипотезу Н и фетальную фракцию F, которая максимизирует P(H,F|NAB). Используя стандартные Байесовские статистические способы и предполагая равномерное распределение вероятностей для F от 0 до 1, то это можно переписать в терминах максимизации вероятности P(NAB|H,F,C)P(H) для H и F, все из которых могут теперь быть вычислены. Вероятность всех гипотез, связанных с определенным числом копий и фетальной фракцией, например, трисомия и F=10%, но охватывающие все возможные происхождения родительских хромосом и расположения кроссоверов, суммируются. Гипотезу числа копий с самой высокой вероятностью выбирают в качестве результата исследования, фетальная фракция, связанная с этой гипотезой, показывает фетальную фракцию, и вероятность, связанная с этой гипотезой, представляет собой расчетную точность результата.

Согласно некоторым вариантам осуществления алгоритм использует моделирование in silico для создания очень большого числа наборов гипотетических данных секвенирования, которые могут возникнуть в результате возможных фетальных профилей генетического наследования, параметров образца и артефактов амплификации и измерения способа. Более конкретно, алгоритм сначала использует родительские генотипы при большом количестве SNP и данные о частоте кроссоверов из базы данных HapMap, чтобы прогнозировать возможные фетальные генотипы. Затем он предсказывает ожидаемые профили данных для данных секвенирования, которые будут измерены из смешанных образцов, происходящих от матери, несущей плод, с каждым из возможных генотипов плода и с учетом различных параметров, включающих в себя фетальную фракцию, ожидаемый профиль глубины прочтения, эквиваленты фетального генома, присутствующие в образце, ожидаемые статистические погрешности амплификации в каждом из SNP, а также число параметров шума. Модель данных описывает, как ожидается, что данные секвенирования или матричного анализа SNP появятся для каждой из этих гипотез с учетом особого набора параметров. Выбирают гипотезу с наилучшим совпадением данных между этим смоделированными данными и измеренными данными.

При желании, ожидаемые аллельные соотношения могут быть вычислены для ДНК или РНК из плода с использованием результатов того, какие гаплотипы были унаследованы плодом. Ожидаемые аллельные соотношения также могут быть рассчитаны для смешанного образца, содержащего нуклеиновые кислоты, как от матери, так и от плода (эти аллельные соотношения указывают на то, что ожидается для измерения общего количества каждого аллеля, включая в себя количество аллеля, как от материнских нуклеиновых кислот, так и от эмбриональных нуклеиновых кислот в образце). Ожидаемые аллельные соотношения можно вычислить для различных гипотез, определяющих степень превышения первого гомологичного хромосомного сегмента.

Согласно некоторым вариантам осуществления способ предусматривает определение того, характеризуется ли плод одним или несколькими из следующих состояний: муковисцидоз, болезнь Хантингтона, ломкая Х-хромосома, таласемия, мышечная дистрофия (например, мышечная дистрофия Дюшенна), болезнь Альцгеймера, анемия Фанкони, болезнь Гоше, муколипидоз IV, болезнь Нимана-Пика, болезнь Тея-Сакса, серповидно-клеточная анемия, болезнь Паркинсона, торсионная дистония и злокачественная опухоль. Согласно некоторым вариантам осуществления фетальный гаплотип определяют для одной или нескольких хромосом, взятых из группы, состоящей из хромосом 13, 18, 21, X и Y. Согласно некоторым вариантам осуществления фетальный гаплотип определяют для всех фетальных хромосом. Согласно различным вариантам осуществления способ определяет по существу весь геном плода. Согласно некоторым вариантам осуществления гаплотип определяется по меньшей мере на 30, 40, 50, 60, 70, 80, 90 или 95% генома плода. Согласно некоторым вариантам осуществления определение гаплотипа плода включает в себя информацию о том, какие аллели присутствуют по меньшей мере для 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000 или 100000 различных полиморфных локусов. Согласно некоторым вариантам осуществления этот способ используется для определения гаплотипа или аллельных соотношения для эмбриона.

Иллюстративные способы прогнозирования аллельных соотношений Иллюстративные способы описаны ниже для расчета ожидаемых аллельных соотношений для образца. В таблице 1 приведены ожидаемые аллельные соотношения для смешанного образца (например, образца крови матери), содержащего нуклеиновые кислоты, как от матери, так и плода. Эти ожидаемые аллельные соотношения указывают на то, что ожидается для измерения общего количества каждого аллеля, включая в себя количество аллелей, как из материнских нуклеиновых кислот, так и фетальных нуклеиновых кислот в смешанном образце. В качестве примера, мать является гетерозиготной в двух соседних локусах, которые, как ожидается, разделяются (например, два локуса, для которых не ожидается хромосомных кроссоверов между локусами). Таким образом, мать представляет собой (AB,AB). Если представить, что фазированные данные для матери указывают на то, что для одного гаплотипа она представляет собой (A,A); то для другого гаплотипа можно сделать вывод, что она представляет собой (B,B). В таблице 1 приведены ожидаемые аллельные соотношения для различных гипотез, где фетальная фракция составляет 20%. Для этого примера, не предполагается знание отцовских данных и предполагается, что степень гетерозиготности составляет 50%. Ожидаемые аллельные соотношения приведены в пересчете (ожидаемая доля прочтений A / общее число прочтений) для каждого из двух SNP. Эти коэффициенты рассчитываются как с использованием материнских фазированных данных (знание того, что один гаплотип представляет собой (A,A), а один - (B,B)), так и без использования материнских фазированных данных. Таблица 1 включает в себя различные гипотезы для числа копий хромосомного сегмента у плода от каждого родителя.

В дополнение к тому факту, что использование фазированных данных сокращает число возможных ожидаемых аллельных соотношений, оно также изменяет предварительное правдоподобие каждого из ожидаемых аллельных соотношений таким образом, что результат максимального правдоподобия скорее всего будет правильным. Исключение ожидаемых аллельных соотношений или гипотез, которые не возможны, повышает вероятность того, что будет выбрана правильная гипотеза. В качестве примера, можно предположить, что измеренное аллельное соотношение составляет (0,41, 0,59). Без использования фазированных данных, можно было бы предположить, что гипотеза с максимальным правдоподобием представляет собой гипотезу дисомии (учитывая сходство измеренных аллельных отношений с числом ожидаемых аллельных соотношений (0,40, 0,60) для дисомии). Тем не менее, с использованием фазированных данных можно исключить (0,40, 0,60) в качестве ожидаемых аллельных соотношений для гипотезы дисомии и можно выбрать гипотезу трисомии, как более вероятную.

Полагая, что измеренные аллельные соотношения представляют собой (0,4, 0,4). Без любой информации о гаплотипе вероятность материнской делеций в каждом SNP будет представлять собой 0,5×P (A удален) + 0,5×P (B удален). Поэтому, хотя это выглядит как A удален (отсутствует у плода), правдоподобие удаления будет представлять собой среднее из двух. Для получения достаточно высокой эмбриональной фракции, еще можно определить наиболее вероятную гипотезу. Для достаточно низкой эмбриональной фракции, усреднение может работать против гипотезы делеций. Однако с информацией о гаплотипе вероятность удаления гомолога 1, P (A удален), больше, и будет соответствовать измеренным данным лучше. При желании также могут быть рассмотрены вероятности кроссоверов между двумя л оку сами.

В дополнительном иллюстративном примере совместных правдоподобий с использованием фазированных данных, рассматривают два последовательных SNP s1 и s2, a D1 и D2 обозначают данные аллелей в этих SNP. В настоящем документе авторы настоящего изобретения приводят пример того, как объединить правдоподобия для этих двух SNP. Пусть c обозначает правдоподобие того, что два последовательных гетерозиготных SNP имеют один и тот же аллель в том же гомологе (т.е. оба SNP представляют собой АВ или оба SNP представляют собой ВА). Следовательно 1-е представляет собой вероятность того, что один SNP представляет собой АВ, а другой представляет собой BA. Например, можно рассмотреть гипотезу H10 и значение аллельного дисбаланса f. Во-первых, предполагают, что все правдоподобия вычисляют с предположением того, что все SNP представляют собой либо АВ, либо ВА. Затем, можно объединить правдоподобия в двух следующих друг за другом SNP следующим образом:

Можно сделать это рекурсивно, чтобы определить совместное правдоподобие Lik(D1, …, DN|H10, ƒ) для всех SNP.

Иллюстративные мутации

Иллюстративные мутации, связанные с заболеванием или нарушением, таким как злокачественная опухоль или повышенный риск развития (например, выше нормального уровня риска) заболевания или нарушения, такого как злокачественная опухоль, включают в себя однонуклеотидные варианты (SNV), множественные нуклеотидные мутации, делеции (например, делеция области от 2 до 30 миллионов пар нуклеотидов), дупликации или тандемные повторы. Согласно некоторым вариантам осуществления мутация происходит в ДНК, например, вкДНК, внеклеточной митохондриальной ДНК (вк мДНК), внеклеточной ДНК, которая происходит из ядерной ДНК (вк нДНК), клеточной ДНК или митохондриальной ДНК. Согласно некоторым вариантам осуществления мутация происходит в РНК, например, вкРНК, клеточной РНК, цитоплазматической РНК, кодирующей цитоплазматической РНК, некодирующей цитоплазматической РНК, мРНК, миРНК, митохондриальной РНК, рРНК или тРНК. Согласно некоторым вариантам осуществления мутация присутствует с более высокой частотой у субъектов с заболеванием или нарушением (например, злокачественной опухолью), чем у субъектов без заболевания или нарушения (например, злокачественной опухоли). Согласно некоторым вариантам осуществления мутация представляет собой признак злокачественной опухоли, например, болезнетворная мутация. Согласно некоторым вариантам осуществления мутация представляет собой драйверную мутацию, которая играет роль причины в развитии этого заболевания или нарушения. Согласно некоторым вариантам осуществления мутация не играет роль причины в развитии этого заболевания или нарушения. Например, при некоторых видах злокачественных опухолей накапливаются множественные мутации, но некоторые из них не являются мутациями, вызывающими заболевания. Мутации (такие, как те, которые присутствуют с более высокой частотой у субъектов с заболеванием или нарушением, чем у субъектов без заболевания или нарушения), которые не вызывают заболевание, все равно могут быть полезными для диагностики заболевания или нарушения. Согласно некоторым вариантам осуществления мутация представляет собой потерю гетерозиготности (LOH) в одном или нескольких микросателитах.

Согласно некоторым вариантам осуществления субъект подвергают скринингу на один из нескольких полиморфизмов или мутаций, наличие которых у субъекта известно (например, для проверки на предмет их наличия, изменения количества клеток, ДНК или РНК с этими полиморфизмами или мутациями, или ремиссии злокачественной опухоли или повторное появление). Согласно некоторым вариантам осуществления субъект подвергают скринингу на один из нескольких полиморфизмов или мутаций, риск появления которых у субъекта известен (например, субъекта, у которого есть родственник с полиморфизмом или мутацией). Согласно некоторым вариантам осуществления субъект подвергают скринингу на панель полиморфизмов или мутаций, связанных с заболеванием или нарушением, таким как злокачественная опухоль (например, по меньшей мере 5, 10, 50, 100, 200, 300, 500, 750, 1000, 1500, 2000 или 5000 полиморфизмов или мутаций).

Много вариантов кодирования, связанных со злокачественной опухолью, описаны в публикации Abaan et al., "The Exomes of the NCI-60 Panel: A Genomic Resource for Cancer Biology and Systems Pharmacology", Cancer Research, July 15, 2013 и в интернете по адресу dtp.nci.nih.gov/branches/btb/characterizationNCI60.html~~pobj, каждый из которых полностью включен в настоящий документ посредством ссылки). Панель клеточных линий злокачественной опухоли NCI-60 человека состоит из 60 различных клеточных линий, представляющих собой злокачественные опухоли легких, толстой кишки, головного мозга, яичников, молочной железы, предстательной железы и почек, а также лейкемии и меланомы. Генетические вариации, которые были идентифицированы в этих клеточных линиях, состояли из двух типов: вариантов типа I, которые находятся в нормальной популяции, а также вариантов типа II, которые представляют собой специфические к злокачественной опухоли.

Иллюстративные полиморфизмы или мутации (такие как делеции или дупликации) находятся в одном или нескольких из следующих генов: ТР53, PTEN, PIK3CA, АРС, EGFR, NRAS, NF2, FBXW7, ERBBs, ATAD5, KRAS, BRAF, VEGF, EGFR, HER2, ALK, р53, BRCA, BRCA1, BRCA2, SETD2, LRP1B, PBRM, SPTA1, DNMT3A, ARID1A, GRIN2A, TRRAP, STAG2, EPHA3/5/7, POLE, SYNE1, C20orf80, CSMD1, CTNNB1, ERBB2. FBXW7, KIT, MUC4, ATM, CDH1, DDX11, DDX12, DSPP, EPPK1, FAM186A, GNAS, HRNR, KRTAP4-11, MAP2K4, MLL3, NRAS, RBI, SMAD4, TTN, ABCC9, ACVR1B, ADAM29, ADAMTS19, AGAP10, AKT1, AMBN, AMPD2, ANKRD30A, ANKRD40, APOBR, AR, BIRC6, BMP2, BRAT1, BTNL8, C12orf4, C1QTNF7, C20orf186, CAPRIN2, CBWD1, CCDC30, CCDC93, CD5L, CDC27, CDC42BPA, CDH9, CDKN2A, CHD8, CHEK2, CHRNA9, CIZ1, CLSPN, CNTN6, COL14A1, CREBBP, CROCC, CTSF, CYP1A2, DCLK1, DHDDS, DHX32, DKK2, DLEC1, DNAH14, DNAH5, DNAH9, DNASE1L3, DUSP16, DYNC2H1, ECT2, EFHB, RRN3P2, TRIM49B, TUBB8P5, EPHA7, ERBB3, ERCC6, FAM21A, FAM21C, FCGBP, FGFR2, F1G2, F1T1, FOLR2, FRYL, FSCB, GAB1, GABRA4, GABRP, GH2, GOLGA6L1, GPHB5, GPR32, GPX5, GTF3C3, HECW1, HIST1H3B, HLA-A, HRAS, HS3ST1, HS6ST1, HSPD1, IDH1, JAK2, KDM5B, KIAA0528, KRT15, KRT38, KRTAP21-1, KRTAP4-5, KRTAP4-7, KRTAP5-4, KRTAP5-5, LAMA4, LATS1, LMF1, LPAR4, LPPR4, LRRFIP1, LUM, LYST, MAP2K1, MARCH1, MARCO, MB21D2, MEGF10, MMP16, MORC1, MRE11A, MTMR3, MUC12, MUC17, MUC2, MUC20, NBPF10, NBPF20, NEK1, NFE2L2, NLRP4, NOTCH2, NRK, NUP93, OBSCN, OR11H1, OR2B11, OR2M4, OR4Q3, OR5D13, OR8I2, OXSM, PIK3R1, PPP2R5C, PRAME, PRF1, PRG4, PRPF19, PTH2, PTPRC, PTPRJ, RAC1, RAD50, RBM12, RGPD3, RGS22, ROR1, RP11-671M22.1, RP13-996F3.4, RP1L1, RSBN1L, RYR3, SAMD3, SCN3A, SEC31A, SF1, SF3B1, SLC25A2, SLC44A1, SLC4A11, SMAD2, SPTA1, ST6GAL2, STK11, SZT2, TAF1L, TAX1BP1, TBP, TGFBI, TIF1, TMEM14B, TMEM74, TPTE, TRAPPC8, TRPS1, TXNDC6, USP32, UTP20, VASN, VPS72, WASH3P, WWTR1, XPO1, ZFHX4, ZMIZ1, ZNF167, ZNF436, ZNF492, ZNF598, ZRSR2, ABL1, AKT2, AKT3, ARAF, ARFRP1, ARID2, ASXL1, ATR, ATRX, AURKA, AURKB, AXL, BAP1, BARD1, BCL2, BCL2L2, BCL6, BCOR, BCORL1, BLM, BRIP1, ВТК, CARD11, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CD79A, CD79B, CDC73, CDK12, CDK4, CDK6, CDK8, CDKN1B, CDKN2B, CDKN2C, СЕВРА, CHEK1, CIC, CRKL, CRLF2, CSF1R, CTCF, CTNNA1, DAXX, DDR2, DOT1L, EMSY (C11orf30), EP300, ЕРНАЗ, EPHA5, EPHB1, ERBB4, ERG, ESR1, EZH2, FAM123B (WTX), FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FGF10, FGF14, FGF19, FGF23, FGF3, FGF4, FGF6, FGFR1, FGFR2, FGFR3, FGFR4, F1T3, F1T4, FOXL2, GATA1, GATA2, GATA3, GID4 (C17orf39), GNA11, GNA13, GNAQ, GNAS, GPR124, GSK3B, HGF, IDH1, IDH2, IGF1R, IKBKE, IKZF1, IL7R, INHBA, IRF4, IRS2, JAK1, JAK3, JUN, KAT6A (MYST3), KDM5A, KDM5C, KDM6A, KDR, KEAP1, KLHL6, MAP2K2, MAP2K4, MAP3K1, MCL1, MDM2, MDM4, MED12, MEF2B, MEN1, MET, MITF, MLH1, MLL, MLL2, MPL, MSH2, MSH6, MTOR, MUTYH, MYC, MYCL1, MYCN, MYD88, NF1, NFKBIA, NKX2-1, NOTCH1, NPM1, NRAS, NTRK1, NTRK2, NTRK3, PAK3, PALB2, PAX5, PBRM1, PDGFRA, PDGFRB, PDK1, PIK3CG, PIK3R2, PPP2R1A, PRDM1, PRKAR1A, PRKDC, PTCH1, PTPN11, RAD51, RAF1, RARA, RET, RICTOR, RNF43, RPTOR, RUNX1, SMARCA4, SMARCB1, SMO, SOCS1, SOX10, SOX2, SPEN, SPOP, SRC, STAT4, SUFU, TET2, TGFBR2, TNFAIP3, TNFRSF14, TOPI, TP53, TSC1, TSC2, TSHR, VHL, WISP3, WT1, ZNF217, ZNF703, а также их комбинации (публикации Su et al., J Mol Diagn 2011, 13: 74-84; DOI: 10.1016/j.jmoldx.2010.11.010 и Abaan et al., "The Exomes of the NCI-60 Panel: A Genomic Resource for Cancer Biology and Systems Pharmacology", Cancer Research, July 15, 2013, каждая из которых полностью включена в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления дупликация представляет собой дупликацию хромосомы 1р ("Chr1p"), связанную со злокачественной опухолью молочной железы. Согласно некоторым вариантам осуществления один или несколько полиморфизмов или мутаций происходят в BRAF, например, мутация V600E. Согласно некоторым вариантам осуществления один или несколько полиморфизмов или мутаций происходят в K-ras. Согласно некоторым вариантам осуществления наблюдается сочетание одного или нескольких полиморфизмов или мутаций в K-ras и APC. Согласно некоторым вариантам осуществления наблюдается сочетание одного или нескольких полиморфизмов или мутаций в K-ras и p53. Согласно некоторым вариантам осуществления наблюдается сочетание одного или нескольких полиморфизмов или мутаций в APC и p53. Согласно некоторым вариантам осуществления наблюдается сочетание одного или нескольких полиморфизмов или мутации в K-ras, APC и р53. Согласно некоторым вариантам осуществления наблюдается сочетание одного или нескольких полиморфизмов или мутаций в K-ras и EGFR. Иллюстративные полиморфизмы или мутации находятся в одной или нескольких из следующих микроРНК: miR-15a, miR-16-1, miR-23a, miR-23b, miR-24-1, miR-24-2, miR-27a, miR-27b, miR-29b-2, miR-29c, miR-146, miR-155, miR-221, miR-222 and miR-223 (публикация Calin et al. "A microRNA signature associated with prognosis and progression in chronic lymphocytic leukemia." N Engl J Med 353: 1793-801, 2005, которая полностью включена в настоящий документ посредством ссылки).

Согласно некоторым вариантам осуществления делеция представляет собой делецию по меньшей мере 0,01 т.п.н., 0,1 т.п.н., 1 т.п.н., 10 т.п.н., 100 т.п.н., 1 Мб, 2 Мб, 3 Мб, 5 Мб, 10 Мб, 15 Мб, 20 Мб, 30 Мб или 40 Мб. Согласно некоторым вариантам осуществления делеция представляет собой делецию от 1 т.п.н. до 40 Мб, например, от 1 т.п.н. до 100 т.п.н., от 100 т.п.н. до 1 Мб, от 1 до 5 Мб, от 5 до 10 Мб, от 10 до 15 Мб, от 15 до 20 Мб, от 20 до 25 Мб, от 25 до 30 Мб или от 30 до 40 Мб, включительно.

Согласно некоторым вариантам осуществления дупликация представляет собой дупликацию по меньшей мере 0,01 т.п.н., 0,1 т.п.н., 1 т.п.н., 10 т.п.н., 100 т.п.н., 1 Мб, 2 Мб, 3 Мб, 5 Мб, 10 Мб, 15 Мб, 20 Мб, 30 Мб или 40 Мб. Согласно некоторым вариантам осуществления дупликация представляет собой дупликацию от 1 т.п.н. до 40 Мб, например, от 1 т.п.н. до 100 т.п.н., 100 т.п.н. до 1 Мб, от 1 до 5 Мб, от 5 до 10 Мб, от 10 до 15 Мб, о