Евразийский сервер публикаций
Евразийский патент № 035148
Библиографические данные | |||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||
Формула | |||||||||||||||||||||||||||||||||||||||
(57) 1. Реализуемый с применением компьютера способ определения вариации числа копий (ВЧК) последовательности нуклеиновой кислоты, представляющей интерес, в исследуемом образце, содержащем фрагменты бесклеточной нуклеиновой кислоты, происходящие из двух или более геномов, причем указанный способ включает:
(a) прием ридов последовательности, полученных в результате секвенирования фрагментов бесклеточной нуклеиновой кислоты в исследуемом образце; (b) выравнивание ридов последовательности фрагментов бесклеточной нуклеиновой кислоты или выравнивание фрагментов, содержащих риды последовательности, с блоками референсного генома, содержащего последовательность, представляющую интерес, с получением, таким образом, меток исследуемой последовательности, причем референсный геном разделен на множество блоков; (c) определение размеров фрагмента, по меньшей мере, некоторых фрагментов бесклеточной нуклеиновой кислоты, присутствующих в исследуемом образце; (d) вычисление перекрытий меток последовательности для блоков референсного генома посредством выполнения, для каждого блока: (i) определения числа меток последовательности, которые выравниваются с этим блоком, и (ii) нормирования этого числа меток последовательности, которые выравниваются с этим блоком, посредством подсчета межблоковых вариаций, вызванных факторами, отличными от вариации числа копий; (e) определение t-статистики для последовательности, представляющей интерес, с применением перекрытий блоков в последовательности, представляющей интерес, и перекрытий блоков в референсной области для последовательности, представляющей интерес; и (f) определение вариации числа копий в последовательности, представляющей интерес, с применением t-статистики и информации относительно размеров фрагментов бесклеточной нуклеиновой кислоты, причем указанный способ включает осуществление этапов (d) и (е) дважды, один раз для фрагментов в первом домене размеров с применением меток последовательности для фрагментов бесклеточной нуклеиновой кислоты, имеющих размеры в первом домене размеров, и повторно - для фрагментов во втором домене размеров с применением меток последовательности для фрагментов бесклеточной нуклеиновой кислоты, имеющих размеры во втором домене размеров, причем указанный второй домен размеров отличается от указанного первого домена размеров, и указанный первый домен размеров содержит фрагменты бесклеточной нуклеиновой кислоты, по существу, всех размеров в образце, и указанный второй домен размеров содержит только фрагменты бесклеточной нуклеиновой кислоты, меньшие, чем заданный размер, с получением, таким образом, первой t-статистики для последовательности, представляющей интерес, с применением меток последовательности для фрагментов в первом домене размеров, и второй t-статистики для последовательности, представляющей интерес, с применением меток последовательности для фрагментов во втором домене размеров, причем (f) включает вычисление отношения правдоподобия по первой t-статистике и второй t-статистике и определение вариации числа копий в последовательности, представляющей интерес, с применением указанного отношения правдоподобия, и при этом указанное отношение правдоподобия вычисляют по первой t-статистике и второй t-статистике, и вычисляют как первое правдоподобие того, что исследуемый образец является анеуплоидным образцом, относительно второго правдоподобия того, что исследуемый образец является эуплоидным образцом. 2. Способ по п.1, характеризующийся тем, что указанный второй домен размеров содержит только фрагменты бесклеточной нуклеиновой кислоты, меньшие чем приблизительно 150 п.о. 3. Способ по п.1, характеризующийся тем, что указанное отношение правдоподобия вычисляют по одному или более значениям фракции плода в дополнение к первой t-статистике и второй t-статистике. 4. Способ по п.3, характеризующийся тем, что: (i) указанные одно или более значений фракции плода включают значение фракции плода, вычисленное с применением информации относительно размеров фрагментов бесклеточной нуклеиновой кислоты; (ii) указанные одно или более значений фракции плода включают значение фракции плода, вычисленное с применением информации о перекрытии для блоков референсного генома; (iii) указанные одно или более значений фракции плода включают значение фракции плода, вычисленное с применением информации о перекрытии для блоков половой хромосомы; (iv) указанное отношение правдоподобия вычисляют по фракции плода, t-статистике коротких фрагментов и t-статистике всех фрагментов, причем указанные короткие фрагменты представляют собой фрагменты бесклеточной нуклеиновой кислоты в первом домене размеров, меньшем, чем размер-критерий, и все фрагменты представляют собой фрагменты бесклеточной нуклеиновой кислоты, включая указанные короткие фрагменты и фрагменты, более длинные, чем размер-критерий. 5. Способ по п.4(i), характеризующийся тем, что указанное значение фракции плода вычисляют посредством получения распределения частоты размеров фрагментов и применения распределения частоты в модели, устанавливающей взаимосвязь между фракцией плода и частотой размера фрагмента, с получением значения фракции плода. 6. Способ по п.4(ii), характеризующийся тем, что указанное значение фракции плода вычисляют посредством применения значений перекрытия множества блоков в модели, устанавливающей взаимосвязь между фракцией плода и перекрытием блока, с получением значения фракции плода. 7. Способ по п.4(iv), характеризующийся тем, что указанное отношение правдоподобия вычисляют по формуле где p1 представляет собой правдоподобие того, что данные получены из многомерного нормального распределения, представляющего 3-копийную или 1-копийную модель, p0 представляет собой правдоподобие того, что данные получены из многомерного нормального распределения, представляющего 2-копийную модель, Ткоротк., Твсех представляют собой Т-показатели, вычисленные по хромосомному перекрытию, полученному с помощью коротких фрагментов и всех фрагментов, и q(ffсуммарн.) представляет собой плотность распределения фракции плода. 8. Способ по п.1, характеризующийся тем, что указанное отношение правдоподобия вычисляют для моносомии X, трисомии X, трисомии 13, трисомии 18 или трисомии 21. 9. Способ по п.1, характеризующийся тем, что: (i) указанное нормирование количества меток последовательности включает нормирование с учетом содержания GC в образце, нормирование с учетом глобального волнового профиля вариации обучающего множества и/или нормирование с учетом одной или более компонент, полученных из анализа главных компонент; или (ii) указанная референсная область выбрана из группы, состоящей из всех устойчивых хромосом, устойчивых хромосом, не содержащих последовательность, представляющую интерес, по меньшей мере, хромосомы за пределами последовательности, представляющей интерес, и подмножества хромосом, выбранных из устойчивых хромосом, и при этом необязательно указанная референсная область содержит устойчивые хромосомы, которые были определены для обеспечения наилучшей способности обнаружения сигнала для множества обучающих образцов. 10. Способ по п.1, дополнительно включающий вычисление значений параметра размера для блоков для каждого блока посредством: (i) определения значения параметра размера на основании размеров фрагментов бесклеточной нуклеиновой кислоты в блоке, и (ii) нормирования значения параметра размера посредством подсчета межблоковых вариаций, вызванных факторами, отличными от вариации числа копий; и определение t-статистики на основании размера для последовательности, представляющей интерес, с применением значений параметра размера блоков в последовательности, представляющей интерес, и значений параметра размера блоков в референсной области для последовательности, представляющей интерес. 11. Способ по п.10, характеризующийся тем, что: (i) указанное отношение правдоподобия (f) вычисляют по первой t-статистике, второй t-статистике и t-статистике на основании размера; или (ii) указанное отношение правдоподобия (f) вычисляют по первой t-статистике, второй t-статистике, t-статистике на основании размера и фракции плода. 12. Способ по п.1, дополнительно включающий: (i) сравнение указанного отношения правдоподобия с критерием решения для определения вариации числа копий в последовательности, представляющей интерес. 13. Система для оценки числа копий последовательности нуклеиновой кислоты, представляющей интерес, в исследуемом образце, причем указанная система содержит секвенатор для приема фрагментов нуклеиновой кислоты из исследуемого образца и обеспечения информации о последовательности нуклеиновой кислоты исследуемого образца; процессор и один или более машиночитаемых носителей для хранения информации, на которых хранятся инструкции для исполнения на указанном процессоре для выполнения способа по любому из пп.1-12. 14. Машиночитаемый носитель данных для долговременного хранения информации, содержащий программный код в виде инструкции для компьютерной системы, запрограммированный для осуществления способа по любому из пп.1-12. Загрузка данных...
| |||||||||||||||||||||||||||||||||||||||