Способ идентификации и прогнозирования р-алкильных радикалов гомологов о-алкилалкилфторфосфонатов

Изобретение относится к области аналитических исследований по определению структуры органических соединений методами инфракрасной спектрометрии и может быть использовано для точной идентификации и прогнозирования Р-алкильного радикала у гомологов О-алкилалкилфторфосфонатов. Заявленный способ идентификации и прогнозирования Р-алкильных радикалов гомологов О-алкилалкилфторфосфонатов по их инфракрасным спектрам средней области диапазона (1330-1240 см-1) конденсированной фазы заключается в определении набора спектральных признаков-предикторов, позволяющих проводить их классификацию по виду Р-алкильного радикала. Пары значений «волновое число - оптическая плотность» спектра исследуемого образца, представленного в числовом формате, сортируют по убыванию значений волнового числа и преобразуют спектр в производную первого порядка по формуле

где A'(λi) - первая производная оптической плотности по волновому числу λ, А(λi) - оптическая плотность при i-м значении волнового числа λ, Δλ=(λi+1 - λi) - шаг дискретизации спектра. На частичных интервалах (dt) 1320-1310 см-1, 1300-1290 см-1, 1270-1260 см-1, 1260-1250 см-1 проводят измерения производной оптической плотности по волновому числу и вычисляют значения прогностического параметра G по формуле

где

Gj - стандартизованная сумма значений первой производной оптической плотности по волновому числу на j-м интервале, j - номер частичного интервала dt (dt=10 см-1), A'(λi) - i-e значение первой производной оптической плотности по волновому числу на j-м частичном интервале dt, k - количество значений производной на j-м частичном интервале dt, включая значения на его границах, МΣ - среднее арифметическое суммарных (накопленных для каждой точки интервала dt) значений первой производной на j-м частичном интервале, SΣ - среднее квадратическое отклонение суммарных (накопленных для каждой точки интервала dt) значений первой производной на j-м частичном интервале. Значения параметра G используют в качестве предикторов для расчета показателей классификации по классификационным функциям, полученным в результате проведения дискриминантного анализа на обучающей выборке эталонных спектров О-алкилалкилфторфосфонатов одного спектрального разрешения; по наивысшим показателям классификации устанавливают структуру Р-алкильного радикала исследуемого соединения. По распределению объектов обучающей выборки в пространстве дискриминантных функций прогнозируют Р-алкильные радикалы гомологов О-алкилалкилфторфосфонатов. Технический результат - повышение надежности, оперативности и эффективности затрат при контроле токсичных химикатов. 7 ил., 10 табл.

 

Изобретение относится к области аналитических исследований по определению структуры органических соединений методами инфракрасной спектрометрии и может быть использовано в лабораторной практике при идентификации контролируемых токсичных химикатов (ТХ) гомологического ряда О-алкилалкилфторфосфонатов (ААФФ) в рамках мероприятий по выполнению Конвенции о запрещении разработки, производства, накопления и применения химического оружия (Конвенция о запрещении разработки, производства и применения химического оружия и о его уничтожении - М.: Комитет по конвенциональным проблемам химического и биологического оружия при Президенте Российской Федерации, 1994. - 133 с. Далее по тексту - Конвенция).

Значительную часть токсичных химикатов, подлежащих контролю, представляют собой производные алкилфосфоновых кислот - ААФФ. В связи с этим возникает необходимость качественной идентификации этих соединений. Учитывая сложность такой задачи, Организация по запрещению химического оружия (ОЗХО) приняла временный критерий, согласно которому идентификация списочных фосфорорганических соединений является достаточной и без специфической идентификации алкильного радикала при связи РО-С. Вместе с тем радикал при связи Р-С следует идентифицировать точно.

Объектом настоящего исследования являются токсичные химикаты списка 1 Конвенции, принадлежащие к гомологическому ряду ААФФ с общей структурной формулой:

где R1 и R2 - алкильные радикалы с числом углеродных атомов от 1 до 3 для R2 и не лимитированным для R1.

В настоящее время известен способ (Лебедев А.Т., Лебедев К.С., Мясоедов Б.Ф., Рыбальченко И.В., Сигейкин Г.И., Суворкин В.Н. Масс-спектрометрическая идентификация высокотоксичных алкилфторфосфонатов // Масс-спектрометрия - 2006 - Т. 3. - №4) групповой идентификации ААФФ на основе масс-спектров ионизации электронами, позволяющий не только устанавливать принадлежность исследуемого вещества к этому гомологическому ряду, но и определять строение радикала, непосредственно связанного с атомом фосфора, осуществляя, таким образом, отнесение объекта анализа к соответствующей подгруппе. В основе способа лежит установление механизма фрагментации ААФФ и определение характерных наборов пиков в масс-спектрах соединений, разделенных на 8 подгрупп по виду их алкильных радикалов. Решение о виде этих радикалов принимается по алгоритму, где каждому массовому числу ставится в соответствие пороговое значение интенсивности пика, по которому осуществляется переход к очередной итерации алгоритма. Однако вышеуказанный способ идентификации высокотоксичных ААФФ имеет существенный недостаток, а именно: способ позволяет проводить идентификацию ограниченного количества соединений из гомологического ряда ААФФ, так как характеристичные наборы пиков и соответствующие им пороговые значения интенсивностей определены не для всего ряда, а только для части соединений с числом атомов углерода в алкильном радикале R1 не более десяти. Поэтому задача однозначной идентификации анализируемого соединения из числа десятков тысяч претендентов оставалась до конца не решенной.

Также известен способ идентификации высокотоксичных соединений ряда О-алкилалкилфторфосфонатов и прогнозирования масс-спектров химикатов этого ряда (Патент РФ №2391657, С2, МПК G01N 30/72, ФГУ 33 ЦНИИИ Министерства обороны РФ, 09.01.2008), где авторы определяют строение О-алкильного радикала в молекулах веществ, отнесенных на этапе групповой идентификации к гомологическому ряду ААФФ, и предлагают алгоритм прогнозирования масс-спектров неизученных представителей этого гомологического ряда. Поставленная задача решается тем, что в способе идентификации на основе масс-спектрометрии согласно предлагаемому решению из полного масс-спектра исследуемого соединения путем вычитания пиков, соответствующих фосфорорганической части спектра, выделяют углеводородную составляющую, содержащую информацию о структуре углеродного скелета О-алкильного радикала в целом; опознают спектр углеводородной составляющей с использованием компьютерной программы NIST и сопоставляют предложенные структуры машинного ответа с характеристиками строения исследуемого образца ААФФ. Однако в данном способе не предусмотрена возможность идентификации и прогнозирования Р-алкильного радикала (R2).

Кроме того, для идентификации структурных особенностей ТХ, в том числе и ААФФ, и построения их структурно-динамических моделей, в рамках решения обратной задачи колебательной спектрометрии, известны два обладающих предсказательными возможностями теоретических подхода. Первый подход (Мясоедов Б.Ф., Грибов Л.А., Павлючко А.И., Рыбальченко И.В., Сигейкин Г.И., Киреев А.Ф., Суворкин В.Н. Фрагментарные методы расчета ИК спектров фосфорорганических соединений // Журнал структурной химии. - 2006. - Т. 47. - №1. - С. 449-456.) опирается на известный фрагментарный метод и использует библиотеку силовых постоянных изученных молекулярных фрагментов для расчета колебательного спектра. Главным достоинством этого метода является малое время, необходимое для предсказания ИК спектра молекулы посредством быстрого формирования ее потенциальной и электрооптической функции из известных функций фрагментов, входящих в состав соединения. Второй подход (Элькин П.М., Кладиева А.С., Гордеев И.И. Колебательные спектры и структурно-динамические модели фосфорорганических соединений (GB-,GD-, GF-AGENTS) // Известия Саратовского университета. Новая серия. Серия Физика. - 2008. - Т. 8. - №1. - С. 29-36) связан с привлечением неэмпирических квантовых методов расчета структуры и спектров многоатомных молекул на основе определения адиабатического потенциала и конформационных свойств соединений с последующим решением колебательной задачи в гармоническом приближении. Метод, в целом, неплохо позволяет осуществлять предсказательные расчеты геометрической и электронной структуры соединений, необходимых для построения их структурно-динамических моделей. В работе (Грибов Л.А., Павлючко А.И., Рыбальченко И.В., Сигейкин Г.И., Суворкин В.Н., Мясоедов Ю.Ф. Спектральная идентификация высокотоксичных фосфорорганических соединений // Доклады академии наук. - 2006. - Т. 410. - №2. - С. 207-210) для решения задачи предсказания ИК спектров ААФФ предложен комбинированный способ расчета, соединяющий в себе преимущества квантово-химического и фрагментарного методов.

Данные подходы и реализованные на их основе способы идентификации имеют ряд ограничений и критических замечаний, которые осложняют процесс спектро-структурного моделирования. К основным недостаткам фрагментарного метода расчета ИК спектров можно отнести следующие положения:

- множественность генерируемых гипотетических структур и отсутствие для большинства из них необходимых для расчета исходных данных (геометрических, силовых и электрооптических);

- необходимость эмпирической корректировки потенциальных и электрооптических функций фрагментов в местах их сочленения для учета их взаимного влияния (данное обстоятельство является одним из самых серьезных затруднений при практическом использовании фрагментарного метода для расчета ИК спектров неизвестных соединений);

- недостаточное соответствие экспериментальных и рассчитанных частот и интенсивностей полос поглощения в низкочастотной области спектра, колебания которых не локализуются в одном фрагменте.

Трудности использования неэмпирических квантовых методов расчета ИК спектров определяются следующими причинами:

- завышением рассчитанных частот колебаний из-за неучета ангармонической составляющей и отсутствия адекватных методов подбора масштабирующих множителей, нивелирующих данное завышение;

- значительным искажением интенсивностей отдельных колебаний с близкими значениями частот;

- необходимостью использования большого числа базисных функций с одновременным учетом электронных корреляций при построении колебательных моделей для соединений, содержащих в своей структуре гетероатомы, что приводит, даже в случае небольших молекул, к многочасовому процессу расчета.

Ближайшим из аналогов (по методу исследования) предлагаемого способа установления структуры Р-алкильного радикала у гомологов ААФФ является запатентованный способ идентификации алкильных радикалов соединений гомологического ряда О-алкилалкилфторфосфонатов (Патент РФ №2662047, С2, МПК G01N 21/35, ФГБУ «33 ЦНИИИ» МО РФ, 23.07.18). Способ заключаются в том, что идентификацию Р-алкильного радикала у гомологов ААФФ, не принадлежащих к группе О-алкилметилфторфосфонатов, можно проводить, измеряя значения частот и определяя отношения интенсивностей максимальных пиков из двух характеристических областей поглощения их ИК спектров в диапазоне 1500-700 см-1, а именно: из области до зоны спектрального отклика «мостика» ν(P-O-C) (в окрестности колебаний ν(P=O)) и из области после зоны спектрального отклика «мостика» ν(P-O-C) (в окрестности колебаний ν(P-F)). При этом полученные спектральные характеристики являются дискриминантным переменными для группировки новых образцов, в соответствии с видом их Р-алкильного радикала, по классификационным (или дискриминантным) функциям, полученным в результате проведения дискриминантного анализа на обучающей выборке эталонных ИК спектров соединений конденсированной фазы. Идентификацию О-алкилметилфторфосфонатов можно осуществлять по экспериментально и теоретически установленным спектральным признакам, характерным только для этих соединений, а именно: наличию в спектре полосы внешних деформационных колебаний ρ,ω(Р-СН3) с пиком в области 945-900 см-1. Не смотря на то, что указанный способ является вполне удовлетворительным решением поставленной задачи, у него имеется ряд недостатков и ограничений, которые могут существенно снижать эффективность его использования при групповой идентификации ААФФ по виду их Р-алкильных радикалов:

1. В представленном способе для определения дискриминантной переменной и признака полосы ρ,ω(Р-СН3) используется отношение интенсивностей полос поглощения. При этом перед построением модели производится предварительная обработка ИК спектров обучающей выборки, а именно: базовая линия спектральной кривой корректируется по точке с минимальной интенсивностью в рабочем диапазоне (1500-700 см-1). Это необходимо для того, чтобы максимально нивелировать ошибки при определении отношений интенсивностей полос, т.к. часть спектров исходной выборки уже имела скорректированную вручную базовую линию, другая же часть - нет. Однако при таком преобразовании полностью исключить указанные ошибки невозможно, т.к. не известны истинные (исходные) значения интенсивностей в скорректированных спектрах, а также сам способ корректировки.

2. Определение значений частот максимальных пиков в ряде случаев может вызывать затруднение. Это связано с тем, что полосы поглощения (особенно в окрестности полосы ν(P=O)) не редко бывают дуплированы, а интенсивности пиков дуплета сопоставимы. При этом в спектрах тождественных соединений (даже зарегистрированных на одном оборудовании в серии экспериментов) максимумы могут приходиться на разные пики дуплета.

3. В полученной дискриминантной модели удалось получить разделение образцов ААФФ на группы по виду их Р-алкильного радикала, однако центроиды групп локализуются достаточно близко друг от друга, а внутригрупповой разброс объектов относительно велик. Поэтому существует потенциальная вероятность того, что при увеличении исходной обучающей выборки (добавлении в нее новых образцов из генеральной совокупности) группы будут перекрываться, что может приводить к ошибочной идентификации исследуемых соединений.

В предлагаемом способе используются принципиально новые подходы к преобразованию и представлению ИК спектров гомологов ААФФ для моделирования в рамках дискриминантного анализа (ДА), которые позволяют в разы повысить качество дискриминации объектов по виду их Р-алкильного радикала в сравнении с ближайшим способом-аналогом, избежав при этом присущих ему недостатков, и, таким образом, значительно повысить надежность идентификации и модели прогнозирования в целом.

Задачей настоящего изобретения является разработка способа точной идентификации и прогнозирования Р-алкильного радикала у гомологов ААФФ (радикал R2) с целью повышения надежности, оперативности и эффективности затрат при контроле ТХ в рамках международной Конвенции. Поставленная задача решается тем, что пары значений «волновое число-оптическая плотность» спектра исследуемого образца, представленного в числовом формате, сортируют по убыванию значений волнового числа и преобразуют спектр в производную первого порядка по формуле:

где А'(λi) - первая производная оптической плотности по волновому числу λ;

A(λi) - оптическая плотность при i-ом значении волнового числа λ;

Δλ=(λi+1 - λi) - шаг дискретизации на текущем участке спектра.

На частичных интервалах (dt) 1320-1310 см-1, 1300-1290 см-1, 1270-1260 см-1, 1260-1250 см-1 проводят измерения производной оптической плотности по волновому числу и вычисляют значения прогностического параметра G по формуле:

где Gj - стандартизованная сумма значений первой производной оптической плотности по волновому числу на j-ом интервале;

j - номер частичного интервала dt (dt=10 см-1);

А'(λi) - i-е значение первой производной оптической плотности по волновому числу на j-ом частичном интервале dt;

k - количество значений производной на j-ом частичном интервале dt, включая значения на его границах;

MΣ - среднее арифметическое суммарных (накопленных для каждой точки интервала dt) значений первой производной на j-ом частичном интервале;

SΣ - среднее квадратическое отклонение суммарных (накопленных для каждой точки интервала dt) значений первой производной на j-ом частичном интервале.

Значения параметра G используют в качестве предикторов для расчета показателей классификации по классификационным функциям, полученным в результате проведения дискриминантного анализа на обучающей выборке ИК спектров ААФФ; по наивысшим показателям функций классификации устанавливают структуру Р-алкильного радикала исследуемого соединения. По распределению объектов обучающей выборки в пространстве дискриминантных функций прогнозируют Р-алкильные радикалы гомологов ААФФ.

Примечание: ИК спектры исследуемых образцов и спектры обучающей выборки должны иметь одинаковое спектральное разрешение.

Построение дискриминантной модели.

Основной целью дискриминации является нахождение такой линейной комбинации переменных, которая бы оптимально разделила рассматриваемые группы, т.е. минимизировала внутриклассовое и максимизировала межклассовое расстояние в пространстве признаков. Линейная функция вида:

называется канонической дискриминантной функцией с неизвестными коэффициентами βi. Здесь dkm - значение дискриминантной функции для m-го объекта в группе k; хikm - значение дискриминантной переменной Xi для m-го объекта в группе k. С геометрической точки зрения дискриминантные функции определяют гиперповерхности в p-мерном пространстве. В частном случае при р=2 она является прямой, а при р=3 - плоскостью.

Коэффициенты βi первой канонической дискриминантной функции выбирают таким образом, чтобы центроиды различных групп как можно больше отличались друг от друга. Коэффициенты второй группы выбирают также, но при этом налагается дополнительное условие, чтобы значения второй функции были некоррелированы со значениями первой. Аналогично определяют и другие функции. Отсюда следует, что любая каноническая дискриминантная функция d имеет нулевую внутригрупповую корреляцию с d1, …, dg-1. Если число групп равно g, то число канонических дискриминантных функций будет на единицу меньше числа групп. Для получения коэффициентов βi канонической дискриминантной функции нужен статистический критерий различения групп. Очевидно, что классификация переменных будет осуществляться тем лучше, чем меньше рассеяние точек относительно центроида внутри группы и чем больше расстояние между центроидами групп. Разумеется, что большая внутригрупповая вариация нежелательна, так как в этом случае любое заданное расстояние между двумя средними тем менее значимо в статистическом смысле, чем больше вариация распределений, соответствующих этим средним. Один из методов поиска наилучшей дискриминации данных заключается в нахождении такой канонической дискриминантной функции d, которая бы максимизировала отношение межгрупповой вариации к внутригрупповой:

где В - межгрупповая матрица рассеяния наблюдаемых переменных от средних;

W - внутригрупповая матрица рассеяния наблюдаемых переменных от средних.

При построении модели дискриминации необходимо придерживаться следующих условий:

- число групп: g≥2;

- число объектов в каждой группе: ni≥2;

- число дискриминантных переменных: 0<р<(n-2), где n - общее число объектов в группах;

- дискриминантные переменные измеряются в интервальной шкале;

- дискриминантные переменные линейно независимы;

- ковариационные матрицы групп примерно равны (предполагается однородность (гомогенность) дисперсий наблюдаемых независимых переменных в разных классах, а отличие между классами проявляется только в их средних);

- дискриминантные переменные в каждой группе имеют распределение близкое к нормальному многомерному закону распределения.

Для группировки новых наблюдений получают классификационные функции, посредством которых для каждого образца и для каждой совокупности вычисляют показатели (веса) классификации по формуле:

где i - индекс соответствующей совокупности (группирующий фактор);

m - количество переменных;

Сi - константа для i-ой совокупности;

wij - коэффициент для j-ой переменной при вычислении показателя классификации для i-ой совокупности;

xj - наблюдаемое значение для соответствующего образца j-ой переменной;

Si - показатель классификации.

Наблюдение считается принадлежащим той совокупности, для которой получен наивысший показатель классификации.

Для решения задачи идентификации Р-алкильного радикала у гомологов ААФФ при проведении ДА по ИК данным использовали выборку из 133 уникальных библиотечных спектров этих соединений в конденсированной фазе, со спектральным разрешением 4 см-1, с числом углеродных атомов от 1 до 3 для Р-алкильного радикала R2 и от 1 до 10 для О-алкильного радикала R1 (таблица 1). Источник спектральных данных - центральная аналитическая БД ТХ, входящих в список международной Конвенции Организации по запрещению химического оружия (ОЗХО) (Organisation for the prohibition of chemical weapons. Cert. No DB/007 (2001) Infrared-Spectrometry).

Данная выборка является достаточно репрезентативной, т.к. она представлена соединениями со значительной структурной вариабельностью.

Список гомологов ААФФ, вошедших в выборку, представлен в таблице 2.

Для исследования, в качестве рабочего, использовали диапазон «отпечатков пальцев»: 1500-700 см-1.

Обработку спектров и расчеты производили при помощи программного обеспечения ИК-спектрометра Varian 3100 FT-IR, программных пакетов Statgraphics Centurion XVI (Version 16.1.17) и Statistica 12. В качестве группирующего фактора I для классификации объектов обучающей выборки ИК спектров ААФФ в соответствии с видом их Р-алкильного радикала определяли следующие переменные номинального уровня:

I={«метальный», «этильный», «пропильный», «изопропильный»}.

Следующим шагом преобразовывали исходные спектры поглощения (нулевого порядка) в спектры производных первого порядка, что позволило усилить контрастность спектральных кривых, устранить фоновую составляющую в спектре, а по знаку производной - учесть тренд спектральной кривой в исходных спектрах. В результате такого преобразования значительно увеличивается информативность спектральных данных.

Для корректного представления данных дифференцируемые спектры должны быть единообразно отсортированы по значению волнового числа (в нашем случае - по убыванию его значений: λii+1).

Получение дифференциальных спектральных кривых первого порядка в общем случае описывается следующим выражением (1)

Поскольку в ИК спектрах одного спектрального разрешения значение шага дискретизации является константой, то при расчетах производных удобнее пользоваться упрощенной формулой (8):

где А'(λi) - первая производная оптической плотности по волновому числу λ;

А(λi) - оптическая плотность при i-ом значении волнового числа λ;

Далее каждый дифференцированный спектр образца ХM (М=1, …, m) из обучающей выборки представляли в пределах рабочего диапазона в виде вектор-строки со значениями параметра G: ХM=(G1, …, Gj, …, Gn). Для этого разбивали рабочий диапазон на n частичных интервалов dt шириной 10 см-1 каждый, как показано на фиг. 1.

Для каждого j-ого частичного интервала dt по формуле (2) рассчитывали значения параметра G, как стандартизованную сумму значений первой производной оптической плотности по волновому числу на данном интервале. В результате для обучающей выборки ИК спектров получали матрицу предикторов размерностью m×n:

где n=80 - количество частичных интервалов dt;

m=131 - количество образцов в выборке;

Номера j этих частичных интервалов (номера столбцов матрицы) и являются предикторами, которые характеризуются значениями параметра G.

Отметим один практический нюанс при представлении рабочего диапазона частичными интервалами и определении значения производной А'(λk) на его границах. В ситуации, когда ширина частичного интервала не кратна сумме шагов дискретизации на частичном интервале (dt/ΣΔλi где - множество целых чисел) и значения производных A(λk) на границах интервала не известны, следует провести интерполирование спектральной кривой нулевого порядка дополнительными узлами, т.е. добавить на ось волновых чисел граничные точки, а для получения значений производных в этих точках следует использовать выражение:

где А'jk) - значение производной в точке k: на границе частичных интервалов j и j+1 (фиг. 2);

Aj+1k+1) - значение интенсивности поглощения в первой справа от границы (k) точке из частичного интервала j+1;

Ajk-1) - значение интенсивности поглощения в первой слева от границы (k) точке из частичного интервала j.

Таким образом, значение интенсивности поглощения А(λk) в добавленной граничной точке частичного интервала в ситуации, когда две реальные ближайшие к ней точки на спектральной кривой имеют частоты, принадлежащие разным частичным интервалам, определяется, как среднее арифметическое значений интенсивностей поглощения в этих соседних точках, а значение производной А'jk) рассчитывается в соответствии с выражением (8). При этом значения производных А'jk) и A'jk-1) будут равны.

Из выражения (2) вытекает следующее главное условие проведения ДА по матрице предикторов: обучающую выборку должны составлять спектры одного спектрального разрешения, т.е. количество точек спектральной кривой в рабочем диапазоне должно быть примерно одинаковым у всех спектров, что обуславливается их шагом дискретизации Δλ. Идентифицируемые по дискриминантной модели новые образцы также должны иметь спектральное разрешение, аналогичное образцам из обучающей выборки. В ситуации, когда необходимо провести анализ образцов с другим спектральным разрешением, можно провести интерполирование спектральной кривой дополнительными узлами (в случае более низкого разрешения) или убрать лишние узлы (в случае более высокого разрешения), приблизив шаг дискретизации к номинальному значению в выборке. Из формулы (2) также следует, что близость значений G-параметра у образцов обуславливается тем, насколько коррелированы значения интенсивностей их спектральных кривых на частичном интервале в спектрах нулевого порядка. При строгой корреляции, как показано на фиг. 3, образцы будут иметь одинаковые значения G-параметра в матрице предикторов по соответствующему столбцу (данное обстоятельство объясняет - почему нет необходимости в нормализации исходных спектров.

В соответствии с положениями теории подобия (Гухман А.А. Введение в теорию подобия. - М. Машиностроение, 1973. - 296 с.) необходимыми и достаточными условиями для создания подобия является пропорциональность сходственных параметров, входящих в условия однозначности, и равенство критериев подобия сопоставляемых явлений. Поэтому G-параметр можно рассматривать, как критерий подобия спектральных кривых на частичных интервалах: чем ближе значения параметра, тем более подобны кривые в пределах интервала. Очевидно, что у подобных кривых значения интегральных интенсивностей могут иметь разные значения (фиг. 3), но при этом их контуры будут коррелированы, а при равных значениях параметра - прямо пропорциональны. Такой подход к представлению спектральных данных обусловлен тем, что у структурно родственных соединений специфичность спектральных откликов одной природы характеризуется, в большей мере, их положением на оси частот и формой, чем интенсивностью поглощения. Это связано с тем, что интегральная интенсивность поглощения, которая выражается через коэффициент поглощения Бугера αν, пропорциональна квадрату изменения дипольного момента молекулы для соответствующего колебательного перехода (Грибов Л.А. Теория интенсивностей в инфракрасных спектрах многоатомных молекул. - М.: АН СССР, 1963. - 155 с.):

где αν - коэффициент поглощения Бугера на частоте ν;

N0 - число молекул в единице объема;

с - скорость света в вакууме;

- производная дипольного момента по нормальной колебательной координате.

Поэтому, в спектрах структурно родственных соединений (например: гомологов), значения интегральных интенсивностей областей поглощения при колебательных переходах в одинаковых структурных фрагментах, могут сильно различаться даже при небольших изменениях в строении молекул. Учитывая данное обстоятельство, в формуле (2) G-параметр выражается как стандартизованная величина для распределения сумм интенсивностей на частичном интервале в спектрах производных первого порядка и определяется только формфактором контура спектральной кривой. При этом стандартизация проводится именно по распределению сумм интенсивностей, а не просто по значениям интенсивностей в интервале, так как G-параметр в этом случае будет выражаться уникальными значениями для каждой последовательности распределения. В противном случае такая уникальность может быть потеряна, поскольку не исключены ситуации (фиг. 4), когда сразу у нескольких образцов значения производных в пределах одного интервала будут состоять из одинаковых чисел, но распределенных в разной последовательности. Следовательно, средние и стандартные отклонения этих распределений будут равны, а разные по форме участки спектра будут иметь одинаковые значения G-параметра, что является не верным.

После формирования матрицы предикторов, используя процедуры ДА, выделяли ключевые частичные интервалы j (столбцы матрицы), в которых наиболее значимо проявляются отличия в спектральных характеристиках у соединений, принадлежащих разным группам, и затем оценивали качество полученной классификации по показателям наиболее важных статистик и критериев проверки качества дискриминации.

Отметим, что проверка нормальности распределения предикторов внутри групп, гомогенности их дисперсий и отсутствия значимых корреляционных связей между предикторами, выполненная с использованием встроенных статистических процедур из пакета Statistica 12 показала, в целом, хорошее соответствие полученных результатов эмпирическим условиям проведения дискриминантного анализа.

Использовали метод пошагового ДА (Forward stepwise) с пороговыми значениями F-статистик: «F-включить» = 20 и «F-исключить» = 3 в среде программы Statgraphics Centurion XVI (фиг. 5). В результате получали список из четырех наиболее значимых при данных условиях предикторов, соответствующих частичным интервалам с номерами j=19, j=21, у=24 и j=25, которые с коэффициентом результативности классификационной матрицы, равным 100%, разделяют выборку спектров ААФФ на четыре группы в соответствии с видом Р-алкильного радикала (R2) у образцов.

Результаты сводной классификационной матрицы приведены в таблице 3.

На фиг. 6 показано распределение объектов моделирования в пространстве трех предикторов (фиг. 6-а) и в пространстве двух первых полученных в ходе проведения анализа дискриминантных функций (фиг. 6-b). На фиг. 6-b видно, что центроиды групп расположены относительно далеко друг от друга при небольшой внутригрупповой дисперсии объектов (группы не перекрываются), что говорит о достаточно высокой дискриминирующей способности модели. Здесь следует иметь в виду, что на фиг. 6-b показана проекция распределения на плоскость двух функций.

Далее проверяли качество модели по полученным показателям основных статистик ДА и оценочным критериям.

Координаты групповых центроидов и матрица квадратов расстояний Махаланобиса между центроидами представлены в таблице 4 и таблице 5 соответственно, из которых следует, что центроиды групп довольно сильно разнесены в пространстве дискриминантных функций.

В верхней строке таблицы 6 приведены данные для модели в целом. По показателю Wilks' Lambda (значению «лямбды Уилкса»), равного 0,00001 и по значению F-критерия, равного 2596,2 (при значимости р<0,0000), можно предположить, что данная классификация корректная, и дискриминантные функции будут работать достаточно надежно.

Значения в колонках таблицы 6 являются значениями статистик для каждой переменной в модели. Видно, что все переменные в той или иной мере являются значимыми. В таблице 7 представлены коэффициенты полученных дискриминантных функций.

Если в этой таблице просуммировать построчно стандартизованные коэффициенты, то увидим, что общий вклад переменных в дискриминацию примерно одинаков, т.е. в модели нет избыточных (неинформативных) переменных. К такому же выводу приводит и анализ структурных коэффициентов модели, значения которых представлены в таблице 8, т.к. парные корреляции показывают приблизительно равномерный вклад всех предикторов в общую дискриминацию.

Низкие коэффициенты корреляции между предикторами в объединенной внутригрупповой корреляционной матрице (таблица 9) указывает на отсутствие предпосылок к проблеме мультиколлинеарности данных в модели.

Кроме того, отметим, что двойная перекрестная проверка полученной модели показала ее корректную работоспособность, поэтому модель может использоваться в качестве предсказательной путем расчета у новых образцов весовых показателей классификационных функций, коэффициенты которой представлены в таблице 10.

Опираясь на проведенные статистические исследования и, учитывая достаточную репрезентативность выборки, можно обоснованно предположить, что на группировку данных по Р-алкильному радикалу при найденных дискриминантных переменных, структурное строение О-алкильного радикала не будет оказывать существенного влияния, и все соединения ААФФ с одинаковыми Р-алкильными радикалами, вне зависимости от строения О-алкильного радикала, с большой вероятностью будут локализованы в пределах своей группы: расстояние точек относительно центроида внутри группы будет меньше расстояния относительно центроидов «чужих» групп.

Приведем пример идентификации Р-алкильного радикала у новых образцов по полученным классификационным функциям. В качестве тестового используем образец с пропильным Р-алкильным радикалом (код соединения в БД ОЗХО: 05-1-0212). При этом покажем, как просто можно вычислить значения выявленных ключевых предикторов (значения параметра G), используя офисное приложение MS Excel (фиг. 7):

1. Открываем спектр образца в числовом формате на листе приложения Excel (пары значений «волновое число-оптическая плотность» в столбцах В и С).

2. При необходимости, сортируем числовую последовательность спектра по убыванию значений волнового числа.

3. Выделяем в спектре интервалы, соответствующие предикторам j=19, j=21, j=24, j=25. Это будут интервалы 1320-1310 см-1, 1300-1290 см-1, 1270-1260 см-1 и 1260-1250 см-1 соответственно. Вставляем в столбце В недостающие точки граничных значений интервалов-предикторов (ячейки В1391, В1397, В1404, В1410, В1421, В1427, В1433) и, согласно формуле (10), находим соответствующие им значения оптической плотности, как средние арифметические соседних точек (пример в ячейках С1391 и С1397).

4. Дифференцируем спектр в столбце D по формуле (8), т.е. находим приращение интенсивностей между соседними точками, как показано в ячейке D1384.

5. В столбце F для каждого интервала получаем ряд накопленных на интервале сумм значений первой производной, как показано в ячейках F1391:F1397.

6. В столбцах G и Н по полученному ряду накопленных сумм находим его среднее значение и стандартное отклонение соответственно (пример в ячейках G1393 и Н1393).

7. В ячейках 11393, 11406, 11423 и J1429 в соответствии с формулой (2) рассчитываем значения параметра G для каждого интервала-предиктора.

Далее, используя таблицу 10, записываем классификационные функции с соответствующими для каждой группы коэффициентами, подставляем в них найденные значения предикторов и рассчитываем показатели классификации:

S«этильный»=86,6622⋅1,3292-54,9604⋅1,0352-42,6008⋅(-1,0143)-47,4836⋅1,4189-133,033=-98,90

S«изопропильный»=112,101⋅1,3292-11,7984⋅1,0352+83,1168⋅(-1,0143)-51,1201⋅1,4189-179,033=-199,08

S«метильный»=-74,9577⋅1,3292+21,9602⋅1,0352-57,8809⋅(-1,0143)-5,5512⋅1,4189-97,2614=-123,33

S«пропильный»=58,0009⋅1,3292+7,19167⋅1,0352-34,3848⋅(-1,0143)+22,4950⋅1,4189-80,6245=70,71

Максимальное значение показателя получили для группы образцов с пропильным Р-алкильным радикалом, следовательно, исследуемый образец принадлежит к данной группе и имеет пропильный радикал R2.

Таким образом, предлагаемый способ позволяет эффективно идентифицировать Р-алкильные радикалы гомологов ААФФ по полученным классификационным функциям, а также решать прогностическую задачу для новых образцов соединений этого ряда. При этом, в отличие от нестатистических методов, в представленном способе не моделируются ИК спектры в привычном смысле, а определяются координаты центроидов в пространстве канонических дискриминантных функций, около которых будут группироваться новые объекты с одинаковыми структурными фрагментами (в данном случае - с одинаковыми Р-алкильными радикалами). По сравнению с ближайшим способом-аналогом, приведенным выше, если ориентироваться только лишь на расстояния между центроидами групп в полученных моделях, качество дискриминации удалось увеличить, в среднем, на 83%, то есть, практически, в два раза. Следовательно, и надежность идентификации предлагаемым способом новых (еще не синтезированных) образцов ААФФ - потенциально значительно выше. Эффективность затрат - еще одно преимущество предлагаемого способа: в рамках доступного и неразрушающего ИК метода, не применяя для анализа сложное оборудование и дорогостоящие реактивы, можно эффективно решать задачи по выявлению структурного строения Р-алкильного радикала гомологов ААФФ, используя при этом полученные классификационные функции.

Способ может быть использован в лабораторной практике химического анализа при идентификации таких соединений в рамках мероприятий по выполнению международной Конвенции.

Способ идентификации и прогнозирования Р-алкильных радикалов гомологов О-алкилалкилфторфосфонатов по их инфракрасным спектрам средней области диапазона (1330-1240 см-1) конденсированной фазы, заключающийся в определении набора спектральных признаков-предикторов, позволяющих проводить их классификацию по виду Р-алкильного радикала, отличающийся тем, что пары значений «волновое число - оптическая плотность» спектра исследуемого образца, представленного в числовом формате, сортируют по убыванию значений волнового числа; преобразуют спектр в производную первого порядка по формуле:

где А'(λi) - первая производная оптической плотности по волновому числу λ;

A(λi) - оптическая плотность при i-м значении волнового числа λ;

Δλ=(Δi+1 - λi) - шаг дискретизации спектра;

на частичных интервалах (dt) 1320-1310 см-1, 1300-1290 см-1, 1270-1260 см-1, 1260-1250 см-1 проводят измерения производной оптической плотности по волновому числу и вычисляют значения прогностического параметра G по формуле:

где Gj - стандартизованная сумма значений первой производной оптической плотности по волновому числу на j-м интервале;

j - номер частичного интервала dt (dt=10 см-1);

А'(λi) - i-е значение первой производной оптической плотности по волновому числу на j-м частичном интервале dt;

k - количество значений производной на j-м частичном интервале dt, включая значения на его границах;

Μ∑ - среднее арифметическое суммарных (накопленных для каждой точки интервала dt) значений первой производной на j-м частичном интервале;

значения параметра G используют в качестве предикторов для расчета показателей классификации по классификационным функциям, полученным в результате проведения дискриминантного анализа на обучающей выборке эталонных спектров О-алкилалкилфторфосфонатов одного спектрального разрешения; по наивысшим показателям классификации устанавливают структуру Р-алкильного радикала исследуемого соединения; по распределению объектов обучающей выборки в пространстве дискриминантных функций прогнозируют Р-алкильные радикалы гомологов О-алкилалкилфторфосфонатов.



 

Похожие патенты:

Изобретение относится к области экологического мониторинга природных объектов и касается способа определения удельной массы пленок нефтепродуктов на водной поверхности по гиперспектральным данным дистанционного зондирования Земли.

Изобретение относится к области исследования состава жидкой углеводородной продукции и касается способа определения массовых долей нефти и газового конденсата в продукции нефтегазоконденсатных скважин.

Изобретение относится к области контроля качества гексафторида урана (ГФУ) и может быть использовано в производственных лабораториях предприятий атомной энергетики.

Изобретение относится к области испытания оптической аппаратуры и предназначено для экспериментальной оценки технических характеристик Фурье-спектрорадиометров в полевых условиях.

Изобретение относится к области спектрального анализа и касается способа определения компонентов текучего неоднородного образца молока. Способ включает в себя получение образца молока, измерение интерферометром значений затухания образца молока в среднем инфракрасном диапазоне и вычисление в блоке обработки данных показателя интересующего компонента в образце молока по измеренным значениям затухания в среднем инфракрасном диапазоне.

Изобретение относится к области фармации и касается способа проведения испытания таблетированных лекарственных препаратов в блистерной упаковке. Способ включает в себя формирование обучающего и проверочного наборов образцов, получение БИК спектров образцов обучающего и проверочного наборов, визуальный анализ полученных спектров на наличие грубых погрешностей, разделение спектров на два набора согласно принадлежности капсул, предварительную обработку спектров и построение модели методами одноклассовой классификации на предобработанных спектрах обучающего набора.

Изобретение относится к области фармации и касается способа проведения испытания капсулированных лекарственных препаратов в блистерной упаковке. Способ включает в себя формирование обучающего и проверочного наборов образцов, получение БИК спектров образцов через прозрачную часть блистера, визуальный анализ полученных спектров на наличие грубых погрешностей, разделение спектров на два набора согласно принадлежности капсул, предварительную обработку спектров и построение модели методами одноклассовой классификации на предобработанных спектрах обучающего набора.

Изобретение относится к измерительной технике в области теплофизики высоких температур и высокотемпературной метрологии. Заявленный способ включает сбор и фокусирование излучения от термостабилизированного тела, преобразование его полихроматического излучения в монохроматическое, измерение сигналов фотоприемного устройства в заданном узком диапазоне длин волн, определение угловых коэффициентов линейных зависимостей измеренных сигналов и энергетических яркостей, рассчитанных по формуле Планка, от длины волны, расчет спектрального коэффициента излучения по отношению полученных угловых коэффициентов с учетом поправочного коэффициента.

Изобретение относится к области для определения металлических и диэлектрических параметров полупроводниковых гетероструктур. Устройство для сканирующей радиочастотно-оптической модуляционной спектроскопии содержит по крайней мере два металлических электрода, выполненных в виде стержней, расположеных внутри оптического волокна либо в светоотражающей оболочке, либо в защитном покрытии.
Наверх