Способ формирования обучающей выборки для систем управления беспилотных электропоездов




Владельцы патента RU 2785704:

Открытое акционерное общество "Российские железные дороги" (RU)

Изобретение относится к способу машинного обучения, специально адаптированное для изображений. Способ формирования обучающей выборки для систем управления беспилотных электропоездов заключается в приеме информации от сканирующих окружающее пространство датчиков, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации. При этом осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов. Для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров. Далее выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, завершая ее формирование. Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

 

Изобретение относится к области технологий глубокого обучения и может быть использовано для формирования обучающей выборки для систем управления беспилотных электропоездов.

Известно техническое решение, в котором создание обучающей выборки предполагает использование аугментации изображения для получения выборки обладающей заданными свойствами. Обрабатывающее устройство формирует одно или более исходных изображений, ассоциированных с обучающей выборкой, для обучения, после чего полученные одно или более первых исходных данных подают на вход первых слоев вычислительных блоков, использующих фильтры изображений. Результат, полученный на выходе первых слоев вычислительных блоков подают на вход второго слоя вычислительных блоков, при этом второй слой использует в процессе вычислений случайные наборы параметров. Полученные параметры искажений с выхода второго слоя вычислительных блоков и результат обработки изображения со второго слоя вычислительных блоков подается на вход третьего слоя вычислительных блоков. Полученный на выходе третьего слоя результат добавляется к обучающей выборке изображений для обучения модели машинного обучения (RU 2716322, G06N 3/08, 11.03.2020).

Основным недостатком этого технического решения является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества. Кроме того, при улучшении качества выборки в данном техническом решении используется только один процесс - аугментация.

В качестве прототипа принято техническое решение по патенту RU 2711125, G06K 9/62, 15.01.2020. Известный способ формирования набора обучающих объектов для алгоритма машинного обучения включает в себя получение из журнала поиска данных о поисковых запросах, каждый из которых связывается с первым набором результатом поиска изображений, формирование вектора признаков для каждого поискового запроса, получение набора меток, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений, формирование набора обучающих объектов путем сохранения для каждого подмножества векторов запроса каждого результата поиска изображений в виде обучающего объекта в наборе обучающих объектов.

Основным недостатком этого способа является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества.

Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

Технический результат достигается тем, что в способе формирования обучающей выборки для систем управления беспилотных электропоездов, заключающемся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, согласно изобретению дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым, завершая ее формирование, при получении значений критериев качества не соответствующих требуемым процесс формирования выборки повторяют с учетом выявленных несоответствий.

Способ формирования обучающей выборки для систем управления беспилотных электропоездов реализуется следующим образом.

Информация об окружающих объектах поступает с оборудования захвата кадров, установленного на подвижном транспортном средстве. В качестве датчиков, сканирующих окружающее пространство, могут быть, например, видеокамера, радар или лидар, используемые либо отдельно, либо совместно. Принятая информация предварительно обрабатывается и записывается в электронную память.

Далее для формирования выборки из записанной в электронную память последовательности кадров разделяют исходную видеопоследовательность на кадры, из которых далее формируют датасет таким образом, чтобы коэффициент корреляции (1) каждого следующего кадра с предыдущим не превышал бы некоторого заданного порога (определяется техническим заданием или параметрами нейронной сети). Сформированный датасет сохраняется в электронной памяти, и далее осуществляют выделение заданных объектов на кадрах, относящихся к обнаруживаемым классам.

где n - размер кадра равный произведению высоты на ширину, x[i] и y[i] значения i-тых пикселей двух последовательных кадров, для которых необходимо вычислить коэффициент корреляции.

При этом набор правил разметки и аннотирования кадров, определяется техническим заданием или требованиями используемой нейронной сети. На основании этих правил на отобранных в выборку кадрах осуществляется выделение объектов, относящихся к обнаруживаемым классам. Для каждого такого объекта информация о переменных класса сохраняется в специальном файле аннотации. В результате получаем сформированный набор размеченных кадров и аннотации к каждому из них. Далее из полученной выборки (набора размеченных кадров) осуществляется отбор случайного подмножества кадров таким образом, чтобы в нем были представлены объекты всех классов в равных количествах. После чего проверяется выполняется ли условие, что количество всех имеющихся в таком подмножестве объектов удовлетворяет критерию полноты.

Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:

где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.

В случае, если условие не выполняется возвращаются назад и повторяют процедуру отбора случайного подмножества кадров до тех пор, пока критерий полноты не выполнится.

При выполнении условия далее для каждого класса обнаруживаемых объектов выполняется проверка соответствия эмпирического распределения всех переменных требуемым законам распределения по критерию согласия, например по критерию согласия Пирсона:

где m - количество интервалов на которых производят оценку частоты реализации переменной класса, n - объем выборки, ni/n - эмпирическая оценка частоты, pi - теоретическая оценка частоты по заданному закону распределения вероятностей,

и в случае отклонения эмпирического распределения от теоретического

производят фильтрацию выбранных кадров.

Далее с полученной выборкой выполняются различные процедуры, позволяющие обеспечить целостность полученной в результате преобразований и дополнений выборки. Для этого вычисляются различные контрольные суммы, хэш-функции или электронная подпись для различных элементов выборки и для файла выборки в целом. Результаты вычисления сохраняются вместе с выборкой и далее выполняется анализ размеченных кадров выборки для расчета значений переменных класса (например средняя яркость, размер объекта, и т.д.), опираясь на результаты анализа размеченных кадров и содержание файла аннотации оценивают критерии качества полученной выборки. Для этого вычисляют по соответствующим стандартным формулам такие критерии качества как полнота, репрезентативность, непротиворечивость, однородность и целостность. Полученные значения проверяют на соответствие требуемым значениям критериев качества. Если они соответствуют процесс доформирования исходной выборки заканчивают и результирующую выборку записывают в отдельную электронную память (блок памяти для итоговой выборки). Если же полученные значения критериев качества не соответствуют требуемым, то процесс доформирования продолжается.

Исходя из количества обнаруженных отклонений в значениях критериев качества оценивается число необходимых дополнительных кадров, которые следует добавить в выборку. В случае необходимости выполняется доразметка уже имеющихся в выборке кадров и/или аугментация и ее повторная обработка в соответствии с вышеприведенной последовательностью действий.

Определения основных критериев качества проверки сформированной выборки:

Репрезентативность

Достаточность: число обучающих примеров должно быть достаточным для обучения. Для достижения нулевой ошибки необходимо, чтобы число обучающих примеров было в несколько раз больше, чем число весов межнейронных связей, в противном случае модель может не приобрести способности к обобщению. Величина зависит от типа нейронной сети, например, для сверточной сети нужно 3000 размеченных изображений для каждого класса объектов для предобученной сети, и 100000-200000 размеченных изображений объектов, относящихся к максимально большому доступному набору классов, превосходящему набор классов для решаемой задачи, для не предобученной сети

Разнообразие: Сочетает два требования:

1. коэффициент разнообразия , где nd - количество изображений с различными сочетаниями объектов разных классов, а N - количество классов объектов, - число сочетаний из N по i.

2. max(R)=0,1, где R - коэффициент попарной корреляции.

равномерность представления классов: 1/N - доля объектов каждого класса в общем количестве объектов в выборке, где N - количество классов объектов.

Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:

где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.

Непротиворечивость выборки определяется количеством обучающих наборов, содержащих объекты, отнесенные к различным классам, но имеющие при этом одинаковые классификационные признаки. Пусть два обучающих набора заданы парами вида - свойства i-го объекта в k-мерном пространстве, образующие вектор входных значений для нейронной сети, а Am - соответственно центроид m-го класса - эталонное значение в обучающем наборе. Тогда - расстояние между центроидами соответственно m-го и n-го классов. А расстояние между объектами этих классов будет вычисляться по следующей формуле:

где , Dak - дисперсия свойства k-го измерения по всей обучающей выборке. Теперь, введя два расстояния: расстояние между объектами и между центроидами классов, к которым они принадлежат, можно определить понятие непротиворечивости. Пусть Cij - парная непротиворечивость - непротиворечивость двух обучающих наборов i-го и j-го, принадлежащих соответственно классам Am и An. Тогда очевидно, что Су возрастает, если возрастает ΔAmn или убывает Δaij. На основании данных рассуждений предложена следующая формула для вычисления Cij:

Согласно этой формуле, непротиворечивость двух объектов лежит в диапазоне [0;1] и достигает максимума при совпадении характеристик объектов, принадлежащих разным классам. Непротиворечивость становится равной нулю в случае, если рассматриваются объекты одного класса. Непротиворечивостью всей обучающей выборки (ОВ) будет среднее всех Cij:

где n - количество всех парных непротиворечивостей в обучающей выборке.

Однородность.

Критерий однородности оценивается при помощи критерия согласия [см. формулу (3)] Если все переменные проходят проверку по критерию согласия, то критерий однородности считается достигнутым.

Целостность.

Для оценки критерия целостности проверяют, что все контрольные суммы верны, если проверка пройдена, критерий качества считается достигнутым.

Способ формирования обучающей выборки для систем управления беспилотных электропоездов, заключающийся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, отличающийся тем, что дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым завершая ее формирование, при получении значений критериев качества, не соответствующих требуемым, процесс формирования выборки повторяют с учетом выявленных несоответствий.



 

Похожие патенты:

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности детектирования мелких и близкорасположенных объектов.
Изобретение относится к области сельского хозяйства, в частности к методам дистанционного зондирования земли и методам обработки изображения. Может быть использована для оценки состояния растительного покрова.

Использование: изобретение относится к сфере контроля деятельности судов рыбопромыслового флота и прослеживаемости рыбной продукции с использованием космических систем навигации и связи. Сущность: информационно-аналитическая система мониторинга деятельности судов рыбопромыслового флота, контроля улова, переработки и перемещения водных биологических ресурсов и производимой из них продукции содержит центр мониторинга, взаимодействующий с отраслевой системой мониторинга; интегрированные многофункциональные судовые комплексы, каждый из которых имеет свой идентификационный номер и включает многофункциональный навигационно-связной комплекс и установлен на контролируемых судах для сбора, накопления и регистрации в энергонезависимой памяти и передачи данных, включающих, по меньшей мере, идентификационный номер, навигационные данные, данные об используемых орудиях лова, данные о количественных характеристиках улова и произведенной продукции, изображения, данные о нештатных ситуациях, при этом интегрированные многофункциональные судовые комплексы связаны с судовым оборудованием, выбранным из перечня, включающего, по меньшей мере, аппаратуру автоматизированной идентификационной системы и судовой комплекс «Электронный промысловый журнал», и центром мониторинга; RFID идентификаторы для орудий лова и расположенные на судах считыватели RFID идентификаторов, связанные с соответствующими интегрированными многофункциональными судовыми комплексами и центром мониторинга, RFID идентификаторы и считыватели данных RFID идентификаторов, связанные через сеть Интернет с центром мониторинга; средства системы ветеринарной электронной сертификации «Меркурий», связанные с центром мониторинга; средства системы маркировки и прослеживания товаров типа системы «Честный знак», связанные с центром мониторинга; средства системы контроля холодовой цепи, связанные с центром мониторинга.

Изобретение относится к транспортному оборудованию и может быть использовано для слежения за входящим в транспортное средство и выходящим из него пассажиропотоком. Техническим результатом является повышение безопасности и качества перевозок.

Изобретение относится к области автоматизированных измерений, в частности к способу и устройству для определения характеристик живых особей, таких как сельскохозяйственные животные, на расстоянии. Техническим результатом является обеспечение быстрых и автоматизированных измерений для получения достоверных и точных параметров ориентации и/или позы животных, свободно перемещающихся в естественной среде.

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности определения периода времени трансляции рекламы рекламного продукта, в состав которого входит продукт, сопутствующий рекламируемому продукту.

Заявленная группа изобретений относится к области устройств обработки информации, а также к курительным изделиям. Заявленное устройство содержит: блок получения, который получает информацию о курении от ингалятора ароматического вещества, ассоциированного с пользовательским терминалом; блок создания, который создает выходную информацию для вывода сообщения на основе информации о курении пользовательскому терминалу; и блок передачи, который отправляет выходную информацию пользовательскому терминалу или устройству управления, который управляет выводом сообщений пользовательскому терминалу.

Изобретение относится к способу обнаружения и слежения за движущимися объектами во временной последовательности изображений. Технический результат заключается в повышении точности обнаружения движущихся объектов и отсеивания ложных объектов в последовательности изображений.

Изобретение относится к области вычислительной техники для выдачи пользователю образцов продукции или изделий. Технический результат – исключение возможности повторного получения образцов продукции или изделий в автомате выдачи пользователю образцов продукции или изделий.

Изобретение относится способам картографирования местности для автономных транспортных средств. Технический результат заключается в повышении точности картографирования для автономных транспортных средств (АТС).

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении точности детектирования мелких и близкорасположенных объектов.
Наверх