Способ и система для формирования обучающего набора для алгоритма машинного обучения

Изобретение относится к области алгоритмов машинного обучения. Техническим результатом является обеспечение формирования обучающих наборов для обучения алгоритмов машинного обучения, реализуемых в системе поиска информации. Раскрыт компьютерный способ формирования обучающего набора для обучения алгоритма машинного обучения (MLA), реализованного в системе поиска информации и выполняемого сервером, при этом способ выполняется сервером и включает в себя: извлечение из базы данных журнала поиска на сервере множества страниц результатов поисковой системы (SERP), при этом страница из множества страниц SERP формируется в ответ на поисковый запрос из множества поисковых запросов и содержит множество документов, отвечающих на этот поисковый запрос; формирование сервером графа, в котором множество документов на множестве страниц SERP и множество запросов сопоставлены таким образом, что: узел графа содержит поисковый запрос из множества поисковых запросов и соединен с первым подмножеством узлов, при этом каждый узел из первого подмножества узлов содержит документ из множества документов, связанный с этим поисковым запросом; и узел из первого подмножества узлов соединен со вторым подмножеством узлов, при этом каждый узел из второго подмножества узлов содержит поисковые запросы, связанные с документом этого узла; получение указания на поисковый запрос для формирования отрицательного обучающего примера для обучения алгоритма MLA; идентификацию узла в графе, связанного с этим поисковым запросом; и формирование обучающего набора для использования в качестве отрицательного обучающего примера для поискового запроса при обучении алгоритма MLA, содержащего поисковый запрос в паре с документом, расположенным в другом узле, находящемся на расстоянии заранее заданного числа узлов от этого узла. 4 н. и 16 з.п. ф-лы, 8 ил.

 

Область техники, к которой относится изобретение

[001] Настоящая технология относится, в целом, к алгоритмам машинного обучения и, в частности, к способу и системе для формирования обучающего набора для алгоритма машинного обучения.

Уровень техники

[002] Алгоритмы машинного обучения (MLA, Machine Learning Algorithm) используются для удовлетворения многих потребностей в компьютерных технологиях. Обычно алгоритмы MLA применяются для формирования прогноза, связанного с взаимодействием пользователя с компьютерным устройством. В качестве примера сферы, где требуется такой прогноз, можно привести действия пользователя в отношении контента, доступного в сети Интернет.

[003] Объем информации, доступной на различных Интернет-ресурсах, в течение последних двух лет растет экспоненциально. Для помощи типичному пользователю в поиске необходимой информации было разработано несколько решений. Одним из примеров таких решений является поисковая система. В качестве примера можно привести поисковые системы GOOGLE™, YANDEX™, YAHOO!™ и т.д. Пользователь может получать доступ к интерфейсу такой поисковой системы и отправлять поисковый запрос, связанный с информацией, которую требуется найти в сети Интернет. В ответ поисковая система выдает ранжированный список результатов поиска, потенциально релевантных поисковому запросу. Ранжированный список результатов поиска формируется на основе различных алгоритмов ранжирования, применяемых конкретной поисковой системой, используемой пользователем для поиска. Общая цель таких алгоритмов ранжирования состоит в том, чтобы представить наиболее релевантные результаты поиска в верхней части ранжированного списка, в то время как менее релевантные результаты поиска располагаются на менее заметных позициях ранжированного списка результатов поиска (позиции с наименее релевантными результатами поиска расположены в нижней части ранжированного списка результатов поиска).

[004] Поисковые системы обычно являются эффективным инструментом поиска в случае поискового запроса, когда пользователь заранее знает, что он хочет найти. Другими словами, если пользователь заинтересован в получении информации о наиболее популярных местах в Италии (т.е. когда тема поиска известна), он может отправить поисковый запрос «Самые популярные места в Италии?» После этого поисковая машина представляет ранжированный список Интернет-ресурсов, потенциально имеющих отношение к данному поисковому запросу. Затем пользователь может просмотреть ранжированный список результатов поиска и получить интересующую его информацию о достопримечательностях Италии. Если пользователь по какой-либо причине не удовлетворен представленными результатами поиска, он может повторно запустить поиск, например, с уточненным поисковым запросом, таким как «Самые популярные места в Италии летом?», «Самые популярные достопримечательности на юге Италии?», «Самые популярные места для романтического отдыха в Италии?».

[005] Когда пользователь отправляет поисковый запрос, поисковая система формирует список релевантных веб-ресурсов (на основе анализа просмотренных обходчиком веб-ресурсов, указания на которые хранятся в базе данных обходчика в виде списков вхождений (posting lists) и т.п.). Затем поисковая система использует алгоритм MLA для ранжирования сформированного таким образом списка результатов поиска. Алгоритм MLA ранжирует список результатов поиска на основе их релевантности поисковому запросу. Такой алгоритм MLA обучен прогнозировать степень релевантности результата поиска поисковому запросу на основе большого количества признаков, связанных с этим результатом поиска, и указаний на действия пользователей в отношении результатов поиска при отправке подобных поисковых запросов в прошлом.

[006] Перед использованием алгоритма MLA для прогнозирования релевантности результатов поиска отправленному пользователем запросу этот алгоритм MLA должен быть обучен. В зависимости от реализации алгоритма MLA, обучение может выполняться различными способами, такими как обучение с учителем, обучение без учителя и т.д. В типовом подходе к обучению алгоритму MLA предоставляется несколько обучающих примеров (размеченных обучающих наборов), используемых для обучения алгоритма MLA способности делать выводы в рамках поставленной задачи (такой как прогнозирование релевантности документов поисковому запросу). Обычно алгоритму MLA предоставляются положительные примеры (в данном случае релевантные документы) и отрицательные примеры (в данном случае нерелевантные документы).

[007] В патентной заявке US2017220575A1 «Identification of Synthetic Examples for Improving Search Ranking» («Идентификация синтетических примеров для улучшения поискового ранжирования», Shutterstock Inc., 03.07.2017) раскрыты способы, системы и машиночитаемые носители для идентификации примеров синтетических медиафайлов для обучения с учителем алгоритма MLA, предназначенного для ранжирования медиафайлов по релевантности поисковому запросу. В одном аспекте способ включает в себя идентификацию запроса к поисковой системе для коллекции медиафайлов из ранее полученных поисковых запросов и выбор по меньшей мере одного обучающего медиафайла из этой коллекции в качестве синтетического отрицательного примера для этого поискового запроса. Способ также включает в себя предоставление обучающего набора для обучения с учителем алгоритма ранжирования. Обучающий набор содержит идентификатор поискового запроса, копию обучающего медиафайла и первый указатель того, что этот обучающий медиафайл является синтетическим отрицательным примером для этого поискового запроса. Способ дополнительно включает в себя предоставление алгоритму поискового запроса и коллекции и получение от алгоритма данных о ранжировании этой коллекции.

[008] В статье авторов Xuanhui Wang et al. «Improved Retrieval Accuracy for Difficult Queries using Negative Feedback» («Повышение точности получения сложных запросов с использованием отрицательной обратной связи», Conference on Information and Knowledge Management (CIKM), 2007), рассматривается ситуация, когда результаты поиска настолько плохи, что ни один из документов с высоким рангом не релевантен запросу пользователя. Для повышения точности поиска по таким сложным запросам предлагается использовать отрицательную обратную связь.

Раскрытие изобретения

[009] Разработчики настоящей технологии обнаружили по меньшей мере одну техническую проблему, связанную с известными подходами.

[0010] Настоящая технология относится к алгоритмам машинного обучения (в целом) и к способам и к системам для формирования обучающего набора для алгоритма машинного обучения (в частности). Как описано выше, при обучении различных основанных на обучении с учителем алгоритмов MLA, таких как основанный на дереве решений алгоритм MLA или нейронная сеть (NN, Neural Network), алгоритму MLA предоставляются обучающие наборы. Обучающие наборы представляют собой размеченные примеры, иллюстрирующие как положительные примеры, так и отрицательные примеры. Положительные примеры при обучении алгоритма MLA соответствуют наличию целевых выходных данных, отрицательные примеры при обучении алгоритма MLA соответствуют отсутствию целевых выходных данных.

[0011] В общем случае положительные примеры легко сформировать. Например, примеры для пар поисковых запросов и документов можно получить с использованием журналов поисковых запросов сервера поисковой системы, при этом «клики» пользователей представляют собой хороший показатель релевантности прошлого документа прошлому пользовательскому запросу. Формирование отрицательных примеров может оказаться более сложным.

[0012] Типовая система обучения алгоритма MLA использует случайные отрицательные примеры, исходя из предположения, что большинство случайных примеров будет кардинально отличаться от положительных примеров и, следовательно, они будут представлять собой подходящие отрицательные примеры. Тем не менее, на практике эффективность отрицательных примеров не равна 100% (ближе к 80%).

[0013] В соответствии с первым широким аспектом настоящей технологии реализован компьютерный способ формирования обучающего набора для обучения сервером алгоритма MLA в системе поиска информации. Способ выполняется сервером и включает в себя: извлечение из базы данных журнала поиска на сервере множества страниц результатов поисковой системы (SERP, Search Engine Result Page), при этом страница из множества страниц SERP формируется в ответ на поисковый запрос из множества поисковых запросов и содержит множество документов, отвечающих на этот поисковый запрос; формирование сервером графа, сопоставляющего множество документов на множестве страниц SERP и множество запросов таким образом, что узел графа содержит поисковый запрос из множества поисковых запросов и соединен с первым подмножеством узлов, при этом каждый узел из первого подмножества узлов содержит документ из множества документов, связанный с этим поисковым запросом, а узел из первого подмножества узлов соединен со вторым подмножеством узлов, при этом каждый узел из второго подмножества узлов содержит поисковые запросы, связанные с документом этого узла; получение указания на поисковый запрос для формирования отрицательного обучающего примера для обучения алгоритма MLA; идентификацию узла в графе, связанного с этим поисковым запросом; и формирование обучающего набора для использования в качестве отрицательного обучающего примера для поискового запроса при обучении алгоритма MLA, при этом обучающий набор содержит этот поисковый запрос в паре с документом, расположенным в другом узле, находящемся на расстоянии заранее заданного числа узлов от этого узла.

[0014] В некоторых неограничивающих вариантах осуществления способа заранее заданное число узлов представляет собой случайное число от пяти до девяти.

[0015] В некоторых неограничивающих вариантах осуществления способа заранее заданное число узлов является нечетным числом узлов.

[0016] В некоторых неограничивающих вариантах осуществления способа связь между документом и поисковым запросом устанавливается при включении документа в соответствующую страницу SERP или при его выборе в ответ на отображение соответствующей страницы SERP.

[0017] В некоторых неограничивающих вариантах осуществления способа упомянутый другой узел включен в третье подмножество узлов, находящихся на расстоянии заранее заданного числа узлов от этого другого узла, при этом этот способ дополнительно включает в себя выбор этого другого узла из третьего подмножества узлов.

[0018] В некоторых неограничивающих вариантах осуществления способа выбор другого узла из третьего подмножества узлов включает в себя выбор этого другого узла, если этот другой узел имеет наибольший параметр взаимодействия с пользователем, указывающий на один или несколько видов действий одного или нескольких пользователей в третьем подмножестве узлов.

[0019] В некоторых неограничивающих вариантах осуществления способа параметр взаимодействия с пользователем для документа указывает на длительность наведения курсора на этот документ и/или на событие «клика» на этом документе.

[0020] В некоторых неограничивающих вариантах осуществления способа граф представляет собой дерево данных.

[0021] В некоторых неограничивающих вариантах осуществления способа идентификация узла в графе, связанного с поисковым запросом, включает в себя идентификацию корневого узла.

[0022] В некоторых неограничивающих вариантах осуществления способа граф представляет собой сетчатый граф.

[0023] В соответствии с другим широким аспектом настоящей технологии реализован компьютерный способ формирования обучающего набора для обучения сервером алгоритма MLA в системе поиска информации. Способ выполняется сервером и включает в себя: извлечение из базы данных журнала поиска первой страницы SERP, связанной с первым запросом, и второй страницы SERP, связанной со вторым запросом, при этом первая страница SERP содержит результат поиска в первой позиции, а вторая страница SERP содержит этот результат поиска во второй позиции; идентификация на первой странице SERP результата поиска с наибольшим взаимодействием; и формирование обучающего набора для использования в качестве отрицательных обучающих примеров при обучении алгоритма MLA, если произведение первой позиции и второй позиции превышает заранее заданное пороговое значение, при этом обучающий набор содержит второй запрос в паре с результатом поиска с наибольшим взаимодействием.

[0024] В некоторых неограничивающих вариантах осуществления способа он дополнительно включает в себя формирование второго обучающего набора для использования в качестве положительного примера, при этом второй обучающий набор содержит первый запрос и результат поиска с наибольшим взаимодействием.

[0025] В некоторых неограничивающих вариантах осуществления способа результат поиска с наибольшим взаимодействием содержит результат поиска на первой странице SERP, выбранный пользователем.

[0026] В некоторых неограничивающих вариантах осуществления способа результат поиска является одним из множества результатов поиска с взаимодействием, а результат поиска с наибольшим взаимодействием является одним из множества результатов поиска с взаимодействием, имеющим наиболее длительное взаимодействие.

[0027] В некоторых неограничивающих вариантах осуществления способа заранее заданное пороговое значение равно пятидесяти.

[0028] В соответствии с другим широким аспектом настоящей технологии реализована система для формирования обучающего набора для обучения сервером алгоритма MLA в системе поиска информации. Сервер содержит процессор, способный: извлекать из базы данных журнала поиска на сервере множество страниц SERP, при этом страница из множества страниц SERP формируется в ответ на поисковый запрос из множества поисковых запросов и содержит множество документов, отвечающих на этот поисковый запрос; формировать граф, сопоставляющий множество документов на множестве страниц SERP и множество запросов таким образом, что узел графа содержит поисковый запрос из множества поисковых запросов и соединен с первым подмножеством узлов, при этом каждый узел из первого подмножества узлов содержит документ из множества документов, связанный с этим поисковым запросом, узел из первого подмножества узлов соединен со вторым подмножеством узлов, при этом каждый узел из второго подмножества узлов содержит поисковые запросы, связанные с документом этого узла; получать указание на поисковый запрос для формирования отрицательного обучающего примера для обучения алгоритма MLA; идентифицировать узел в графе, связанный с этим поисковым запросом; и формировать обучающий набор для использования в качестве отрицательного обучающего примера для поискового запроса при обучении алгоритма MLA, при этом обучающий набор содержит этот поисковый запрос в паре с документом, расположенным в другом узле, находящемся на расстоянии заранее заданного числа узлов от этого узла.

[0029] В некоторых неограничивающих вариантах осуществления системы заранее заданное число узлов является нечетным числом узлов.

[0030] В соответствии с другим широким аспектом настоящей технологии реализована система для формирования обучающего набора для обучения сервером алгоритма MLA в системе поиска информации. Сервер содержит процессор, способный: извлекать из базы данных журнала поиска первую страницу SERP, связанную с первым запросом, и вторую страницу SERP, связанную со вторым запросом, при этом первая страница SERP содержит результат поиска в первой позиции, а вторая страница SERP содержит этот результат поиска во второй позиции; идентифицировать на первой странице SERP результат поиска с наибольшим взаимодействием; и формировать обучающий набор для использования в качестве отрицательных обучающих примеров при обучении алгоритма MLA, если произведение первой позиции и второй позиции превышает заранее заданное пороговое значение, при этом обучающий набор содержит второй запрос в паре с результатом поиска с наибольшим взаимодействием.

[0031] В некоторых неограничивающих вариантах осуществления системы процессор дополнительно способен формировать второй обучающий набор для использования в качестве положительного примера, при этом второй обучающий набор содержит первый запрос и результат поиска с наибольшим взаимодействием.

[0032] В контексте настоящего описания термин «сервер» означает компьютерную программу, выполняемую соответствующими аппаратными средствами и способную принимать через сеть запросы (например, от электронных устройств) и выполнять эти запросы или инициировать их выполнение. Аппаратные средства могут представлять собой один физический компьютер или одну компьютерную систему, что не существенно для настоящей технологии. В настоящем контексте выражение «сервер» не означает, что каждая задача (например, принятая команда или запрос) или некоторая определенная задача принимается, выполняется или запускается одним и тем же сервером (т.е. одними и теми же программными и/или аппаратными средствами). Это означает, что любое количество программных средств или аппаратных средств может принимать, отправлять, выполнять или инициировать выполнение любой задачи или запроса либо результатов любых задач или запросов. Все эти программные и аппаратные средства могут представлять собой один сервер или несколько серверов, при этом оба эти случая подразумеваются в выражении «по меньшей мере один сервер».

[0033] В контексте настоящего описания термин «электронное устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения поставленной задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры электронных устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как электронное устройство, также может функционировать как сервер в отношении других электронных устройств. Использование выражения «электронное устройство» не исключает использования нескольких электронных устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.

[0034] В контексте настоящего описания термин «база данных» означает любой структурированный набор данных, независимо от его конкретной структуры, программного обеспечения для управления базой данных или компьютерных аппаратных средств для хранения этих данных, их применения или обеспечения их использования иным способом. База данных может располагаться в тех же аппаратных средствах, что и процесс, обеспечивающий хранение или использование информации, хранящейся в этой базе данных, либо база данных может располагаться в отдельных аппаратных средствах, таких как специализированный сервер или множество серверов.

[0035] В контексте настоящего описания выражение «информация» означает информацию любого рода или вида, допускающую хранение в базе данных. Таким образом, информация включает в себя без ограничения аудиовизуальные произведения (изображения, фильмы, звукозаписи, презентации и т.д.), данные (данные о местоположении, числовые данные и т.д.), текст (мнения, комментарии, вопросы, сообщения и т.д.), документы, электронные таблицы и т.д.

[0036] В контексте настоящего описания выражение «пригодный для использования в компьютере носитель информации» означает носители любого рода и вида, включая ОЗУ, ПЗУ, диски (CD-ROM, DVD, гибкие диски, жесткие диски и т.д.), USB-накопители, твердотельные накопители, накопители на магнитных лентах и т.д.

[0037] В контексте настоящего описания, если явно не указано другое, в качестве указания на информационный элемент может выступать сам информационный элемент, а также указатель, ссылка, гиперссылка или другое косвенное средство, с помощью которого получатель данных может найти место в сети, памяти, базе данных или на другом машиночитаемом носителе информации, откуда можно извлечь этот информационный элемент. Например, указание на документ может включать в себя сам документ (т.е. его содержимое) или это указание может представлять собой уникальный дескриптор документа, указывающий на файл в определенной файловой системе, или какие-либо другие средства для указания получателю данных места в сети, адреса памяти, таблицы в базе данных или других мест, где можно получить доступ к файлу. Специалисту в данной области должно быть очевидно, что степень точности, требуемая для такого указания, зависит от объема предварительных пояснений относительно интерпретации информации, которой обмениваются отправитель и получатель данных. Например, если перед началом обмена данными между отправителем и получателем известно, что указание на информационный элемент представляет собой ключ базы данных для элемента в определенной таблице заранее заданной базы данных, содержащей этот информационный элемент, то для эффективной передачи этого информационного элемента получателю достаточно оправить ключ базы данных, даже если сам информационный элемент не передается между отправителем и получателем данных.

[0038] В контексте настоящего описания числительные «первый» «второй», «третий» и т.д. используются лишь для указания различия между существительными, к которым они относятся, но не для описания каких-либо определенных взаимосвязей между этими существительными. Например, должно быть понятно, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа, хронологии, иерархии или классификации, в данном случае, серверов, а также что их использование (само по себе) не подразумевает наличие «второго сервера» в любой ситуации. Кроме того, как встречается здесь в другом контексте, ссылка на «первый» элемент и «второй» элемент не исключает того, что эти два элемента в действительности могут быть одним и тем же элементом. Таким образом, например, в некоторых случаях «первый» сервер и «второй» сервер могут представлять собой одно и то же программное и/или аппаратное средство, а в других случаях - различные программные и/или аппаратные средства.

[0039] Каждый вариант осуществления настоящей технологии относится к по меньшей мере одной из вышеупомянутых целей и/или аспектов, но не обязательно ко всем ним. Должно быть понятно, что некоторые аспекты настоящей технологии, связанные с попыткой достижения вышеупомянутой цели, могут не соответствовать этой цели и/или могут соответствовать другим целям, явным образом здесь не упомянутым.

[0040] Дополнительные и/или альтернативные особенности, аспекты и преимущества реализаций настоящей технологии изложены в последующем описании, на сопроводительных чертежах и в приложенной формуле изобретения.

Краткое описание чертежей

[0041] Дальнейшее описание приведено для лучшего понимания настоящей технологии, а также других аспектов и их признаков, и должно использоваться совместно с приложенными чертежами.

[0042] На фиг. 1 представлена схема системы, реализованной согласно не имеющим ограничительного характера вариантам осуществления настоящей технологии.

[0043] На фиг. 2 схематично представлен журнал запросов.

[0044] На фиг. 3 представлен пример процесса обучения алгоритма машинного обучения, используемого системой, показанной на фиг. 1.

[0045] На фиг. 4 представлено дерево данных, сформированное согласно не имеющему ограничительного характера варианту осуществления настоящей технологии.

[0046] На фиг. 5 представлены две страницы результатов поиска, реализованные в соответствии с не имеющим ограничительного характера вариантом осуществления настоящей технологии.

[0047] На фиг. 6 представлен граф, реализованный согласно не имеющему ограничительного характера варианту осуществления настоящей технологии.

[0048] На фиг. 7 представлена блок-схема первого способа формирования отрицательного обучающего примера согласно не имеющему ограничительного характера варианту осуществления настоящей технологии.

[0049] На фиг. 8 представлена блок-схема второго способа формирования отрицательного обучающего примера согласно другому не имеющему ограничительного характера варианту осуществления настоящей технологии.

Осуществление изобретения

[0050] редставленные в данном описании примеры и условный язык предназначены для обеспечения лучшего понимания принципов настоящей технологии, а не для ограничения ее объема до таких специально приведенных примеров и условий. Должно быть очевидно, что специалисты в данной области техники способны разработать различные способы и устройства, которые явно не описаны и не показаны, но реализуют принципы настоящей технологии в пределах ее существа и объема.

[0051] Кроме того, чтобы способствовать лучшему пониманию, последующее описание может содержать упрощенные варианты реализации настоящей технологии. Специалистам в данной области должно быть понятно, что различные варианты осуществления настоящей технологии могут быть значительно сложнее.

[0052] В некоторых случаях приводятся полезные примеры модификаций настоящей технологии. Они способствуют пониманию, но также не определяют объема или границ настоящей технологии. Представленный перечень модификаций не является исчерпывающим и специалист в данной области может разработать другие модификации в пределах объема настоящей технологии. Кроме того, если в некоторых случаях модификации не описаны, это не означает, что они невозможны и/или что описание содержит единственно возможный вариант реализации того или иного элемента настоящей технологии.

[0053] Более того, описание принципов, аспектов и вариантов реализации настоящей технологии, а также их конкретные примеры предназначены для охвата их структурных и функциональных эквивалентов, независимо от того, известны они в настоящее время или будут разработаны в будущем. Например, специалистам в данной области техники должно быть очевидно, что любые описанные здесь структурные схемы соответствуют концептуальным представлениям иллюстративных принципиальных схем, реализующих принципы настоящей технологии. Также должно быть очевидно, что любые блок-схемы, схемы процессов, диаграммы изменения состояния, псевдокоды и т.п. соответствуют различным процессам, которые могут быть представлены на машиночитаемом физическом носителе информации и могут выполняться компьютером или процессором, независимо от того, показан такой компьютер или процессор явно или нет.

[0054] Функции различных элементов, показанных на чертежах, включая любой функциональный блок, обозначенный как «процессор» или «графический процессор», могут быть реализованы с использованием специализированных аппаратных средств, а также с использованием аппаратных средств, способных выполнять соответствующее программное обеспечение. Если используется процессор, эти функции могут выполняться одним выделенным процессором, одним совместно используемым процессором или множеством отдельных процессоров, некоторые из которых могут использоваться совместно. В некоторых вариантах осуществления настоящей технологии процессор может представлять собой процессор общего назначения, такой как центральный процессор (CPU), или специализированный процессор, такой как графический процессор (GPU). Кроме того, явное использование термина «процессор» или «контроллер» не должно трактоваться как указание исключительно на аппаратные средства, способные выполнять программное обеспечение, и может подразумевать, помимо прочего, аппаратные средства цифрового сигнального процессора (DSP), сетевой процессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA), ПЗУ для хранения программного обеспечения, ОЗУ и энергонезависимое ЗУ. Также могут подразумеваться другие аппаратные средства, общего назначения и/или специализированные.

[0055] Программные модули или просто модули, реализация которых предполагается в виде программных средств, могут быть представлены здесь как любое сочетание элементов блок-схемы или других элементов, указывающих на выполнение шагов процесса и/или содержащих текстовое описание. Такие модули могут выполняться аппаратными средствами, показанными явно или подразумеваемыми.

[0056] Далее с учетом вышеизложенных принципов рассмотрены некоторые не имеющие ограничительного характера примеры, иллюстрирующие различные варианты реализации аспектов настоящей технологии.

[0057] Как показано на фиг. 1, система 100 представляет собой систему для поиска информации и содержит электронное устройство 102. Электронное устройство 102 обычно связано с пользователем (не показан) и иногда может называться «клиентским устройством».

[0058] В контексте настоящего описания, если явно не указано другое, термин «электронное устройство» означает любое компьютерное аппаратное средство, способное выполнять программы, подходящие для решения соответствующей задачи. Таким образом, некоторые (не имеющие ограничительного характера) примеры электронных устройств включают в себя персональные компьютеры (настольные, ноутбуки, нетбуки и т.п.), смартфоны и планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы. Следует отметить, что в данном контексте устройство, функционирующее как электронное устройство, также может функционировать как сервер в отношении других электронных устройств. Использование выражения «электронное устройство» не исключает применения нескольких клиентских устройств для приема, отправки, выполнения или инициирования выполнения любой задачи или запроса либо результатов любых задач или запросов либо шагов любого описанного здесь способа.

[0059] Электронное устройство 102 содержит энергонезависимое запоминающее устройство (ЗУ) 104. Энергонезависимое ЗУ 104 может содержать один или несколько носителей информации и в общем случае обеспечивает пространство для хранения компьютерных команд, исполняемых процессором 106. Например, энергонезависимое ЗУ 104 может быть реализовано в виде носителя, пригодного для чтения компьютером, включая ПЗУ, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.

[0060] Электронное устройство 102 содержит аппаратное и/или программное обеспечение и/или микропрограммное обеспечение (или их сочетание), как это известно в данной области техники, для выполнения приложения 108 поисковой системы. В целом, посредством приложения 108 поиска пользователь (не показан) может выполнять поиск, например, в Интернете, с использованием расположенной на сервере (описан ниже) поисковой системы. Для этого приложение 108 поисковой системы содержит интерфейс 110 поискового запроса и интерфейс 112 результатов поиска.

[0061] На реализацию приложения 108 поисковой системы не накладывается особых ограничений. Один пример приложения 108 поисковой системы может быть реализован в устройстве пользователя (не показан), обращающемся к связанному с поисковой системой веб-сайту для доступа к приложению 108 поисковой системы. Например, к приложению 108 поисковой системы можно получить доступ, введя унифицированный указатель ресурса (URL, Uniform Resource Locator), связанный с поисковой системой Yandex™, на сайте www.yandex.ru. Следует ясно понимать, что к приложению 108 поисковой системы можно получить доступ с помощью любой другой коммерчески доступной или проприетарной поисковой системы.

[0062] В альтернативных неограничивающих вариантах осуществления настоящей технологии приложение 108 поисковой системы может быть реализовано как приложение браузера на портативном устройстве (таком как устройство беспроводной связи). Например, если электронное устройство 102 реализовано как портативное устройство, такое как Samsung™ Galaxy™ S10, на электронном устройстве 102 может выполняться браузерное приложение Yandex™. Следует ясно понимать, что для реализации неограничивающих вариантов осуществления настоящей технологии может использоваться любое другое коммерчески доступное или проприетарное приложение браузера.

[0063] В целом, электронное устройство 102 содержит пользовательский интерфейс ввода (не показан), такой как клавиатура, для приема данных, вводимых пользователем, например, в интерфейс 110 поискового запроса. На реализацию пользовательского интерфейса ввода не накладывается каких-либо особых ограничений, она зависит от реализации электронного устройства 102. Лишь в качестве примера, не имеющего ограничительного характера, в тех вариантах осуществления настоящей технологии, где электронное устройство 102 реализовано в виде устройства беспроводной связи (такого как смартфон iPhone™), пользовательский интерфейс ввода может быть реализован в виде программной клавиатуры (также называемой экранной или виртуальной клавиатурой). Если электронное устройство 102 реализовано как персональный компьютер, пользовательский интерфейс ввода может быть реализован в виде аппаратной клавиатуры.

[0064] Несмотря на то, что здесь представлено лишь одно электронное устройство 102, следует понимать, что это сделано для простоты иллюстрации и что система 100 может содержать более одного электронного устройства.

[0065] Электронное устройство 102 соединено с сетью 114 связи с использованием линии 116 связи. В некоторых неограничивающих вариантах осуществления настоящей технологии сеть 114 связи может представлять собой сеть Интернет. В других вариантах осуществления настоящей технологии сеть 114 связи может быть реализована иначе, например, в виде произвольной глобальной сети связи, локальной сети связи, частной сети связи и т.д.

[0066] На реализацию линии 116 связи не накладывается каких-либо особых ограничений, она зависит от реализации электронного устройства 102. Лишь в качестве примера, не имеющего ограничительного характера, в тех вариантах осуществления настоящей технологии, где электронное устройство 102 реализовано в виде беспроводного устройства связи (такого как смартфон), линия связи (не показана) может быть реализована в виде беспроводной линии связи (такой как канал сети связи 3G, канал сети связи 4G, Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.п.). В тех примерах, где электронное устройство 102 реализовано в виде ноутбука, линия связи может быть беспроводной (такой как Wireless Fidelity или сокращенно WiFi®, Bluetooth® и т.д.) или проводной (такой как соединение на основе Ethernet).

[0067] Должно быть очевидно, что варианты реализации электронного устройства 102, линии 116 связи и сети 114 связи приведены лишь для иллюстрации. Специалисту в данной области должны быть понятны и другие конкретные детали реализации электронного устройства 102, линии 116 связи и сети 114 связи. По существу, приведенные выше примеры не предназначены для ограничения объема настоящей технологии.

[0068] Система 100 также содержит сервер 118, соединенный с сетью 114 связи. Сервер 118 может быть реализован в виде традиционного компьютерного сервера. В примере осуществления настоящей технологии сервер 118 может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что сервер 118 может быть реализован на любом другом подходящем аппаратном и/или программном и/или встроенном программном обеспечении или их сочетании. В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии сервер 118 реализован в виде одного сервера. В других неограничивающих вариантах осуществления настоящей технологии функции сервера 118 могут быть распределены между несколькими серверами.

[0069] Практическая реализация сервера 118 хорошо известна. В целом, сервер 118 содержит интерфейс связи (не показан), структура и функции которого позволяют осуществлять связь с различными объектами (такими как электронное устройство 102 и другие устройства, которые могут быть подключены к сети 114 связи) по сети 114 связи.

[0070] Сервер 118 содержит память 120 сервера, включая один или несколько носителей информации, и в общем случае обеспечивает пространство для хранения компьютерных программных команд, исполняемых процессором 122 сервера. Например, память 120 сервера может быть реализована как физический машиночитаемый носитель информации, включая ПЗУ и/или ОЗУ. Память 120 сервера также может включать в себя одно или несколько устройств для длительного хранения информации, например, жесткие диски (HDD), твердотельные накопители (SSD) и карты флэш-памяти.

[0071] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 118 может управляться той же организацией, что предоставляет вышеописанное приложение 108 поиска. Например, сервер 118 может управляться компанией ООО «Яндекс» (119021, Россия, Москва, ул. Льва Толстого, 16). В других вариантах осуществления сервер 118 может управляться организацией, отличной от организации, предоставляющей приложение 108 поиска.

[0072] В некоторых вариантах осуществления настоящей технологии сервер 118 обеспечивает доступ к поисковой системе 124 (такой как Yandex.Search™), доступной через сеть 114 связи с использованием приложения 108 поиска. Способ практической реализации поисковой системы 124 известен в данной области техники и здесь подробно не описан. Достаточно сказать, что поисковая система 124 способна выполнять один или несколько поисковых запросов в Интернете после ввода пользователем (не показан) строки поиска в интерфейс 110 поискового запроса. Затем поисковая система 124 может передавать в электронное устройство 102 набор результатов поиска для их отображения пользователю электронного устройства 102 посредством интерфейса 112 результатов поиска в виде страницы SERP.

[0073] Сервер 118 способен формировать ранжированный список результатов поиска, включая результаты общего и вертикального поиска в Интернете. Известно несколько алгоритмов ранжирования результатов поиска, которые могут быть реализованы сервером 118.

[0074] В качестве примера, не имеющего ограничительного характера, некоторые известные способы ранжирования результатов поиска по степени релевантности поисковому запросу пользователя основаны на некоторых или всех следующих критериях: (а) популярность поискового запроса или соответствующего ответа при выполнении поисков; (б) количество результатов; (в) наличие в запросе определяющих терминов (таких как «изображения», «фильмы», «погода» и т.п.); (г) частота использования другими пользователями данного поискового запроса с определяющими терминами; (д) частота выбора другими пользователями, выполнявшими подобный поиск, определенного ресурса или определенных результатов вертикального поиска, когда результаты были представлены с использованием страницы SERP. Сервер 118 поисковой системы может рассчитывать и назначать оценку релевантности (основанную на различных представленных выше критериях) для каждого результата поиска, полученного по поисковому запросу пользователя, а также формировать страницу SERP, где результаты поиска ранжированы согласно их оценкам релевантности. В данном варианте осуществления изобретения сервер 118 поисковой системы может выполнять множество алгоритмов машинного обучения для ранжирования документов и/или формировать признаки для ранжирования документов.

[0075] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 118 соединен с базой данных 126 журнала по выделенному каналу (не обозначен). Обычно база 126 журналов может поддерживать журнал 128 запросов.

[0076] Журнал 128 запросов предназначен для регистрации поисков, выполненных с использованием сервера 118. В частности, в журнале 128 запросов хранятся термины поисковых запросов (т.е. искомые слова) и связанные с ними результаты поиска. Следует отметить, что журнал 128 запросов может поддерживаться в обезличенной форме, когда поисковые запросы невозможно соотнести с пользователями, отправившими эти поисковые запросы.

[0077] В частности, журнал 128 запросов может содержать список запросов с соответствующими терминами и информацией о документах, список которых был передан сервером 118 в ответ на соответствующий запрос, метку времени, а также может содержать список пользователей с их анонимными идентификаторами и соответствующие документы, выбранные ими после отправки запроса. В некоторых вариантах осуществления настоящей технологии журнал 128 запросов может обновляться каждый раз, когда на сервере 118 выполняется новый поиск. В других вариантах осуществления изобретения журнал 128 запросов может обновляться в заранее заданные моменты времени. В некоторых вариантах осуществления изобретения может существовать множество копий журнала 128 запросов, каждая из которых соответствует журналу 128 запросов в различные моменты времени.

[0078] На фиг. 2 схематически показана часть 200 журналов 128 запросов.

[0079] В проиллюстрированном примере часть 200 содержит пять ранее отправленных поисковых запросов (а именно, первый поисковый запрос 202, второй поисковый запрос 204, третий поисковый запрос 206, четвертый поисковый запрос 208 и пятый поисковый запрос 210). Каждый из этих пяти запросов связан с соответствующей страницей SERP (а именно, с первой страницей 212 SERP, второй страницей 214 SERP, третьей страницей 216 SERP, четвертой страницей 218 SERP и пятой страницей 220 SERP).

[0080] В некоторых неограничивающих вариантах осуществления настоящей технологии эти пять поисковых запросов принимаются от электронного устройства 102. В качестве альтернативы, эти пять поисковых запросов могут быть получены от одного или нескольких электронных устройств.

[0081] Каждая из этих пяти страниц SERP содержит множество результатов поиска. Несмотря на то, что в представленном здесь варианте осуществления каждый результат поиска показан как комбинация буквы и числа (например, «А1»), это сделано для простоты иллюстрации, и следует понимать, что каждый результат поиска соответствует некоторой странице в Интернете.

[0082] Следует также понимать, что при выполнении разных поисковых запросов сформированные страницы SERP могут содержать некоторый общий результат поиска. Например, результат A1 поиска для первого поискового запроса 202 может быть тем же, что и результат поиска B4 для второго поискового запроса 204, несмотря на отличие первого поискового запроса 202 от второго поискового запроса 204.

[0083] В некоторых неограничивающих вариантах осуществления настоящей технологии журнал 128 запросов дополнительно содержит параметры взаимодействия с пользователем, указывающие на действия, такие как «клики» на одном или нескольких документах на странице SERP.

[0084] Неограничивающие примеры параметров взаимодействия с пользователем, хранящихся в журнале 128 запросов, включают в себя (но не ограничиваются ими):

- проигрыш/выигрыш - был результат поиска в ответе на поисковый запрос выбран или нет (событие «клика»);

- время пребывания - время, затраченное пользователем на результат поиска до возврата на страницу SERP или до прекращения поиска (например, из-за того, что пользователь нашел нужную информацию);

- длительность наведения - время, на которое пользователь наводит курсор на результат поиска;

- длинный/короткий «клик»: было ли действие пользователя в отношении результата поиска долгим или коротким по сравнению с действиями пользователя в отношении других документов на данной странице SERP.

[0085] Разумеется, что представленный выше список не является исчерпывающим и может включать в себя другие виды действий пользователей без выхода за границы настоящей технологии.

[0086] На фиг. 1 также показано, что к серверу 118 через выделенный канал подключен сервер 130 обучения. Сервер 130 обучения может быть реализован как традиционный компьютерный сервер. В примере осуществления настоящей технологии сервер 130 обучения может быть реализован в виде сервера Dell™ PowerEdge™, работающего под управлением операционной системы Microsoft™ Windows Server™. Очевидно, что сервер 130 обучения может быть реализован с использованием любых других подходящих аппаратных средств и/или прикладного программного обеспечения и/или встроенного программного обеспечения либо их сочетания. В представленном не имеющем ограничительного характера варианте осуществления настоящей технологии сервер 130 обучения представляет собой один сервер. В других неограничивающих вариантах осуществления настоящей технологии функции сервера 130 обучения могут быть распределены между несколькими серверами. В контексте настоящей технологии описанные здесь способы и системы могут быть реализованы на сервере 130 обучения частично. В некоторых вариантах осуществления настоящей технологии сервер 130 обучения управляется и/или администрируется оператором поисковой системы. В качестве альтернативы, сервер 130 обучения может управляться и/или администрироваться другим поставщиком услуг. Несмотря на то, что сервер 130 обучения показан на чертежах как сервер, отличный от сервера 118, предполагается, что функции сервера 130 обучения, описанные ниже, могут выполняться сервером 118.

[0087] В целом, цель сервера 130 обучения состоит в обучении одного или нескольких алгоритмов MLA, используемых поисковой службой 124, путем формирования обучающего набора.

[0088] Сервер 130 обучения может, например, обучать один или несколько алгоритмов MLA, связанных с сервером 118, для улучшения общего поиска в Интернете, вертикального поиска в Интернете, предоставления рекомендаций, прогнозирования результатов и других вариантов применения. Обучение и усовершенствование алгоритма MLA может выполняться в заранее заданные периоды времени или когда поставщик поисковой системы сочтет это необходимым.

Обучение алгоритма MLA

[0089] На фиг. 3 приведена схематическая иллюстрация процесса обучения алгоритма 300 MLA. Алгоритм 300 MLA используется поисковой службой 124.

[0090] Для лучшего осознания основных концепций настоящей технологии следует понимать, что в целом обучение алгоритма 300 MLA можно разделить на первый и второй этапы. На первом этапе формируются обучающие входные данные 304 (описанные ниже). На втором этапе алгоритм 300 MLA обучается с использованием обучающих входных данных 304. Кроме того, несмотря на то, что шаги обучения алгоритма 300 MLA представлены как выполняемые сервером 130 обучения, предполагается, что алгоритм 300 MLA может обучаться другим объектом, например, сервером 118.

[0091] Формирование обучающих входных данных 304 поясняется далее со ссылкой на два неограничивающих варианта осуществления.

Первый вариант

[0092] В соответствии с не имеющим ограничительного характера вариантом осуществления настоящей технологии, формирование обучающих входных данных 304 начинается с получения сервером 130 обучения пакета 302 данных от базы 126 данных журнала. Пакет 302 данных содержит журнал 128 запросов. В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения может извлекать журнал 128 запросов периодически, например, раз в день, раз в неделю и т.п. В другом не имеющим ограничительного характера варианте осуществления настоящей технологии сервер 130 обучения может извлекать один или несколько журналов запросов, соответствующих заранее заданным критериям, например, журналы запросов с поисковыми запросами, выполненными за последний час, за последний день и т.п.

[0093] После получения журналов 128 запросов сервер 130 обучения способен анализировать множество журналов 128 запросов для идентификации одного или нескольких результатов поиска, представленных в ответ на два или более поисковых запросов (более подробно описано ниже).

[0094] На фиг. 6 представлен сетчатый граф 600, формируемый обучающим сервером 130.

[0095] В представленном варианте реализации графа 600 каждый из кругов соответствует уникальному поисковому запросу, а каждый из прямоугольников соответствует уникальному результату поиска. Для простоты все круги и прямоугольники называются здесь узлами.

[0096] Например, первый узел 602 соответствует первому поисковому запросу 202, связанному с четырьмя узлами (в частности, со вторым узлом 604), каждый из которых соответствует результату поиска, представленному на первой странице 212 SERP. Несмотря на то, что первый узел 602 показан как соединенный с четырьмя узлами, это сделано лишь с целью иллюстрации. Предполагается, что первый узел 602 может быть соединен с больше или меньше чем четырьмя узлами. Например, первый узел 602 может быть связан со всеми или только с подмножеством (например, 10, 20 и т.д.) результатов поиска на первой странице 212 SERP. В другом примере первый узел 602 может быть связан с подмножеством результатов поиска на первой странице 212 SERP, имеющих наибольший параметр взаимодействия с пользователем.

[0097] Пусть второй узел 604 (соответствующий результату A1 поиска) связан с первым узлом 602. Тогда второй узел 604 соединен с двумя другими узлами, каждый из которых соответствует поисковому запросу, отличному от первого поискового запроса 202 и связанному со страницей SERP, содержащей результат A1 поиска. В качестве примера можно предположить, что результат B4 поиска соответствует результату A1 поиска, тогда второй узел 604 соединен с третьим узлом 606, соответствующим второму поисковому запросу 204. В другом примере можно предположить, что результат C3 поиска соответствует результату A1 поиска (т.е. второму узлу 604), тогда четвертый узел 608 соответствует третьему поисковому запросу 206.

[0098] Другими словами, узел в графе 600 соответствует поисковому запросу или результату поиска, полученному из множества журналов 128 запросов. Если узел является поисковым запросом, то он соединен с одним или несколькими узлами, соответствующими результату поиска, отображенному на странице SERP, сформированной в ответ на этот поисковый запрос.

[0099] Если узел является результатом поиска, то он соединен с одним или несколькими узлами, соответствующими поисковому запросу, связанному со страницей SERP, содержащей этот результат поиска.

[00100] Несмотря на то, что граф 600 описан как формируемый на основе лишь части 200 журналов 128 запросов, следует понимать, что это сделано для простоты объяснения. Следует понимать, что граф 600 формируется из множества журналов 128 запросов с результатами поиска и поисковыми запросами, отправленными множеством электронных устройств.

[00101] После формирования графа 600 сервер 130 обучения может формировать обучающие входные данные 304 (см. фиг. 3). В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения способен в качестве отрицательного обучающего примера объединять в пару узел, соответствующий поисковому запросу, и узел, находящийся на расстоянии заранее заданного числа узлов от данного узла. Например, сервер 130 обучения может объединять в пару первый узел 602 и один из узлов, находящихся на расстоянии нечетного числа узлов от первого узла 602.

[00102] В некоторых неограничивающих вариантах осуществления настоящей технологии нечетное число узлов является случайным или заранее заданным числом от пяти до девяти. Например, пусть нечетное число узлов равно семи. Тогда сервер 130 обучения может найти узел, находящийся на расстоянии семи узлов от первого узла 602, например пятый узел 610, соответствующий определенному результату поиска (пунктирные линии показывают траекторию от первого узла 602). Очевидно, что сервер 130 обучения может объединять первый узел 602 в пару с каждым узлом, находящимся на расстоянии семи узлов от первого узла 602, или, в качестве альтернативы, объединять первый узел 602 в пару с узлом, находящимся на расстоянии семи узлов и имеющим наибольший параметр взаимодействия с пользователем.

[00103] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения дополнительно может формировать положительный обучающий пример путем объединения узла (такого как первый узел 602) в пару с одним из непосредственно соединенных с ним узлов (например, со вторым узлом 604). Тогда входные данные 304 обучения соответствуют отрицательному обучающему примеру и положительному обучающему примеру (если он имеется).

[00104] Несмотря на то, что в приведенном выше примере граф 600 сформирован обучающим сервером как сетчатый граф, это не является ограничением. На фиг. 4 показано дерево 400 данных (или граф 400), формируемое обучающим сервером 130 после анализа.

[00105] Дерево 400 данных содержит корневой узел 412 на первом уровне 402, соединенный с двумя дочерними узлами на втором уровне 404. Каждый из дочерних узлов соединен с двумя дочерними узлами на третьем уровне 406 и т.д.. Несмотря на то, что в показанном примере дерево 400 данных является пятиуровневым деревом данных (первый уровень 402, второй уровень 404, третий уровень 406, четвертый уровень 408 и пятый уровень 410), следует понимать, что это сделано лишь для иллюстрации и что дерево 400 данных является N-уровневым деревом данных. Более того, несмотря на то, что каждый узел показан как соединенный с двумя соответствующими дочерними узлам, это не является ограничением и предполагается, что каждый узел может быть соединен с большим или меньшим количеством дочерних узлов, соответственно.

[00106] В некоторых неограничивающих вариантах осуществления настоящей технологии каждый из узлов на нечетных уровнях дерева данных 400 соответствует поисковому запросу, извлеченному из множества журналов 128 запросов, а каждый из узлов на четных уровнях дерева 400 данных соответствует результату поиска, извлеченному из множества журналов 128 запросов.

[00107] Далее описана взаимосвязь между узлами. Как кратко обсуждалось выше, сервер 130 обучения способен анализировать множество журналов 128 запросов для идентификации одного или нескольких результатов поиска, общих для одного или нескольких поисковых запросов. Другими словами, дерево 400 данных иллюстрирует связь одного или нескольких результатов поиска с двумя или более поисковыми запросами.

[00108] Пусть, например, корневой узел 412 соответствует первому поисковому запросу 202. Корневой узел 412 соединен с двумя дочерними узлами, а именно, с первым узлом 414 и со вторым узлом 416, каждый из которых является результатом поиска на первой странице 212 SERP (а именно, A1 и A3).

[00109] Каждый из первого узла 414 и второго узла 416 соединен с двумя соответствующими дочерними узлами. Например, первый узел 414 соединен с третьим узлом 418 и с четвертым узлом 420. Каждый из третьего узла 418 и четвертого узла 420 соответствует поисковому запросу, отличному от первого поискового запроса 202 и связанному со страницей SERP, содержащей результат поиска, имеющийся в его родительском узле (для первого узла 414 - результат A1 поиска). Если в качестве примера предположить, что результат поиска B4 соответствует результату A1 поиска (т.е. первому узлу 414), то третий узел 418 соответствует второму поисковому запросу 204. Если в другом примере предположить, что результат C3 поиска соответствует результату A1 поиска (т.е. первому узлу 414), то четвертый узел 420 соответствует третьему поисковому запросу 206.

[00110] Другими словами, узел в дереве данных 400 соответствует поисковому запросу или результату поиска, полученному из множества журналов 128 запросов. Если узел является поисковым запросом, то он является дочерним узлом для родительского узла и родительским узлом для двух дочерних узлов, где родительский и два дочерних узла соответствуют результату поиска, отображенному на странице SERP, сформированной в ответ на этот поисковый запрос.

[00111] Если узел является результатом поиска, то он является дочерним узлом для родительского узла и родительским узлом для двух дочерних узлов, где родительский и два дочерних узла соответствуют поисковому запросу, связанному со страницей SERP, содержащей этот результат поиска.

[00112] Несмотря на то, что формирование дерева 400 данных показано на основе лишь части 200 журналов 128 запросов, следует понимать, что это сделано для простоты объяснения. Следует понимать, что дерево 400 данных формируется из множества журналов 128 запросов с результатами поиска и поисковыми запросами, отправленными множеством электронных устройств.

[00113] В некоторых неограничивающих вариантах осуществления настоящей технологии каждый из узлов на четных уровнях (т.е. узлов с результатами поиска) соответствует результатам поиска с наибольшим параметром взаимодействия с пользователем. Например, если взять в качестве примера корневой узел 412 (соответствующий первому поисковому запросу 202), то первый узел 414 и второй узел 416 (два дочерних узла корневого узла 412) соответствуют результату поиска, параметр взаимодействия которого максимален во всем множестве журналов 128 запросов. Другими словами, сервер 130 обучения позволяет идентифицировать в журналах 128 запросов два результата поиска с наибольшим параметром взаимодействия, представленные в ответ на первый поисковый запрос 202.

[00114] Здесь также предполагается, что каждый узел может быть соединен более чем с двумя дочерними узлами. Например, корневой узел 412 может быть соединен с рядом дочерних узлов, каждый из которых соответствует, например, десяти лучшим результатам поиска на первой странице 212 SERP или всем результатам поиска на первой странице 212 SERP.

[00115] После формирования дерева 400 данных сервер 130 обучения формирует обучающие входные данные 304 (см. фиг. 3). В целом, обучающие входные данные 304 являются отрицательным обучающим примером для обучения алгоритма 300 MLA на второй фазе и содержат один из узлов, соответствующий поисковому запросу, в паре с одним из узлов, соответствующим результату поиска.

[00116] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения может объединять первый поисковый запрос 202 (включенный в корневой узел 412) в пару с узлом, находящимся на заданном количестве узлов от корневого узла 412. В частности, сервер 130 обучения может объединять корневой узел 412 в пару с одним из узлов, отстоящем на нечетное число узлов от корневого узла 412, или, другими словами, расположенном на четном уровне дерева данных. 400.

[00117] В некоторых неограничивающих вариантах осуществления настоящей технологии нечетное число узлов является случайным или заранее заданным числом от пяти до девяти. Например, пусть нечетное число узлов равно пяти. Тогда сервер 130 обучения имеет доступ к шестому уровню (не показан) и способен случайно выбирать узел, соответствующий результату поиска. Выбор узла на шестом уровне не ограничен, например, он может выбираться случайным образом. В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения выбирает узел в пределах шестого уровня, связанный с наибольшим параметром взаимодействия с пользователем.

[00118] Несмотря на то, что в приведенном выше примере только корневой узел 412 объединен в пару с результатом поиска, следует понимать, что для формирования дополнительных отрицательных обучающих примеров в пары могут объединяться и другие узлы, например, третий узел 418 с поисковым запросом, включенным число узлов, отстоящих на нечетное число узлов от третьего узла 418.

[00119] Кроме того, несмотря на то, что в приведенном выше примере сформировано лишь одно дерево 400 данных, следует понимать, что это сделано для простоты иллюстрации и что сервер 130 обучения может формировать множество деревьев данных с различными поисковыми запросами в качестве родительских узлов.

[00120] Наконец, несмотря на то, что в приведенном выше примере сформирован только один отрицательный обучающий пример, это не является ограничением. Следует понимать, что сервер 130 обучения может формировать более одного отрицательного обучающего примера путем объединения корневого узла 412 в пару с одним или несколькими другими результатами поиска на шестом уровне. В другом варианте осуществления сервер 130 обучения также может формировать один или несколько отрицательных обучающих примеров путем выбора одного или нескольких результатов поиска с другого уровня (например, с восьмого уровня (не показан)) для объединения в пару с корневым узлом 412.

[00121] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения дополнительно позволяет формировать положительный обучающий пример путем объединения в пару данного узла (такого как корневой узел 412) и одного из непосредственно соединенных с ним дочерних узлов (например, первого узла 414). В этом случае входные данные 304 обучения соответствуют отрицательному обучающему примеру и положительному обучающему примеру (если он имеется).

[00122]

Второй вариант

[00123] Далее со ссылкой на фиг. 3 описан второй неограничивающий вариант осуществления для формирования обучающих входных данных 304.

[00124] Подобно первому варианту осуществления, здесь сервер 130 обучения может принимать пакет 302 данных, содержащий множество журналов 128 запросов.

[00125] Затем сервер 130 обучения выбирает из множества журналов 128 запросов две страницы SERP, содержащие по меньшей мере один общий результат поиска.

[00126] На фиг. 5 показаны первая страница 212 SERP и вторая страница 214 SERP.

[00127] Пусть, например, результат A4 поиска соответствует результату B13 поиска. В представленном примере результат A4 поиска расположен в первой позиции на первой странице 212 SERP, а результат B13 поиска расположен в тринадцатой позиции на второй странице 214 SERP.

[00128] Пусть также второй результат поиска (результат поиска А2) на первой странице 212 SERP имеет наибольший параметр взаимодействия с пользователем на странице 212 SERP. В некоторых неограничивающих вариантах осуществления настоящей технологии результат поиска с наибольшим взаимодействием соответствует результату поиска, выбранному пользователем на первой странице 212 SERP, или результату поиска с наибольшим временем взаимодействия с пользователем.

[00129] В некотором неограничивающем варианте осуществления настоящей технологии сервер 130 обучения способен определять произведение положения результата A4 поиска и положения результата B13 поиска. Другими словами, сервер 130 обучения позволяет перемножать позиции общего результата поиска на первой странице 212 SERP и на второй странице 214 SERP. С учетом того, что результат A4 поиска является четвертым результатом поиска на первой странице 212 SERP, а результат B13 поиска находится в тринадцатой позиции на второй странице 214 SERP, это произведение равно 52.

[00130] В некоторых неограничивающих вариантах осуществления настоящей технологии если это произведение превышает заранее заданное пороговое значение (например, 50), сервер 130 обучения формирует отрицательный обучающий пример путем объединения второго поискового запроса 204 в пару с результатом поиска с наибольшим взаимодействием на странице 212 SERP (что соответствует результату A2 поиска).

[00131] Например, если заранее заданное пороговое значение равно 50, сервер 130 обучения может объединить второй поисковый запрос 204 в пару с результатом A2 поиска в качестве отрицательного обучающего примера. С другой стороны, если заранее заданное пороговое значение равно 60 (т.е. больше 52), сервер 130 обучения не объединяет второй поисковый запрос 204 в пару с результатом A2 поиска (т.е. не формирует отрицательного обучающего примера).

[00132] На назначение заранее заданного порога не накладывается ограничений, например, оно может определяться администратором сервера 130 обучения. Из вышеизложенного следует понимать, что когда произведение двух позиций дает большее значение, это свидетельствует о том, что документ был ранжирован ниже в результатах поиска, следовательно, даже если этот документ имеет отношение к обоим запросам, он является не самым релевантным документом для цели поиска для по меньшей мере одного из поисковых запросов. Другими словами, неограничивающие варианты осуществления настоящих технологий позволяют находить два поисковых запроса (и связанные с ними страницы SERP), связанные (общим документом), но не очень близкие (общий документ находится на позициях с низким рангом).

[00133] В некоторых неограничивающих вариантах осуществления настоящей технологии сервер 130 обучения дополнительно формирует положительный обучающий примера путем объединения первого поискового запроса 202 в пару с результатом поиска с наибольшим взаимодействием на первой странице 212 SERP (т.е. с результатом A2 поиска).

[00134] В этом случае входные данные 304 обучения соответствуют отрицательному обучающему примеру и положительному обучающему примеру (если он имеется).

[00135] Несмотря на то, что приведенное выше описание формирования отрицательного обучающего примера (и положительного обучающего примера) относится к двум страницам SERP (к первой странице 212 SERP и ко второй странице 214 SERP), следует понимать, что это сделано для простоты объяснения и что обучающие входные данные 304 могут содержать больше отрицательных и положительных обучающих примеров, сформированных из других поисковых результатов.

Обучение MLA

[00136] Далее со ссылкой на фиг. 3 описано обучение алгоритма 300 MLA с использованием обучающих входных данных 304, сформированных в соответствии с первым и вторым вариантами осуществления.

[00137] Обучающие входные данные 304 вводятся в алгоритм 300 MLA. Алгоритм 300 MLA содержит логику обучения для определения набора признаков, связанных с каждым отрицательным примером обучения. На реализацию алгоритма 300 MLA не накладывается ограничений. В некоторых неограничивающих вариантах осуществления настоящей технологии алгоритм 300 MLA реализован в виде нейронной сети.

[00138] В частности, с учетом того, что каждый из обучающих примеров является отрицательным обучающим примером, алгоритм 300 MLA может определять, какой набор признаков указывает на низкую релевантность результата поиска поисковому запросу.

[00139] Соответственно, алгоритм 300 MLA может формировать предполагаемую функцию, когда он выполняется сервером 118 как частью поисковой службы 124, способной назначать параметр ранжирования результату поиска в ответ на полученный поисковый запрос этапа использования на основе набора признаков, связанных с поисковым запросом и с результатом поиска.

[00140] Несмотря на то, что здесь представлен лишь один пример обучения алгоритма 300 MLA, это сделано для простоты иллюстрации. Следует ясно понимать, что обучение алгоритма 300 MLA выполняется итерационно с использованием множества как отрицательных, так и положительных обучающих примеров.

[00141] Представленная на фиг. 4 архитектура и описанные выше примеры позволяют выполнять реализуемый на компьютере вышеуказанный способ. На фиг. 7 приведена блок-схема способа 700 для формирования отрицательного обучающего примера. Способ 700 выполняется в соответствии с не имеющими ограничительного характера вариантами осуществления настоящей технологии. Способ 700 может выполняться сервером 130 обучения.

[00142] Шаг 702: извлечение из базы данных журнала поиска на сервере множества страниц SERP, при этом страница из множества страниц SERP сформирована в ответ на поисковый запрос из множества поисковых запросов и содержит множество документов, отвечающих на этот поисковый запрос.

[00143] Способ 700 начинается с шага 702, на котором сервер 130 обучения извлекает пакет 302 данных из базы 126 журналов. Пакет 302 данных содержит множество журналов 128 запросов.

[00144] Журналы 128 запросов предназначены для регистрации поисковых запросов, выполненных с использованием сервера 118. В частности, в журналах 128 запросов хранятся термины поисковых запросов (т.е. искомые слова) и связанные с ними результаты поиска. Например, каждый журнал запросов, включенный во множество журналов 128 запросов, связан с соответствующим электронным устройством (таким как электронное устройство 102). Следует отметить, что журналы 128 запросов могут поддерживаться в обезличенной форме, при этом поисковые запросы невозможно соотнести с пользователями, отправившими эти поисковые запросы.

[00145] Шаг 704: формирование сервером графа, в котором множество документов на множестве страниц SERP сопоставлено со множеством запросов, при этом узел графа содержит поисковый запрос из множества поисковых запросов и соединен с первым подмножеством узлов, каждый узел из первого подмножества узлов содержит документ из множества документов, связанный с этим поисковым запросом, узел из первого подмножества узлов соединен со вторым подмножеством узлов и каждый узел из второго подмножества узлов содержит поисковые запросы, связанные с документом этого узла.

[00146] На шаге 704 после приема пакета 302 данных обучающий сервер формирует дерево 400 данных или граф 600.

[00147] Например, в графе 600 каждый из кругов соответствует уникальному поисковому запросу, а каждый из прямоугольников соответствует уникальному результату поиска. Для простоты все круги и прямоугольники называются здесь узлами.

[00148] Например, первый узел 602 соответствует первому поисковому запросу 202, связанному с четырьмя узлами (в частности, со вторым узлом 604), каждый из которых соответствует результату поиска, представленному на первой странице 212 SERP. Несмотря на то, что первый узел 602 показан как соединенный с четырьмя узлами, это сделано лишь с целью иллюстрации. Предполагается, что первый узел 602 может быть соединен с больше или меньше чем четырьмя узлами. Например, первый узел 602 может быть связан со всеми или только с подмножеством (например, 10, 20 и т.д.) результатов поиска на первой странице 212 SERP. В другом примере первый узел 602 может быть связан с подмножеством результатов поиска на первой странице 212 SERP, имеющих наибольший параметр взаимодействия с пользователем.

[00149] Пусть второй узел 604 (соответствующий результату A1 поиска) соединен с первым узлом 602. Тогда второй узел 604 соединен с двумя другими узлами, каждый из которых соответствует поисковому запросу, отличному от первого поискового запроса 202 и связанному со страницей SERP, содержащей результат A1 поиска. В качестве примера можно предположить, что результат B4 поиска соответствует результату A1 поиска, тогда второй узел 604 соединен с третьим узлом 606, соответствующим второму поисковому запросу 204. В другом примере можно предположить, что результат C3 поиска соответствует результату A1 поиска (т.е. второму узлу 604), тогда четвертый узел 608 соответствует третьему поисковому запросу 206.

[00150] Шаг 706: получение указания на поисковый запрос для формирования отрицательного обучающего примера для обучения алгоритма MLA.

[00151] На шаге 706 сервер 130 обучения выбирает узел в графе 600, соответствующий определенному поисковому запросу. Например, сервер 130 обучения может выбрать корневой узел 412.

[00152] Шаг 708: идентификация узла в графе, связанного с поисковым запросом.

[00153] На шаге 708 сервер 130 обучения выбирает узел в графе 600, находящийся на расстоянии заданного числа узлов от корневого узла 412.

[00154] Шаг 710: формирование обучающего набора для использования в качестве отрицательного обучающего примера для поискового запроса при обучении алгоритма MLA, при этом обучающий набор содержит этот поисковый запрос в паре с документом, расположенным в другом узле, находящемся на расстоянии заранее заданного числа узлов от данного узла.

[00155] На шаге 710 сервер 130 обучения формирует отрицательный обучающий пример, соответствующий поисковому запросу корневого узла 412 с узлом, находящимся на расстоянии заданного числа узлов от него.

[00156] Затем способ 700 завершается или возвращается к шагу 702.

[00157] Представленная на фиг. 5 архитектура и описанные выше примеры позволяют выполнять реализуемый на компьютере вышеуказанный способ. На фиг. 8 приведена блок-схема способа 800 для формирования отрицательного обучающего примера. Способ 800 выполняется в соответствии с не имеющими ограничительного характера вариантами осуществления настоящей технологии. Способ 800 может выполняться сервером 130 обучения.

[00158] Шаг 802: извлечение из базы данных журнала поиска первой страницы SERP, связанной с первым запросом, и второй страницы SERP, связанной со вторым запросом, при этом первая страница SERP содержит результат поиска в первой позиции, а вторая страница SERP содержит этот результат поиска во второй позиции.

[00159] Способ 800 начинается с шага 802, на котором сервер 130 обучения извлекает множество журналов 128 из базы 126 журналов.

[00160] Затем сервер 130 обучения выбирает из множества журналов 128 запросов две страницы SERP, содержащие по меньшей мере один общий результат поиска, например, первую страницу 212 SERP и вторую страницу 214 SERP.

[00161] Пусть, например, результат A4 поиска соответствует результату B13 поиска. В представленном примере результат A4 поиска расположен в четвертой позиции на первой странице 212 SERP, а результат B13 поиска расположен в тринадцатой позиции на второй странице 214 SERP.

[00162] Шаг 804: идентификация на первой странице SERP результата поиска с наибольшим взаимодействием.

[00163] На шаге 804 сервер 130 обучения определяет на первой странице 212 SERP результат поиска с наибольшим параметром взаимодействия с пользователем.

[00164] Шаг 806: формирование обучающего набора для использования в качестве отрицательных обучающих примеров при обучении алгоритма MLA, если произведение первой позиции и второй позиции превышает заранее заданное пороговое значение, при этом этот обучающий набор содержит второй запрос в паре с результатом поиска с наибольшим взаимодействием.

[00165] На шаге 806 сервер 130 обучения определяет произведение положения результата A4 поиска и положения результата B13 поиска. Другими словами, сервер 130 обучения способен перемножать позиции общего результата поиска на первой странице 212 SERP и на второй странице 214 SERP. С учетом того, что результат A4 поиска является четвертым результатом поиска на первой странице 212 SERP, а результат B13 поиска находится в тринадцатой позиции на второй странице 214 SERP, это произведение равно 52.

[00166] В некоторых неограничивающих вариантах осуществления настоящей технологии если это произведение превышает заранее заданное пороговое значение, сервер 130 обучения формирует отрицательный обучающий пример путем объединения в пару второго поискового запроса 204 и результата поиска с наибольшим взаимодействием на первой странице 212 SERP (что соответствует результату A2 поиска).

[00167] Затем способ 800 завершается или возвращается к шагу 802.

[00168] Специалистам в данной области должно быть очевидно, что по меньшей мере некоторые варианты осуществления настоящей технологии направлены на расширение арсенала технических средств для решения конкретной технической проблемы, характерной для традиционного метода формирования отрицательных обучающих примеров.

[00169] Очевидно, что не все упомянутые в данном описании технические эффекты должны присутствовать в каждом варианте осуществления настоящей технологии. Например, возможны варианты осуществления настоящей технологии, когда пользователь не получает некоторые из этих технических эффектов, или другие варианты реализации, когда пользователь получает другие технические эффекты либо когда технический эффект отсутствует.

[00170] Специалистам в данной области техники могут быть очевидны модификации и улучшения описанных выше вариантов реализации настоящей технологии. Предшествующее описание приведено лишь в качестве примера, но не для ограничения объема изобретения. Следовательно, объем настоящей технологии ограничен исключительно объемом приложенной формулы изобретения.

[00171] Несмотря на то, что описанные выше варианты реализации приведены со ссылкой на конкретные шаги, выполняемые в определенном порядке, должно быть понятно, что эти шаги могут быть объединены, разделены или что их порядок может быть изменен без отклонения от настоящей технологии. Соответственно, порядок и группировка шагов не носят ограничительного характера для настоящей технологии.

1. Компьютерный способ формирования обучающего набора для обучения алгоритма машинного обучения (MLA), реализованного в системе поиска информации и выполняемого сервером, при этом способ выполняется сервером и включает в себя:

- извлечение из базы данных журнала поиска на сервере множества страниц результатов поисковой системы (SERP), при этом страница из множества страниц SERP формируется в ответ на поисковый запрос из множества поисковых запросов и содержит множество документов, отвечающих на этот поисковый запрос;

- формирование сервером графа, в котором множество документов на множестве страниц SERP и множество запросов сопоставлены таким образом, что:

- узел графа содержит поисковый запрос из множества поисковых запросов и соединен с первым подмножеством узлов, при этом каждый узел из первого подмножества узлов содержит документ из множества документов, связанный с этим поисковым запросом; и

- узел из первого подмножества узлов соединен со вторым подмножеством узлов, при этом каждый узел из второго подмножества узлов содержит поисковые запросы, связанные с документом этого узла;

- получение указания на поисковый запрос для формирования отрицательного обучающего примера для обучения алгоритма MLA;

- идентификацию узла в графе, связанного с этим поисковым запросом; и

- формирование обучающего набора для использования в качестве отрицательного обучающего примера для поискового запроса при обучении алгоритма MLA, содержащего поисковый запрос в паре с документом, расположенным в другом узле, находящемся на расстоянии заранее заданного числа узлов от этого узла.

2. Способ по п. 1, отличающийся тем, что заранее заданное число узлов является нечетным числом узлов.

3. Способ по п. 2, отличающийся тем, что нечетное число узлов является случайным числом от пяти до девяти.

4. Способ по п. 2, отличающийся тем, что нечетное число узлов является заранее заданным числом от пяти до девяти.

5. Способ по п. 1, отличающийся тем, что документ связан с поисковым запросом на основании включения этого документа в соответствующую страницу SERP или выбора этого документа в ответ на отображение соответствующей страницы SERP.

6. Способ по п. 1, отличающийся тем, что другой узел включен в третье подмножество узлов, расположенных на расстоянии заранее заданного числа узлов от этого другого узла, и способ включает в себя выбор этого другого узла из третьего подмножества узлов.

7. Способ по п. 6, отличающийся тем, что выбор другого узла из третьего подмножества узлов включает в себя выбор этого другого узла, если он имеет наибольший параметр взаимодействия с пользователем, указывающий на один или несколько видов действий, выполненных одним или несколькими пользователями в третьем подмножестве узлов.

8. Способ по п. 7, отличающийся тем, что параметр взаимодействия с пользователем для документа указывает на длительность наведения курсора на этот документ и/или на событие «клика» на этом документе.

9. Способ по п. 1, отличающийся тем, что способ дополнительно включает в себя формирование второго обучающего набора для использования в качестве положительного примера, при этом второй обучающий набор содержит поисковый запрос в паре с документом, расположенным в другом узле, непосредственно соединенном с данным узлом.

10. Способ по п. 9, отличающийся тем, что граф представляет собой дерево данных.

11. Способ по п. 10, отличающийся тем, что идентификация узла в графе, связанного с поисковым запросом, включает в себя идентификацию корневого узла дерева данных.

12. Способ по п. 9, отличающийся тем, что граф представляет собой сетчатый граф.

13. Компьютерный способ формирования обучающего набора для обучения алгоритма машинного обучения (MLA), реализованного в системе поиска информации и выполняемого сервером, выполняемый сервером и включающий в себя:

- получение из базы данных журнала поиска первой страницы результатов поисковой системы (SERP), связанной с первым запросом, и второй страницы SERP, связанной со вторым запросом, при этом первая страница SERP содержит результат поиска в первой позиции, а вторая страница SERP содержит этот результат поиска во второй позиции;

- идентификацию на первой странице SERP результата поиска с наибольшим взаимодействием;

- формирование обучающего набора для использования в качестве отрицательных обучающих примеров при обучении алгоритма MLA, если произведение первой позиции и второй позиции превышает заранее заданное пороговое значение, при этом обучающий набор содержит второй запрос в паре с результатом поиска с наибольшим взаимодействием.

14. Способ по п. 13, отличающийся тем, что он включает в себя формирование второго обучающего набора для использования в качестве положительного примера, при этом второй обучающий набор содержит первый запрос и результат поиска с наибольшим взаимодействием.

15. Способ по п. 13, отличающийся тем, что результат поиска с наибольшим взаимодействием содержит выбранный результат поиска на первой странице SERP.

16. Способ по п. 14, отличающийся тем, что результат поиска является одним из множества результатов поиска с взаимодействием, а результат поиска с наибольшим взаимодействием является одним из множества результатов поиска с взаимодействием, имеющим наиболее длительное взаимодействие.

17. Способ по п. 13, отличающийся тем, что заранее заданный порог равен 50.

18. Система для формирования обучающего набора для обучения алгоритма машинного обучения (MLA), реализованного в системе поиска информации и выполняемого сервером, при этом сервер содержит процессор, выполненный с возможностью:

- извлечения из базы данных журнала поиска на сервере множества страниц результатов поисковой системы (SERP), при этом страница из множества страниц SERP сформирована в ответ на поисковый запрос из множества поисковых запросов и содержит множество документов, отвечающих на этот поисковый запрос;

- формирования графа, в котором множество документов на множестве страниц SERP и множество запросов сопоставлены таким образом, что:

- узел графа содержит поисковый запрос из множества поисковых запросов и соединен с первым подмножеством узлов, при этом каждый узел из первого подмножества узлов содержит документ из множества документов, связанный с этим поисковым запросом; и

- узел из первого подмножества узлов соединен со вторым подмножеством узлов, при этом каждый узел из второго подмножества узлов содержит поисковые запросы, связанные с документом этого узла;

- получения указания на поисковый запрос для формирования отрицательного обучающего примера для обучения алгоритма MLA;

- идентификации узла в графе, связанного с этим поисковым запросом; и

- формирования обучающего набора для использования в качестве отрицательного обучающего примера для поискового запроса при обучении алгоритма MLA, содержащего поисковый запрос в паре с документом, расположенным в другом узле, находящемся на расстоянии заранее заданного числа узлов от этого узла.

19. Система по п. 18, отличающаяся тем, что заранее заданное число узлов является нечетным числом узлов.

20. Система для формирования обучающего набора для обучения алгоритма машинного обучения (MLA), реализованного в системе поиска информации и выполняемого сервером, при этом сервер содержит процессор, выполненный с возможностью:

- получения из базы данных журнала поиска первой страницы результатов поисковой системы (SERP), связанной с первым запросом, и второй страницы SERP, связанной со вторым запросом, при этом первая страница SERP содержит результат поиска в первой позиции, а вторая страница SERP содержит этот результат поиска во второй позиции;

- идентификации на первой странице SERP результата поиска с наибольшим взаимодействием;

- формирования обучающего набора для использования в качестве отрицательных обучающих примеров при обучении алгоритма MLA, если произведение первой позиции и второй позиции превышает заранее заданное пороговое значение, при этом обучающий набор содержит второй запрос в паре с результатом поиска с наибольшим взаимодействием.



 

Похожие патенты:

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности идентификации намерения пользователя на основании текстового представления его высказывания.

Изобретение относится к области вычислительной техники. Техническим результатом является обеспечение реализации обучения алгоритма машинного обучения (MLA) формированию прогнозируемого совместного векторного представления для цифрового элемента, представляющего собой потенциальный рекомендуемый элемент в системе рекомендации контента, способной рекомендовать элементы пользователям системы рекомендации контента и размещенной на сервере.

Изобретение относится к микроэлектронике, а именно к интегральным оптическим элементам, в частности к диэлектрическим метаповерхностям со сложным геометрическим профилем, которые могут быть использованы в области квантовых коммуникаций для защиты данных при передаче по каналам широкополосной связи посредством повышения размерности гильбертова пространства за счет использования скалярных пучков с орбитальным угловым моментом (ОУМ).

Группа изобретений относится к системам определения геолокации пользователя посредством применения множества источников различных типов данных, таких как Bluetooth, Wi-Fi, GPS и других аналогичных средств, и может быть использована в сфере информационных технологий, а также в промышленных отраслях техники для определения геолокации сотрудников.

Настоящее изобретение относится к технологиям компьютерного зрения и более конкретно к способам и электронным устройствам для обнаружения трехмерных объектов или для понимания сцены, реализуемым по меньшей мере частично с помощью нейронных сетей. Технический результат заключается в повышении точности обнаружения трехмерных объектов в монокулярных изображениях.

Изобретение относится к сфере нормирования ручного труда и может быть использовано для построения профиля активности и перечня выполняемых действий сотрудниками ручного труда в течение рабочего времени, для дальнейшего анализа и определения эффективности труда, а также оптимизации трудовых процессов на основе обработки временных рядов (сигналов) показаний сенсоров физической активности, закрепленных на теле человека.

Изобретение относится к способам и серверу для обучения алгоритма машинного обучения (MLA) обнаружению объектов в данных датчика. Технический результат заключается в возможности обучить алгоритм MLA распознаванию объектов при менее точном представлении этих объектов в данных датчика.

Изобретение относится к области компьютерной техники и может быть использовано для обнаружения полей на изображениях документов. Техническим результатом является определение точности разметки пользователем полей в документах.

Изобретение относится к области беспроводной связи. Техническим результатом является повышение точности геолокации терминала.

Изобретение относится к области прогнозирования и индикации потенциальных проблем в процессе бурения скважин. Техническим результатом является выявление аномальных параметров в процессе бурения.

Изобретение относится к области вычислительной техники. Техническим результатом является обеспечение реализации обучения алгоритма машинного обучения (MLA) формированию прогнозируемого совместного векторного представления для цифрового элемента, представляющего собой потенциальный рекомендуемый элемент в системе рекомендации контента, способной рекомендовать элементы пользователям системы рекомендации контента и размещенной на сервере.
Наверх