Евразийский сервер публикаций
Евразийская заявка на изобретение № 202092855
Библиографические данные | ||||||||||||||||||||||||
| ||||||||||||||||||||||||
Реферат [ENG] | ||||||||||||||||||||||||
(57) Изобретение относится к области компьютерной техники, в частности к решениям для работы с алгоритмами машинного обучения в ходе формирования обучающих выборок. Технический результат заключается в повышении точности подбора текстовых данных на основании характеристик текста входной обучающей выборки. Заявленный результат достигается с помощью системы аугментации обучающей выборки для алгоритмов машинного обучения, которая содержит по меньшей мере один процессор; по меньшей мере одно средство памяти; модуль обработки входных данных, выполненный с возможностью получения текстовых данных, формирующих исходную обучающую выборку; нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания; токенизация упомянутых минимально значимых частей; формирование векторных представлений для каждого токена; и формирование усредненного векторного представления нормализованного предложения; модуль обогащения текстовых данных, содержащий набор текстовых данных, собираемых из открытых источников, и метаданные, для их векторизации и построения поискового индекса; модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных; модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве.
Загрузка данных...
| ||||||||||||||||||||||||
Назад | Новый поиск |