Евразийский сервер публикаций

Евразийская заявка № 202092855

Библиографические данные
(21)202092855 (13) A1
(22)2020.12.23

[ A ] [ B ] [ C ] [ D ] [ E ] [ F ] [ G ] [ H ]

Текущий раздел:


Документ опубликован 2021.10.29
Текущий бюллетень: 2021-10
Все публикации: 202092855

(51) G06F 40/10 (2020.01)
G06F 40/279 (2020.01)
G06N 3/08(2006.01)
(43)A1 2021.10.29 Бюллетень № 10 тит.лист, описание
(31)2020132305
(32)2020.04.28
(33)RU
(71)ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ" (ПАО СБЕРБАНК) (RU)
(72)Шаврина Татьяна Олеговна (RU)
(74)Герасин Б.В. (RU)
(54)СИСТЕМА И СПОСОБ АУГМЕНТАЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
Реферат [ENG]
(57) Изобретение относится к области компьютерной техники, в частности к решениям для работы с алгоритмами машинного обучения в ходе формирования обучающих выборок. Технический результат заключается в повышении точности подбора текстовых данных на основании характеристик текста входной обучающей выборки. Заявленный результат достигается с помощью системы аугментации обучающей выборки для алгоритмов машинного обучения, которая содержит по меньшей мере один процессор; по меньшей мере одно средство памяти; модуль обработки входных данных, выполненный с возможностью получения текстовых данных, формирующих исходную обучающую выборку; нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания; токенизация упомянутых минимально значимых частей; формирование векторных представлений для каждого токена; и формирование усредненного векторного представления нормализованного предложения; модуль обогащения текстовых данных, содержащий набор текстовых данных, собираемых из открытых источников, и метаданные, для их векторизации и построения поискового индекса; модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных; модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве.
Zoom in

Загрузка данных...