Евразийский сервер публикаций

Евразийская заявка № 202092855

Библиографические данные

(21)	202092855 (13) A1
(22)	2020.12.23	[ A ] [ B ] [ C ] [ D ] [ E ] [ F ] [ G ] [ H ] Текущий раздел: Документ опубликован 2021.10.29 Текущий бюллетень: 2021-10 Все публикации: 202092855
(51)	*G06F 40/10* (2020.01) *G06F 40/279* (2020.01) G06N 3/08(2006.01)
(43)	A1 2021.10.29 Бюллетень № 10 тит.лист, описание
(31)	2020132305
(32)	2020.04.28
(33)	RU
(71)	ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ" (ПАО СБЕРБАНК) (RU)
(72)	Шаврина Татьяна Олеговна (RU)
(74)	Герасин Б.В. (RU)
(54)	СИСТЕМА И СПОСОБ АУГМЕНТАЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

Реферат [ENG]

(57) Изобретение относится к области компьютерной техники, в частности к решениям для работы с алгоритмами машинного обучения в ходе формирования обучающих выборок. Технический результат заключается в повышении точности подбора текстовых данных на основании характеристик текста входной обучающей выборки. Заявленный результат достигается с помощью системы аугментации обучающей выборки для алгоритмов машинного обучения, которая содержит по меньшей мере один процессор; по меньшей мере одно средство памяти; модуль обработки входных данных, выполненный с возможностью получения текстовых данных, формирующих исходную обучающую выборку; нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания; токенизация упомянутых минимально значимых частей; формирование векторных представлений для каждого токена; и формирование усредненного векторного представления нормализованного предложения; модуль обогащения текстовых данных, содержащий набор текстовых данных, собираемых из открытых источников, и метаданные, для их векторизации и построения поискового индекса; модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных; модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве.

Загрузка данных...