Евразийский сервер публикаций

Евразийская заявка на изобретение № 202092855

Библиографические данные

(11) Номер патентного документа	202092855
(21) Номер евразийской заявки	202092855
(22) Дата подачи евразийской заявки	2020.12.23
(51) Индексы Международной патентной классификации	*G06F 40/10* (2020.01) *G06F 40/279* (2020.01) G06N 3/08 (2006.01)
(43)(13) Дата публикации евразийской заявки, код вида документа	A1 2021.10.29 Бюллетень № 10 тит.лист, описание
(31) Номер заявки, на основании которой испрашивается приоритет	2020132305
(32) Дата подачи заявки, на основании которой испрашивается приоритет	2020.04.28
(33) Код страны, идентифицирующий ведомство или организацию, которая присвоила номер заявки, на основании которой испрашивается приоритет	RU
(71) Сведения о заявителе(ях)	ПУБЛИЧНОЕ АКЦИОНЕРНОЕ ОБЩЕСТВО "СБЕРБАНК РОССИИ" (ПАО СБЕРБАНК) (RU)
(72) Сведения об изобретателе(ях)	Шаврина Татьяна Олеговна (RU)
(74) Сведения о представителе(ях) или патентном поверенном	Герасин Б.В. (RU)
(54) Название изобретения	СИСТЕМА И СПОСОБ АУГМЕНТАЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

Реферат [ENG]

(57) Изобретение относится к области компьютерной техники, в частности к решениям для работы с алгоритмами машинного обучения в ходе формирования обучающих выборок. Технический результат заключается в повышении точности подбора текстовых данных на основании характеристик текста входной обучающей выборки. Заявленный результат достигается с помощью системы аугментации обучающей выборки для алгоритмов машинного обучения, которая содержит по меньшей мере один процессор; по меньшей мере одно средство памяти; модуль обработки входных данных, выполненный с возможностью получения текстовых данных, формирующих исходную обучающую выборку; нормализацию данных, при которой выполняется разделение текста на предложения и очистка текста от символов; модуль векторизации данных, выполненный с возможностью преобразования в векторную форму нормализованных предложений, при этом в ходе упомянутого преобразования осуществляется разбиение каждого полученного предложения на минимально значимые части, представляющие собой слова и знаки препинания; токенизация упомянутых минимально значимых частей; формирование векторных представлений для каждого токена; и формирование усредненного векторного представления нормализованного предложения; модуль обогащения текстовых данных, содержащий набор текстовых данных, собираемых из открытых источников, и метаданные, для их векторизации и построения поискового индекса; модуль текстового индекса, выполненный с возможностью формирования текстового индекса по векторным представлениям текстовых данных; модуль аугментации обучающей выборки, выполненный с возможностью дополнения и/или корректировки исходной текстовой выборки на основании подбора релевантных векторных представлений токенов в модуле обогащения текстовых данных с помощью определения меры близости токенов в векторном пространстве.

Загрузка данных...

Новый поиск