ASPMedia24

Главная Бизнес-хайп ТЕКСТОВЫЙ АЛГОРИТМ: ПАТЕНТ
29 Май 2020

ТЕКСТОВЫЙ АЛГОРИТМ: ПАТЕНТ

С помощью нового алгоритма российских программистов можно значительно повысить качество и скорость обработки цифровых документов, создавая массивы информации - библиотеки, базы данных.

Патент: 2721189. Авторы: Cтанислав Семёнов. Патентообладатель: Аби Продакшн.

Развитие электронного документооборота, перевод бумажных носителей в цифровые форматы - тренд последних лет, который только ускорился на фоне пандемии. В цифровые форматы переводятся не только документы последнего времени, но и многочисленные архивные документы. Каждый из документов содержит стандартные поля с информацией определённого вида.

Как правило, набор постоянных полей или разделов, которые заполняются подателями документов, имеют одинаковую структуру, определяемую набором правил. Например, адрес или название продукта. Или классы МПК/МКТУ в заявках, которые отправляются в Роспатент. Соответственно, автор документа заполняет их, используя предсказуемый набор символов и их порядок. Для адреса, в частности, это индекс из шести цифровых символов, типичные сокращения «г.», «ул.», «б-р», «наб.», «кв.» или «оф.» и тому подобное.

На этих алгоритмах «пользовательского поведения» и построена новая разработка известной во всём мире российской компании ABBYY. Способ, который защищён патентом, основан на использовании при обработке текстов документов обучающихся нейронных сетей, иными словами - искусственного интеллекта. Распознавая документы, нейронная сеть изучает характерные способы заполнения одинаковых полей в документах.

Затем обученная нейронная сеть используется при проведении автоматического анализа цифрового документа, например, сравнения его с другим или вычленения из него нужной информации. Благодаря этому снижается вероятность ошибок при анализе неструктурированного текста цифрового документа, а также растёт число возможностей по структурированию информации внутри больших массивов, что расширяет арсенал возможных аналитических построений или статистики.

Подробности способа распознавания документов с помощью искусственного интеллекта - в опубликованном патенте.

Источник: Роспатент

Прочитано 1151 раз

Главная Бизнес-хайп ТЕКСТОВЫЙ АЛГОРИТМ: ПАТЕНТ
Яндекс.Метрика Top.Mail.Ru