Классификация документов

ЗАДАЧА

Специализированный депозитарий «Инфинитум» обратился с запросом уменьшения нагрузки и ошибок сотрудников, обрабатывающих входящую документацию.

От Byndyusoft требовалось спроектировать, разработать и внедрить сервис отбирающий нужные типы входящих документов и передающий их сотрудникам для обработки.

РЕШЕНИЕ

Мы проанализировали входящую документацию и установили, что 5 типов документов составляют 39,35% всего объёма. Автоматическая классификация этих типов приносила наибольшую ценность. Поэтому в первой версии решено было обрабатывать только их.

Чтобы обрабатывать все виды электронных документов мы разработали адаптеры для каждого формата:

Word, Excel;
PDF;
JPG, PNG, BMP;
TXT;
выгрузок из 1C.

Для извлечения текста из сканов и изображений создана система распознавания текста на базе CRAFT и RCNN-моделей.

Весь текст приводится к единому формату и передаётся специально обученной ML-модели классификации, реализованной на базе дистиллированной BERT-модели.

Для реагирования на изменение формы входящих документов и улучшения качества модели мы построили систему мониторинга. Система отслеживает ручное исправление типа документа при дальнейшей обработке и рассчитывает online-метрики качества. Техподдержка получает алерты при превышении пороговых значений ошибок распознавания и сообщает команде разработки, которая обновляет ML-модель.

Компания Byndyusoft подключилась к цифровой трансформации Инфинитум. Вместе мы сделали очень много. В работе ребят я оценил:
— знание и использование последних технологий
— методология разработки. Нравится, что исполнители не исполняют, а могут опросить заказчика
— коммуникативность
— готовность обучать наших разработчиков
— заинтересованность в работе и результате
— оперативность при решении орг. вопросов

Александр Круглов, начальник управления программных разработок Инфинитум

РЕЗУЛЬТАТ

15 000 документов классифицируются за 8 часов одним сервисом на CPU, без видеокарт.
Точность 94,2–99,7% в зависимости от типа документа.
Заложена база для дальнейшей маршрутизации обработки на основе типа документа.
Решение построено на микросервисной архитектуре и готово к горизонтальному масштабированию.

39,35%

документооборота распознаётся системой

1,8 с

на один документ

ML · Компьютерное зрение · B2B

Включен в Росреестр

Автономный модуль по оцифровке документов и изображений, основанный на технологиях машинного обучения. Извлекает содержимое из 720 страниц в час.

Подробнее

Классификация документов

Экстрактор данных