Классификация документов

ЗАДАЧА
Специализированный депозитарий «Инфинитум» обратился с запросом уменьшения нагрузки и ошибок сотрудников, обрабатывающих входящую документацию.
От Byndyusoft требовалось спроектировать, разработать и внедрить сервис отбирающий нужные типы входящих документов и передающий их сотрудникам для обработки.
РЕШЕНИЕ

Мы проанализировали входящую документацию и установили, что 5 типов документов составляют 39,35% всего объёма. Автоматическая классификация этих типов приносила наибольшую ценность. Поэтому в первой версии решено было обрабатывать только их.

Чтобы обрабатывать все виды электронных документов мы разработали адаптеры для каждого формата:

  • Word, Excel;
  • PDF;
  • JPG, PNG, BMP;
  • TXT;
  • выгрузок из 1C.

Для извлечения текста из сканов и изображений создана система распознавания текста на базе CRAFT и RCNN-моделей.

Весь текст приводится к единому формату и передаётся специально обученной ML-модели классификации, реализованной на базе дистиллированной BERT-модели.

Для реагирования на изменение формы входящих документов и улучшения качества модели мы построили систему мониторинга. Система отслеживает ручное исправление типа документа при дальнейшей обработке и рассчитывает online-метрики качества. Техподдержка получает алерты при превышении пороговых значений ошибок распознавания и сообщает команде разработки, которая обновляет ML-модель.

Компания Byndyusoft подключилась к цифровой трансформации Инфинитум. Вместе мы сделали очень много. В работе ребят я оценил:
— знание и использование последних технологий
— методология разработки. Нравится, что исполнители не исполняют, а могут опросить заказчика
— коммуникативность
— готовность обучать наших разработчиков
— заинтересованность в работе и результате
— оперативность при решении орг. вопросов
Александр Круглов, начальник управления программных разработок Инфинитум
РЕЗУЛЬТАТ
  1. 15 000 документов классифицируются за 8 часов одним сервисом на CPU, без видеокарт.
  2. Точность 94,2–99,7% в зависимости от типа документа.
  3. Заложена база для дальнейшей маршрутизации обработки на основе типа документа.
  4. Решение построено на микросервисной архитектуре и готово к горизонтальному масштабированию.