
Классификация документов
Мы проанализировали входящую документацию и установили, что 5 типов документов составляют 39,35% всего объёма. Автоматическая классификация этих типов приносила наибольшую ценность. Поэтому в первой версии решено было обрабатывать только их.
Чтобы обрабатывать все виды электронных документов мы разработали адаптеры для каждого формата:
- Word, Excel;
- PDF;
- JPG, PNG, BMP;
- TXT;
- выгрузок из 1C.
Для извлечения текста из сканов и изображений создана система распознавания текста на базе CRAFT и RCNN-моделей.
Весь текст приводится к единому формату и передаётся специально обученной ML-модели классификации, реализованной на базе дистиллированной BERT-модели.
Для реагирования на изменение формы входящих документов и улучшения качества модели мы построили систему мониторинга. Система отслеживает ручное исправление типа документа при дальнейшей обработке и рассчитывает online-метрики качества. Техподдержка получает алерты при превышении пороговых значений ошибок распознавания и сообщает команде разработки, которая обновляет ML-модель.

— знание и использование последних технологий
— методология разработки. Нравится, что исполнители не исполняют, а могут опросить заказчика
— коммуникативность
— готовность обучать наших разработчиков
— заинтересованность в работе и результате
— оперативность при решении орг. вопросов
- 15 000 документов классифицируются за 8 часов одним сервисом на CPU, без видеокарт.
- Точность 94,2–99,7% в зависимости от типа документа.
- Заложена база для дальнейшей маршрутизации обработки на основе типа документа.
- Решение построено на микросервисной архитектуре и готово к горизонтальному масштабированию.