ОСОБЕННОСТИ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ СРЕДНЕГО БАЛЛА АТТЕСТАТА АБИТУРИЕНТА ПРИ ОБРАБОТКЕ ИЗОБРАЖЕНИЙ АТТЕСТАТОВ

Т. С. Ладогубец; П. Л. Литвиненко; Р. И. Сегол; А. Д. Финогенов

doi:10.33842/2313-125X/2019/15/118/127

Т. С. Ладогубец
П. Л. Литвиненко
Р. И. Сегол
А. Д. Финогенов

DOI: https://doi.org/10.33842/2313-125X/2019/15/118/127

Анотація

В работе на примере анализа более 30 тысяч изображений приложений к аттестату, обработанных КПИ им. Игоря Сикорского в 2018 году, выделены основные проблемы, которые возникают при обработке изображений аттестатов абитуриентов во время вступительной кампании.

Различия в типах загружаемых изображений, количестве и типах представленных на них документов, размерах, качестве снимков, размещении и т.д. не позволяют напрямую использовать методы распознавания текста для выделения оценок и расчета среднего балла.

Частично проблема может быть решена введением на предварительном этапе классификатора, который определит тип представленного документа и определит дальнейшие действия по обработке изображения. Например, довольно распространенным является изображение, на котором размещены оба разворота приложения к аттестату. При наличии всего двух вариантов размещения: сверху титульный разворот страницы, а снизу внутренний или наоборот – дает возможность обрезать часть изображения, и проводить анализ внутреннего разворота. Также распространенной ошибкой является загрузка абитуриентом изображения другого документа: самого аттестата, собственной фотографии, сертификата внешнего независимого оценивания т.д. Различия между подобными изображениями и собственно внутренним разворотом приложения к аттестату столь значительны, что дают возможность отсеять данные документы на уровне классификатора.

Существенной проблемой при распознавании являются различия в разрешении изображения, т.к. наиболее популярные методы машинного обучения используют поточечный анализ.

К сложностям также приводит и огромное количество фотоснимков документа, а не их сканированных копий. В этом случае к рассматриваемым проблемам добавляются наличие фона, центрирование документа, обрезка, тени.

Т.к. анализ текста обычно выполняется на черно-белых изображениях или на изображениях с градациями серого, то контрастность документа также требует дополнительной предобработки.

В работе приведены типовые примеры изображений документов и сделаны выводы о возможности автоматического определения среднего балла на основании сканированных копий.

Завантаження

Дані завантаження ще не доступні.

ОСОБЕННОСТИ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ СРЕДНЕГО БАЛЛА АТТЕСТАТА АБИТУРИЕНТА ПРИ ОБРАБОТКЕ ИЗОБРАЖЕНИЙ АТТЕСТАТОВ

Анотація

Завантаження

Статті цього автора (авторів), які найбільше читають