SPECIAL ASPECTS IN THE AUTOMATIC DETERMINATION OF THE AVERAGE SCORE OF THE APPLICANT'S SECONDARY EDUCATION'S CERTIFICATE

T Ladogubets,P Lytvynenko,R. Segol,A. Finogenov,Kpi name Igor Sikorsky

SPECIAL ASPECTS IN THE AUTOMATIC DETERMINATION OF THE AVERAGE SCORE OF THE APPLICANT'S SECONDARY EDUCATION'S CERTIFICATE

2019

В работе на примере анализа более 30 тысяч изображений приложений к аттестату, обработанных КПИ им. Игоря Сикорского в 2018 году, выделены основные проблемы, которые возникают при обработке изображений аттестатов абитуриентов во время вступительной кампании. Различия в типах загружаемых изображений, количестве и типах представленных на них документов, размерах, качестве снимков, размещении и т.д. не позволяют напрямую использовать методы распознавания текста для выделения оценок и расчета среднего балла. Частично проблема может быть решена введением на предварительном этапе классификатора, который определит тип представленного документа и определит дальнейшие действия по обработке изображения. Например, довольно распространенным является изображение, на котором размещены оба разворота приложения к аттестату. При наличии всего двух вариантов размещения: сверху титульный разворот страницы, а снизу внутренний или наоборот – дает возможность обрезать часть изображения, и проводить анализ внутреннего разворота. Также распространенной ошибкой является загрузка абитуриентом изображения другого документа: самого аттестата, собственной фотографии, сертификата внешнего независимого оценивания т.д. Различия между подобными изображениями и собственно внутренним разворотом приложения к аттестату столь значительны, что дают возможность отсеять данные документы на уровне классификатора. Существенной проблемой при распознавании являются различия в разрешении изображения, т.к. наиболее популярные методы машинного обучения используют поточечный анализ. К сложностям также приводит и огромное количество фотоснимков документа, а не их сканированных копий. В этом случае к рассматриваемым проблемам добавляются наличие фона, центрирование документа, обрезка, тени. Т.к. анализ текста обычно выполняется на черно-белых изображениях или на изображениях с градациями серого, то контрастность документа также требует дополнительной предобработки. В работе приведены типовые примеры изображений документов и сделаны выводы о возможности автоматического определения среднего балла на основании сканированных копий.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations