SPECIAL ASPECTS IN THE AUTOMATIC DETERMINATION OF THE AVERAGE SCORE OF THE APPLICANT'S SECONDARY EDUCATION'S CERTIFICATE

2019 
В работе на примере анализа более 30 тысяч изображений приложений к аттестату, обработанных КПИ им. Игоря Сикорского в 2018 году, выделены основные проблемы, которые возникают при обработке изображений аттестатов абитуриентов во время вступительной кампании.          Различия в типах загружаемых изображений, количестве и типах представленных на них документов, размерах, качестве снимков, размещении и т.д. не позволяют напрямую использовать методы распознавания текста для выделения оценок и расчета среднего балла.          Частично проблема может быть решена введением на предварительном этапе классификатора, который определит тип представленного документа и определит дальнейшие действия по обработке изображения. Например, довольно распространенным является изображение, на котором размещены оба разворота приложения к аттестату. При наличии всего двух вариантов размещения: сверху титульный разворот страницы, а снизу внутренний или наоборот – дает возможность обрезать часть изображения, и проводить анализ внутреннего разворота. Также распространенной ошибкой является загрузка абитуриентом изображения другого документа: самого аттестата, собственной фотографии, сертификата внешнего независимого оценивания т.д. Различия между подобными изображениями и собственно внутренним разворотом приложения к аттестату столь значительны, что дают возможность отсеять данные документы на уровне классификатора.          Существенной проблемой при распознавании являются различия в разрешении изображения, т.к. наиболее популярные методы машинного обучения используют поточечный анализ.          К сложностям также приводит и огромное количество фотоснимков документа, а не их сканированных копий. В этом случае к рассматриваемым проблемам добавляются наличие фона, центрирование документа, обрезка, тени.          Т.к. анализ текста обычно выполняется на черно-белых изображениях или на изображениях с градациями серого, то контрастность документа также требует дополнительной предобработки. В работе приведены типовые примеры изображений документов и сделаны выводы о возможности автоматического определения среднего балла на основании сканированных копий.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []