CCTV 원본 영상과 추출된 스켈레톤 영상을 함께 이용 하는 폭력 인식기

주현성 ( Hyun-seong Joo ),김유성 ( Yoo Sung Kim )

CCTV 원본 영상과 추출된 스켈레톤 영상을 함께 이용 하는 폭력 인식기

2020

본 논문은 영상 속 폭력행위를 인식하기 위해 3 차원 컨벌루션을 활용하여 원본 영상과 스켈레톤(skeleton)영상으로부터 추출한 시각 및 움직임 정보를 동시에 활용하는 2-스트림 구조의 폭력상황 인식기를 제안한다. 제안된 폭력상황 인식기에서는 수평, 수직 방향의 큰 움직임이 많이 나타나는 폭력영상의 특성을 활용하기위해 각 방향의 특성을 독립적으로 학습할 수 있는 split-FAST 3 차원 컨벌루션을 활용하고, 3 차원 Attention 을 적용하여 시각 및 움직임 정보 추출 시 영상의 중요지역을 중점적으로 반영하도록 함으로써 촬영 기기의 이동 또는 여러 사람의 뒤엉킴 등으로 영상의 시점 변화나 상황 변화가 잦은 경우에도 강인한 성능을 가질 수 있도록 하였다. 또한 기존의 연구들과 달리 비제약적인 환경에서 CCTV, 모바일 카메라 등으로 촬영된 실제 영상들로 구성된 RLVS 데이터셋을 학습 데이터로 사용함으로써 실제의 폭력 행위를 잘 인식할 수 있도록 하였다. RLVS 를 이용한 평가 실험에서 제안된 폭력상황 인식기가 약 92%의 인식 정확도를 얻었다.

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations