음악에서의 보컬 신호 인식을 위한 트레이닝 데이터 자동주석기법 연구

이교구,Markus Cremer

음악에서의 보컬 신호 인식을 위한 트레이닝 데이터 자동주석기법 연구

2009

우리는 음악 신호에서 보컬과(vocal) 비보컬(non-vocal) 신호를 분리하기 위하여 최소한의 노동력으로 많은 양의 트레이닝 데이터를 레이블(label)하는 새로운 방법을 제시한다. 이를 위하여 보컬이 분리된 채널에 인코딩되어 있는 미디(MIDI) 파일을 합성함으로써 오디오 파일을 생성한 후, 합성된 오디오를 다이나믹 타임 워핑(Dynamic Time Warping) 알고리즘을 이용하여 실제 오디오와 정렬한다. 미디 파일의 보컬 라인에 포함되어 있는 노트 온/오프 정보는 정확한 보컬/비보컬 경계를 제공하고, 최소비용 정렬 궤도로부터 실제 리코딩에서도 상응하는 경계를 구한다. 이와 같이 노동력으로부터 자유로운 레이블링 과정을 이용하여 대규모의 트레이닝 데이터를 구축할 수 있으며, 히든 마르코프 모델을 인식기로 할 경우 기대되는 결과를 얻을 수 있음을 실험을 통하여 보인다. 또한 데이터의 규모가 증가함에 따라 성능도 향상되는 것을 보여줌으로써, 제안된 방법을 통하여 생성된 데이터의 유용성을 입증한다.

Keywords:

Correction
Source
Cite
Save
Machine Reading By IdeaReader

References

Citations