러스터 파일 시스템 기반 하둡 맵리듀스 실행 환경 구현 및 성능 분석

2015 
하둡은 오픈소스 기반의 분산 데이터 처리 프레임워크로서 과학 및 상용 분야에서 널리 사용되고 있는데 최근에 대규모 데이터의 실시간 처리 및 분석을 위해 고성능 컴퓨팅(HPC) 기술을 활용하여 하둡을 고성능화하기 위한 연구가 시도되고 있다. 본 논문에서는 하둡의 기본 파일시스템 구현인 하둡 분산파일시스템(HDFS)을 고성능 병렬 분산파일시스템인 러스터 파일시스템으로 대체하여 사용할 수 있도록 하둡 파일시스템 라이브러리를 확장하여 구현하였고 하둡이 제공하는 표준 벤치마크 도구를 사용하여 성능을 분석하였다. 실험 결과 러스터 파일시스템 기반으로 하둡 맵리듀스 응용을 수행하는 경우에 2-13배의 성능 향상이 있음을 확인할 수 있었다.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    0
    Citations
    NaN
    KQI
    []