Data Engineering/Hadoop

Hadoop 소개

cstory-bo 2024. 1. 7. 00:18

Hadoop 소개

점차 데이터 양과 종류가 다양해지면서
비정형 데이터들을 RDBMS에 저장하기에 데이터 크기도 크며 그렇게 까지 상세한 기능이 필요하지 않으면서 비용이 비쌌다.

하둡은 굳이 비싼 장비가 아니라도 어떤 수준의 장비든지 상관없이 설치해서 운용할 수 있으며
단순히 노드를 늘리며 용량을 키울 수 있다. 그리고 데이터 복제본으로 유실이나 장애에 대비할 수 있다는 장점이 있다.

뿐만 아니라 이렇게 여러 노드로 나누어 데이터를 저장하기에 분산 컴퓨팅을 통해 성능을 향상할 수 있다.

Hadoop 생태계

하둡 버전1은 분산 파일 관리 시스템인 HDFS와 데이터 처리를 위한 mapreduce 프레임워크만 제공했다.
버전 2로 가면서 Yarn이라는 resource management 프레임워크를 도입하여 유연하게 분산 처리 작업을 할 수 있는 아키텍처로 업그레이드 하였다.

대용량 데이터를 다루는 것은 기술적인 난이도가 높으며 개발 공수가 크다. 또한 기술 난이도가 높고 복잡한만큼 버그도 많고 버그로 인한 사이드 이펙트 또한 크기 때문에 안정적인 이용을 위해서는 성숙에 더는 시간이 필요하다.

하둡 에코시스템은 이 과정을 거치면서 발전한 에코시스템인 만큼 현재 많은 레퍼런스와 함께 안정적으로 운영되어 오고 있다. 새로운 대용량 분산시스템이 등장하더라도 이러한 과정을 거쳐야 하기 때문에 금방 대체되기는 어렵다.