'HDFS' 태그의 글 목록

HDFS 명령어 모음

HDFS 명령어 모음 대부분 리눅스 command와 비슷해서 큰 설명없이도 이해가 쉬웠다. Dir, File 조회 ls hdfs dfs -ls / 파일 출력 lsr hdfs dfs -lsr / 하위 디렉토리 포함하여 파일 출력 du hdfs dfs -du -h / 파일 용량을 확인, h는 사람이 보기 편하게 만들어주는 것이다. hdfs dfs -du -h -s / s 를 붙이면 summary 용량을 확인할 수 있다. cat hdfs dfs -cat filename 파일 내용 출력 text hdfs dfs -text filename 파일 내용 출력하며 압축된 형태도 가능 mkdir hdfs dfs -mkdir dirname dir 생성 head, tail hdfs dfs -head filename hdfs..

Data Engineering/Hadoop 2024.01.09

Hadoop의 High Availability (고가용성) 아키텍처

Name node의 HA 하둡의 버전 1까지는 namenode는 SPOF(Single Point Of Failure)였다. datanode는 수평적 확장이 가능했지만, namenode는 하나의 인스턴스를 유지해야했으며 이 namenode가 이용불가능 해지면 클러스터 전체가 이용 불가하다. HA Architecture 위의 그림처럼 Active, Stanby 2개의 상태 namenode를 두어서 SPOF 문제를 해결했다. active namenode가 다운되면, standby namenode가 승격되어 downtime을 최소화한다. 또한 stanby namenode는 backup namenode 역할도 수행한다. 이처럼 namenode가 예상치 못한 장애에 대해서 자동화된 failover를 수행할 수 있으..

Data Engineering/Hadoop 2024.01.08

HDFS Design Goal & Block Based File System

HDFS HDFS는 하둡의 file system을 말한다. Design Goal 1. Hardware Failure hdfs는 분산 서버에 발생하는 다양한 장애를 빠른 시간에 감지하고 대처할 수 있게 설계되었다. 데이터를 저장하면 복제본을 만들며 분산 서버들은 주기적으로 health check를 통해 장애를 빠르게 감지하고 대처한다. 2. Streaming Data Access HDFS는 클라이언트의 요청을 빠르게 처리하는 것보다 동일한 시간 내에 더 많은 데이터를 처리하는 것을 목표로 한다. 그래서 user와의 상호작용보다는 batch 처리에 더 맞게 디자인 되어있다. HDFS는 Random Access 대신 Streaming 방식으로 데이터를 접근한다. 3. Large Data Sets 하나의 파일이..

Data Engineering/Hadoop 2024.01.07

CStory

HDFS 3

티스토리툴바