티스토리 뷰

728x90

DEA 시험에서 30% 이상 언급 된다고 보면 됩니다.

도구 설명 서비스
Apache Spark 분산 데이터 처리 엔진 AWS Glue (Spark 기반)
Apache Hive SQL 기반 데이터 웨어하우스 AWS Glue, EMR
Apache Hudi Incremental data ingestion (CDC 처리) EMR, Glue, Lake Formation
Apache Iceberg 테이블 포맷, ACID 지원, Time travel Athena, Glue, Redshift Spectrum
Apache Parquet 열 지향 포맷, 성능 우수 Glue, Athena, Redshift Spectrum
Apache Kafka 스트리밍 플랫폼 MSK (Managed Kafka)
Apache Flink 실시간 스트림 분석 엔진 Kinesis Data Analytics (for Apache Flink)
Apache Airflow 워크플로우 오케스트레이션 Amazon MWAA (Managed Workflows for Apache Airflow)

 

🔹1. Apache Spark

  • 기능: 대규모 데이터 병렬 처리 (in-memory 처리 가능)
  • DEA 연계: Glue Job 은 내부적으로 Spark 엔진을 사용
  • 출제 포인트
    • DynamicFrame ↔ DataFrame 변환
    • partitionBy 설정, join 전략, pushdown predicate
    • Glue에서 Spark Job의 성능 튜닝 (e.g. worker type, DPUs)

🔹 2. Apache Hive

  • 기능: SQL 기반의 빅데이터 질의 처리 (MapReduce → Spark 기반으로 진화)
  • DEA 연계: Glue Catalog 는 Hive Metastore 와 호환됨
  • 출제 포인트
    • Hive 스타일 파티셔닝 (s3://bucket/data/date=2024-04-11/)
    • Athena/Glue에서 사용되는 파티션 프로젝션 (Partition projection)
    • Glue Table 스키마와 Hive 형식의 정렬/위치 사용

🔹 3. Apache Parquet

  • 기능: 열 지향 포맷 (Columnar Storage Format)
  • DEA 연계: Glue, Athena, Redshift Spectrum에서 최우선 포맷
  • 출제 포인트
    • 압축 및 스캔 효율성 매우 뛰어남 (전체 대신 필요한 열만 읽음)
    • JSON 대비 쿼리 성능 수십 배 향상
    • Glue Job 출력 포맷 지정 시 format: "parquet" 필수

🔹 4. Apache Iceberg

  • 기능: 대용량 테이블 포맷, ACID 지원, Time travel, Partition evolution 지원
  • DEA 연계: Athena, Glue, Redshift Spectrum에서 점점 더 많이 채택
  • 출제 포인트
    • Schema Evolution 가능 (Parquet 등은 불가)
    • Athena에서 SELECT * FROM table FOR TIMESTAMP AS OF ... 사용 가능
    • Glue Catalog + Iceberg 테이블 사용 시 formatVersion, snapshot 등 설정

🔹 5. Apache Hudi

  • 기능: Incremental ingestion / MERGE ON READ 지원
  • DEA 연계: Glue Job + Hudi Sink, Lake Formation 호환
  • 출제 포인트
    • UPSERT, MERGE 쿼리 처리 가능
    • Write operation: COPY ON WRITE / MERGE ON READ
    • CDC 기반 스트리밍 적용 사례로 출제됨

🔹 6. Apache Kafka

  • 기능: 대규모 스트리밍 데이터 처리 (Producer → Broker → Consumer 구조)
  • DEA 연계: MSK (Managed Streaming for Apache Kafka)
  • 출제 포인트
    • MSK → Glue Job으로 실시간 ingestion
    • Kafka vs Kinesis 비교 (Kinesis는 서버리스, Kafka는 사용자 관리형 + 오픈소스)
    • 메시지 보존 기간, 처리량 설정 등 튜닝 항목

🔹 7. Apache Flink

  • 기능: 스트리밍 데이터 실시간 분석 (event-time window, 상태 관리)
  • DEA 연계: Kinesis Data Analytics (for Apache Flink)
  • 출제 포인트
    • Kinesis → Flink SQL Application → S3/Redshift Sink
    • Stream → SQL로 처리하는 실시간 쿼리 방식
    • TUMBLE, HOP, SESSION 윈도우 쿼리 출제

🔹 8. Apache Airflow ★

  • 기능: DAG 기반 워크플로우 스케줄링
  • DEA 연계: MWAA (Managed Workflows for Apache Airflow)
  • 출제 포인트
    • Glue Job, Redshift 쿼리, Lambda 실행 순차 연결
    • S3 → Glue → Redshift → Notification 등의 DAG 정의
    • Retry / SLA / Trigger rule / Sensor 개념 출제

🔍 함께 정리해두면 좋은 비교 표

기술 포맷 AWS 서비스 특징
Parquet 포맷 Glue, Athena, Redshift Spectrum 열 기반, 성능 우수
Iceberg 테이블 포맷 Athena, Glue, Redshift ACID, Schema 변경, Time Travel
Hudi 테이블 포맷 Glue, EMR CDC / UPSERT / Incremental
Spark 엔진 Glue, EMR in-memory 병렬 처리
Flink 엔진 Kinesis Data Analytics 실시간 이벤트 처리
Airflow 워크플로우 MWAA DAG 기반 오케스트레이션
728x90

'AWS Cloud > DEA' 카테고리의 다른 글

DB 용어 정리  (0) 2025.04.12
Lambda 서비스 활용  (0) 2025.04.12
Redshift  (0) 2025.04.11
AWS Glue DataBrew  (0) 2025.04.11
Glue  (0) 2025.04.11
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함