티스토리

문제 해결

검색하기

Apache 기반 핵심 기술 요약 ★★★★★

AWS Cloud/DEA

Apache 기반 핵심 기술 요약 ★★★★★

애드팍 2025. 4. 11. 22:51

728x90

DEA 시험에서 30% 이상 언급 된다고 보면 됩니다.

도구	설명	서비스
Apache Spark	분산 데이터 처리 엔진	AWS Glue (Spark 기반)
Apache Hive	SQL 기반 데이터 웨어하우스	AWS Glue, EMR
Apache Hudi	Incremental data ingestion (CDC 처리)	EMR, Glue, Lake Formation
Apache Iceberg	테이블 포맷, ACID 지원, Time travel	Athena, Glue, Redshift Spectrum
Apache Parquet	열 지향 포맷, 성능 우수	Glue, Athena, Redshift Spectrum
Apache Kafka	스트리밍 플랫폼	MSK (Managed Kafka)
Apache Flink	실시간 스트림 분석 엔진	Kinesis Data Analytics (for Apache Flink)
Apache Airflow	워크플로우 오케스트레이션	Amazon MWAA (Managed Workflows for Apache Airflow)

🔹1. Apache Spark

기능: 대규모 데이터 병렬 처리 (in-memory 처리 가능)
DEA 연계: Glue Job 은 내부적으로 Spark 엔진을 사용
출제 포인트
- DynamicFrame ↔ DataFrame 변환
- partitionBy 설정, join 전략, pushdown predicate
- Glue에서 Spark Job의 성능 튜닝 (e.g. worker type, DPUs)

🔹 2. Apache Hive

기능: SQL 기반의 빅데이터 질의 처리 (MapReduce → Spark 기반으로 진화)
DEA 연계: Glue Catalog 는 Hive Metastore 와 호환됨
출제 포인트
- Hive 스타일 파티셔닝 (s3://bucket/data/date=2024-04-11/)
- Athena/Glue에서 사용되는 파티션 프로젝션 (Partition projection)
- Glue Table 스키마와 Hive 형식의 정렬/위치 사용

🔹 3. Apache Parquet

기능: 열 지향 포맷 (Columnar Storage Format)
DEA 연계: Glue, Athena, Redshift Spectrum에서 최우선 포맷
출제 포인트
- 압축 및 스캔 효율성 매우 뛰어남 (전체 대신 필요한 열만 읽음)
- JSON 대비 쿼리 성능 수십 배 향상
- Glue Job 출력 포맷 지정 시 format: "parquet" 필수

🔹 4. Apache Iceberg

기능: 대용량 테이블 포맷, ACID 지원, Time travel, Partition evolution 지원
DEA 연계: Athena, Glue, Redshift Spectrum에서 점점 더 많이 채택
출제 포인트
- Schema Evolution 가능 (Parquet 등은 불가)
- Athena에서 SELECT * FROM table FOR TIMESTAMP AS OF ... 사용 가능
- Glue Catalog + Iceberg 테이블 사용 시 formatVersion, snapshot 등 설정

🔹 5. Apache Hudi

기능: Incremental ingestion / MERGE ON READ 지원
DEA 연계: Glue Job + Hudi Sink, Lake Formation 호환
출제 포인트
- UPSERT, MERGE 쿼리 처리 가능
- Write operation: COPY ON WRITE / MERGE ON READ
- CDC 기반 스트리밍 적용 사례로 출제됨

🔹 6. Apache Kafka

기능: 대규모 스트리밍 데이터 처리 (Producer → Broker → Consumer 구조)
DEA 연계: MSK (Managed Streaming for Apache Kafka)
출제 포인트
- MSK → Glue Job으로 실시간 ingestion
- Kafka vs Kinesis 비교 (Kinesis는 서버리스, Kafka는 사용자 관리형 + 오픈소스)
- 메시지 보존 기간, 처리량 설정 등 튜닝 항목

🔹 7. Apache Flink

기능: 스트리밍 데이터 실시간 분석 (event-time window, 상태 관리)
DEA 연계: Kinesis Data Analytics (for Apache Flink)
출제 포인트
- Kinesis → Flink SQL Application → S3/Redshift Sink
- Stream → SQL로 처리하는 실시간 쿼리 방식
- TUMBLE, HOP, SESSION 윈도우 쿼리 출제

🔹 8. Apache Airflow ★

기능: DAG 기반 워크플로우 스케줄링
DEA 연계: MWAA (Managed Workflows for Apache Airflow)
출제 포인트
- Glue Job, Redshift 쿼리, Lambda 실행 순차 연결
- S3 → Glue → Redshift → Notification 등의 DAG 정의
- Retry / SLA / Trigger rule / Sensor 개념 출제

🔍 함께 정리해두면 좋은 비교 표

기술	포맷	AWS 서비스	특징
Parquet	포맷	Glue, Athena, Redshift Spectrum	열 기반, 성능 우수
Iceberg	테이블 포맷	Athena, Glue, Redshift	ACID, Schema 변경, Time Travel
Hudi	테이블 포맷	Glue, EMR	CDC / UPSERT / Incremental
Spark	엔진	Glue, EMR	in-memory 병렬 처리
Flink	엔진	Kinesis Data Analytics	실시간 이벤트 처리
Airflow	워크플로우	MWAA	DAG 기반 오케스트레이션

728x90