AWS Cloud
AWS 데이터 처리 도구 비교표
애드팍
2025. 4. 5. 19:39
728x90
항목 | Spark | Hive | EMR | Glue | Athena | Redshift |
정의 | 분산 처리 엔진 (in-memory) | MapReduce 기반 SQL 인터페이스 | AWS의 Hadoop/Spark 클러스터 | 서버리스 ETL (Spark 기반) | S3 위 SQL 질의 | 데이터 웨어하우스 |
주요 기능 | 빠른 데이터 처리, ML 지원 | SQL on Hadoop | Spark/Hive 등 실행 | 크롤링, 데이터 변환 | Ad-hoc SQL 질의 | 고속 분석, BI |
서버 관리 | ❌ (직접 관리) | ❌ | ✅ (AWS 관리) | ✅ (완전 서버리스) | ✅ | ✅ |
언어 지원 | Scala, Python, Java | SQL | Spark, Hive, Presto | Python (PySpark) | SQL | SQL |
실시간 처리 | ✅ (Spark Streaming) | ❌ | ✅ | ❌ (배치 위주) | ❌ | ❌ |
S3 연동 | 보통 수동 설정 | 보통 수동 | ✅ 강력 지원 | ✅ 자동 | ✅ 기본 대상 | ✅ COPY 등 필요 |
대표 활용 | 머신러닝, 복잡한 병렬 분석 | 빅데이터 SQL 분석 | 유연한 빅데이터 처리 | ETL, 크롤링 | 빠른 쿼리, 로그 분석 | BI, 다차원 쿼리 |
요금 구조 | 클러스터 기반 | 클러스터 기반 | 클러스터 시간 요금 | 사용한 리소스 기반 | 쿼리한 데이터량 | 저장/쿼리 기준 |
🧠 주요 상황별 추천
사용 시나리오 | 추천 |
실시간 처리, ML 파이프라인 | 🔥 Spark (EMR or Glue 기반) |
S3에 저장된 로그를 SQL로 빠르게 분석 | ✅ Athena |
정기 배치 변환, ETL 자동화 | ✅ AWS Glue |
대규모 쿼리, BI 연동 | ✅ Amazon Redshift |
Hadoop + Hive 기반 시스템 마이그레이션 | ✅ Amazon EMR |
🔁 자주 나오는 혼동 포인트
Vs | 구분 |
Spark vs EMR | Spark = 엔진 / EMR = 클러스터 플랫폼 |
Glue vs Athena | Glue = ETL / Athena = 쿼리 |
Glue vs EMR | Glue = 서버리스 + 간편 / EMR = 유연성, 고성능 |
Athena vs Redshift | Athena = S3 위 쿼리 / Redshift = 자체 DB 기반 쿼리 |
✨ 시험 팁 요약
- “서버리스 + 간단한 ETL” → ✅ Glue
- “S3 쿼리만 빠르게 하고 싶다” → ✅ Athena
- “유연한 빅데이터 플랫폼이 필요하다” → ✅ EMR
- “실시간 처리 / ML + 빠른 속도” → ✅ Spark
- “SQL 기반 웨어하우스 분석” → ✅ Redshift
- “기존 Hadoop SQL 환경 마이그레이션” → ✅ Hive or EMR
728x90