AWS 데이터 처리 도구 비교표

AWS Cloud

AWS 데이터 처리 도구 비교표

애드팍 2025. 4. 5. 19:39

728x90

항목	Spark	Hive	EMR	Glue	Athena	Redshift
정의	분산 처리 엔진 (in-memory)	MapReduce 기반 SQL 인터페이스	AWS의 Hadoop/Spark 클러스터	서버리스 ETL (Spark 기반)	S3 위 SQL 질의	데이터 웨어하우스
주요 기능	빠른 데이터 처리, ML 지원	SQL on Hadoop	Spark/Hive 등 실행	크롤링, 데이터 변환	Ad-hoc SQL 질의	고속 분석, BI
서버 관리	❌ (직접 관리)	❌	✅ (AWS 관리)	✅ (완전 서버리스)	✅	✅
언어 지원	Scala, Python, Java	SQL	Spark, Hive, Presto	Python (PySpark)	SQL	SQL
실시간 처리	✅ (Spark Streaming)	❌	✅	❌ (배치 위주)	❌	❌
S3 연동	보통 수동 설정	보통 수동	✅ 강력 지원	✅ 자동	✅ 기본 대상	✅ COPY 등 필요
대표 활용	머신러닝, 복잡한 병렬 분석	빅데이터 SQL 분석	유연한 빅데이터 처리	ETL, 크롤링	빠른 쿼리, 로그 분석	BI, 다차원 쿼리
요금 구조	클러스터 기반	클러스터 기반	클러스터 시간 요금	사용한 리소스 기반	쿼리한 데이터량	저장/쿼리 기준

🧠 주요 상황별 추천

사용 시나리오	추천
실시간 처리, ML 파이프라인	🔥 Spark (EMR or Glue 기반)
S3에 저장된 로그를 SQL로 빠르게 분석	✅ Athena
정기 배치 변환, ETL 자동화	✅ AWS Glue
대규모 쿼리, BI 연동	✅ Amazon Redshift
Hadoop + Hive 기반 시스템 마이그레이션	✅ Amazon EMR

🔁 자주 나오는 혼동 포인트

Vs	구분
Spark vs EMR	Spark = 엔진 / EMR = 클러스터 플랫폼
Glue vs Athena	Glue = ETL / Athena = 쿼리
Glue vs EMR	Glue = 서버리스 + 간편 / EMR = 유연성, 고성능
Athena vs Redshift	Athena = S3 위 쿼리 / Redshift = 자체 DB 기반 쿼리

✨ 시험 팁 요약

“서버리스 + 간단한 ETL” → ✅ Glue
“S3 쿼리만 빠르게 하고 싶다” → ✅ Athena
“유연한 빅데이터 플랫폼이 필요하다” → ✅ EMR
“실시간 처리 / ML + 빠른 속도” → ✅ Spark
“SQL 기반 웨어하우스 분석” → ✅ Redshift
“기존 Hadoop SQL 환경 마이그레이션” → ✅ Hive or EMR

728x90