티스토리 뷰

AWS Cloud

AWS 데이터 처리 도구 비교표

애드팍 2025. 4. 5. 19:39
728x90

항목 Spark Hive EMR Glue Athena Redshift
정의 분산 처리 엔진 (in-memory) MapReduce 기반 SQL 인터페이스 AWS의 Hadoop/Spark 클러스터 서버리스 ETL (Spark 기반) S3 위 SQL 질의 데이터 웨어하우스
주요 기능 빠른 데이터 처리, ML 지원 SQL on Hadoop Spark/Hive 등 실행 크롤링, 데이터 변환 Ad-hoc SQL 질의 고속 분석, BI
서버 관리 ❌ (직접 관리) ✅ (AWS 관리) ✅ (완전 서버리스)
언어 지원 Scala, Python, Java SQL Spark, Hive, Presto Python (PySpark) SQL SQL
실시간 처리 ✅ (Spark Streaming) ❌ (배치 위주)
S3 연동 보통 수동 설정 보통 수동 ✅ 강력 지원 ✅ 자동 ✅ 기본 대상 ✅ COPY 등 필요
대표 활용 머신러닝, 복잡한 병렬 분석 빅데이터 SQL 분석 유연한 빅데이터 처리 ETL, 크롤링 빠른 쿼리, 로그 분석 BI, 다차원 쿼리
요금 구조 클러스터 기반 클러스터 기반 클러스터 시간 요금 사용한 리소스 기반 쿼리한 데이터량 저장/쿼리 기준

🧠 주요 상황별 추천

사용 시나리오 추천
실시간 처리, ML 파이프라인 🔥 Spark (EMR or Glue 기반)
S3에 저장된 로그를 SQL로 빠르게 분석 ✅ Athena
정기 배치 변환, ETL 자동화 ✅ AWS Glue
대규모 쿼리, BI 연동 ✅ Amazon Redshift
Hadoop + Hive 기반 시스템 마이그레이션 ✅ Amazon EMR

🔁 자주 나오는 혼동 포인트

Vs 구분
Spark vs EMR Spark = 엔진 / EMR = 클러스터 플랫폼
Glue vs Athena Glue = ETL / Athena = 쿼리
Glue vs EMR Glue = 서버리스 + 간편 / EMR = 유연성, 고성능
Athena vs Redshift Athena = S3 위 쿼리 / Redshift = 자체 DB 기반 쿼리

✨ 시험 팁 요약

  • “서버리스 + 간단한 ETL” → ✅ Glue
  • “S3 쿼리만 빠르게 하고 싶다” → ✅ Athena
  • “유연한 빅데이터 플랫폼이 필요하다” → ✅ EMR
  • “실시간 처리 / ML + 빠른 속도” → ✅ Spark
  • “SQL 기반 웨어하우스 분석” → ✅ Redshift
  • “기존 Hadoop SQL 환경 마이그레이션” → ✅ Hive or EMR
728x90

'AWS Cloud' 카테고리의 다른 글

ARN (AWS Resource Name)  (0) 2025.04.01
AWS Step Functions  (0) 2025.04.01
Byte-Range Fetch & Multipart Upload  (0) 2025.03.31
NAT Instance vs NAT GW 비교 분석  (0) 2025.03.31
Elastic Fabric Adapter  (0) 2025.03.31
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함