티스토리 뷰

AWS Cloud

AWS Glue

애드팍 2025. 3. 21. 15:22
728x90

AWS GlueETL(Extract, Transform, Load) 작업을 자동화하는 서버리스 데이터 통합 서비스입니다.
즉, 데이터를 수집하고 정제하여 분석이 가능한 형태로 변환하고, 저장하거나 전송하는 모든 과정을 코드 없이 또는 코드 기반으로 처리할 수 있도록 도와주는 서비스입니다.


🔹 Glue의 핵심 목적

단계 설명
Extract (추출) 다양한 데이터 소스에서 데이터를 가져옴 (S3, RDS, JDBC 등)
Transform (변환) 데이터를 정리, 가공, 정제 (예: 날짜 포맷 통일, 불필요한 컬럼 제거 등)
Load (적재) 변환된 데이터를 S3, Redshift, RDS, 데이터 레이크 등에 저장

🔹 Glue의 주요 구성 요소

구성 요소 설명
Glue Data Catalog 전체 데이터의 **메타데이터(테이블, 스키마)**를 저장하는 중앙 저장소
Glue Crawler S3, RDS 등에서 데이터를 자동으로 스캔하고 스키마를 추론하여 카탈로그에 등록
Glue Job 데이터를 변환(ETL)하는 작업. Spark 기반으로 Python/Scala 코드 작성 가능
Glue Studio GUI 기반 시각적 ETL 설계 툴 – 드래그 앤 드롭으로 Job 생성 가능
Glue Trigger Job 실행을 예약하거나 이벤트 기반으로 실행 가능 (예: 매일 자정, S3 파일 업로드 시 등)
Glue Workflow 여러 Job과 트리거를 순차적/병렬로 연결하여 복잡한 데이터 파이프라인 구성 가능

🔹 Glue 작동 흐름 예시

📌 예: S3에 저장된 로그 데이터를 분석 가능한 형태로 가공

 
[1] S3에 원시 로그 업로드
[2] Glue Crawler가 S3를 스캔하고 테이블 스키마 생성 (Data Catalog에 등록)
[3] Glue Job에서 불필요한 컬럼 제거, 날짜 포맷 변경 등의 변환 작업 수행
[4] 변환된 데이터를 S3 또는 Redshift에 저장
[5] Athena나 QuickSight로 데이터 분석

🔹 Glue Job 유형

유형 설명
Spark Job 분산 처리 기반 대용량 ETL (Python/Scala 코드 사용)
Python Shell Job 간단한 스크립트 실행 (pandas 등 경량 처리용)
Streaming Job 실시간 스트리밍 데이터 처리 (Kinesis, Kafka 등)

🔹 Glue가 지원하는 데이터 소스

  • Amazon S3
  • RDS (MySQL, PostgreSQL 등)
  • Redshift
  • DynamoDB
  • JDBC 연결 (Oracle, SQL Server 등)
  • Kinesis, Kafka (Streaming Job)

🔹 AWS Glue vs. Athena vs. EMR

Glue ETL 자동화 서버리스, 데이터 정제 및 이동 중심
Athena SQL 기반 데이터 조회 S3 데이터를 SQL로 빠르게 조회
EMR 빅데이터 분석 Hadoop/Spark 클러스터 기반 대규모 분석용

📌 Glue는 데이터 준비(정제), Athena는 데이터 분석, EMR은 고급 분석 처리에 적합!


🔹 Glue의 장점

서버리스 – 클러스터나 인프라 관리 없이 바로 사용
자동 스키마 인식 (Crawler) – 코드 없이 데이터 구조 추출 가능
다양한 소스 간 연결성 – S3, RDS, Redshift, JDBC 등 폭넓은 통합
시각적 GUI (Glue Studio) – SQL 몰라도 ETL 가능
Data Lake와 연계 최적 – Lake Formation, Athena, QuickSight 등과 연동 가능


🔹 Glue의 주의할 점 / 단점

비용이 작업 시간 기반으로 과금되므로 Job 최적화 필요
복잡한 변환 로직은 Python/Scala 코딩이 필요할 수 있음
매우 실시간 데이터 처리에는 적합하지 않음 (Streaming은 제한적)


🚀 시험 대비 핵심 요약

1️⃣ Glue는 서버리스 ETL 서비스로, 데이터를 수집-정제-변환-적재까지 자동화
2️⃣ Data Catalog + Crawler로 S3/RDS 등의 데이터 구조를 자동 인식
3️⃣ Glue Job을 통해 Spark 기반으로 대규모 데이터 가공 가능
4️⃣ Glue Studio로 코드 없이 시각적으로 워크플로우 설계 가능
5️⃣ S3 → Glue → Redshift 또는 Athena → QuickSight으로 데이터 파이프라인 구축 가능


💡 즉, AWS Glue는 데이터 파이프라인 구축을 자동화하고, 분석을 위한 데이터 정제를 빠르고 쉽게 도와주는 핵심 서비스입니다! 🧠🧹🚀

728x90

'AWS Cloud' 카테고리의 다른 글

AWS OpenSearch  (0) 2025.03.21
AWS Lake Formation  (0) 2025.03.21
AWS GuardDuty  (0) 2025.03.21
AWS Step Functions  (0) 2025.03.21
AWS API Gateway  (2) 2025.03.21
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함