티스토리 뷰
AWS Glue는 ETL(Extract, Transform, Load) 작업을 자동화하는 서버리스 데이터 통합 서비스입니다.
즉, 데이터를 수집하고 정제하여 분석이 가능한 형태로 변환하고, 저장하거나 전송하는 모든 과정을 코드 없이 또는 코드 기반으로 처리할 수 있도록 도와주는 서비스입니다.
🔹 Glue의 핵심 목적
단계 | 설명 |
Extract (추출) | 다양한 데이터 소스에서 데이터를 가져옴 (S3, RDS, JDBC 등) |
Transform (변환) | 데이터를 정리, 가공, 정제 (예: 날짜 포맷 통일, 불필요한 컬럼 제거 등) |
Load (적재) | 변환된 데이터를 S3, Redshift, RDS, 데이터 레이크 등에 저장 |
🔹 Glue의 주요 구성 요소
구성 요소 | 설명 |
Glue Data Catalog | 전체 데이터의 **메타데이터(테이블, 스키마)**를 저장하는 중앙 저장소 |
Glue Crawler | S3, RDS 등에서 데이터를 자동으로 스캔하고 스키마를 추론하여 카탈로그에 등록 |
Glue Job | 데이터를 변환(ETL)하는 작업. Spark 기반으로 Python/Scala 코드 작성 가능 |
Glue Studio | GUI 기반 시각적 ETL 설계 툴 – 드래그 앤 드롭으로 Job 생성 가능 |
Glue Trigger | Job 실행을 예약하거나 이벤트 기반으로 실행 가능 (예: 매일 자정, S3 파일 업로드 시 등) |
Glue Workflow | 여러 Job과 트리거를 순차적/병렬로 연결하여 복잡한 데이터 파이프라인 구성 가능 |
🔹 Glue 작동 흐름 예시
📌 예: S3에 저장된 로그 데이터를 분석 가능한 형태로 가공
🔹 Glue Job 유형
유형 | 설명 |
Spark Job | 분산 처리 기반 대용량 ETL (Python/Scala 코드 사용) |
Python Shell Job | 간단한 스크립트 실행 (pandas 등 경량 처리용) |
Streaming Job | 실시간 스트리밍 데이터 처리 (Kinesis, Kafka 등) |
🔹 Glue가 지원하는 데이터 소스
- Amazon S3
- RDS (MySQL, PostgreSQL 등)
- Redshift
- DynamoDB
- JDBC 연결 (Oracle, SQL Server 등)
- Kinesis, Kafka (Streaming Job)
🔹 AWS Glue vs. Athena vs. EMR
Glue | ETL 자동화 | 서버리스, 데이터 정제 및 이동 중심 |
Athena | SQL 기반 데이터 조회 | S3 데이터를 SQL로 빠르게 조회 |
EMR | 빅데이터 분석 | Hadoop/Spark 클러스터 기반 대규모 분석용 |
📌 Glue는 데이터 준비(정제), Athena는 데이터 분석, EMR은 고급 분석 처리에 적합!
🔹 Glue의 장점
✅ 서버리스 – 클러스터나 인프라 관리 없이 바로 사용
✅ 자동 스키마 인식 (Crawler) – 코드 없이 데이터 구조 추출 가능
✅ 다양한 소스 간 연결성 – S3, RDS, Redshift, JDBC 등 폭넓은 통합
✅ 시각적 GUI (Glue Studio) – SQL 몰라도 ETL 가능
✅ Data Lake와 연계 최적 – Lake Formation, Athena, QuickSight 등과 연동 가능
🔹 Glue의 주의할 점 / 단점
❌ 비용이 작업 시간 기반으로 과금되므로 Job 최적화 필요
❌ 복잡한 변환 로직은 Python/Scala 코딩이 필요할 수 있음
❌ 매우 실시간 데이터 처리에는 적합하지 않음 (Streaming은 제한적)
🚀 시험 대비 핵심 요약
1️⃣ Glue는 서버리스 ETL 서비스로, 데이터를 수집-정제-변환-적재까지 자동화
2️⃣ Data Catalog + Crawler로 S3/RDS 등의 데이터 구조를 자동 인식
3️⃣ Glue Job을 통해 Spark 기반으로 대규모 데이터 가공 가능
4️⃣ Glue Studio로 코드 없이 시각적으로 워크플로우 설계 가능
5️⃣ S3 → Glue → Redshift 또는 Athena → QuickSight으로 데이터 파이프라인 구축 가능
💡 즉, AWS Glue는 데이터 파이프라인 구축을 자동화하고, 분석을 위한 데이터 정제를 빠르고 쉽게 도와주는 핵심 서비스입니다! 🧠🧹🚀
'AWS Cloud' 카테고리의 다른 글
AWS OpenSearch (0) | 2025.03.21 |
---|---|
AWS Lake Formation (0) | 2025.03.21 |
AWS GuardDuty (0) | 2025.03.21 |
AWS Step Functions (0) | 2025.03.21 |
AWS API Gateway (2) | 2025.03.21 |
- Total
- Today
- Yesterday
- 우주
- c#
- 프로그래밍
- mla
- 구독자
- 기초
- 랭킹
- Solution
- 시샵
- 성운
- SageMaker
- Redshift
- Unity
- 강좌
- 개발
- 유튜브
- 판타스틱
- 유니티
- cloud
- exam
- glue
- AWS
- 과학
- 게임개발
- 우주과학
- 학습
- quicksight
- 초급
- 성단
- DEA
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |