AWS Cloud/DEA
Redshift
애드팍
2025. 4. 11. 22:37
728x90
해당 포스트는 DEA 용 정리입니다.
SAA, SAP 에서는 이렇게 자세히 요구하지 않습니다.
🔹 1. Redshift 개요
항목 | 설명 |
유형 | 완전관리형 MPP (Massively Parallel Processing) 기반 데이터 웨어하우스 |
목적 | 페타바이트급 데이터 분석 / OLAP 처리를 빠르게 |
아키텍처 | Leader Node + Compute Node 구조 |
비용 | 컴퓨트 기준 (on-demand or RA3 + Redshift Serverless) |
🔹 2. Redshift의 주요 구성 요소
구성 요소 | 설명 |
Leader Node | SQL 파싱, 실행 계획 생성, 노드 간 작업 분배 |
Compute Node | 실제 데이터 저장 및 쿼리 처리 |
Node Type | RA3 (스토리지 분리형), DC2 (스토리지 결합형) |
Spectrum | S3의 외부 데이터를 SQL로 직접 쿼리 (스토리지 비용만 청구) |
Redshift Serverless | 사용량 기반, 인프라 설정 없이 자동 확장 |
🔹 3. 데이터 적재 (Ingestion)
방식 | 설명 |
COPY 명령어 | S3, DynamoDB, EMR, Kinesis 등에서 적재. 병렬성 O |
UNLOAD | Redshift → S3로 내보내기. Parquet 가능 |
Redshift Data API | JDBC/ODBC 없이 HTTP API 로 SQL 실행 |
Federated Query | RDS / Aurora 의 데이터를 Redshift 에서 직접 SQL 조회 가능 |
Glue + Redshift | ETL 처리 후 Redshift 적재 가능. Glue Job Bookmark 지원 |
🔹 4. 외부 테이블과 Spectrum
개념 | 설명 |
External Table | Glue Data Catalog 등록된 테이블을 Redshift에서 조회 가능 |
Redshift Spectrum | S3에 저장된 데이터를 직접 분석 (ex. Athena와 유사) |
FORMAT | Parquet/ORC 권장 (열 기반 포맷) |
🔹 5. 성능 최적화 포인트
항목 | 설명 |
DISTKEY / SORTKEY | 데이터 분산 및 정렬 방식 지정. Join/Filter 성능 향상 |
Materialized View | 반복되는 쿼리 결과를 캐시 형태로 저장 |
Concurrency Scaling | 일시적인 부하를 위한 확장 슬롯 제공 (무료 크레딧 있음) |
Workload Management (WLM) | 쿼리 우선순위, 메모리 할당 등 큐 기반 설정 |
Result Cache | 동일 쿼리 실행 시 결과 재사용 |
🔹 6. 보안 및 거버넌스
항목 | 설명 |
VPC 기반 배포 | 네트워크 접근 제어 |
IAM 역할 / 정책 | S3 접근 시 IAM Role 연결 필요 |
Audit Logging | CloudTrail, system table (stl_query, svl_qlog 등) |
Data Sharing (RA3) | 클러스터 간 데이터 공유. 복사 없이 즉시 조회 |
🔹 7. 실전 대비 포인트 (DEA 자주 출제)
- Glue → Redshift 적재 시 DynamicFrame vs DataFrame 차이 및 connection_options
- S3의 Parquet 파일을 Spectrum으로 조회 → Glue Catalog 필수
- Redshift Serverless vs Provisioned 비교 (비용/유연성/스케일링 관점)
- RDS에서 실시간 조회 → Federated Query 사용 (JDBC 기반 연결 필요)
- 쿼리 성능 비교 시 → DISTKEY / SORTKEY / 컬럼 압축 / Parquet / Materialized View
728x90