AWS Cloud/DEA

Redshift

애드팍 2025. 4. 11. 22:37
728x90

해당 포스트는 DEA 용 정리입니다.

SAA, SAP 에서는 이렇게 자세히 요구하지 않습니다.

 

🔹 1. Redshift 개요

항목 설명
유형 완전관리형 MPP (Massively Parallel Processing) 기반 데이터 웨어하우스
목적 페타바이트급 데이터 분석 / OLAP 처리를 빠르게
아키텍처 Leader Node + Compute Node 구조
비용 컴퓨트 기준 (on-demand or RA3 + Redshift Serverless)

🔹 2. Redshift의 주요 구성 요소

구성 요소 설명
Leader Node SQL 파싱, 실행 계획 생성, 노드 간 작업 분배
Compute Node 실제 데이터 저장 및 쿼리 처리
Node Type RA3 (스토리지 분리형), DC2 (스토리지 결합형)
Spectrum S3의 외부 데이터를 SQL로 직접 쿼리 (스토리지 비용만 청구)
Redshift Serverless 사용량 기반, 인프라 설정 없이 자동 확장

🔹 3. 데이터 적재 (Ingestion)

방식 설명
COPY 명령어 S3, DynamoDB, EMR, Kinesis 등에서 적재. 병렬성 O
UNLOAD Redshift → S3로 내보내기. Parquet 가능
Redshift Data API JDBC/ODBC 없이 HTTP API 로 SQL 실행
Federated Query RDS / Aurora 의 데이터를 Redshift 에서 직접 SQL 조회 가능
Glue + Redshift ETL 처리 후 Redshift 적재 가능. Glue Job Bookmark 지원

🔹 4. 외부 테이블과 Spectrum

개념 설명
External Table Glue Data Catalog 등록된 테이블을 Redshift에서 조회 가능
Redshift Spectrum S3에 저장된 데이터를 직접 분석 (ex. Athena와 유사)
FORMAT Parquet/ORC 권장 (열 기반 포맷)

🔹 5. 성능 최적화 포인트

항목 설명
DISTKEY / SORTKEY 데이터 분산 및 정렬 방식 지정. Join/Filter 성능 향상
Materialized View 반복되는 쿼리 결과를 캐시 형태로 저장
Concurrency Scaling 일시적인 부하를 위한 확장 슬롯 제공 (무료 크레딧 있음)
Workload Management (WLM) 쿼리 우선순위, 메모리 할당 등 큐 기반 설정
Result Cache 동일 쿼리 실행 시 결과 재사용

🔹 6. 보안 및 거버넌스

항목 설명
VPC 기반 배포 네트워크 접근 제어
IAM 역할 / 정책 S3 접근 시 IAM Role 연결 필요
Audit Logging CloudTrail, system table (stl_query, svl_qlog 등)
Data Sharing (RA3) 클러스터 간 데이터 공유. 복사 없이 즉시 조회

🔹 7. 실전 대비 포인트 (DEA 자주 출제)

  • Glue → Redshift 적재 시 DynamicFrame vs DataFrame 차이 및 connection_options
  • S3의 Parquet 파일을 Spectrum으로 조회 → Glue Catalog 필수
  • Redshift Serverless vs Provisioned 비교 (비용/유연성/스케일링 관점)
  • RDS에서 실시간 조회 → Federated Query 사용 (JDBC 기반 연결 필요)
  • 쿼리 성능 비교 시 → DISTKEY / SORTKEY / 컬럼 압축 / Parquet / Materialized View
728x90