티스토리

문제 해결

검색하기

Redshift

AWS Cloud/DEA

Redshift

애드팍 2025. 4. 11. 22:37

728x90

해당 포스트는 DEA 용 정리입니다.

SAA, SAP 에서는 이렇게 자세히 요구하지 않습니다.

🔹 1. Redshift 개요

항목	설명
유형	완전관리형 MPP (Massively Parallel Processing) 기반 데이터 웨어하우스
목적	페타바이트급 데이터 분석 / OLAP 처리를 빠르게
아키텍처	Leader Node + Compute Node 구조
비용	컴퓨트 기준 (on-demand or RA3 + Redshift Serverless)

🔹 2. Redshift의 주요 구성 요소

구성 요소	설명
Leader Node	SQL 파싱, 실행 계획 생성, 노드 간 작업 분배
Compute Node	실제 데이터 저장 및 쿼리 처리
Node Type	RA3 (스토리지 분리형), DC2 (스토리지 결합형)
Spectrum	S3의 외부 데이터를 SQL로 직접 쿼리 (스토리지 비용만 청구)
Redshift Serverless	사용량 기반, 인프라 설정 없이 자동 확장

🔹 3. 데이터 적재 (Ingestion)

방식	설명
COPY 명령어	S3, DynamoDB, EMR, Kinesis 등에서 적재. 병렬성 O
UNLOAD	Redshift → S3로 내보내기. Parquet 가능
Redshift Data API	JDBC/ODBC 없이 HTTP API 로 SQL 실행
Federated Query	RDS / Aurora 의 데이터를 Redshift 에서 직접 SQL 조회 가능
Glue + Redshift	ETL 처리 후 Redshift 적재 가능. Glue Job Bookmark 지원

🔹 4. 외부 테이블과 Spectrum

개념	설명
External Table	Glue Data Catalog 등록된 테이블을 Redshift에서 조회 가능
Redshift Spectrum	S3에 저장된 데이터를 직접 분석 (ex. Athena와 유사)
FORMAT	Parquet/ORC 권장 (열 기반 포맷)

🔹 5. 성능 최적화 포인트

항목	설명
DISTKEY / SORTKEY	데이터 분산 및 정렬 방식 지정. Join/Filter 성능 향상
Materialized View	반복되는 쿼리 결과를 캐시 형태로 저장
Concurrency Scaling	일시적인 부하를 위한 확장 슬롯 제공 (무료 크레딧 있음)
Workload Management (WLM)	쿼리 우선순위, 메모리 할당 등 큐 기반 설정
Result Cache	동일 쿼리 실행 시 결과 재사용

🔹 6. 보안 및 거버넌스

항목	설명
VPC 기반 배포	네트워크 접근 제어
IAM 역할 / 정책	S3 접근 시 IAM Role 연결 필요
Audit Logging	CloudTrail, system table (stl_query, svl_qlog 등)
Data Sharing (RA3)	클러스터 간 데이터 공유. 복사 없이 즉시 조회

🔹 7. 실전 대비 포인트 (DEA 자주 출제)

Glue → Redshift 적재 시 DynamicFrame vs DataFrame 차이 및 connection_options
S3의 Parquet 파일을 Spectrum으로 조회 → Glue Catalog 필수
Redshift Serverless vs Provisioned 비교 (비용/유연성/스케일링 관점)
RDS에서 실시간 조회 → Federated Query 사용 (JDBC 기반 연결 필요)
쿼리 성능 비교 시 → DISTKEY / SORTKEY / 컬럼 압축 / Parquet / Materialized View

728x90