
3개다 오케스트레이션 도구라 정리가 필요함.항목Apache Airflow (MWAA)Glue WorkflowStep Functions주요 용도복잡한 DAG 기반 데이터 파이프라인 관리Glue Job 중심의 순차 흐름 제어다양한 AWS 서비스 연결 및 상태 기반 흐름대표 서비스Managed Workflows for Apache Airflow (MWAA)AWS Glue WorkflowAWS Step FunctionsUI 편의성강력한 웹 UI (DAG 시각화, 로그 확인 용이)AWS 콘솔 UI에서 단순한 플로우 확인 가능시각적 상태머신 에디터지원 트리거일정, 외부 센서, SLA 등 다양트리거 및 의존성 기반 실행Lambda, EventBridge, API Gateway 등 다양한 이벤트 기반 가능주요 대상 서..

✅ 용어 핵심 정리 용어의미예시Time Travel특정 시점의 데이터 상태로 "돌아가서" 조회할 수 있는 기능"2024년 3월 10일 기준으로 테이블을 조회하라"ACID 트랜잭션데이터의 일관성과 신뢰성을 보장하는 트랜잭션 속성 (Atomicity, Consistency, Isolation, Durability)동시에 여러 작업이 있어도 충돌 없이 완전하게 처리됨Schema Evolution기존 테이블에 새로운 컬럼을 추가하거나 제거해도 쿼리가 작동하도록 지원하는 기능테이블에 new_column 추가해도 기존 쿼리 문제 없음CDC (Change Data Capture)변경된 데이터만 감지해서 가져오는 기능 (Insert/Update/Delete 감지)이전에 없던 신규 행만 가져오거나, 업데이트된 데이터만 ..

✅ Lambda의 각 서비스별 활용 요약 (Glue, Redshift, Kinesis 중심)서비스활용 시점사용 목적출제 포인트Glue전/후처리, Job 트리거워크플로우 제어, 전처리 로직Glue Workflow or Step Functions 내 연결Redshift쿼리 실행 or 후처리Data API 호출, ETL 후 알림Data API를 통해 SQL 실행, Slack 알림Kinesis실시간 이벤트 처리스트림 데이터 필터링 / 분기Stream → Lambda → S3 or SNSS3Trigger파일 업로드 시 자동 실행S3 → Lambda → Glue Job or AlertStep Functions상태 전이 제어AWS 서비스 연결 or 외부 호출Glue + Redshift + Slack 연결EventBr..

DEA 시험에서 30% 이상 언급 된다고 보면 됩니다.도구설명서비스Apache Spark분산 데이터 처리 엔진AWS Glue (Spark 기반)Apache HiveSQL 기반 데이터 웨어하우스AWS Glue, EMRApache HudiIncremental data ingestion (CDC 처리)EMR, Glue, Lake FormationApache Iceberg테이블 포맷, ACID 지원, Time travelAthena, Glue, Redshift SpectrumApache Parquet열 지향 포맷, 성능 우수Glue, Athena, Redshift SpectrumApache Kafka스트리밍 플랫폼MSK (Managed Kafka)Apache Flink실시간 스트림 분석 엔진Kinesis Dat..

해당 포스트는 DEA 용 정리입니다.SAA, SAP 에서는 이렇게 자세히 요구하지 않습니다. 🔹 1. Redshift 개요항목설명유형완전관리형 MPP (Massively Parallel Processing) 기반 데이터 웨어하우스목적페타바이트급 데이터 분석 / OLAP 처리를 빠르게아키텍처Leader Node + Compute Node 구조비용컴퓨트 기준 (on-demand or RA3 + Redshift Serverless)🔹 2. Redshift의 주요 구성 요소구성 요소설명Leader NodeSQL 파싱, 실행 계획 생성, 노드 간 작업 분배Compute Node실제 데이터 저장 및 쿼리 처리Node TypeRA3 (스토리지 분리형), DC2 (스토리지 결합형)SpectrumS3의 외부 데이터를..

코드 없이 데이터 준비(클렌징, 변환, 분석) 를 할 수 있는GUI 기반 데이터 프로파일링 & 정제 도구✅ 핵심 기능 요약항목설명🧼 데이터 정제 (Data Cleansing)null 제거, 이상치 제거, 포맷 통일 등🔁 데이터 변환 (Transform)필드 스플릿, 병합, 필터링, 포맷 변경📊 프로파일링각 컬럼의 null 비율, 유일값 수, 패턴 등 시각화🔍 정규표현식 기반 필터링특정 컬럼명 or 값 기반으로 컬럼 선택, 값 필터 가능🧪 150개 이상의 변환 템플릿 제공 💥 GUI 기반 워크플로우클릭 몇 번으로 전체 흐름 설계 가능🔄 출력Parquet, CSV 등으로 S3에 저장🧑💻 개발 지식 없이도 가능SQL, PySpark 몰라도 ETL 구축 가능💡 DataBrew이 Glue Jo..

이거만 알면 Glue 관련 내용은 마스터~근데 실습 해보는게 좋을거에요.. 막상 해보면 어려움..근데 돈 드니.. 조심스럽게... ✅ 1. Glue Crawler – 데이터 스키마 자동 추출기능📥 S3, RDS, JDBC 등 소스에서 메타데이터 추출🔍 파일 포맷 감지 + 파티셔닝 추론🔁 UPDATE_IN_DATABASE, LOG, DEPRECATE 옵션으로 테이블 변경 감지📚 결과는 Glue Data Catalog에 테이블로 저장됨✅ 2. Glue Data Catalog – 메타데이터 저장소기능모든 데이터의 스키마/위치 정보 저장Athena, Redshift Spectrum, EMR, Glue Job이 공유함Lake Formation과 연동 시 권한 관리의 기준점 역할Crawler로 자동 등록 /..

Redshift RA3란?Redshift 클러스터의 최신 세대 노드 타입기존 DC2나 DS2와는 다르게,컴퓨팅과 스토리지를 분리해서 확장 가능하게 설계됨✅ RA3의 핵심 특징항목설명🧠 스토리지 & 컴퓨트 분리스토리지는 Amazon Redshift Managed Storage (RMS) 로 관리됨 → 클러스터 크기에 상관없이 TB~PB 저장 가능📈 동적 스토리지 계층화자주 쓰는 데이터는 로컬 SSD, 덜 쓰는 건 자동으로 S3 기반 RMS로 이동🤝 데이터 공유 기능RA3에서만 가능 — 다른 계정이나 클러스터와 쿼리 가능한 형태로 테이블 공유 가능💸 비용 효율스토리지는 사용한 만큼 과금 (스토리지 따로), 컴퓨트 리소스는 유연하게 늘리고 줄일 수 있음🔄 쿼리 캐시 최적화 + 자동 진단쿼리 결과 재사..

🧠 Kafka란?대규모 실시간 데이터 스트리밍을 위한 오픈소스 분산 메시지 브로커Producer → Kafka → Consumer 구조초당 수천 ~ 수백만 건의 이벤트 처리 가능금융/게임/로깅/클릭스트림 분석에서 자주 씀🏷️ Amazon MSK (Managed Streaming for Kafka)Kafka를 AWS에서 완전관리형 서비스로 제공한 것서버 설치/운영 없이 Kafka 클러스터 생성 가능Kinesis처럼 쓰지만 Kafka API 호환주로 Kafka를 이미 쓰던 기업이 AWS로 이전할 때 사용🆚 Kafka(MSK) vs Kinesis 차이 항목MSKKinesis운영 방식오픈소스 기반, AWS에서 관리완전 AWS 네이티브시작 속도복잡, 클러스터 설정 필요간단, 콘솔 몇 번 클릭기능성능 세밀 제..

둘 다 Spark 기반 분산 데이터 처리 객체AWS Glue Job 내에서 데이터를 읽고, 변환하고, 저장할 때 사용변환 함수(filter, map, select 등) 적용 가능🔷 DynamicFrameGlue에 특화된 구조로, 스키마가 유동적인 데이터나 반정형 데이터(JSON, XML 등) 를 다룰 때 적합특징설명스키마 유연성필드가 다르거나 없는 레코드도 수용 가능자체 메서드resolveChoice(), applyMapping() 등 Glue 전용 API 제공사용 대상Glue Crawler로 생성된 테이블 / JSON 데이터변환 전 처리오류 허용, 필드 누락 자동 처리예시 코드:dynamic_frame = glueContext.create_dynamic_frame.from_catalog(...) dy..
- Total
- Today
- Yesterday
- 성운
- 성단
- Solution
- 학습
- cloud
- Unity
- 기초
- 시샵
- 랭킹
- 강좌
- Redshift
- 우주
- AWS
- 초급
- SageMaker
- 판타스틱
- 유튜브
- DEA
- quicksight
- glue
- exam
- 개발
- c#
- 프로그래밍
- 과학
- 유니티
- 우주과학
- 구독자
- mla
- 게임개발
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |