AWS Cloud/DEA
AWS Glue DataBrew
애드팍
2025. 4. 11. 12:05
728x90
코드 없이 데이터 준비(클렌징, 변환, 분석) 를 할 수 있는
GUI 기반 데이터 프로파일링 & 정제 도구
✅ 핵심 기능 요약
항목 | 설명 |
🧼 데이터 정제 (Data Cleansing) | null 제거, 이상치 제거, 포맷 통일 등 |
🔁 데이터 변환 (Transform) | 필드 스플릿, 병합, 필터링, 포맷 변경 |
📊 프로파일링 | 각 컬럼의 null 비율, 유일값 수, 패턴 등 시각화 |
🔍 정규표현식 기반 필터링 | 특정 컬럼명 or 값 기반으로 컬럼 선택, 값 필터 가능 |
🧪 150개 이상의 변환 템플릿 제공 | |
💥 GUI 기반 워크플로우 | 클릭 몇 번으로 전체 흐름 설계 가능 |
🔄 출력 | Parquet, CSV 등으로 S3에 저장 |
🧑💻 개발 지식 없이도 가능 | SQL, PySpark 몰라도 ETL 구축 가능 |
💡 DataBrew이 Glue Job과 다른 점
비교 항목Glue JobDataBrew
비교 항목 | Glue Job | DataBrew |
방식 | PySpark 기반 코드 처리 | GUI 기반 시각적 처리 |
대상 사용자 | 개발자/엔지니어 중심 | 데이터 분석가 / 비개발자 중심 |
사용 난이도 | 복잡한 로직 구현 가능 | 빠르게 일반적 데이터 준비 가능 |
정제 기능 | 자유도 높고 유연 | 템플릿 기반이지만 빠르고 편함 |
프로파일링 | 수동 구현 | 자동 통계 시각화 지원 |
📚 시험에서 자주 나오는 패턴
🔸 패턴 1 – 데이터 프로파일링
❓ "컬럼별 null 비율, 패턴 다양성, 분포 등을 시각화로 분석하려 한다.
가장 적절한 AWS 서비스는?"
✅ 정답: DataBrew
🔸 패턴 2 – 코드 없이 빠르게 데이터 포맷 변경
❓ "비개발자가 JSON 데이터를 Parquet으로 변환하여 S3에 저장하려고 한다.
가장 적절한 도구는?"
✅ 정답: DataBrew
728x90