AWS Cloud/DEA

AWS Glue DataBrew

애드팍 2025. 4. 11. 12:05
728x90

코드 없이 데이터 준비(클렌징, 변환, 분석) 를 할 수 있는
GUI 기반 데이터 프로파일링 & 정제 도구


✅ 핵심 기능 요약

항목 설명
🧼 데이터 정제 (Data Cleansing) null 제거, 이상치 제거, 포맷 통일 등
🔁 데이터 변환 (Transform) 필드 스플릿, 병합, 필터링, 포맷 변경
📊 프로파일링 각 컬럼의 null 비율, 유일값 수, 패턴 등 시각화
🔍 정규표현식 기반 필터링 특정 컬럼명 or 값 기반으로 컬럼 선택, 값 필터 가능
🧪 150개 이상의 변환 템플릿 제공  
💥 GUI 기반 워크플로우 클릭 몇 번으로 전체 흐름 설계 가능
🔄 출력 Parquet, CSV 등으로 S3에 저장
🧑‍💻 개발 지식 없이도 가능 SQL, PySpark 몰라도 ETL 구축 가능

💡 DataBrew이 Glue Job과 다른 점

비교 항목Glue JobDataBrew
비교 항목 Glue Job DataBrew
방식 PySpark 기반 코드 처리 GUI 기반 시각적 처리
대상 사용자 개발자/엔지니어 중심 데이터 분석가 / 비개발자 중심
사용 난이도 복잡한 로직 구현 가능 빠르게 일반적 데이터 준비 가능
정제 기능 자유도 높고 유연 템플릿 기반이지만 빠르고 편함
프로파일링 수동 구현 자동 통계 시각화 지원

📚 시험에서 자주 나오는 패턴

🔸 패턴 1 – 데이터 프로파일링

❓ "컬럼별 null 비율, 패턴 다양성, 분포 등을 시각화로 분석하려 한다.
가장 적절한 AWS 서비스는?"

✅ 정답: DataBrew


🔸 패턴 2 – 코드 없이 빠르게 데이터 포맷 변경

❓ "비개발자가 JSON 데이터를 Parquet으로 변환하여 S3에 저장하려고 한다.
가장 적절한 도구는?"

✅ 정답: DataBrew

728x90