AWS Cloud/MLA
모델 배포 전략
애드팍
2025. 4. 22. 23:00
728x90
1. ✅ 실시간 추론 (Real-time Inference)
- API 호출마다 즉시 응답이 필요한 경우 사용
- 모델을 엔드포인트(endpoint) 로 띄워 놓고 요청이 들어올 때마다 추론
✅ 예시
- 고객이 웹사이트에 들어올 때마다 상품 추천
- 챗봇이 대화할 때 즉시 응답
- 실시간 사기 탐지 -> Linear Learner 알고리즘 적용
🧠 특징
항목 | 설명 |
지연 시간 | 낮아야 함 (low latency) |
비용 | 항상 인스턴스 떠 있으므로 상대적으로 비쌈 |
AWS 서비스 | SageMaker Endpoint (Real-time Inference) |
2. ✅ 배치 추론 (Batch Inference)
- 사전에 예측을 미리 수행해서 저장
- 실시간 성능은 필요 없고, 대량 처리가 필요한 경우
✅ 예시
- 하루에 한 번 전체 고객에 대해 등급 예측 후 DB에 저장
- 수만 개의 이미지 분석 결과를 미리 추출해 리포트로 생성
🧠 특징
항목 | 설명 |
처리 속도 | 실시간 아님, 지연 가능 |
비용 | 사용한 만큼만 비용 발생 (job 실행할 때만) |
AWS 서비스 | SageMaker Batch Transform, Glue, Lambda + SageMaker Job |
3. ✅ 비동기 추론 (Asynchronous Inference)
- 요청량이 많거나 처리 시간이 오래 걸리는 작업에 적합
- 요청을 큐에 넣고, 완료되면 나중에 결과 전달
✅ 예시
- 영상 분석 (1~2분 걸리는 작업)
- 대용량 PDF 텍스트 분석 후 결과 리포트 발송
🧠 특징
항목 | 설명 |
응답 방식 | 요청-응답이 아닌, 요청 후 나중에 결과 제공 |
비용 | 실시간보단 저렴, job 실행 시간만큼 과금 |
AWS 서비스 | SageMaker Async Inference Endpoint |
4. ✅ 멀티 모델 엔드포인트 (Multi-Model Endpoint)
- 여러 개 모델을 하나의 엔드포인트에 탑재
- 필요할 때만 모델을 로딩해서 사용 → 비용 절감
✅ 예시
- 고객마다 개인화 모델이 다른 경우 (10개 이상 모델)
- 사용자 지역/언어에 따라 다른 모델 사용
🧠 특징
항목 | 설명 |
장점 | 비용 절약 (모델 여러 개지만 인스턴스는 하나) |
단점 | 로딩 시간이 필요 (cold start 가능성) |
AWS 서비스 | SageMaker Multi-Model Endpoint (MME) |
전략별 요약 비교
전략 | 속도 | 시나리오 | 서비스 |
Real-time | 빠름 | 사용자 인터랙션 | Endpoint |
Batch | 느림 (괜찮음) | 대규모 분석, 비즉시성 | Batch Transform |
Async | 중간 | 영상, OCR, 대용량 지연 처리 | Async Inference |
Multi-Model | 빠르나 첫 로딩 느릴 수 있음 | 다수 모델 관리 | Multi-Model Endpoint |
728x90