AWS Cloud/MLA

모델 배포 전략

애드팍 2025. 4. 22. 23:00
728x90

1. ✅ 실시간 추론 (Real-time Inference)

  • API 호출마다 즉시 응답이 필요한 경우 사용
  • 모델을 엔드포인트(endpoint) 로 띄워 놓고 요청이 들어올 때마다 추론

✅ 예시

  • 고객이 웹사이트에 들어올 때마다 상품 추천
  • 챗봇이 대화할 때 즉시 응답
  • 실시간 사기 탐지 -> Linear Learner 알고리즘 적용

🧠 특징

항목 설명
지연 시간 낮아야 함 (low latency)
비용 항상 인스턴스 떠 있으므로 상대적으로 비쌈
AWS 서비스 SageMaker Endpoint (Real-time Inference)

2. ✅ 배치 추론 (Batch Inference)

  • 사전에 예측을 미리 수행해서 저장
  • 실시간 성능은 필요 없고, 대량 처리가 필요한 경우

✅ 예시

  • 하루에 한 번 전체 고객에 대해 등급 예측 후 DB에 저장
  • 수만 개의 이미지 분석 결과를 미리 추출해 리포트로 생성

🧠 특징

항목 설명
처리 속도 실시간 아님, 지연 가능
비용 사용한 만큼만 비용 발생 (job 실행할 때만)
AWS 서비스 SageMaker Batch Transform, Glue, Lambda + SageMaker Job

3. ✅ 비동기 추론 (Asynchronous Inference)

  • 요청량이 많거나 처리 시간이 오래 걸리는 작업에 적합
  • 요청을 큐에 넣고, 완료되면 나중에 결과 전달

✅ 예시

  • 영상 분석 (1~2분 걸리는 작업)
  • 대용량 PDF 텍스트 분석 후 결과 리포트 발송

🧠 특징

항목 설명
응답 방식 요청-응답이 아닌, 요청 후 나중에 결과 제공
비용 실시간보단 저렴, job 실행 시간만큼 과금
AWS 서비스 SageMaker Async Inference Endpoint

4. ✅ 멀티 모델 엔드포인트 (Multi-Model Endpoint)

  • 여러 개 모델을 하나의 엔드포인트에 탑재
  • 필요할 때만 모델을 로딩해서 사용 → 비용 절감

✅ 예시

  • 고객마다 개인화 모델이 다른 경우 (10개 이상 모델)
  • 사용자 지역/언어에 따라 다른 모델 사용

🧠 특징

항목 설명
장점 비용 절약 (모델 여러 개지만 인스턴스는 하나)
단점 로딩 시간이 필요 (cold start 가능성)
AWS 서비스 SageMaker Multi-Model Endpoint (MME)

전략별 요약 비교

전략 속도 시나리오 서비스
Real-time 빠름 사용자 인터랙션 Endpoint
Batch 느림 (괜찮음) 대규모 분석, 비즉시성 Batch Transform
Async 중간 영상, OCR, 대용량 지연 처리 Async Inference
Multi-Model 빠르나 첫 로딩 느릴 수 있음 다수 모델 관리 Multi-Model Endpoint
728x90