Blog

AWS 기반 서버리스 데이터레이크 구축하기 ( 김진웅, SK C&C )

내용

데이터 플라이휠

Virtuous Cycle ( 선순환 )
User → Data → Smarter Algorithms → Better Product → User ...

데이터 분석의 딜레마

데이터로 하고 싶은 일
마케팅 / 광고 최적화, 개인화
고객 이탈 방지
원인 분석
매출 증대
성과 측정
트렌드 파악 / 예측
쉽고 편한 분석
이미 겪고 있거나 예상되는 문제들
데이터 한군데 저장 어려움
다양한 데이터 포맷 정제 필요
일단 실험에 드는 부담
레거시 vs 신규 시스템
기술 내재화 어려움
채용 어려움 ( 인력 확보가 어려움 )
시간도 돈도 없음
법과 규제에 따른 데이터 활용 제약 ( 공유, 식별 )

데이터 레이크 정의

AWS 가 정의한 데이터 레이크 : 정형화 또는 비정형화 된 모든 데이터를 중앙 집중화 시킨 것

데이터 레이크, 데이터 옵스

데이터 분석을 하는 시간을 줄이고 품질을 줄이기 위해서 모든 역량을 투입하고, 그 역량을 갖기 위해서 자동화 시키고 프로세스 기반의 방법론
DataOps Manifesto
1.
지속적으로 고객을 만족시켜라
2.
분석을 가치있게 생각해라
3.
변호 수용
4.
다양한 역할, 기술, 도구 수용
5.
매일 협력
6.
자기주도
7.
영중주의를 줄여라
8.
반성하라
9.
분석은 코드다
10.
결합하라
11.
재현 가능하게 만들어라
12.
비용 최소화
13.
단순성
14.
분석은 제조와 같다
15.
품질 제일 중요
16.
품질 및 성능을 모니터링
17.
재사용
18.
사이클 타임을 개선
이상적인 DataOps
목표를 중심으로 스스로 조직
도구, 데이터, 인력 등 모두 장악이 필요함
모든 데이터를 한곳으로 다 모으고, 다양한 이해 관계자와 함께 데이터를 활용할 수 있는 플랫폼을 개발

아키텍처

설계 고려 사항
No-Ops : 관리형 서비스를 사용
GitOps : 모든 인프라, 코드, 스크립트들을 관리
Automation : 자동화

S3 데이터 레이크

구성 사례: AWS Glue 를 사용하여 완전한 서버리스 데이터 웨어하우스로 전환 ( woot.com 예시 )

S3 기반 수집, 처리, 분석

데이터 수집

Batch 서비스를 활용
어떤 규모로든 확장 가능한 완전 관리형 배치 컴퓨팅
구성 사례: 모바일 앱 데이터를 수집하기 위한 타 클라우드 연동 아키텍처
구성 사례: 외부 API 연동 아키텍처 ( Fully Managed Service )
스트리밍 데이터 ( Kinesis Data Firehose )

데이터 처리

비정형 데이터 → 정형 데이터 rhksfl
Glue 서비스를 적극 사용
분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL ( 추출, 변환, 로드 ) 서비스
구성 사례: 이벤트 기반 Glue 파이프라인 구성

데이터 분석

SageMaker
기계 학습 모델을 빠르고 쉽게 구축, 훈련하고 배포까지 지원하는 서비스
SageMaker Jupyter 노트북: 모델 배치, 테스트, 검증
Jupyter 샌드박스 제공
LifeCycle 구성 스크립트 활용하여 사전 환경 구성
사용량 빌링을 위한 Cost Explorer API 연동
Assume Role 을 활용한 원격 Account 분석환경 구성
SageMaker Training
원하는 알고리즘으로 학습 수행 및 모델 저장
엔드포인트는 지속 실행 비용 발생. Transform 은 실제 실행 때만 발생
BI ( Business Intelligence )
QuickSight
완전관리형 클라우드 기반 BI 서비스
SPICE ( QuickSight 용 인메모리 최적화 계산 엔진 ) 을 활용하여 주기적인 업데이트
3rd Party BI 활용 : RedShift - Trableau Server - 포털 연동
데이터 포털 개발

SI 회사에서의 데이터 레이크

Fully Managed Service 를 이용해서 단기적으로 서비스를 만들려고 했음
아키텍처

결론

S3 기반의 서버리스 아키텍처도 충분히 적용 가능
완전 관리형 서비스만이 정답은 아님 ( Challenge )
기존 Hadoop ecosystem 통합
기존 조직과의 R&R ( 정보 보호, 개발, 인프라 등 )
서버리스 컴퓨팅 자원: EKS On Fargate 검토