JD의 블로그

구글 클라우드 플랫폼상의 데이터 과학 본문

클라우드/GCP

구글 클라우드 플랫폼상의 데이터 과학

GDong 2020. 1. 20. 21:40

이는 구글 클라우드 플랫폼상의 데이터과학에 있는 내용을 학습하고 정리한 내용을 올리기 위한 글입니다.

 

이 책은 서버리스 방식으로 데이터를 입수하는 것부터 데이터 탐색, 대시보드, 관계형 데이터베이스 및 데이터 스트리밍으로 머신 러닝 모델을 학습시켜 운영하는 것에 이르는 모든 방법을 다루며, 데이터 기반 서비스의 모든 측면을 다룹니다. 

 

공식 깃허브는 여기를 참고하길 바랍니다.

 

1. 데이터에 기반을 둔 의사 결정

 

2. 클라우드에 데이터 입수

  • 항공사 정시 도착 데이터
  • 데이터를 한곳에 저장하지 않는 이유
  • 데이터 입수
  • 월주기로 다운로드 스케줄링

 

3. 혁신적인 대시보드 생성

  • 대시보드로 모델 설명
  • 대시보드를 먼저 만들어야 하는 이유
  • 정확성, 정직성 및 좋은 설계
  • 구글 클라우드 SQL에 데이터 탑재
  • 구글 클라우드 SQL 인스턴스 생성
  • 구글 클라우드 플랫폼과의 상호작용
  • MySQL에 대한 접근 제어
  • 테이블 생성
  • 테이블 채우기
  • 첫 번째 모델 작성
  • 대시보드 작성
  • 데이터 스튜디오로 시작

 

4. 스트리밍 데이터: 송신 및 입수

  • 이벤트 피드 설계
  • 시간 보정
  • 아파치 빔/클라우드 데이터플로우(Dataflow)
  • 이벤트 스트림을 클라우드 pub/sub에 전송
  • 실시간 스트리밍 처리

 

5. 대화형 데이터 탐색

  • 탐색적 데이터 분석
  • 빅쿼리에 항공 운항 데이터 탑재
  • 클라우드 데이터랩을 이용한 탐색적 데이터 분석
  • 품질 제어
  • 출발 지연 시 도착 지연 조건
  • 모델 평가

 

6. 클라우드 데이터프록(Cloud Dataproc)상의 베이즈 분류

  • 맵리듀스와 하둡 생태계
  • 스파크 SQL을 이용한 양자화
  • 피그를 이용한 베이즈 분류법

 

7. 머신러닝: 스파크에서 로지스틱 회귀 분석

  • 로지스틱 회귀 분석
  • 피처 엔지니어링

 

8. 시간-윈도우 집계 피처

  • 시간 평균의 필요성
  • 자바상의 데이터플로우
  • 시간 평균 계산
  • 모니터링, 트러블 슈팅, 성능 튜닝

 

9. 텐서플로를 이용한 머신 러닝 분류기

  • 좀 더 복잡한 모델을 향해
  • 텐서플로에서 데이터 읽기
  • Experiment 구성
  • ML 모델 개선
  • 모델 배포

 

10. 실시간 머신 러닝

  • 예측 서비스 호출
  • 항공편 정보에 예측 추가
  • 스트리밍 파이프라인
  • 트랜잭션, 처리량, 대기 시간
  • 모델 성능 평가

 

 "Data Science on the Google Cloud Platform by Valliappa Lakshmanan (O'Reilly). Copyright 2018 Google Inc."