Google Cloud Dataflow 발표 (Google I/O 2014)
- Google의 VP인 Urs Hölzle 의 키노트
- Urs Hölzle: 구글의 8번째 직원이고, 최초의 기술자 출신 VP.
- 이미 1년 전부터
MapReduce
를 사용하고 있지 않다.- Google 이 만들고, 오픈소스
Hadoop
으로 많은 곳에서 쓰고 있는데. - 정작 개발한 Google 은 이제 안 쓰고 있다고 한다.
- Google 이 만들고, 오픈소스
- Cloud Dataflow 는 빅데이터 분석 서비스.
FlumeJava
와MillWheel
을 기반으로 만들어짐.FlumeJava
는 programming data-parallel computations 을 위한 심플한 순수 자바 라이브러리.MillWheel
은 구글에서 널리 쓰고 있는 low-latency data-processing applications 을 만들기 위한 프레임워크.
- e.g. (스트림 처리 예제, 하지만 배치잡도 가능하다)
- 월드컵 관련 수백만건의 트윗을 1. 긍정과 부정 분석 2. 국가별로 분류.
- Read:
Cloud Pub/Sub
에서 JSON Stream을 받는다. - Transform: 데이터를 변환하고 매핑한다. (구글 번역 API 등을 사용할 수 있음)
- Analyze: 분석한다.
Dataflow Console
화면에서 지금까지 어느정도 처리가 되고있는지 확인할 수 있다.
링크들
- Google Cloud Platform Blog: Reimagining developer productivity and data analytics in the cloud - news from Google IO
- Flumejava, Millwheel … No, not NSA codenames: The tech in Google Cloud’s data grokker • The Register
- Google adds a big data service and lots of monitoring to its cloud — Tech News and Analysis
- Google Launches Cloud Dataflow, A Managed Data Processing Service - TechCrunch
- 구글 데이터플로우, 하둡의 ‘대체제’가 아닌 이유