Announcing Google Cloud Dataflow

  • Google의 VP인 Urs Hölzle 의 키노트
    • Urs Hölzle: 구글의 8번째 직원이고, 최초의 기술자 출신 VP.
  • 이미 1년 전부터 MapReduce 를 사용하고 있지 않다.
    • Google 이 만들고, 오픈소스 Hadoop 으로 많은 곳에서 쓰고 있는데.
    • 정작 개발한 Google 은 이제 안 쓰고 있다고 한다.
  • Cloud Dataflow 는 빅데이터 분석 서비스.
    • FlumeJavaMillWheel 을 기반으로 만들어짐.
    • FlumeJava 는 programming data-parallel computations 을 위한 심플한 순수 자바 라이브러리.
    • MillWheel 은 구글에서 널리 쓰고 있는 low-latency data-processing applications 을 만들기 위한 프레임워크.
  • e.g. (스트림 처리 예제, 하지만 배치잡도 가능하다)
    • 월드컵 관련 수백만건의 트윗을 1. 긍정과 부정 분석 2. 국가별로 분류.
    • Read: Cloud Pub/Sub 에서 JSON Stream을 받는다.
    • Transform: 데이터를 변환하고 매핑한다. (구글 번역 API 등을 사용할 수 있음)
    • Analyze: 분석한다.
    • Dataflow Console 화면에서 지금까지 어느정도 처리가 되고있는지 확인할 수 있다.

링크들