Google Cloud Dataflow 발표 (Google I/O 2014)

Announcing Google Cloud Dataflow

Google의 VP인 Urs Hölzle의 키노트 발표 내용입니다. Urs Hölzle은 구글의 8번째 직원이고, 최초의 기술자 출신 VP입니다.

흥미로운 점은 구글이 이미 1년 전부터 MapReduce를 사용하고 있지 않다는 사실입니다. 본래 구글이 만들어 낸 기술이고, 오픈소스 Hadoop으로 만들어져 여러 곳에서 쓰이고 있는데, 정작 만들어 낸 구글은 더 이상 쓰지 않는다고 합니다.

Cloud Dataflow는 빅데이터 분석 서비스입니다. FlumeJava와 MillWheel을 기반으로 만들어졌습니다. FlumeJava는 programming data-parallel computations을 위한 심플한 순수 자바 라이브러리이고, MillWheel은 구글에서 널리 쓰고 있는 low-latency data-processing applications을 만들기 위한 프레임워크입니다.

예시로 든 것은 스트림 처리지만 배치 잡도 가능합니다. 월드컵 관련 수백만 건의 트윗을 긍정·부정으로 분석하고 국가별로 분류하는 사례입니다. 먼저 Cloud Pub/Sub에서 JSON Stream을 읽고(Read), 데이터를 변환·매핑한 다음(Transform, 구글 번역 API 등도 활용할 수 있습니다) 분석(Analyze)합니다. Dataflow Console 화면에서는 지금까지 어느 정도 처리되었는지를 확인할 수 있습니다.

링크들