텀블러의 검색 아키텍처
- 검색쿼리 50M/하루
- Solr, Redis, MySQL
- 인덱스
- 모든 블로그 포스트는 600+ 대의 머신에
- 최근 6주 + 최근 4년간 인기글 + 태그 테이블
- 40대의 머신에서 처리
- 랭킹
- 추천에 대한 A/B 테스트는 follow 비율로 판단함.
- 처음엔 Elasticsearch 로 시작했다.
- Elasticsearch는 클러스터 생성이 블랙박스였다.
- reliability를 위해 SolrCloud 로 바꿨다.
- SolrCloud 는 복제가 샤드의 모든 인덱스를 지연시키는 문제가 있어서.
- 결국 Solr + 커스텀 클러스터링으로 구성했다.
https://www.slideshare.net/otisg/search-at-tumblr-nyc-search-meetup