Airbnb의 A/B 테스트 실험
“Experiments at Airbnb - Airbnb Engineering” 테크 토크를 보고 배운 내용을 정리합니다.
새로운 기능을 추가할 때 A/B 테스트를 합니다. 기존 기능을 쓰는 사용자 그룹과 새 기능을 쓰는 그룹을 비교하고, p-value가 0.05보다 작은지를 확인합니다.
예를 들어 검색 기능의 가격 범위 폭을 $300에서 $1,100으로 바꾼 실험이 있었습니다. 초기에는 예약률이 4% 증가했고 p-value도 0.05 이하로 떨어졌습니다. 그런데 시간이 지나면서 예약률 증가폭이 0%에 가까워지고 p-value도 0.4까지 올라갔습니다.
이렇게 A/B 테스트 결과가 시간에 따라 달라지는 일은 자주 발생합니다. 새로운 기능이 나오면 일단 한번 써 보자는 사용자가 있어서 전환율과 p-value에 영향을 주기 때문입니다.
따라서 p-value가 0.05 이하라고 곧바로 A/B 테스트를 중단하는 것은 경솔한 판단입니다. p-value가 시간이 흘러도 흔들리지 않고 안정되어 있는지를 함께 확인해야 합니다.
A/B 테스트 결과를 검증할 때는 로그도 함께 봐야 합니다. 부정적인 결과가 나왔는데 알고 보니 특정 브라우저의 버그가 원인이었던 사례가 있었다고 합니다.
2014.05.28 추가: AirBnb 개발자 블로그에 문서로 올라왔네요.