• 업무에서 실제 많이 쓰는 것은
  • “CVR 향상에 가장 기여하는 행동 패턴”을 찾는 것인 듯 하다.
    • 어떤 유저가 어떤 행동을 했는지 여부를 flag 로 만들어 테이블을 만든다.
    • 그리고 이 유저의 CV여부를 yes/no 로 분류한다.
    • 예를 들어 이렇게.
  • 방법1: 엑셀로 옮긴다.
    • 이벤트(컬럼) 별로 총 합을 계산.
    • CV가 yes로 분류된 비율, no로 분류된 비율을 계산한다.
    • yes비율 - no비율 = CVR에 기여하는 정도가 나온다.
  • 방법2: R로 로지스틱 회귀분석을 한다.
    • Data.glm
    • 이런식으로
  • 근데 방법1과 방법2의 결과가 전혀 다르다.
    • 왜?
    • 변수가 많을 수록, 조합이 중요해진다.
    • 변수가 많으면 association rules 로 시각화해서 보는게 좋다.