데이터 마이닝을 공부하면서 드는 생각
- 업무에서 실제 많이 쓰는 것은
- “CVR 향상에 가장 기여하는 행동 패턴”을 찾는 것인 듯 하다.
- 어떤 유저가 어떤 행동을 했는지 여부를 flag 로 만들어 테이블을 만든다.
- 그리고 이 유저의 CV여부를 yes/no 로 분류한다.
- 예를 들어 이렇게.
- 방법1: 엑셀로 옮긴다.
- 이벤트(컬럼) 별로 총 합을 계산.
- CV가 yes로 분류된 비율, no로 분류된 비율을 계산한다.
- yes비율 - no비율 = CVR에 기여하는 정도가 나온다.
- 방법2: R로 로지스틱 회귀분석을 한다.
Data.glm
- 이런식으로
- 근데 방법1과 방법2의 결과가 전혀 다르다.
- 왜?
- 변수가 많을 수록, 조합이 중요해진다.
- 변수가 많으면 association rules 로 시각화해서 보는게 좋다.