데이터 마이닝을 공부하면서 드는 생각

업무에서 실제로 자주 쓰게 되는 건, “CVR 향상에 가장 크게 기여하는 행동 패턴"을 찾아내는 일인 듯합니다. 어떤 사용자가 어떤 행동을 했는지 여부를 플래그로 만들어 한 테이블에 정리하고, 이 사용자의 CV 여부를 yes/no 로 분류해 둡니다. 예를 들면 이런 모양입니다.

첫 번째 방법은 엑셀로 옮겨 처리하는 방식입니다. 이벤트(컬럼)별로 총합을 계산하고, CV 가 yes 로 분류된 비율과 no 로 분류된 비율을 각각 구합니다. 이 둘의 차이가 곧 CVR 에 기여하는 정도가 됩니다.

두 번째 방법은 R 로 로지스틱 회귀분석을 돌리는 방식입니다. Data.glm 같은 식으로 처리하면 됩니다.

그런데 막상 해 보면 첫 번째 방법과 두 번째 방법의 결과가 전혀 다르게 나옵니다. 왜 그럴까 따져 보면, 변수가 많을수록 변수들 사이의 조합이 결과에 크게 작용하기 때문입니다. 변수가 많을 때는 association rules 로 시각화해서 보는 편이 좋겠다는 생각이 들었습니다.