好吧,既然我都把去年十二月的文章發布了,那乾脆趁著還有熱情與記憶的時候,先把去年底完成的競賽心得寫一寫吧!關於競賽的目標,簡單來說,我們要做的就是預測KKBOX的會員在會員期限到期後三十天內是否會續訂。首先直接上官方關於這項比賽的說明:
The 11th ACM International Conference on Web Search and Data Mining (WSDM 2018) is challenging you to build an algorithm that predicts whether a subscription user will churn using a donated dataset from KKBOX. WSDM (pronounced “wisdom”) is one of the the premier conferences on web inspired research involving search and data mining. They’re committed to publishing original, high quality papers and presentations, with an emphasis on practical but principled novel models.
心得
很好,比賽的靠山看起來很強大,不過比賽過程其實一坡三折,雖然我是快結束的時候才加入比賽,但看討論區的討論,可以看出一開始給的Dataset是有leakage的,所以官方又發布了version2的資料集…然後根據實驗結果,採用官方提供的標籤法,會得到跟官方給的標籤不一致的結果…然後我自己寫的標籤法,又會讓成績比官方標籤法更好一點…總而言之這就是見證奇蹟的一課(?)。
解法思路
推測因為比賽似乎充斥著leakage,所以沒什麼人有意願分享完整的代碼;不過我則是因為覺得懶又不想整理沒得獎的代碼,就只簡單的附上了基本的解法思路。
嗯,因為還要寫html標籤很麻煩,所以直接附上連結~ 解法思路