前言
隨著科技日新月異,人類每天生活都會產生數以百PB,甚至上EB的資料;撇除那些未系統化的資料,作為一名數據科學家平時最常接觸到的資料不外乎是CSV/TSV/XML/JSON等等結構化的資料。
好吧,既然我都把去年十二月的文章發布了,那乾脆趁著還有熱情與記憶的時候,先把去年底完成的競賽心得寫一寫吧!關於競賽的目標,簡單來說,我們要做的就是預測KKBOX的會員在會員期限到期後三十天內是否會續訂。首先直接上官方關於這項比賽的說明:
The 11th ACM International Conference on Web Search and Data Mining (WSDM 2018) is challenging you to build an algorithm that predicts whether a subscription user will churn using a donated dataset from KKBOX. WSDM (pronounced “wisdom”) is one of the the premier conferences on web inspired research involving search and data mining. They’re committed to publishing original, high quality papers and presentations, with an emphasis on practical but principled novel models.
恩,果然都是要到月初我才會想起上個月還沒有保持至少發一篇文章的事情…算了,反正發文日期可以自己調整。
回歸正題,這次要記錄的是在Kaggle上的一項競賽 ─ Carvana Image Masking Challenge。顧名思義,我們要做的事情就是幫內含一部車輛的圖片,找出適合的遮罩,讓圖片只留下車子。
Porto Seguro’s Safe Driver Prediction 是一項由巴西知名保險公司在Kaggle上發起的競賽,希望藉由精準預測明年各保戶是否會索取保險求償,從而調整不同客戶的保險金額。