前言
隨著科技日新月異,人類每天生活都會產生數以百PB,甚至上EB的資料;撇除那些未系統化的資料,作為一名數據科學家平時最常接觸到的資料不外乎是CSV/TSV/XML/JSON等等結構化的資料。
好吧,既然我都把去年十二月的文章發布了,那乾脆趁著還有熱情與記憶的時候,先把去年底完成的競賽心得寫一寫吧!關於競賽的目標,簡單來說,我們要做的就是預測KKBOX的會員在會員期限到期後三十天內是否會續訂。首先直接上官方關於這項比賽的說明:
The 11th ACM International Conference on Web Search and Data Mining (WSDM 2018) is challenging you to build an algorithm that predicts whether a subscription user will churn using a donated dataset from KKBOX. WSDM (pronounced “wisdom”) is one of the the premier conferences on web inspired research involving search and data mining. They’re committed to publishing original, high quality papers and presentations, with an emphasis on practical but principled novel models.
好吧,這篇說是十二月中寫的,但實際上二月初我才發布…老實說我快忘了要保持一個月至少一篇日誌的習慣,雖然說墮落是人類的原罪,但為什麼人非得汲汲營營呢?嗯,因為這是個無解的命題,所以我就發發牢騷,以下會記錄我當初如何在GCP開啟pytorch並實現python3的環境,當初找資料找了許久,因為GCP的ubuntu預設是python2,對於伸手黨來說大部分的資料都是python3…。
恩,果然都是要到月初我才會想起上個月還沒有保持至少發一篇文章的事情…算了,反正發文日期可以自己調整。
回歸正題,這次要記錄的是在Kaggle上的一項競賽 ─ Carvana Image Masking Challenge。顧名思義,我們要做的事情就是幫內含一部車輛的圖片,找出適合的遮罩,讓圖片只留下車子。
Porto Seguro’s Safe Driver Prediction 是一項由巴西知名保險公司在Kaggle上發起的競賽,希望藉由精準預測明年各保戶是否會索取保險求償,從而調整不同客戶的保險金額。