前言
Instacart Market Basket Analysis 是一項由美國Instacart公司在Kaggle上發起的資料競賽,主要是希望透過大數據分析的方式,來預測顧客下筆訂單中會出現的商品。這項比賽在2017-08-14時已經結束,由於最近有些庶務要處理,因此雖然我當天就整理好一些參賽心得,一直到今天才想到把它弄上部落格xDD。除了這篇文章以外,我還有另外兩篇關於這項競賽的文章─[Kaggle]紅蘿蔔顧客訂單預測─簡單方法以及[Kaggle]顧客訂單視覺化。
Instacart Market Basket Analysis 是一項由美國Instacart公司在Kaggle上發起的資料競賽,主要是希望透過大數據分析的方式,來預測顧客下筆訂單中會出現的商品。這項比賽在2017-08-14時已經結束,由於最近有些庶務要處理,因此雖然我當天就整理好一些參賽心得,一直到今天才想到把它弄上部落格xDD。除了這篇文章以外,我還有另外兩篇關於這項競賽的文章─[Kaggle]紅蘿蔔顧客訂單預測─簡單方法以及[Kaggle]顧客訂單視覺化。
大數據之所以被稱做大數據,自然是因為其資料數量龐大,雖然現今個人電腦普及,但真正面對大數據時,以個人能力組出來的電腦可能無法負荷如此龐大的資料。筆者目前使用的電腦環境是i7-6700 + 16GB DDR4 + NVIDIA 1060 6GB,雖然以個人用途來說已經是很棒的硬體設備,但有時候處理大數據卻會出現OOM或運算速度過慢的問題。對於OOM的問題,最簡單的解決方法就是上GCP開一個RAM大一點的VM,以Ubuntu作業系統來說,8核心+50GB的RAM不到0.5鎂/小時,以GCP提供的300鎂試用額度來說是綽綽有餘。針對深度運算時GPU的不夠力,由於目前GPU租賃單價過高,因此可能日後還要自行添購例如NVIDIA TITAN X之類的高級GPU。
Instacart Market Basket Analysis 是一項由美國Instacart公司在Kaggle上發起的資料競賽,主要是希望透過大數據分析的方式,來預測顧客下筆訂單中會出現的商品。由於競賽還未結束的關係,因此先簡單介紹我已經開源的方法,日後競賽結束我也會整理相關文件,再將經驗記錄下來。
幾天前在Kaggle上建立了人生第一次的iPython筆記(iPython Notebook),主要是處理Instacart Market Basket Analysis這項競賽中,產出每個顧客的歷史訂單視覺化。
將我的個人網站push到GitHub上之後,我試著學了Markdown語法,然後也很順利的透過谷哥找到了一款好用的Markdown編輯器─MarkdownPad 2。就在我寫前一篇文章寫到一半的時候,突然想到其他使用Hexo的blogger,他們文章前面好像都會有類似文章目錄的區塊,於是乎我就找了一下有沒有相關的套件可以使用。