InfiniteWing

Give me a place to stand on, and I will move the Earth

  • 2019-06-21
    Big Data►Competition

    [Kaggle] Instant Gratification - A synchronous Kernels-only competition

    1. 前言
    2. 比賽說明
    3. EDA
    4. Models
    5. Validation方式
    6. Stacking
    7. 小結

    前言

    自五月底退伍重返人間後,經歷了一周的面試之旅,發覺到自己在資訊領域最感興趣的還是資料科學。為了充實一下自己的履歷、同時也為了填補將近半年多的空缺,我決定上Kaggle找幾個比賽來訓練自己,順便看看能不能拿個Master稱號XDD。以下將介紹我選擇的其中一個比賽「Instant Gratification - A synchronous Kernels-only competition」的比賽經驗。

    比賽說明

    由於Kaggle近年來一直推Kernel Only (KO)的比賽,好處不但是能保證參賽者能提供最優、最快速、最小的解法外,更重要的是能直接檢查參賽者是否有使用Leakage的方式來獲獎。
    但在KO光鮮亮麗的好處之外,也是有著不少壞處,諸如尖峰時段Kernel運行緩慢、偶爾會出現不知名Bug、當然還有最重要的Final Private Leaderboard公布時,需要把所有參賽者的Kernel都重新跑過一次以便獲得Private Test Set的成績。
    這個過程是十分緩慢的,而且花費時間跟參與比賽的隊伍數目成正比,參賽者往往要等上十天半個月才能知道自己有沒有得獎獲得牌,甚至有些人還會領先了全場的Public Leaderboard,最後發現自己有個小邏輯錯誤而導致Final時沒成績。
    諸如此類的憾事讓Kaggle決定要提供一個可以即時揭曉最終Private LeaderBoard成績的KO比賽方式;而做為一個新產品的上市,Instant Gratification這項比賽就成了Kaggle的試驗品。

    EDA

    因為參加比賽時已經是最後十天的階段,所以當時就有不少有用的EDA可以直接參閱,並且Train data跟Test data的generate方式也已經被強大的Kaggler給破解出來,是scikit-learn裡面的make_classification()方法。(在比賽結束後,Kaggle官方也發佈了generate train&test set的程式碼,毫無意外的正是make_classification()。)
    這裡就不贅述,直接附上一些有用的EDA連結:

    Models

    從許多Kaggler提供的Kernel中,可以找到一些在這個dataset裡表現得較好的Model,像是QDA、 GMM、 SVM model等等。令人有些意外的是常見的xgboost、lightGBM、Catboost等等GBT model、甚至是NN model竟然榜上無名,原因就在於可供training的data資料量過少。
    因為之前沒有接觸過QDA或是GMM,因此就花了一些時間看了他們的說明…不過說真的,數學不好的人大概也就只能粗淺的理解他們在幹嘛,基本上很難自己改良(這也導致後面無法有更進一步的突破,演算法往往才是一個大gap的突破關鍵。)。
    這裡就概略介紹一下,也算是買個保險,避免自己以後可能會用到:

    Validation方式

    Stacking

    小結

    To be continued..
    Posted at 2019-06-21 11:44:54
    Share 留言
    • Big Data
    • KO
    • Kaggle
    • 經驗
    下一篇
    [Kaggle] Jigsaw Unintended Bias in Toxicity Classification
    上一篇
    楓之谷APP開發日誌 ─ 小結

    InfiniteWing

    總覺得我一直在尋覓著什麼

    最新文章

    • [Performance comparison] CSV reader C/C++ V.S. Python - 2020-07-11
    • [Kaggle] Jigsaw Unintended Bias in Toxicity Classification - 2019-06-28
    • [Kaggle] Instant Gratification - A synchronous Kernels-only competition - 2019-06-21
    • 楓之谷APP開發日誌 ─ 小結 - 2018-08-21
    • WSDM - KKBox's Churn Prediction Challenge - 2018-01-01

    分類

    • Big Data13
      • Cloud Computing3
      • Competition8
      • Deep Learning2
    • FreeBSD1
      • 系統防護1
    • Kaggle1
      • Notebook1
    • Performance comparison1
      • C/C++1
        • Python1
    • 個人作品8
      • 楓之谷APP8
    • 網站設計2
      • Hexo2
    • 論文寫作1

    標籤雲

    Android APP8 Big Data13 C/C++1 CNN2 Cloud Computing3 Deep Learning2 Experience1 FreeBSD1 GCP3 Hexo2 KO1 Kaggle11 Keras2 NLP1 Notebook4 Performance comparison1 Python1 Visualization1 WSDM1 ssmtp1 個人作品8 童年8 第一次3 系統防護1 經驗16 網站設計2 論文寫作1 資訊安全1

    彙整

    • 七月 20201
    • 六月 20192
    • 八月 20181
    • 一月 20181
    • 十二月 20171
    • 十一月 20171
    • 十月 20171
    • 九月 20171
    • 八月 20174
    • 七月 20177
    • 二月 20171
    • 一月 20172
    • 十一月 20151
    • 十月 20152
    • 九月 20151
    © 2021 InfiniteWing all rights reserved.
    Powered by Hexo
  • Home
  • About
  • Archives
  • Work
  • Gallery
  • Private