Kaggleで使われている略語リスト

機械学習のサイトKaggle で使われている略語をまとめました. 画像は[https://static1.squarespace.com/static/58a3826fd2b857e5fe09f025/58ac6a226b8f5b3bdce84c5a/58d04a9246c3c4a6bd5ab664/1490045642866/Kaggle+Workshop.png?format=1500w]から引用

機械学習で用いられる略語

普段Kaggleをやっているとなんのことを表しているのかわからない略語が多くあります。
今回いいまとめを見つけたので、日本語にして少しだけわかりやすくしたいと思います。
https://www.kaggle.com/getting-started/38187
略語は初心者では何のことかわからずやる気を削ぐ原因となると思います。

KaggleをやっているとよくLBやCVを見かけます。
LBはリーダーボードつまり提出したみんなの結果を閲覧できるところです。
よくLB(0.287)とかカーネルで見るのは提出したスコアが0.287ということです。

CVはクロスバリデーションつまり交差検証です。
トレインデータをさらにテストデータとトレインデータ(交差検証用のデータ)に分け、モデルを構築したあと交差検証用のデータを使ってモデルの精度の測定をします。

普通KaggleのコンペではLBでテストデータの30%や10%ほどのデータによる成績しかみられません。
最終結果ではもちろんテストデータの全てを使ったスコアが出され、それによって最終順位が決まります。
もしもLBでいい成績を残せていてもそれはテストデータの一部のデータに過学習した結果である場合があるためにCVの値の方が信頼される場合があります。
実際にこの前「Porto Seguro’s Safe Driver Prediction」のコンペでLBに過学習して結果をみんな用いて最後にCVの値を信頼していた人がいい順位におどり出るということがありました。 モデルを構築したあともそれを適切に評価しなければ本当にいいものはできないと思います。

略語リスト

以下に略語とその英語、日本語があるなら日本語バージョンを書きます。
詳細は自分で調べてください。

感想

機械学習の勉強のためにKaggleをやっていて思うのは、とにかくみんな向上心が強いし優しいなと思います。
みんな賞金よりもいかにして素晴らしいアプローチをするかに関心があるようです。
初心者の私がくだらない質問をしても教えてくれます。
カーネルにコメントやディスカッションに参加すると拙い英語でも反応がもらえます。
こういうコミュニティーだとやる気が出てきます。 これからも頑張っていきます。