Kaggleで使われている略語リスト

機械学習で用いられる略語

普段Kaggleをやっているとなんのことを表しているのかわからない略語が多くあります。
今回いいまとめを見つけたので、日本語にして少しだけわかりやすくしたいと思います。
https://www.kaggle.com/getting-started/38187
略語は初心者では何のことかわからずやる気を削ぐ原因となると思います。

KaggleをやっているとよくLBやCVを見かけます。
LBはリーダーボードつまり提出したみんなの結果を閲覧できるところです。
よくLB(0.287)とかカーネルで見るのは提出したスコアが0.287ということです。

CVはクロスバリデーションつまり交差検証です。
トレインデータをさらにテストデータとトレインデータ(交差検証用のデータ)に分け、モデルを構築したあと交差検証用のデータを使ってモデルの精度の測定をします。

普通KaggleのコンペではLBでテストデータの30%や10%ほどのデータによる成績しかみられません。
最終結果ではもちろんテストデータの全てを使ったスコアが出され、それによって最終順位が決まります。
もしもLBでいい成績を残せていてもそれはテストデータの一部のデータに過学習した結果である場合があるためにCVの値の方が信頼される場合があります。
実際にこの前「Porto Seguro’s Safe Driver Prediction」のコンペでLBに過学習して結果をみんな用いて最後にCVの値を信頼していた人がいい順位におどり出るということがありました。モデルを構築したあともそれを適切に評価しなければ本当にいいものはできないと思います。

略語リスト

以下に略語とその英語、日本語があるなら日本語バージョンを書きます。
詳細は自分で調べてください。

ANOVA : Analysis of Variance 分散分析
AUC : Area Under the Curve
CV: Cross Validation 交差検証
CNN : Convolutional Neural Network 畳み込みニューラルネットワーク
DNN: Deep Neural Network　ディープニューラルネットワーク　
DNN:Deconvolutional Neural Network 逆畳み込みニューラルネットワーク
EDA: Exploratory Data Analysis 探索的データ解析
FCN: Fully Convolutional Network 全層畳み込みネットワーク
FFT: Fast Fourier Transform 高速フーリエ変換
GBM: Gradient Boosting Machine 勾配ブースティングマシン
GLM: Generalized Linear Model 一般化線形モデル
GRU: Gated Recurrent Unit ゲート反復単位
HMM : Hidden Markov Model 隠れマルコフモデル
ICA: Independent Component Analysis 独立成分分析
kNN: k-Nearest Neighbors k近傍法
LB: LeaderBoard リーダーボード
LDA: Latent Dirichlet Allocation or Linear Discriminant Analysis 潜在的ディリクレ配分法　もしくは線形判別分析
LLE : Locally Linear Embedding 局所線形埋め込み
LOOCV : Leave-One-Out cross-validation 一個抜き交差検証
LpO CV : Leave-k-out cross-validation K-分割交差検証
LSA: Latent Semantic Allocation 潜在意味解析
LSTM: Long Short Term Memory　長・短期記憶
MAPE: Mean Absolute Percentage Error 平均絶対誤差率
MCMC : Markov Chain Monte Carlo　マルコフ連鎖モンテカルロ法
MDS : Multi-Dimensional Scaling 多次元尺度構成法
MSE: Mean Squared Error　平均二乗誤差
NLDR: Non-Linear Dimensionality Reduction 非線形次元削減
NLP : Natural Language Processing 自然言語処理
NMF: Non-Negative Matrix Factorization 非負値行列因子分解
OOF: Out Of Fold
PCA: Principal Component Analysis 主成分分析
pLSA: Probabilistic Latent Semantic Allocation 確率的潜在意味解析
R2 : R-squared 決定係数
RF: Random Forest ランダムフォレスト
RFE: Recursive Feature Elimination 再帰的特徴量削減
RMSLE : Root Mean Squared Logarithmic Error
RNN: Recurrent Neural Network 再帰型ニューラルネットワーク
ROC : Receiver Operating Characteristic 受信者動作特性
SMOTE: Synthetic Minority Over-sampling Technique
SVM: Support Vector Machine サポートベクターマシン
tf-idf: term frequency, inverse document frequency 単語の出現頻度、逆文書頻度
t-SNE: t-Distributed Stochastic Neighbor Embedding

感想

機械学習の勉強のためにKaggleをやっていて思うのは、とにかくみんな向上心が強いし優しいなと思います。
みんな賞金よりもいかにして素晴らしいアプローチをするかに関心があるようです。
初心者の私がくだらない質問をしても教えてくれます。
カーネルにコメントやディスカッションに参加すると拙い英語でも反応がもらえます。
こういうコミュニティーだとやる気が出てきます。これからも頑張っていきます。

1 件

Kaggleで使われている略語リスト

機械学習で用いられる略語

略語リスト

感想

関連する記事こんな記事も人気です♪

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

量子アニーリングを駆使して数独を解いてみた

Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~

等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2

等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1

この記事のキーワードキーワードから記事を探す

この記事のキュレーター

週間ランキング

画像解析入門⑦ Image Jによる画像処理

シリーズ３．ImageJマクロ言語を用いた画像解析～①輝度の統計量～

細胞の移動量を調査

2値化処理による粒子解析

細胞種を機械学習で判別する！

おすすめの記事

細胞種を機械学習で判別する！

人気のキーワード

IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社

Kaggleで使われている略語リスト

機械学習で用いられる略語

略語リスト

感想

関連する記事 こんな記事も人気です♪

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

量子アニーリングを駆使して数独を解いてみた

Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~

等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2

等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1

この記事のキーワード キーワードから記事を探す

この記事のキュレーター

週間ランキング

画像解析入門⑦ Image Jによる画像処理

シリーズ３．ImageJマクロ言語を用いた画像解析～①輝度の統計量 ～

細胞の移動量を調査

2値化処理による粒子解析

細胞種を機械学習で判別する！

おすすめの記事

細胞種を機械学習で判別する！

人気のキーワード

IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社

関連する記事こんな記事も人気です♪

この記事のキーワードキーワードから記事を探す

シリーズ３．ImageJマクロ言語を用いた画像解析～①輝度の統計量～