機械学習で用いられる略語
普段Kaggleをやっているとなんのことを表しているのかわからない略語が多くあります。
今回いいまとめを見つけたので、日本語にして少しだけわかりやすくしたいと思います。
https://www.kaggle.com/getting-started/38187
略語は初心者では何のことかわからずやる気を削ぐ原因となると思います。
KaggleをやっているとよくLBやCVを見かけます。
LBはリーダーボードつまり提出したみんなの結果を閲覧できるところです。
よくLB(0.287)とかカーネルで見るのは提出したスコアが0.287ということです。
CVはクロスバリデーションつまり交差検証です。
トレインデータをさらにテストデータとトレインデータ(交差検証用のデータ)に分け、モデルを構築したあと交差検証用のデータを使ってモデルの精度の測定をします。
普通KaggleのコンペではLBでテストデータの30%や10%ほどのデータによる成績しかみられません。
最終結果ではもちろんテストデータの全てを使ったスコアが出され、それによって最終順位が決まります。
もしもLBでいい成績を残せていてもそれはテストデータの一部のデータに過学習した結果である場合があるためにCVの値の方が信頼される場合があります。
実際にこの前「Porto Seguro’s Safe Driver Prediction」のコンペでLBに過学習して結果をみんな用いて最後にCVの値を信頼していた人がいい順位におどり出るということがありました。
モデルを構築したあともそれを適切に評価しなければ本当にいいものはできないと思います。
略語リスト
以下に略語とその英語、日本語があるなら日本語バージョンを書きます。
詳細は自分で調べてください。
- ANOVA : Analysis of Variance 分散分析
- AUC : Area Under the Curve
- CV: Cross Validation 交差検証
- CNN : Convolutional Neural Network 畳み込みニューラルネットワーク
- DNN: Deep Neural Network ディープニューラルネットワーク
- DNN:Deconvolutional Neural Network 逆畳み込みニューラルネットワーク
- EDA: Exploratory Data Analysis 探索的データ解析
- FCN: Fully Convolutional Network 全層畳み込みネットワーク
- FFT: Fast Fourier Transform 高速フーリエ変換
- GBM: Gradient Boosting Machine 勾配ブースティングマシン
- GLM: Generalized Linear Model 一般化線形モデル
- GRU: Gated Recurrent Unit ゲート反復単位
- HMM : Hidden Markov Model 隠れマルコフモデル
- ICA: Independent Component Analysis 独立成分分析
- kNN: k-Nearest Neighbors k近傍法
- LB: LeaderBoard リーダーボード
- LDA: Latent Dirichlet Allocation or Linear Discriminant Analysis 潜在的ディリクレ配分法 もしくは 線形判別分析
- LLE : Locally Linear Embedding 局所線形埋め込み
- LOOCV : Leave-One-Out cross-validation 一個抜き交差検証
- LpO CV : Leave-k-out cross-validation K-分割交差検証
- LSA: Latent Semantic Allocation 潜在意味解析
- LSTM: Long Short Term Memory 長・短期記憶
- MAPE: Mean Absolute Percentage Error 平均絶対誤差率
- MCMC : Markov Chain Monte Carlo マルコフ連鎖モンテカルロ法
- MDS : Multi-Dimensional Scaling 多次元尺度構成法
- MSE: Mean Squared Error 平均二乗誤差
- NLDR: Non-Linear Dimensionality Reduction 非線形次元削減
- NLP : Natural Language Processing 自然言語処理
- NMF: Non-Negative Matrix Factorization 非負値行列因子分解
- OOF: Out Of Fold
- PCA: Principal Component Analysis 主成分分析
- pLSA: Probabilistic Latent Semantic Allocation 確率的潜在意味解析
- R2 : R-squared 決定係数
- RF: Random Forest ランダムフォレスト
- RFE: Recursive Feature Elimination 再帰的特徴量削減
- RMSLE : Root Mean Squared Logarithmic Error
- RNN: Recurrent Neural Network 再帰型ニューラルネットワーク
- ROC : Receiver Operating Characteristic 受信者動作特性
- SMOTE: Synthetic Minority Over-sampling Technique
- SVM: Support Vector Machine サポートベクターマシン
- tf-idf: term frequency, inverse document frequency 単語の出現頻度、逆文書頻度
- t-SNE: t-Distributed Stochastic Neighbor Embedding
感想
機械学習の勉強のためにKaggleをやっていて思うのは、とにかくみんな向上心が強いし優しいなと思います。
みんな賞金よりもいかにして素晴らしいアプローチをするかに関心があるようです。
初心者の私がくだらない質問をしても教えてくれます。
カーネルにコメントやディスカッションに参加すると拙い英語でも反応がもらえます。
こういうコミュニティーだとやる気が出てきます。
これからも頑張っていきます。