2017年12月7日 更新

Kaggleで使われている略語リスト

機械学習のサイトKaggle で使われている略語をまとめました. 画像は[https://static1.squarespace.com/static/58a3826fd2b857e5fe09f025/58ac6a226b8f5b3bdce84c5a/58d04a9246c3c4a6bd5ab664/1490045642866/Kaggle+Workshop.png?format=1500w]から引用

15,076 view お気に入り 1

機械学習で用いられる略語

普段Kaggleをやっているとなんのことを表しているのかわからない略語が多くあります。
今回いいまとめを見つけたので、日本語にして少しだけわかりやすくしたいと思います。
https://www.kaggle.com/getting-started/38187
略語は初心者では何のことかわからずやる気を削ぐ原因となると思います。

KaggleをやっているとよくLBやCVを見かけます。
LBはリーダーボードつまり提出したみんなの結果を閲覧できるところです。
よくLB(0.287)とかカーネルで見るのは提出したスコアが0.287ということです。

CVはクロスバリデーションつまり交差検証です。
トレインデータをさらにテストデータとトレインデータ(交差検証用のデータ)に分け、モデルを構築したあと交差検証用のデータを使ってモデルの精度の測定をします。

普通KaggleのコンペではLBでテストデータの30%や10%ほどのデータによる成績しかみられません。
最終結果ではもちろんテストデータの全てを使ったスコアが出され、それによって最終順位が決まります。
もしもLBでいい成績を残せていてもそれはテストデータの一部のデータに過学習した結果である場合があるためにCVの値の方が信頼される場合があります。
実際にこの前「Porto Seguro’s Safe Driver Prediction」のコンペでLBに過学習して結果をみんな用いて最後にCVの値を信頼していた人がいい順位におどり出るということがありました。 モデルを構築したあともそれを適切に評価しなければ本当にいいものはできないと思います。

略語リスト

以下に略語とその英語、日本語があるなら日本語バージョンを書きます。
詳細は自分で調べてください。

  • ANOVA : Analysis of Variance 分散分析
  • AUC : Area Under the Curve
  • CV: Cross Validation 交差検証
  • CNN : Convolutional Neural Network 畳み込みニューラルネットワーク
  • DNN: Deep Neural Network ディープニューラルネットワーク 
  • DNN:Deconvolutional Neural Network 逆畳み込みニューラルネットワーク
  • EDA: Exploratory Data Analysis 探索的データ解析
  • FCN: Fully Convolutional Network 全層畳み込みネットワーク
  • FFT: Fast Fourier Transform 高速フーリエ変換
  • GBM: Gradient Boosting Machine 勾配ブースティングマシン
  • GLM: Generalized Linear Model 一般化線形モデル
  • GRU: Gated Recurrent Unit ゲート反復単位
  • HMM : Hidden Markov Model 隠れマルコフモデル
  • ICA: Independent Component Analysis 独立成分分析
  • kNN: k-Nearest Neighbors k近傍法
  • LB: LeaderBoard リーダーボード
  • LDA: Latent Dirichlet Allocation or Linear Discriminant Analysis 潜在的ディリクレ配分法 もしくは 線形判別分析
  • LLE : Locally Linear Embedding 局所線形埋め込み
  • LOOCV : Leave-One-Out cross-validation 一個抜き交差検証
  • LpO CV : Leave-k-out cross-validation K-分割交差検証
  • LSA: Latent Semantic Allocation 潜在意味解析
  • LSTM: Long Short Term Memory 長・短期記憶
  • MAPE: Mean Absolute Percentage Error 平均絶対誤差率
  • MCMC : Markov Chain Monte Carlo マルコフ連鎖モンテカルロ法
  • MDS : Multi-Dimensional Scaling 多次元尺度構成法
  • MSE: Mean Squared Error 平均二乗誤差
  • NLDR: Non-Linear Dimensionality Reduction 非線形次元削減
  • NLP : Natural Language Processing 自然言語処理
  • NMF: Non-Negative Matrix Factorization 非負値行列因子分解
  • OOF: Out Of Fold
  • PCA: Principal Component Analysis 主成分分析
  • pLSA: Probabilistic Latent Semantic Allocation 確率的潜在意味解析
  • R2 : R-squared 決定係数
  • RF: Random Forest ランダムフォレスト
  • RFE: Recursive Feature Elimination 再帰的特徴量削減
  • RMSLE : Root Mean Squared Logarithmic Error
  • RNN: Recurrent Neural Network 再帰型ニューラルネットワーク
  • ROC : Receiver Operating Characteristic 受信者動作特性
  • SMOTE: Synthetic Minority Over-sampling Technique
  • SVM: Support Vector Machine サポートベクターマシン
  • tf-idf: term frequency, inverse document frequency 単語の出現頻度、逆文書頻度
  • t-SNE: t-Distributed Stochastic Neighbor Embedding

感想

機械学習の勉強のためにKaggleをやっていて思うのは、とにかくみんな向上心が強いし優しいなと思います。
みんな賞金よりもいかにして素晴らしいアプローチをするかに関心があるようです。
初心者の私がくだらない質問をしても教えてくれます。
カーネルにコメントやディスカッションに参加すると拙い英語でも反応がもらえます。
こういうコミュニティーだとやる気が出てきます。 これからも頑張っていきます。

1 件

関連する記事 こんな記事も人気です♪

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

まだ機械学習の勉強を初めて4ヶ月ですが、色々やってみた結果、約7000人のうち200位ぐらいの0.82297という記録を出せたので、色々振り返りながら書いていきます。
Takumi Ihara | 190,302 view
量子アニーリングを駆使して数独を解いてみた

量子アニーリングを駆使して数独を解いてみた

先日,量子アニーリングの勉強会に参加して来ました.そのアウトプットとして,今回,数独ソルバーを作ってみます.
井上 大輝 | 4,258 view
Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~

Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~

画像処理の一つ,モルフォロジー変換をPython と OpenCVのライブラリを用いて実装し,それを2値画像に対して適用します.
等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2

等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2

前回の記事「等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 1」の続きです. 実際に実装をして,写像を確かめてみます.
等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1

等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1

等角写像の一つであるSchwarz Christoffel 変換を用いて,画像の変換をしてみます. python によるコードも記載しております. 画像はhttps://uk.mathworks.com/help/images/examples/exploring-a-conformal-mapping_ja_JP.html より.

この記事のキーワード

この記事のキュレーター

Takumi Ihara Takumi Ihara