2017年8月29日 更新

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

まだ機械学習の勉強を初めて4ヶ月ですが、色々やってみた結果、約7000人のうち200位ぐらいの0.82297という記録を出せたので、色々振り返りながら書いていきます。

190,120 view お気に入り 4
g = sns.factorplot(x="Pclass",y="Survived",data=train,kind="bar", size = 6 , 
palette = "muted")
g.despine(left=True)
g = g.set_ylabels("survival probability")
.py
 (4224)

次は等級と性別を複合した時の生存率をみてみましょう。1等と2等の女性の生存率が高く、2等と3等の男性の生存率が低いです。

g = sns.factorplot(x="Pclass", y="Survived", hue="Sex", data=train,
                   size=6, kind="bar", palette="muted")
g.despine(left=True)
g = g.set_ylabels("survival probability")
.py
 (4230)

次に敬称による生存率をみてみましょう。ここで0と5は珍しいもので数が少ないので無視します。注目するべきは他のものです。1のMrは大人の男性に使われるものです。だから生存率が少ないのですね。次に、2と3はMissとMrsなので女性に使われるものなので生存率が高いです。4はMasterです。誰に使われるものかと言いますと、青年や若い男性です。 以上からこの敬称は結局性別の言い換えに近いものなのではないでしょうか?一つ違うのは男性を年齢で分けているMasterがあるところではないでしょうか。

g = sns.factorplot(x="Salutation", y="Survived",  data=train,
                   size=6, kind="bar", palette="muted")
g.despine(left=True)
g = g.set_ylabels("survival probability")
.py
 (4232)

ここでデータの生存率に対する相関をみます。先ほどみてきた通り性別(Sex,Salutation)による相関、属している社会階級つまりお金をどれだけ持っているか(Pclass,Fare)に対する相関が高いです。 Cabin_LettとTicket_Lettの相関も高いです、これも社会的地位ではないでしょうか?高いFareであればいいTicketを取れ、乗るCabinの生存率も上がるはずです。他にはIsAloneも相関が高いです。次からは一緒に乗船した人数による生存率をみてみましょう。

colormap = plt.cm.viridis
plt.figure(figsize=(12,12))
plt.title('Pearson Correlation of Features', y=1.05, size=15)
del train['PassengerId']
sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True)
.py
 (4238)

はじめに、何人ぐらいで乗っていたのか、また、どのくらい生存したのかをみていきましょう。圧倒的に一人で乗っていた人が多かったです。そして、1人か5人以上で乗っていると生存率が悪かったこともわかります。

sns.countplot(x='FamilySize', data = train, hue = 'Survived')
.py
 (4241)

ではなぜ大家族か一人で乗ると死亡率が高かったのか?大家族であると当然お金もたくさんかかるので3等に乗った人が多かったようです。一人の方々も3等が多かった。家族が多いとそもそも非難するのも難しいし、3等なので救出の優先度も低かったのでしょう。

84 件

関連する記事 こんな記事も人気です♪

KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)

KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)

前回書いた「KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)」 から久々にやり直した結果上位1%の0.87081を出せたのでどのようにしたのかを書いていきます。
Takumi Ihara | 52,042 view
pythonによるtensorflow〜deepdreamによる画像変換〜

pythonによるtensorflow〜deepdreamによる画像変換〜

今回は前回のtensorflowの記事に引き続き、deepdreamによる画像変換についてご紹介します。
Python × TensorFlow ② ~TensorFlow を扱う上で必要な知識「定数・変数」~

Python × TensorFlow ② ~TensorFlow を扱う上で必要な知識「定数・変数」~

TensorFlow を扱う上で必要な以下3つの知識のうち「定数と変数」について解説していきたいと思います.
井上 大輝 | 9,080 view

この記事のキーワード

この記事のキュレーター

Takumi Ihara Takumi Ihara