2017年8月29日 更新

KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)

まだ機械学習の勉強を初めて4ヶ月ですが、色々やってみた結果、約7000人のうち200位ぐらいの0.82297という記録を出せたので、色々振り返りながら書いていきます。

185,783 view お気に入り 4
sns.countplot(x='FamilySize', data = train,hue = 'Pclass')
py
 (4244)

次に、乗船場所による生存率の違いを見てみます。タイタニックの航路はイギリスのサウサンプトン→フランスのシェルブール→アイルランドのクイーンズタウンの順番でした。 下の図を見るとシェルブールから乗った人の生存率が高かったことがわかります。その理由は一つ下の図を見るとわかります。1等に乗った人の割合が高かったからでしょう。しかし、そのように考えるとクイーンズタウンから乗った人は3等ばかりなのに生存率が少し高いです。その理由のうち少しはさらに下の図の男女比だと思いますが、正確な理由はわかりません。

t=pd.read_csv("train.csv").replace("S",0).replace("C",1).replace("Q",2)
train['Embarked']= t['Embarked']
g = sns.factorplot(x="Embarked", y="Survived",  data=train,
                   size=6, kind="bar", palette="muted")
g.despine(left=True)
g = g.set_ylabels("survival probability")
.py
 (4247)

sns.countplot(x='Embarked', data = train,hue = 'Pclass')
.py
 (4249)

sns.countplot(x='Embarked', data = train,hue = 'Sex')
py
 (4251)

最後は年齢による違いをみて行きたいと思います。下の図をみてみると10代後半から30代ほどまでは死亡率が高く、子供の死亡率は低いです。どうやらこのころは15歳より上だとほとんど成人とみなされていたようです。また、老人の死亡率も高いです。

plt.figure()
sns.FacetGrid(data=t, hue="Survived", aspect=4).map(sns.kdeplot, "Age", shade=True)
plt.ylabel('Passenger Density')
plt.title('KDE of Age against Survival')
plt.legend()
.py
 (4254)

for t in combine1: 
    t.loc[ t['Age'] <= 15, 'Age']                                                = 0
    t.loc[(t['Age'] > 15) & (t['Age'] <= 25), 'Age'] = 1
    t.loc[(t['Age'] > 25) & (t['Age'] <= 48), 'Age'] = 2
    t.loc[(t['Age'] > 48) & (t['Age'] <= 64), 'Age'] = 3
    t.loc[ t['Age'] > 64, 'Age'] =4
g = sns.factorplot(x="Age", y="Survived",  data=t,
                   size=6, kind="bar", palette="muted")
g.despine(left=True)
g = g.set_ylabels("survival probability")
.py
 (4256)

そして面白いのは、男女比と生存の数がほぼ一緒であることです。下の2つの図はほとんど一緒に見えます。

84 件

関連する記事 こんな記事も人気です♪

KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)

KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)

前回書いた「KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)」 から久々にやり直した結果上位1%の0.87081を出せたのでどのようにしたのかを書いていきます。
Takumi Ihara | 49,167 view
pythonによるtensorflow〜deepdreamによる画像変換〜

pythonによるtensorflow〜deepdreamによる画像変換〜

今回は前回のtensorflowの記事に引き続き、deepdreamによる画像変換についてご紹介します。
Python × TensorFlow ② ~TensorFlow を扱う上で必要な知識「定数・変数」~

Python × TensorFlow ② ~TensorFlow を扱う上で必要な知識「定数・変数」~

TensorFlow を扱う上で必要な以下3つの知識のうち「定数と変数」について解説していきたいと思います.
井上 大輝 | 8,901 view

この記事のキーワード

この記事のキュレーター

Takumi Ihara Takumi Ihara