g = sns.factorplot(x="Pclass",y="Survived",data=train,kind="bar", size = 6 , palette = "muted") g.despine(left=True) g = g.set_ylabels("survival probability")
次は等級と性別を複合した時の生存率をみてみましょう。1等と2等の女性の生存率が高く、2等と3等の男性の生存率が低いです。
g = sns.factorplot(x="Pclass", y="Survived", hue="Sex", data=train, size=6, kind="bar", palette="muted") g.despine(left=True) g = g.set_ylabels("survival probability")
次に敬称による生存率をみてみましょう。ここで0と5は珍しいもので数が少ないので無視します。注目するべきは他のものです。1のMrは大人の男性に使われるものです。だから生存率が少ないのですね。次に、2と3はMissとMrsなので女性に使われるものなので生存率が高いです。4はMasterです。誰に使われるものかと言いますと、青年や若い男性です。 以上からこの敬称は結局性別の言い換えに近いものなのではないでしょうか?一つ違うのは男性を年齢で分けているMasterがあるところではないでしょうか。
g = sns.factorplot(x="Salutation", y="Survived", data=train, size=6, kind="bar", palette="muted") g.despine(left=True) g = g.set_ylabels("survival probability")
ここでデータの生存率に対する相関をみます。先ほどみてきた通り性別(Sex,Salutation)による相関、属している社会階級つまりお金をどれだけ持っているか(Pclass,Fare)に対する相関が高いです。 Cabin_LettとTicket_Lettの相関も高いです、これも社会的地位ではないでしょうか?高いFareであればいいTicketを取れ、乗るCabinの生存率も上がるはずです。他にはIsAloneも相関が高いです。次からは一緒に乗船した人数による生存率をみてみましょう。
colormap = plt.cm.viridis plt.figure(figsize=(12,12)) plt.title('Pearson Correlation of Features', y=1.05, size=15) del train['PassengerId'] sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True)
はじめに、何人ぐらいで乗っていたのか、また、どのくらい生存したのかをみていきましょう。圧倒的に一人で乗っていた人が多かったです。そして、1人か5人以上で乗っていると生存率が悪かったこともわかります。
sns.countplot(x='FamilySize', data = train, hue = 'Survived')
ではなぜ大家族か一人で乗ると死亡率が高かったのか?大家族であると当然お金もたくさんかかるので3等に乗った人が多かったようです。一人の方々も3等が多かった。家族が多いとそもそも非難するのも難しいし、3等なので救出の優先度も低かったのでしょう。