Pytorch 數據分析1-鐵達尼號生存預測分析

► 前言

上篇文章「Pytorch 基礎學習3: 圖像分類模型訓練」,講解Kaggle競賽-貓狗影像辨識資料集採用自定義模型並結合DataLoader對於數據進行批量化處理來進行模型訓練並透過Colab搭配程式碼來進行模型訓練與驗證,讓大家能夠更了解 PyTorch 在圖像分類辨識的應用 ,本篇將講解關於Pyotrch於數據分析上的應用,並透過Kaggle競賽-鐵達尼號生存預測分析於Colab上進行說明,使大家能夠更直觀的了解Pytorch於數據分析上的使用。

 

►資料預處理





►數據處理





可以發現train data資料欄位為乘客ID、是否存活、船票等級、姓名、性別、年齡、sibsp(在船上同為兄弟姐妹或配偶的數目)、parch(在船上同為家族的父母及小孩的數目)、船票編號、船票價格、船艙號碼與登船的口岸。(C = Cherbourg、Q = Queenstown,S = Southampton)

其中是否存活為所預測資料(label),乘客ID為不影響是否存活資料,其他項目為預測是否存活的特徵資料。

補充:

Cherbourg:瑟堡,位於法國西北的一個城鎮,屬重要軍港和商港。Queenstown:目前稱為科芙,位於愛爾蘭,於1850年更名為皇后鎮(又稱昆士敦),以紀念維多利亞女王的造訪,直到1920年,愛爾蘭自由邦建立後,它被重新命名為科芙。Southampton:南安普敦,位於陽光燦爛的英國南方海岸,是個港口城市,離倫敦僅1小時車程,鐵達尼號正是從這裡出航。( 參考資料1)



對於訓練資料進行觀察可以發現是有缺失值。於年齡特徵欄位有177欄缺失值,並在船艙號碼特徵欄位有687欄缺失值,於登船的口岸有2欄缺失資料。

觀察年齡分布可以得知鐵達尼號乘客年齡大部分分布在20~40年紀,並且大部分乘客於S港口上船,其中男性乘客數量高於女性乘客數量。於訓練資料中訓最後生還者約佔

乘客的 38.38%、罹難者約佔 61.62%。



再對於訓練資料再進行近一步分析。可以歸納出以下幾點:

  • 艙等愈好生存率愈高 (Pclass 1 > Pclass 2 > Pclass 3)
  • 女性乘客存活率高於男性乘客
  • 當船上的兄弟姐妹配偶人數有 1~2 人時,生存率較高
  • 當船上的父母子女人數有1~3人時,生存率較高




►數據處理



►模型訓練


►小結

透過以上講解,能夠使用講解關於Pyotrch於數據分析上的應用,並透過Kaggle競賽-鐵達尼號生存預測分析於Colab上進行說明,對於數據集進行分析並進行數據清洗並搭配前面章節Dataset與DataLoader進行數據加載與迭代進行模型訓練,最後將訓練模型結果進行驗證,於驗證集上進行是否存活預測達到87%。就快要講解到目標檢測部分,期待下一篇博文吧!

►參考資料 
Kaggle – Titanic倖存預測 #1
   

★博文內容均由個人提供,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★文明上網,請理性發言。內容一周內被舉報5次,發文人進小黑屋喔~

評論