close
要分析某資料集時,首先要了解該資料集的格式。
本篇以 UCI Machine Learning Repository 的 Student Performance Data Set為例。
https://archive.ics.uci.edu/ml/datasets/Student+Performance
下載完成後,該資料集有一檔案名稱為 student-mat.csv
副檔名csv,為 Comma Separated Values 的縮寫,
即為是用「逗號」來分隔資料的欄位的檔案格式。
可以用Excel打開csv檔,
在本例中,打開 student-mat.csv 檔案呈現如下:
第1列為屬性名稱(資料欄位之名稱),第2列~第396列為每筆資料的值,
並且該檔案是以「分號」來區隔資料欄位。
利用滑鼠左鍵點資料集的第1列到第396列,
接者點選 資料=>資料剖析
會跳出以下視窗,選則「分隔符號」,按下一步
勾選「分號」,按下一步
可以由「預覽分欄結果」中看到資料已經被分割囉,並按下完成
資料剖析完後的檔案如下 =)
接下來就可以把資料集讀進程式進行分析啦~
文章標籤
全站熱搜
留言列表