要分析某資料集時,首先要了解該資料集的格式。

本篇以 UCI Machine Learning Repository 的 Student Performance Data Set為例。

https://archive.ics.uci.edu/ml/datasets/Student+Performance

下載完成後,該資料集有一檔案名稱為 student-mat.csv

副檔名csv,為 Comma Separated Values 的縮寫,

即為是用「逗號」來分隔資料的欄位的檔案格式。

 

可以用Excel打開csv檔,

在本例中,打開 student-mat.csv 檔案呈現如下:

第1列為屬性名稱(資料欄位之名稱),第2列~第396列為每筆資料的值,

並且該檔案是以「分號」來區隔資料欄位。

利用滑鼠左鍵點資料集的第1列到第396列,

接者點選 資料=>資料剖析

 

會跳出以下視窗,選則「分隔符號」,按下一步

勾選「分號」,按下一步

可以由「預覽分欄結果」中看到資料已經被分割囉,並按下完成

資料剖析完後的檔案如下 =)

接下來就可以把資料集讀進程式進行分析啦~

文章標籤
全站熱搜
創作者介紹
創作者 Jialin 的頭像
Jialin

Jialin

Jialin 發表在 痞客邦 留言(0) 人氣(2,853)