close

要分析某資料集時,首先要了解該資料集的格式。

本篇以 UCI Machine Learning Repository 的 Student Performance Data Set為例。

https://archive.ics.uci.edu/ml/datasets/Student+Performance

下載完成後,該資料集有一檔案名稱為 student-mat.csv

副檔名csv,為 Comma Separated Values 的縮寫,

即為是用「逗號」來分隔資料的欄位的檔案格式。

 

可以用Excel打開csv檔,

在本例中,打開 student-mat.csv 檔案呈現如下:

第1列為屬性名稱(資料欄位之名稱),第2列~第396列為每筆資料的值,

並且該檔案是以「分號」來區隔資料欄位。

pre_001.PNG

利用滑鼠左鍵點資料集的第1列到第396列,

接者點選 資料=>資料剖析

 

pre_003.PNG

會跳出以下視窗,選則「分隔符號」,按下一步

pre_004.PNG

勾選「分號」,按下一步

pre_005.PNG

可以由「預覽分欄結果」中看到資料已經被分割囉,並按下完成

pre_006.PNG

資料剖析完後的檔案如下 =)

pre_007.PNG

接下來就可以把資料集讀進程式進行分析啦~

arrow
arrow
    文章標籤
    excel 機器學習
    全站熱搜
    創作者介紹
    創作者 Jialin 的頭像
    Jialin

    Jialin

    Jialin 發表在 痞客邦 留言(0) 人氣()