close

使用Python對批踢踢的電影版爬蟲,

抓取版上PO文的作者、日期、標題。

 

首先,進入批踢踢的電影版(movie)網頁

https://www.ptt.cc/bbs/movie/index.html

 

若瀏覽器是使用chrome的話,可以按右鍵=>檢視網頁原始碼(或是按快捷鍵Ctrl+U)

會跳出網頁的原始碼,這時就可以開始觀察,

可以發現第75行 <div class="r-ent">

每一個PO文,都是被屬性值class名為r-ent的標籤所包圍,

第84行 <div class="date"> 6/03</div>data標籤包含了PO文的日期

第85行 <div class="author">hariseb</div>author標籤包含了PO文的作者

第78行,title標籤包含了PO文的標題

 

觀察完後就可以來進行爬蟲啦!

程式碼如下:

 

結果如下:

此版只能爬該網頁頁面所顯示的內容,

還請不吝指教 =)

arrow
arrow
    文章標籤
    python crawler
    全站熱搜
    創作者介紹
    創作者 Jialin 的頭像
    Jialin

    Jialin

    Jialin 發表在 痞客邦 留言(0) 人氣()