close
使用Python對批踢踢的電影版爬蟲,
抓取版上PO文的作者、日期、標題。
首先,進入批踢踢的電影版(movie)網頁
https://www.ptt.cc/bbs/movie/index.html
若瀏覽器是使用chrome的話,可以按右鍵=>檢視網頁原始碼(或是按快捷鍵Ctrl+U)
會跳出網頁的原始碼,這時就可以開始觀察,
可以發現第75行 <div class="r-ent">
每一個PO文,都是被屬性值class名為r-ent的標籤所包圍,
第84行 <div class="date"> 6/03</div>,data標籤包含了PO文的日期
第85行 <div class="author">hariseb</div>,author標籤包含了PO文的作者
第78行,title標籤包含了PO文的標題
觀察完後就可以來進行爬蟲啦!
程式碼如下:
結果如下:
此版只能爬該網頁頁面所顯示的內容,
還請不吝指教 =)
文章標籤
全站熱搜
留言列表