close

延續這篇: [Python] PTT crawler in Python 使用Python爬批踢踢(網路爬蟲)

補上換頁的功能^^

使用BeautifulSoup來讀取網頁內容、Selenium控制瀏覽器 來進行爬蟲。

 

對批踢踢的電影版(movie)爬蟲,

第11行 User可以輸入想要擷取幾頁,存進num_page變數中

第14行 while迴圈來執行要換頁的次數(num_page次)

第20行 為觀察網頁原始碼所得到的 每一個PO文,都是被屬性值class名為r-ent的標籤所包圍

第26行 每擷取完一頁面,該程式需擷取的頁面就少一(num_page就減1)

 

程式碼

 

印出

 

本篇使用BeautifulSoup與Selenium來完成換頁爬文的操作,

但是好像可以只用Selenium來完成,再來研究看看 =)

 

Selenium的操作可以參考這篇 [Python] 使用Selenium在Google Chrome瀏覽器


參考:

Stackoverflow,http://stackoverflow.com/questions/15985339/how-do-i-get-current-url-in-selenium-webdriver-2-python

 

請不吝指教 =)

 

arrow
arrow
    文章標籤
    python crawler
    全站熱搜
    創作者介紹
    創作者 Jialin 的頭像
    Jialin

    Jialin

    Jialin 發表在 痞客邦 留言(0) 人氣()