close
延續這篇: [Python] PTT crawler in Python 使用Python爬批踢踢(網路爬蟲)
補上換頁的功能^^
使用BeautifulSoup來讀取網頁內容、Selenium控制瀏覽器 來進行爬蟲。
對批踢踢的電影版(movie)爬蟲,
第11行 User可以輸入想要擷取幾頁,存進num_page變數中
第14行 用while迴圈來執行要換頁的次數(num_page次)
第20行 為觀察網頁原始碼所得到的 每一個PO文,都是被屬性值class名為r-ent的標籤所包圍
第26行 每擷取完一頁面,該程式需擷取的頁面就少一(num_page就減1)
程式碼
印出
本篇使用BeautifulSoup與Selenium來完成換頁爬文的操作,
但是好像可以只用Selenium來完成,再來研究看看 =)
Selenium的操作可以參考這篇 [Python] 使用Selenium在Google Chrome瀏覽器
參考:
Stackoverflow,http://stackoverflow.com/questions/15985339/how-do-i-get-current-url-in-selenium-webdriver-2-python
請不吝指教 =)
文章標籤
全站熱搜
留言列表