2017/9/13

在 ruby 可執行 js 的爬蟲

markdown [watir](https://github.com/watir/watir) 是一個自動測試工具,我打算拿來做爬蟲,因為我的爬蟲需要執行頁面 js 獲得動態 dom 結果,而 watir 剛好可以做到這件事情。 watir 需要搭配瀏覽器使用,我先試著使用 phantomjs 這個瀏覽器。 phantomjs 是一款無頭瀏覽器 [Headless_browser](https://en.wikipedia.org/wiki/Headless_browser), 因為他不需要真正顯示畫面,所以他的效能比較好。 [怎麼在 heroku 上跑 watir (phantomjs)](https://github.com/edelpero/watir-examples/blob/master/watir_on_heroku.md) 但是因為 chrome 也做了無頭版的瀏覽器,所以 phantomjs 的作者後來就不更新了。 [Getting Started with Headless Chrome](https://developers.google.com/web/updates/2017/04/headless-chrome) [Headless Capybara Feature Specs with Chrome](https://robots.thoughtbot.com/headless-feature-specs-with-chrome) [資料來源1](https://ruby-china.org/topics/31784)

沒有留言: