Scrapy爬虫框架:Selenium + PhantomJS

之前说了,我们直接抓取出来的网页是静态的,并不能获取到动态内容,可以通过selenium来实现动态内容获取。

概念解释

Selenium 是一个测试工具,测试直接在浏览器中运行,就像真实用户所做的一样,所以可以模拟浏览器访问页面下载js内容和ajax内容,支持很多浏览器:

  • Google Chrome
  • Internet Explorer 7, 8, 9, 10, 11
  • Firefox
  • Safari
  • Opera
  • HtmlUnit
  • PhantomJS
  • Android
  • iOS

PhantomJS是一个没有界面的浏览器,为什么使用这个呢,因为这样不用再打开一个浏览器了,是在背后运行,其实速度和其他浏览器是差不多的,某些情况下还不如其他浏览器速度快。

安装

Selenium官网
pip install selenium
至于webdriver下载,对应的浏览器有不一样的下载地方,这个自己去找,提供一个Chrome Driver的下载地址:Chrome Driver

使用

self.driver = webdriver.PhantomJS()
self.driver.get(response.url)
selector = Selector(text=self.driver.page_source)

webdriver可以设置成多种,例如Chrome:

webdriver.Chrome("/Users/Carlton/chromedriver") # 构造参数是下载的ChromeDriver路径

这样我们就通过浏览器(PhantomJS可以理解成没有界面的浏览器)来下载了,下载完成的网页源代码通过driver.page_source获取。
提一下这个Selector,拿到源代码后需要分析网页的内容,通过Selector就很简单,推荐使用Selector而不是driver提供的xpath工具,因为很多时候driver提供的工具并不能按照预期运行。

项目实例

import json

from scrapy import Request
from scrapy import Selector
from scrapy.crawler import CrawlerProcess
from scrapy.spiders import Spider
from scrapy.utils.project import get_project_settings
from selenium.webdriver.support.wait import WebDriverWait
from selenium import webdriver


class TmallAndTaoBaoSpider(Spider):
    name = "tts"
    allowed_domains = ['tmall.com', 'taobao.com']
    start_urls = []
    total_items = 0

    def __init__(self, *args, **kwargs):
        super(TmallAndTaoBaoSpider, self).__init__(*args, **kwargs)
        self.count = 0
        self.error_count = 0
        if keys is None or dt is None:
            return
        self.driver = webdriver.Chrome("/Users/Carlton/chromedriver")
        url = "https://s.taobao.com/search?q=硬盘&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&style=list"
        self.start_urls.append(url)

    def __del__(self):
        if self.driver is not None:
            self.driver.quit()

    def parse(self, response):
        return self._parse_handler(response)

    def _parse_handler(self, response):
        self.driver.get(response.url)
        selector = Selector(text=self.driver.page_source)
        pass

解释一下,__init__初始化了webdriver,等下用这个来下载动态地址,还初始化了start_urls这个地址是用浏览器访问淘宝搜索拷贝出来的,这里我们搜索硬盘。需要注意的是parse必须返回Item或者Requestself.driver.get(response.url)抓取数据后,通过self.driver.page_source来获取动态的内容。这样爬虫开始后就会启动chrome浏览器,然后开始下载淘宝数据。

总结

这一篇写了,Selenium 和 PhantomJS等结合起来抓取动态数据。selenium是一个前端自动化测试工具,可以通过它来连接很多浏览器,通过webdriver连接的浏览器,然后把浏览器访问下载的内容通过selenium返回给Scrapy。

发表评论

电子邮件地址不会被公开。 必填项已用*标注