爬虫选型

框架 有两个选择:

  1. scrapy
  2. pyspider

读取js 动态获取:

  1. selenium+webdriver(如firefox,chrome等)。 必须要图形化的浏览器
  2. selenium+phantomjs。 -> 可以无浏览器
  3. scrapy-splash

    • splash作为js渲染服务,是基于Twisted和QT开发的轻量浏览器引擎,并且提供直接的http api。
    • 快速、轻量的特点使其容易进行分布式开发。
    • splash和scrapy融合,两种互相兼容彼此的特点,抓取效率较好。
    • 虽然目前只有英文文档,但写的已经很详细了,仔细阅读便能快速开发。
    • splash使用lua脚本实现js的操作