发表于 2016-12-05 |

爬虫选型

框架有两个选择：

scrapy
pyspider

读取js 动态获取：

selenium+webdriver（如firefox，chrome等）。必须要图形化的浏览器
selenium+phantomjs。 -> 可以无浏览器
scrapy-splash
- splash作为js渲染服务，是基于Twisted和QT开发的轻量浏览器引擎，并且提供直接的http api。
- 快速、轻量的特点使其容易进行分布式开发。
- splash和scrapy融合，两种互相兼容彼此的特点，抓取效率较好。
- 虽然目前只有英文文档，但写的已经很详细了，仔细阅读便能快速开发。
- splash使用lua脚本实现js的操作