爬虫选型
框架 有两个选择:
- scrapy
- pyspider
读取js 动态获取:
- selenium+webdriver(如firefox,chrome等)。 必须要图形化的浏览器
- selenium+phantomjs。 -> 可以无浏览器
scrapy-splash
- splash作为js渲染服务,是基于Twisted和QT开发的轻量浏览器引擎,并且提供直接的http api。
- 快速、轻量的特点使其容易进行分布式开发。
- splash和scrapy融合,两种互相兼容彼此的特点,抓取效率较好。
- 虽然目前只有英文文档,但写的已经很详细了,仔细阅读便能快速开发。
- splash使用lua脚本实现js的操作