简要步骤:
1、安装python
2、设置python环境变量:C:\Python27\;C:\Python27\Scripts\;
3、运行get-pip.py 文件(自带的pip不能用,必须重新下载)
4、python –version pip –version可以看看是否设置成功
5、打开cmd,运行pip install scrapy (如果lxml安装失败,尝试下指定版本安装pip install lxml==3.4.2 ,还不行的话安装下VCForPython27.msi)
6、安装各种插件
eclipse的插件pydev下载地址:
http://download.csdn.net/download/danielzzu/6659229
Scrappy
文档
http://scrapy-chs.readthedocs.org/zh_CN/latest/
安装
Windows下:
Python:https://www.python.org/ 目前使用2.7版本
安装python 设置系统变量path
Pip:https://pip.pypa.io/en/latest/installing.html#python-os-support
Get-pip: https://bootstrap.pypa.io/get-pip.py
1 |
执行<span style="font-size:9.0pt;font-family:Consolas;color:#404040;">python get-pip.py </span><span style="font-size:9.0pt;color:#404040;">设置</span><span style="font-size:9.0pt;font-family:Consolas;color:#404040;">pip</span><span style="font-size:9.0pt;color:#404040;">系统变量</span><span style="font-size:9.0pt;font-family:Consolas;color:#404040;"></span> |
Pip install scrapy
需要安装其它相关模块:PIL、mysql、pywin32等
项目目录
· literature/: 该项目的python模块。之后您将在此加入代码。
· literature/items.py: 项目中的item文件.
· literature/pipelines.py: 项目中的pipelines文件.
· literature/settings.py: 项目的设置文件.
· literature/spiders/: 放置spider代码的目录.
Spider:爬虫代码,主要为规则编写,采集数据返回后获取处理,抓取相关需要数据
Item:类似于dict,提供字段属性
Pipelines:当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。对数据进行验证,存储到数据库等。
setting:设置cookie是否禁用、请求延迟、ua更换等
运行
例:
采集二层楼网站
Scrapy crawl ercenglou