知识库
编程语言
Python
Spider教程

Spider

Spider 是一个python爬虫库。

爬虫项目建立

进入虚拟环境并激活:

cd scrapyenv
source bin/activate

创建新的Scrapy项目和爬虫:

scrapy startproject 项目名
scrapy genspider 爬虫名 "待爬取的网址"

启动脚本 begin.py

from scrapy import cmdline
cmdline.execute("scrapy crawl 爬虫名".split())

爬虫文件 爬虫名.py

from 项目名.items import item名

保存为json

运行爬虫并将数据保存为JSON文件,指定编码为utf-8:

scrapy crawl mySpider -o school1.json -s FEED_EXPORT_ENCODING=utf-8

确保在实际使用时替换项目名爬虫名待爬取的网址item名为项目的实际名称。