Spider
Spider 是一个python爬虫库。
爬虫项目建立
进入虚拟环境并激活:
cd scrapyenv
source bin/activate创建新的Scrapy项目和爬虫:
scrapy startproject 项目名
scrapy genspider 爬虫名 "待爬取的网址"启动脚本 begin.py
from scrapy import cmdline
cmdline.execute("scrapy crawl 爬虫名".split())爬虫文件 爬虫名.py
from 项目名.items import item名保存为json
运行爬虫并将数据保存为JSON文件,指定编码为utf-8:
scrapy crawl mySpider -o school1.json -s FEED_EXPORT_ENCODING=utf-8确保在实际使用时替换项目名、爬虫名、待爬取的网址和item名为项目的实际名称。