setting.py实验目的及要求:
【实验目的】
通过本实验了解Scrapy爬虫框架;熟练掌握Scrapy的基本使用方法和常用技巧。
【实验要求】
使用Scrapy框架,抓取网站商品信息(京东、淘宝、当当等任选一个),并将结果保存成多种形式。(本文选择当当)
实验原理及内容:
【实验原理】(列出相关知识点)
Scrapy框架:
理解Scrapy框架的基本原理和架构。
HTTP请求和响应:
理解HTTP请求和响应的基本概念。
如何通过Scrapy发送HTTP请求和处理响应。
Web页面结构:
了解HTML和CSS的基础知识,理解Web页面的结构。
CSS选择器和XPath:
使用CSS选择器或XPath在网页中定位和提取信息。
Scrapy Spider:
创建Scrapy Spider,定义如何抓取和解析页面。
如何通过Spider跟踪链接和处理分页。
Scrapy Items:
定义Scrapy Items,用于存储抓取的数据。
Scrapy Pipelines:
编写Scrapy Pipelines处理抓取到的Item。
配置Pipeline在settings.py中。
异常处理:
处理可能出现的异常,例如超时、连接错误等。
数据存储:
将抓取到的数据保存到不同的存储介质,如文件、数据库等。
用户代理和IP代理:
设置和使用用户代理和IP代理,以避免被封禁。
异步和并发:
配置异步和并发请求以提高爬取效率。
Scrapy Settings:
配置Scrapy的Settings,包括用户代理、下载延迟等。
Web爬取伦理:
了解爬虫的伦理和法律问题,避免对网站造成不必要的压力。
日志和调试:
使用Scrapy的日志系统进行调试。
扩展和定制:
定制和扩展Scrapy,满足特定需求。
【程序思路】
首先,因为我们要抓取网页中的标题、链接和评论数,所以我们首先得写items.py
在这里添加完我们需要爬取