爬虫好学马上就会之requests库-工具盒子

Python的requests库是一个简洁而强大的HTTP库，用于发送HTTP请求和处理响应。它使得与Web服务进行交互变得非常简单，可以轻松地实现数据的抓取、网页的爬取等功能。比起urllib、urllib2库来说，更简单方便，所以也是许多爬虫爱好者的必选库之一。

1、爬虫的基本操作流程

1）确定目标网站的url地址；

2）通过网络请求向目标网站发送请求；

3）获取网站返回的响应数据；

4）将获取到的数据进行持久化存储，以便后续分析和处理。

2、实际案例

案例1：爬取搜狗首页的页面源码数据

搜狗首页如下图所示：

测试代码： * * * * * * * *

import requestsimport os os.chdir(r'E:\TestData')url = 'https://www.sogou.com/'response = requests.get(url = url)page_text = response.textwith open('sogou.html','w',encoding = 'utf-8') as fp:fp.write(page_text)

测试结果如下：

我们发现爬取的页面与浏览器访问的页面有很大的出入，这是因为我们只是对搜狗首页发送了请求，并没有请求网页的样式，所以爬取的只是网页的基础数据，而浏览器会请求到多个数据，比如说CSS样式表等。再说，样式对我们来说并不重要，我们关心的只是数据。

案例2：实现一个简易的搜狗页面采集器

我们通过在sogou页面输入关键字，来获取具体的页面信息。这样我们想看到什么样的信息，就可以通过输入什么样的关键字来搞定。

测试代码： * * * * * * * * * * * * * * * * * *

import requestsimport os os.chdir(r'E:\TestData')keyword = input('请输入一个关键字：')headers = {    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'}params = {    'query':keyword}url = 'https://www.sogou.com/web'response = requests.get(url = url,headers = headers,params = params)response.encoding = 'utf-8'fileName = keyword + '.html'page_text = response.textwith open(fileName,'w',encoding = 'utf-8') as fp:    fp.write(page_text)print(fileName,'爬取完毕！！！')