【python爬虫案例】用python爬取百度的搜索结果!

本次爬取目标是百度搜索结果数据。以搜索"马哥python说"为例,分别爬取每条结果的页码、标题、百度链接、真实链接、简介、网站名称。爬取结果如下:编写爬虫代码开始,首先导入需要用到的库,并定义一个请求头。Cookie是个关键,如果不加Cookie,响应码可能不是200,获取不到数据。获取Cookie的方法是打开...
【python爬虫案例】用python爬取百度的搜索结果!
本次爬取目标是百度搜索结果数据。以搜索"马哥python说"为例,分别爬取每条结果的页码、标题、百度链接、真实链接、简介、网站名称。

爬取结果如下:

编写爬虫代码开始,首先导入需要用到的库,并定义一个请求头。Cookie是个关键,如果不加Cookie,响应码可能不是200,获取不到数据。获取Cookie的方法是打开Chrome浏览器,访问百度页面,按F12进入开发者模式,依次操作:

分析页面请求地址,其中wd=后面是搜索关键字"马哥python说",pn=后面是10(规律:第一页是0,第二页是10,第三页是20,以此类推),其他URL参数可以忽略。

分析页面元素,以搜索结果标题为例,每一条搜索结果都是class="result c-container new-pmd",下层结构里有简介、链接等内容,解析内部子元素。根据这个逻辑,开发爬虫代码。

获取真实地址时,需要注意到爬取到的标题链接是百度的一个跳转前的地址,不是目标地址。通过向这个跳转前地址发送一个请求,根据响应码的不同,采用逻辑处理获取真实地址。如果响应码是302,则从响应头中的Location参数获取真实地址;如果是其他响应码,则从响应内容中用正则表达式提取出URL真实地址。

将爬取到的数据保存到csv文件,需要注意使用选项(encoding='utf_8_sig')避免数据乱码,尤其是windows用户。

同步讲解视频和获取python源码的途径如下:本案例的同步讲解视频和案例的python爬虫源码及结果数据已打包好,并上传至微信公众号"老男孩的平凡之路",后台回复"爬百度"获取,点链接直达。

另,2022.11.24更新,已将这个爬虫封装成exe软件,感兴趣的朋友可以关注公众号获取更多资源。2024-11-12
mengvlog 阅读 52 次 更新于 2025-09-10 07:44:54 我来答关注问题0
  •  文暄生活科普 Python爬虫|案例2-携带参数的Post请求

    在左侧搜索框输入“dream”,逐个点击右侧的“Response”或“Preview”以判断正确请求信息。目标数据通常与“sug”相关。查看请求网址,确定其中的参数,这些参数即为要翻译的单词。编写Python爬虫代码执行Post请求并携带参数。代码示例:(此处省略具体代码实现细节,用于交流学习)尝试对比其他翻译服务如微软翻译...

  •  翡希信息咨询 Python从入门到入狱,警方上门,23人被带走…这种开发千万别干!

    近日,北京某互联网公司因非法使用Python爬虫技术,导致23名员工被警方带走。这一事件再次提醒广大开发者,在进行爬虫开发时必须严格遵守法律法规,切勿触碰法律红线。一、事件概述 10月15日,北京市朝阳公安分局公开宣布,按照公安部“净网2021”专项行动的整体部署,朝阳警方深入打击网络违法犯罪活动。经过半个...

  •  翡希信息咨询 【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

    使用Python采集小红书笔记下的评论的步骤如下:明确目标:确定要爬取的笔记主题。确定要采集的评论数据字段,如笔记链接、页码、评论者昵称、评论者ID、主页链接、评论时间、评论IP属地、点赞数、评论级别以及评论内容。环境准备:导入必要的Python库,如requests、BeautifulSoup、pandas等。定义请求头,包括...

  •  翡希信息咨询 一个Python爬虫案例,带你掌握xpath数据解析方法!

    XPath数据解析方法是一个在网页数据抓取中常用且高效的技术,下面通过一个Python爬虫案例来展示如何使用XPath解析方法。1. 实例化etree对象并加载页面源码 步骤:首先,你需要使用lxml库中的etree模块来实例化一个etree对象,并将目标网页的HTML源码加载到此对象中。这可以通过读取本地HTML文件或通过网络请求...

  •  文暄生活科普 【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

    我们的爬虫程序会分析小红书页面的HTML结构,找到请求数据的链接,然后通过模拟浏览器行为来获取这些评论数据。首先,我们需要导入一些必要的Python库,定义请求头以通过验证,尤其是设置User-Agent和Cookie。Cookie的获取通常需要一些技巧,比如通过访问小红书的登录页面来获取,然后在每次请求时携带这个Cookie。接...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部