【python爬虫案例】用python爬取百度的搜索结果!

本次爬取目标是百度搜索结果数据。以搜索"马哥python说"为例,分别爬取每条结果的页码、标题、百度链接、真实链接、简介、网站名称。爬取结果如下:编写爬虫代码开始,首先导入需要用到的库,并定义一个请求头。Cookie是个关键,如果不加Cookie,响应码可能不是200,获取不到数据。获取Cookie的方法是打开...
【python爬虫案例】用python爬取百度的搜索结果!
本次爬取目标是百度搜索结果数据。以搜索"马哥python说"为例,分别爬取每条结果的页码、标题、百度链接、真实链接、简介、网站名称。

爬取结果如下:

编写爬虫代码开始,首先导入需要用到的库,并定义一个请求头。Cookie是个关键,如果不加Cookie,响应码可能不是200,获取不到数据。获取Cookie的方法是打开Chrome浏览器,访问百度页面,按F12进入开发者模式,依次操作:

分析页面请求地址,其中wd=后面是搜索关键字"马哥python说",pn=后面是10(规律:第一页是0,第二页是10,第三页是20,以此类推),其他URL参数可以忽略。

分析页面元素,以搜索结果标题为例,每一条搜索结果都是class="result c-container new-pmd",下层结构里有简介、链接等内容,解析内部子元素。根据这个逻辑,开发爬虫代码。

获取真实地址时,需要注意到爬取到的标题链接是百度的一个跳转前的地址,不是目标地址。通过向这个跳转前地址发送一个请求,根据响应码的不同,采用逻辑处理获取真实地址。如果响应码是302,则从响应头中的Location参数获取真实地址;如果是其他响应码,则从响应内容中用正则表达式提取出URL真实地址。

将爬取到的数据保存到csv文件,需要注意使用选项(encoding='utf_8_sig')避免数据乱码,尤其是windows用户。

同步讲解视频和获取python源码的途径如下:本案例的同步讲解视频和案例的python爬虫源码及结果数据已打包好,并上传至微信公众号"老男孩的平凡之路",后台回复"爬百度"获取,点链接直达。

另,2022.11.24更新,已将这个爬虫封装成exe软件,感兴趣的朋友可以关注公众号获取更多资源。2024-11-12
mengvlog 阅读 69 次 更新于 2025-10-29 15:15:19 我来答关注问题0
  •  赛玖久生活日记 Python从入门到入狱,警方上门,23人被带走…这种开发千万别干!【附爬虫教程】

    近年来,随着大数据和人工智能的兴起,Python爬虫技术因其强大的数据采集能力而备受关注。然而,爬虫技术的滥用也引发了一系列法律问题。近日,北京某互联网公司因非法使用爬虫技术窃取直播数据而被警方一锅端,23名犯罪嫌疑人被带走,这一事件再次为爬虫开发者敲响了警钟。一、事件回顾 10月15日,北京市朝阳...

  •  赛玖久生活日记 他可以用Python两年躺赚200W!我也可以赚点小钱,日子过得更舒服

    一、接取爬虫外包项目 Python在爬虫领域有着广泛的应用,许多企业和个人都需要从网络上抓取数据。你可以通过一些外包平台(如猪八戒网、程序员兼职网等)接取爬虫项目,为客户提供数据抓取服务。需要注意的是,爬虫工作可能涉及法律风险和道德问题,务必确保你的行为合法合规,并尊重被爬取网站的使用条款。...

  •  文暄生活科普 Python爬虫副业接单月入过万,不吹!(小白爬虫书籍推荐)

    《Python网络爬虫实战 第2版》共10章,内容涵盖了Python3.6语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、多个爬虫框架(如Scrapy、Beautiful Soup、Mechanize、Selenium、Pyspider)以及爬虫与反爬虫技术。第1章:介绍了Python的简介、开发环境配置等基础知识。第2章:...

  •  翡希信息咨询 如何看待Python爬虫?Python爬虫是什么?(免费附教程)

    html.parser:Python内置解析器,基于DOM树分析,适合基础需求。BeautifulSoup:第三方库,支持多种解析引擎(如html.parser、lxml),功能强大且易用。lxml:高性能解析库,支持XML和HTML,解析速度快。应用程序:存储解析后的数据,如存入数据库(MySQL、MongoDB)或文件(CSV、JSON)。图:Python爬虫架构各...

  •  翡希信息咨询 【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

    使用Python采集小红书笔记下的评论的步骤如下:明确目标:确定要爬取的笔记主题。确定要采集的评论数据字段,如笔记链接、页码、评论者昵称、评论者ID、主页链接、评论时间、评论IP属地、点赞数、评论级别以及评论内容。环境准备:导入必要的Python库,如requests、BeautifulSoup、pandas等。定义请求头,包括...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部