【案例】python数据采集清洗分析中国审判流程信息公开网-采集篇

2.3 请求链接并清洗数据:推荐使用方法二,即使用selenium模拟浏览器操作,避免请求头问题。2.4 自主选择方法一(使用requests)或方法二(使用selenium)。
【案例】python数据采集清洗分析中国审判流程信息公开网-采集篇
数据来源:中国审判流程信息公开网

小白的一点案例记录,望大神们手下留情。无完整源码,按模块操作未做整合。

一、背景前提

日常辛苦工作后,心血来潮想了解离职公司的最新情况。使用企业信息查询网站,完成一系列操作后,发现诉讼异常。因未成为会员,无法查看完整内容。由此,萌生了自己取数据、自行分析的念头。

二、准备工作

提醒:小心,爬虫操作可能导致IP封禁!使用Selenium模拟浏览器操作更真实。环境:win10、python3.7。工具:anaconda spyder、chrome driver。三方包:selenium、pandas、bs4、requests、random。

三、数据采集及清洗

分析网站结构,明确了关键点:首页搜索按钮需输入关键词,不同关键词搜索结果数量不一;搜索“0”出现的案例条数与首页下方案例点击后相加一致;列表页标题固定为class="fd-list-01";无直接进入详情页链接,详情页链接统一,通过文章类型和ID拼接;标题中onclick属性包含文章类型和ID;验证上述信息,准备数据采集。

1. 目录采集

提供源码示例,注意调试,非成品源码。

步骤简述:

1.1 实例化浏览器:使用.get()方法打开链接。

1.2 输入关键词:使用.send_keys()方法输入内容。

1.3 点击检索:使用.click()方法进行搜索。

1.4 切换窗口:通过driver.title查看标题、driver.refresh()刷新页面、driver.window_handles获取窗口句柄、.switch_to.window()切换窗口。

1.5 获取列表页数据:使用.get_attribute()获取页面属性,如类型和ID。

1.6 点击下一页:循环class为pageBtnWrap的a标签,判断title值,点击对应下一页。

1.7 列表页结束:遇到下一页点击失败或页面加载异常时,重新尝试。

数据存为列表,使用pandas将数据转换为数据框,确保字段完整,避免数据丢失。

2. 详情页采集

提供源码示例,基于列表页结果进行。

步骤简述:

2.1 读取列表页采集结果。

2.2 构造URL。

2.3 请求链接并清洗数据:推荐使用方法二,即使用selenium模拟浏览器操作,避免请求头问题。

2.4 自主选择方法一(使用requests)或方法二(使用selenium)。2024-11-21
mengvlog 阅读 398 次 更新于 2025-09-11 12:09:21 我来答关注问题0
  •  翡希信息咨询 python采集京东app端搜索商品数据(2023-11-15)

    Python采集京东APP端搜索商品数据的步骤如下:准备工具与环境:使用Charles工具从手机APP端进行抓包,以获取必要的cookie信息和设备标识。明确接口与参数:接口地址:虽然具体地址未给出,但通常需要根据抓包结果确定。接口功能ID:functionId="search",表示搜索商品数据的接口。APP版本号:clientVersion="10.1...

  •  翡希信息咨询 Python从入门到入狱,警方上门,23人被带走…这种开发千万别干

    近日,北京某互联网公司因非法使用Python爬虫技术窃取直播数据并出售牟利,导致23名犯罪嫌疑人被警方抓获。这一事件再次提醒广大开发者,Python爬虫开发需谨慎,必须严格遵守法律法规,不得进行非法行为。一、事件概述 10月15日,北京市朝阳公安分局根据公安部“净网2021”专项行动部署,经过半个多月的缜密侦查...

  •  翡希信息咨询 Python从入门到入狱,警方上门,23人被带走…这种开发千万别干

    收网行动:在确定嫌疑人身份和查清网站幕后的运维人员后,警方锁定了位于朝阳区某写字楼内的网络公司,并进行了收网行动,将犯罪团伙23名嫌疑人全部抓获。犯罪事实:经审讯,王某漪、杨某宁和杨某等人交代了他们利用“爬虫”软件非法获取网站数据,进行数据处理后倒卖获利40余万元的犯罪事实。他们此前曾合...

  •  文暄生活科普 【Python数据采集系列】一文解读requests.get()和requests.post()的区别

    一、引言 requests.get():该方法用于发送 HTTP GET 请求,主要用于获取页面资源。requests.post():该方法用于发送 HTTP POST 请求,主要用于向服务器传递数据,如模拟用户登录、提交表单数据、上传文件等。二、response = requests.get()2.1 参数:查询参数:以字典形式封装,requests 会自动将其拼接到...

  •  文暄生活科普 【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

    我们的爬虫程序会分析小红书页面的HTML结构,找到请求数据的链接,然后通过模拟浏览器行为来获取这些评论数据。首先,我们需要导入一些必要的Python库,定义请求头以通过验证,尤其是设置User-Agent和Cookie。Cookie的获取通常需要一些技巧,比如通过访问小红书的登录页面来获取,然后在每次请求时携带这个Cookie。接...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部