怎么样python爬虫进行此网站爬取

可以通过【Python：import execjs】直接调用他的pako.js文件的JS的inflate()函数来解压这块。JS代码混淆后看起来是非常难懂的，使用这种做法可以不用太看懂加密的算法，效率当然写Python实现这个解密算法低1点咯。最后的JSON再用【Python：import demjson】解析，text的value就是文档。

怎么样python爬虫进行此网站爬取

是加密的，解密方法在JS里面可以弄出来。
首先要AES解密，可以【Python：import Crypto.Cipher.AES】包，解密mode是CFB，seed是"userId:"+uid+":seed"的SHA256值，解密的key是seed[0:24]，iv是seed[len(seed)-16:]。
如果没有登录，uid就是用的"anyone"，这时候的seed是"61581AF471B166682A37EFE6DD40FE4700EE337FEEEF65E2C8F203FCA312AAAB"，也就是key为"61581AF471B166682A37EFE6"，iv为"C8F203FCA312AAAB"。
解密后文件是压缩过的，解压即可得到一个JSON。这部分解压我没仔细看他的算法，好像是gzip，直接用【Python：import gzip】解压有点出错，可能没用对或者不是这个算法，你在研究一下。第二种投机的方法就是，可以通过【Python：import execjs】直接调用他的pako.js文件的JS的inflate()函数来解压这块。JS代码混淆后看起来是非常难懂的，使用这种做法可以不用太看懂加密的算法，效率当然写Python实现这个解密算法低1点咯。
最后的JSON再用【Python：import demjson】解析，text的value就是文档。
2017-12-23

八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器，可以帮助您快速进行网站数据的采集。如果您想使用Python爬虫进行网站爬取，可以使用Python的第三方库，如Requests和BeautifulSoup等。以下是一般的Python爬虫步骤：1. 安装Python和所需的第三方库。可以使用pip命令安装Requests和BeautifulSoup库。2. 导入所需的库。在Python脚本中，使用import语句导入Requests和BeautifulSoup库。3. 发送HTTP请求。使用Requests库发送HTTP请求，获取网页的HTML源代码。4. 解析HTML源代码。使用BeautifulSoup库解析HTML源代码，提取所需的数据。5. 处理数据。根据需要，对提取的数据进行处理和清洗。6. 存储数据。将处理后的数据保存到本地文件或数据库中。请注意，使用Python爬虫进行网站爬取需要一定的编程和代码知识，并且需要遵守网站的爬虫规则和法律法规。在进行网站爬取之前，请确保您已经了解相关法律法规，并获得了网站的授权或遵守了网站的使用协议。八爪鱼采集器提供了可视化的操作界面和丰富的功能，使用户无需编程和代码知识就能够轻松进行网站数据的采集。如果您想快速进行网站数据采集，推荐使用八爪鱼采集器。八爪鱼为用户准备了一系列简洁易懂的教程，帮助大家快速掌握采集技巧，轻松应对各类网站数据采集，请前往官网教程与帮助了解更多详情。2023-08-08

mengvlog 阅读 1026 次 更新于 2025-10-31 06:17:11 我来答关注问题 0

2 个回答檬味博客专题活动

怎么样python爬虫进行此网站爬取
首先要AES解密，可以【Python：import Crypto.Cipher.AES】包，解密mode是CFB，seed是"userId:"+uid+":seed"的SHA256值，解密的key是seed[0:24]，iv是seed[len(seed)-16:]。如果没有登录，uid就是用的"anyone"，这时候的seed是"61581AF471B166682A37EFE6DD40FE4700EE337FEEEF65E2C8F203FCA3...
python如何爬虫
1、安装必要的库为了编写爬虫，你需要安装一些Python库，例如requests、BeautifulSoup和lxml等。你可以使用pip install命令来安装这些库。2、抓取网页数据主要通过requests库发送HTTP请求，获取网页响应的HTML内容。3、解析HTML 使用BeautifulSoup等库对HTML进行解析，提取需要的数据。4、存储数据将提取的数据存...
怎么用python爬虫爬取可以加载更多的网页
在使用Python进行网页爬取时，遇到需要加载更多内容的情况，可以借助一些工具和框架来实现自动化处理。例如，可以利用pyspider这个爬虫框架，并结合PhantomJS，这样便能在Python中嵌入一些JavaScript代码，从而实现点击、下拉等操作，轻松应对需要动态加载内容的网页。PhantomJS是一款基于Webkit的自动化工具，支持JavaS...
如何用最简单的Python爬虫采集整个网站
因为网站的内链有很多都是重复的，所以为了避免重复采集，必须链接去重，在Python中，去重最常用的方法就是使用自带的set集合方法。只有“新”链接才会被采集。看一下代码实例：from urllib.request import urlopenfrom bs4 import BeautifulSoupimport repages = set()def getLinks(pageurl):globalpageshtml...
用python做爬虫下载视频
步骤一：模拟登录以访问受限页面对于需要登录才能访问的内容，首先需要通过模拟登录过程来获取访问权限。这里使用了requests库的session功能，它可以保持会话状态，从而在后续请求中自动携带登录信息。示例代码如下：pythonlogin_url = 'xxx.com/user/ajaxlogin'session = requests.session()UA = "Mozilla/5.0...

其他Python类似问题

檬味博客在线解答立即免费咨询

Python相关话题

二维数组python 有用 (37)
python拟合有用 (41)
python排列有用 (37)
python日志有用 (38)
python计算机二级有用 (50)
python基本有用 (48)
pythonkey 有用 (39)
封装python 有用 (35)
python范围有用 (37)
python字节有用 (47)