檬味博客 » 问答 » Python » python 怎样爬去网页的内容

python 怎样爬去网页的内容

用python爬取网页信息的话，需要学习几个模块，urllib，urllib2，urllib3，requests，httplib等等模块，还要学习re模块（也就是正则表达式）。根据不同的场景使用不同的模块来高效快速的解决问题。最开始我建议你还是从最简单的urllib模块学起，比如爬新浪首页（声明：本代码只做学术研究，绝无攻击用意）：这...

python 怎样爬去网页的内容

用python爬取网页信息的话，需要学习几个模块，urllib，urllib2，urllib3，requests，httplib等等模块，还要学习re模块（也就是正则表达式）。根据不同的场景使用不同的模块来高效快速的解决问题。
最开始我建议你还是从最简单的urllib模块学起，比如爬新浪首页（声明：本代码只做学术研究，绝无攻击用意）：

这样就把新浪首页的源代码爬取到了，这是整个网页信息，如果你要提取你觉得有用的信息得学会使用字符串方法或者正则表达式了。
平时多看看网上的文章和教程，很快就能学会的。
补充一点：以上使用的环境是python2，在python3中，已经把urllib，urllib2，urllib3整合为一个包，而不再有这几个单词为名字的模块。
2017-11-02

mengvlog 阅读 48 次 更新于 2025-09-09 11:38:54 我来答关注问题 0

1 个回答檬味博客专题活动

其他Python类似问题

怎么使用python查看网页源代码 337次阅读
kitten和python课程有啥区别 36次阅读
linux命令-crontab [使用场景：python.py定时任务] 258次阅读
python怎么爬取数据 36次阅读
求大神指导：用python的urllib.urlopen读取网页源码的问题 25次阅读
Python函数精解：sum函数 52次阅读

檬味博客在线解答立即免费咨询

Python相关话题

二维数组python 有用 (25)
python拟合有用 (30)
python排列有用 (28)
python日志有用 (26)
python计算机二级有用 (38)
python基本有用 (34)
pythonkey 有用 (27)
封装python 有用 (24)
python范围有用 (25)
python字节有用 (37)

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客