进入TED官网,右键选择"检查"功能,激活浏览器开发者工具。在开发者工具中,切换到"Network"选项,并按"Newest"排序。此时,网页返回的数据会呈现出来。通过分析请求头和返回数据,可编写Python代码以模拟数据提取过程。脚本capFullBase.py用于提取TED演讲的基本数据,并输出到Excel表格。当前,该爬取覆盖了...
最新TED官网演讲中英翻译字幕python爬取
为了获取TED官网上的演讲视频基础数据,首先需对目标网页进行初步分析。进入TED官网,右键选择"检查"功能,激活浏览器开发者工具。在开发者工具中,切换到"Network"选项,并按"Newest"排序。此时,网页返回的数据会呈现出来。通过分析请求头和返回数据,可编写Python代码以模拟数据提取过程。脚本capFullBase.py用于提取TED演讲的基本数据,并输出到Excel表格。当前,该爬取覆盖了TED官网6300+篇演讲,数据包括演讲者、演讲链接、封面图、演讲时长、英文标题。其他数据需进一步进入每个演讲页面进行抓取。
进一步地,针对每个TED演讲的具体数据抓取,已获取演讲链接后,先访问单个链接页面进行分析。然而,直接返回的数据并非所需信息。检查网页返回的元素内容,发现其中包含的HTML标签为我们提供了获取所需数据的线索。通过深入解析这些HTML标签,即可实现详细数据的抓取。2024-11-02