Back to Question Center
0

Semalt - 如何刮网页?

1 answers:

美丽的汤是一个Python库,广泛用于通过创建一个分析树来自XML和HTML文档. Web抓取是一种从网站和页面中提取数据的技术,广泛应用于数据分析和管理领域. 在大多数情况下,Python编程语言是数据科学的先决条件.

Python 3有可以应用于数据管理项目的抓取工具和模块. 目前以Beautiful Soup 4运行,该模块与Python 3和Python 2兼容. 7. 美丽的汤4模块也能够创建一个非封闭标签汤的解析树. 在本教程中,您将学习如何刮取页面并将刮取的数据写入CSV文件.

开始使用

首先,在PC上建立一个基于服务器或本地的Python编码环境. 你也应该在你的机器上安装美丽的汤和请求模块. 使用这两个模块的知识也是一个必要的先决条件. 熟悉HTML标签和结构也是一个额外的优势.

了解你的数据

在这种情况下,国家美术馆的真实数据将被用来帮助你了解如何使用美丽的汤4. 国家美术馆由12,000名艺术家完成,共12万件. 艺术总部设在华盛顿. C,美国.

用美丽的汤提取Web数据并不那么复杂. 例如,如果您专注于字母Z,请在列表中标记并记下名字. 在这种情况下,第一个名字是Zabaglia,Niccola. 为了保持一致,请指出页面的数量以及该页面上最后一位艺术家的姓名.

如何导入Requests和Beautiful Soup库

要导入库,激活你的Python 3编程环境. 检查以确保您与您的编程环境在同一个目录中. 运行以下命令开始. my_env /斌/激活.

创建一个新文件,并开始导入美丽的汤和请求库. 请求库将允许您以可读格式在您的Python程序中使用HTTP. 美丽的汤,另一方面,工程快速刮页. 使用bs4导入美丽的汤.

如何收集和解析网页

使用请求收集您的第一页的URL. 第一页的URL将被分配给变量页面. 从Requests构建BeautifulSoup对象,并从Python的解析器中解析对象.

在本教程中,目的是收集链接和艺术家的名字. 例如,你可以收集艺术家的日期和国籍. 对于Windows用户,右键点击艺术家的名字. 在这种情况下,使用Zabaglia,Niccola. 对于Mac OS用户,点击“CTRL”并点击名称. 点击屏幕弹出菜单中的“检查元素”菜单,以访问网页开发人员的工具. 打印艺术家的名字,使美丽的汤快速解析一棵树.

删除底部链接

要删除网页上的底部链接,请通过右键单击元素来检查DOM. 你会发现链接在HTML表格下. 使用美丽的汤,使用“分解方法”从分析树中删除标签.

如何从标签中提取内容

您不必打印整个链接标签,使用美丽的汤从标签中删除材料. 您还可以通过使用美丽的汤4捕获与艺术家相关的网址.

将抓取的数据捕获到CSV文件中

CSV文件将允许您以纯文本形式存储结构化数据,这种格式主要用于数据表. 建议使用Python处理纯文本文件的知识.

Web数据抽取用于页面的获取和信息的获取. 体谅你从中提取信息的网站. 一些动态网站限制网站上的网站数据提取. 用美丽的汤和Python 3刮页面就是这么简单.

December 22, 2017
Semalt - 如何刮网页?
Reply