Back to Question Center
0

Semalt - 如何刮网页?

1 answers:

美丽的汤是一个Python库,广泛用于通过创建一个分析树来自XML和HTML文档. Web抓取是一种从网站和页面中提取数据的技术,广泛应用于数据分析和管理领域. 在大多数情况下,Python编程语言是数据科学的先决条件.

Python 3有可以应用于数据管理项目的抓取工具和模块. 目前以Beautiful Soup 4运行,该模块与Python 3和Python 2兼容 - design my own club. 7. 美丽的汤4模块也能够创建一个非封闭标签汤的解析树. 在本教程中,您将学习如何刮取页面并将刮取的数据写入CSV文件.

开始使用

首先,在PC上建立一个基于服务器或本地的Python编码环境. 你也应该在你的机器上安装美丽的汤和请求模块. 使用这两个模块的知识也是一个必要的先决条件. 熟悉HTML标签和结构也是一个额外的优势.

了解你的数据

在这种情况下,国家美术馆的真实数据将被用来帮助你了解如何使用美丽的汤4. 国家美术馆由12,000名艺术家完成,共12万件. 艺术总部设在华盛顿. C,美国.

用美丽的汤提取Web数据并不那么复杂. 例如,如果您专注于字母Z,请在列表中标记并记下名字. 在这种情况下,第一个名字是Zabaglia,Niccola. 为了保持一致,请指出页面的数量以及该页面上最后一位艺术家的姓名.

如何导入Requests和Beautiful Soup库

要导入库,激活你的Python 3编程环境. 检查以确保您与您的编程环境在同一个目录中. 运行以下命令开始. my_env /斌/激活.

创建一个新文件,并开始导入美丽的汤和请求库. 请求库将允许您以可读格式在您的Python程序中使用HTTP. 美丽的汤,另一方面,工程快速刮页. 使用bs4导入美丽的汤.

如何收集和解析网页

使用请求收集您的第一页的URL. 第一页的URL将被分配给变量页面. 从Requests构建BeautifulSoup对象,并从Python的解析器中解析对象.

在本教程中,目的是收集链接和艺术家的名字. 例如,你可以收集艺术家的日期和国籍. 对于Windows用户,右键点击艺术家的名字. 在这种情况下,使用Zabaglia,Niccola. 对于Mac OS用户,点击“CTRL”并点击名称. 点击屏幕弹出菜单中的“检查元素”菜单,以访问网页开发人员的工具. 打印艺术家的名字,使美丽的汤快速解析一棵树.

删除底部链接

要删除网页上的底部链接,请通过右键单击元素来检查DOM. 你会发现链接在HTML表格下. 使用美丽的汤,使用“分解方法”从分析树中删除标签.

如何从标签中提取内容

您不必打印整个链接标签,使用美丽的汤从标签中删除材料. 您还可以通过使用美丽的汤4捕获与艺术家相关的网址.

将抓取的数据捕获到CSV文件中

CSV文件将允许您以纯文本形式存储结构化数据,这种格式主要用于数据表. 建议使用Python处理纯文本文件的知识.

Web数据抽取用于页面的获取和信息的获取. 体谅你从中提取信息的网站. 一些动态网站限制网站上的网站数据提取. 用美丽的汤和Python 3刮页面就是这么简单.

December 22, 2017