如何在Ubuntu Linux中安装Python Beautifulsoup模块
了解如何在 Ubuntu 22.04、20.04 或任何其他版本上安装 BeautifulSoup Python 库F 这个 Linux 用于网页抓取和解析 HTML 和 XML 文档。
Python 的生态系统提供了各种库来简化开发人员的工作,BeautifulSoup 就是其中之一。 它的名字听起来可能并不奇怪,但对于那些使用 Python 编码的人来说非常有用。 它提供了一种从网页中提取数据或搜索特定元素并检索其内容或属性的便捷方法; 使其对于各种数据分析和网络抓取任务都很有价值。
它的主要功能是解析 HTML 和 XML 文档; 允许在解析树中搜索特定元素; 使用它,您可以通过遍历父母、兄弟姐妹和孩子来导航解析树; 可以检测文档的编码并将其转换为 Unicode,并且能够与其他库(例如 pandas 或 CSV 库)集成以存储提取的数据。
在本文中,我们将了解在 Ubuntu Linux 上安装 Beautiful Soup 的命令。
推荐:将Ubuntu 22.04 Jammy升级到Ubuntu 22.10 Kinetic Kudu
第 1 步:安装 Python PIP(如果尚未安装)
安装 Python 库的最简单、最好的方法是使用名为 PIP 的包管理器。 因此,如果您已经安装了该软件,则可以跳过此步骤。
要检查它是否可用,请使用:
pip -V
如果输出显示版本详细信息,则表明您的系统上存在 PIP。
但是,如果您尚未安装 PIP(Python 软件包安装程序),则可以使用以下命令来获取它。
sudo apt update -y
sudo apt install python3-pip
步骤2:在Ubuntu上安装BeautifulSoup
一旦您确认 PIP 在您的 Ubuntu Linux 系统上可用,我们就可以使用它来安装各种 Python 库,包括 美丽汤。 因此,在 Ubuntu 命令终端上运行:
pip install beautifulsoup4 --user
或者那些不想使用 PIP 的人可以使用 APT 包管理器,命令如下:
sudo apt install python3-bs4
第三步:检查BeautifulSoup版本
要使用上一步命令确认 BeautifulSoup 是否确实安装在您的系统上以在 Python 脚本中使用,我们可以使用给定的命令。 它将为我们提供指定库的版本详细信息及其安装位置。
python3 -m pip show beautifulsoup4
第 4 步:运行简单的测试脚本
让我们创建一个简单的脚本文件,在其中导入 BeeatuifulSoup 来解析简单的 HTML 代码。
使用任何文本编辑器并创建一个新的 Python 文件。 这里我们使用的是 纳米, 例如, test_beautifulsoup.py。
将以下代码添加到文件中:
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>Example HTML Page</title>
</head>
<body>
<h1>Welcome to Beautiful Soup</h1>
<p>This is an example paragraph.</p>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())
节省 通过按创建的文件 Ctrl+X, 类型 是 然后点击 进入 钥匙。
运行创建的Python文件:
python test_beautifulsoup.py
您将在 Ubuntu 终端的输出中看到经过解析和美化的 HTML。
如何升级
将来,如果 Beautifulsoup 库有一些新的更新可用,则要升级它,请使用:
pip install --upgrade beautifulsoup4 --user
卸载(可选)
如果一段时间后,您的 Ubuntu Linux 系统上不再需要 Python 的 BeatuifulSoup 库,只需将其删除,我们可以再次使用 PIP,命令如下:
pip uninstall beautifulsoup4
结束语:
Beautiful Soup 是一个非常有用的用于网页抓取的 Python 库,您已经看到它的安装过程对于 Ubuntu Linux 来说非常简单。 甚至您也可以在其他操作系统上使用本文给出的 PIP 命令来安装 Beautiful Soup 模块。