数据科学的 Python 库

tanjimaju200 · Post by **tanjimaju200** » Sun Mar 02, 2025 5:39 am

学习了 Python 的安装以及所有基本数据结构。给自己一点感激。摇摇头，坚持住，因为您现在要学习使用 Python 的数据科学。如果您发现我们到目前为止所看到的内容有点困难和快速，我强烈建议您参加 Digital Vidya 的 Python 数据科学课程，该课程将涵盖 Python 的所有基础知识以及我们现在要掌握的数据科学的 Python 库。

我们将按类别探索这些库。首先，我们将了解数据整理，然后我们将了解数据可视化库。之后，我们将介绍用于机器学习和深度学习的 Python 库。最后，我们将了解自然语言处理、统计塞浦路斯手机号码列表和数据抓取等杂项库。

在使用这些库之前，您应该先了解如何安装这些库。这就是pip派上用场的地方。pip 是一个包/库管理器。您可以在官方文档页面上找到安装 pip 所需的一切。安装 pip 后，您只需运行如下所示的一个命令行，即可安装您的库。现在让我们了解它们是如何工作的。好吗？

pip install library-name #常规语法
pip install numpy #使用 pip 安装 numpy
数据整理
NumPy
在处理科学任务时，人们不可避免地会用到 Python 的 SciPy 堆栈。不要将其与 SciPy 库混淆，SciPy Stack 是专为 Python 中的科学和数值计算而设计的软件集合，而 SciPy 库是该堆栈的一部分。

然而，最基本的包是NumPy。它为 Python 中的数组和矩阵操作提供了大量有用的功能。数学中最基本的操作是求平均值、中位数和众数。让我们看一个例子。

import numpy as np #导入库
from scipy.stats import mode #从库导入特定模块
n = int(input())#获取用户输入
arr = list(map(int, input()))#组合输入并返回列表
打印（np.平均值（arr））
打印（np.median（arr））
mod = 模式（arr）
print(*mod[0]) #星号（*）删除方括号
#打印列表时
科学
SciPy 是一个科学和工程库。它建立在 NumPy 的基本功能之上。因此它高度依赖 NumPy。如上例所示，它借助特定子模块提供了高效的数值方案，如数值积分、优化等。SciPy 所有子模块中的功能都有详尽的文档记录 — 另一个显著优势。

熊猫
Pandas是一个 Python 包，旨在处理“关系”和“标记”数据。Pandas 是迄今为止数据整理的完美工具。它旨在快速轻松地进行数据操作、聚合和可视化（借助其他库）。

该库中有两种主要数据结构：一维的“系列”和二维的“数据框”。

您可以使用 pandas 做的事情包括处理缺失数据、轻松地从数据框中删除和添加列以及强大的分组功能。让我们通过示例来理解这一点。