数据科学的 Python 库

B2C Data Innovating with Forum and Technology
Post Reply
tanjimaju200
Posts: 259
Joined: Wed Dec 18, 2024 7:13 am

数据科学的 Python 库

Post by tanjimaju200 »

学习了 Python 的安装以及所有基本数据结构。给自己一点感激。摇摇头,坚持住,因为您现在要学习使用 Python 的数据科学。如果您发现我们到目前为止所看到的内容有点困难和快速,我强烈建议您参加 Digital Vidya 的 Python 数据科学课程,该课程将涵盖 Python 的所有基础知识以及我们现在要掌握的数据科学的 Python 库。


我们将按类别探索这些库。首先,我们将了解数据整理,然后我们将了解数据可视化库。之后,我们将介绍用于机器学习和深度学习的 Python 库。最后,我们将了解自然语言处理、统计 塞浦路斯手机号码列表 和数据抓取等杂项库。

在使用这些库之前,您应该先了解如何安装这些库。这就是pip派上用场的地方。pip 是一个包/库管理器。您可以在官方文档页面上找到安装 pip 所需的一切。安装 pip 后,您只需运行如下所示的一个命令行,即可安装您的库。现在让我们了解它们是如何工作的。好吗?

pip install library-name #常规语法
pip install numpy #使用 pip 安装 numpy
数据整理
NumPy
在处理科学任务时,人们不可避免地会用到 Python 的 SciPy 堆栈。不要将其与 SciPy 库混淆,SciPy Stack 是专为 Python 中的科学和数值计算而设计的软件集合,而 SciPy 库是该堆栈的一部分。

然而,最基本的包是NumPy。它为 Python 中的数组和矩阵操作提供了大量有用的功能。数学中最基本的操作是求平均值、中位数和众数。让我们看一个例子。

import numpy as np #导入库
from scipy.stats import mode #从库导入特定模块
n = int(input())#获取用户输入
arr = list(map(int, input()))#组合输入并返回列表
打印(np.平均值(arr))
打印(np.median(arr))
mod = 模式(arr)
print(*mod[0]) #星号(*)删除方括号
#打印列表时
科学
SciPy 是一个科学和工程库。它建立在 NumPy 的基本功能之上。因此它高度依赖 NumPy。如上例所示,它借助特定子模块提供了高效的数值方案,如数值积分、优化等。SciPy 所有子模块中的功能都有详尽的文档记录 — 另一个显著优势。

熊猫
Pandas是一个 Python 包,旨在处理“关系”和“标记”数据。Pandas 是迄今为止数据整理的完美工具。它旨在快速轻松地进行数据操作、聚合和可视化(借助其他库)。

该库中有两种主要数据结构:一维的“系列”和二维的“数据框”。

您可以使用 pandas 做的事情包括处理缺失数据、轻松地从数据框中删除和添加列以及强大的分组功能。让我们通过示例来理解这一点。
Post Reply