简述与机器学习相关的十大常用Python库，极简化算法编程

最新推荐文章于 2024-04-07 10:47:18 发布

Java Punk

最新推荐文章于 2024-04-07 10:47:18 发布

阅读量1.7k

点赞数 2

分类专栏：《Python从入门到精通》文章标签：机器学习 python 库

本文链接：https://blog.csdn.net/weixin_44259720/article/details/118928297

版权

《Python从入门到精通》专栏收录该内容

35 篇文章 46 订阅

订阅专栏

原创博文，欢迎转载，转载时请务必附上博文链接，感谢您的尊重。

前言

初学Python的时候，我一直不太理解Python的魅力到底在哪，相比Java，它除了换一种简洁的语法，好像没什么场景是不可替代的。但是就在这几天，通过深入学习公司的机器学习基础以及生产案例，我逐渐体会到了Python备受开发人员欢迎的一项主要原因：它能够为用户提供大量可供使用的库集合。

Python 拥有惊人数量的库，是它能够流行的原因之一，也是我最先认可的一个维度。当你正在推进大项目的时候，丰富的库可以帮助你节约时间并减少开发周期。

数据计算中使用到的 NumPy 和 SciPy，以及 Web 开发的 Django；
少数的库还具备高专业度，如 Scikit-Learn 适用于机器学习，而 nltk 适用于自然语言处理。

在本文中，我们一起了解一下在机器学习方向Python常用的库，这是在最近机器学习过程中总结归纳出来的，纯属个人片面看法，欢迎各位大佬补充。

正文

机器学习相关的【十大常用Python库】：TensorFlow，NumPy，SciPy，Scikit-Learn，Pandas，Keras，PyTorch，LightGBM，Eli5，Theano。

一、TensorFlow

TensorFlow 是一款非常流行的开源库，它是由Google与Brain Team合作开发而成，主要用于机器学习类应用的开发。

TensorFlow 的工作方式类似于编写大量涉及张量(tensor)操作的新的算法库。由于神经网络可以很容易地被表示为计算图形，因此它们可以使用TensorFlow来作为张量上的一系列操作予以实现。

TensorFlow 针对速度进行了优化，它利用XLA等技术，实现了快速线性代数的运算。

【特点】：

响应式构建：使用TensorFlow，我们可以轻松地可视化图形的每一个部分。而下面将要提到的NumPy或SciKit则无此选项；
灵活：由于具有模块化的特点，因此Tensorflow在功能上具有灵活的可操作性，用户可以只选用其需要的独立部分；
易于训练：它可以通过CPU和GPU的训练方式，轻松地实现分布式计算；
并行神经网络训练：由于TensorFlow提供了流水线式的操作，因此从某种意义上说，您可以训练多个神经网络和多个GPU。这对于大规模系统上的模型来说是非常高效的；
社区活跃：由于是Google开发的，因此一大批软件工程师会持续致力于其稳定性的改进；
开源：由于是开源的，因此只要有互联网的连接，任何人都可以使用到它。

【用途】：

大家所熟悉的Google语音搜索、以及Google相册等应用都是由TensorFlow库所开发的。虽然由TensorFlow所创建的库集合都是用C和C++编写的，但是它拥有一个复杂的Python前端。因此，您的Python代码将会被它所编译，然后再由C和C ++构建的TensorFlow分布式引擎所执行。

二、NumPy

NumPy 被认为是Python中受欢迎的机器学习库之一。TensorFlow 和其他库在内部都会使用NumPy来执行多种操作。其中，数组接口是NumPy好用、也是重要的功能之一。

【特点】：

交互式：NumPy具有强交互性、且易于被使用；
数学性：通过复杂的数学，将实现变得非常简单；
直观性：能够将编码、及概念变得简单易懂；
开源：由于得到了广泛的使用，因此它获得了更多的开源贡献。

【用途】：

NumPy 库接口可以被用于将图像、声波、以及其他二进制原始流，表达为N维实数数组。为了更好地将其用于机器学习，全栈工程师有必要对其深入了解

三、SciPy

SciPy 是一个面向应用程序开发人员和工程师的机器学习库。与SciPy堆栈不同，SciPy库包含了用于优化、线性代数、积分和统计的模块。

【特点】：

SciPy库的主要特点是使用到了NumPy来进行开发，因此它的数组充分利用了NumPy的特点。此外，SciPy提供了诸如优化、数值积分和其他特定的子模块。这些所有子模块里的所有功能都有着详细配套的文档。

【用途】：

由于SciPy是一个使用NumPy来解决数学函数的库，因此SciPy采用NumPy数组作为基本的数据结构，并附带了用于科学编程的各种常用任务模块。因此SciPy可以轻松地处理包括：线性代数、积分(微积分)、常微分方程求解、以及信号处理在内的各项任务。

四、Scikit-Learn

Scikit-Learn 是一个与 NumPy 和 SciPy 相关联的Python库，被认为是处理复杂数据的Python库之一。它有很多改进版本，其中的一种是通过交叉验证的功能，以及提供多个参数指标，来改进诸如逻辑回归、以及最近邻居等多种训练的方法。

【特点】：

交叉验证：它提供许多方法来检查、监督模型对于不可见数据的准确性；
无监督学习算法：同样，它也提供包括聚类、因子分析、主成分分析、以及无监督神经网络等的大量算法；
特征提取：能够被用于从图像和文本中提取特征(例如，Bag of words)；

【用途】：

Scikit-Learn 包含了大量可用于实现标准机器学习、以及数据挖掘任务的算法。例如：降低维度、分类、回归、聚类和模型选择等。

五、Keras

Keras 被认为是酷炫的机器学习类Python库之一。它提供了一种更容易表达神经网络的机制。同时，Keras还提供了一些可用于编译模型、处理数据集、图形可视化等方面的工具。

Keras 在后端内部使用的是 Theano 或 TensorFlow。它可以被用在诸如CNTK之类的各种流行的神经网络上。与其他机器学习类型的库相比，由于Keras通过使用后端的基础架构来创建计算图形，因此其后续的执行操作相对较慢。另外，Keras的所有模型都是可被移植的。

【特点】：

Keras在CPU和GPU上都能够顺利地运行；
支持神经网络中的所有模型，包括：完全连接、卷积、汇集、循环、嵌入等。此外，这些模型也可以被组合起来构建更为复杂的模型；
模块化特征，具有非凡的表现力、灵活性，且适合于创新类研究；
是完全基于Python的框架，开发人员可以轻松进行各种调试。

【用途】：

如今，诸如Netflix、Uber、Yelp、Instacart、Zocdoc、以及Square等众多网站都使用到了Keras构建的交互性功能。许多初创型公司都愿意在其产品核心中用到Keras所提供的深度学习技术。

Keras包含了许多神经网络常用的构建模块，例如：各个层、对象、激活函数、优化器、以及一系列可供处理图像与文本数据工具。此外，它还提供了许多预处理数据的集合、以及预训练的模型，其中包括：MNIST、VGG、Inception、SqueezeNet、以及ResNet等。

在接受程度上，Keras是排名第二的，被深度学习研究人员所喜爱的Python库。一些大型科学组织，特别是CERN和NASA的研究人员，都会用到Keras。

六、PyTorch

PyTorch 是一个大型的机器学习库，它允许开发人员通过GPU加速，来执行张量计算、创建动态计算图、并自动计算出梯度。此外，PyTorch还提供了丰富的API，可用于解决与神经网络相关的应用问题。基于Torch的 PyTorch 是一个用C语言实现的开源机器学习库。当然，它也带有Lua的包装器。

【特点】：

混合前端：新的混合前端在eager模式下，保证了易用性和灵活性。在被无缝地转换到graph模式后，它能够在C++的运行环境中保证速度、优化和相应的功能；
分布式训练：得益于Python和C++能够访问到对等式通信的优点，它能够对集合式操作和异步执行提供原生的支持，并且能够优化研究、以及生产环境中的性能；
Python优先：PyTorch并非是一种Python绑定的单体式(monolithic)C++框架。它是为深入地集成到Python中而构建的。因此它可以与各种流行的库、以及Cython和Numba等软件包一同使用；
社区活跃：由活跃的研究人员与开发人员所构成的社区，实现了一个丰富的工具与库的生态系统。该系统可以被用于扩展PyTorch、并支持从计算机视觉到强化学习等领域的开发。

【用途】：

PyTorch由Facebook的人工智能研究小组所开发，主要被用于自然语言处理等应用，例如，Uber的Pyro软件就将它用到了概率编程上。如今，PyTorch在许多方面都超越了TensorFlow，并且持续引起了更多的关注。