AI和机器学习中的Python基础库和框架_做ai算法需要的python知识-CSDN博客

本文链接：https://blog.csdn.net/www_tlj/article/details/136879076

Python基础

基本语法

Python是一种高级的、解释型的编程语言，以其简洁清晰的语法和强大的灵活性而闻名。对于初学者来说，掌握Python的基本语法是学习其他高级概念之前的重要步骤。以下是Python基本语法的详细介绍：

变量类型

在Python中，变量不需要声明类型。当你赋值给变量时，Python会自动确定变量类型。

数值类型：包括整数（int）、浮点数（float）和复数（complex）。
布尔类型：True 和 False，用于表示逻辑值。
字符串（str）：文本数据，可以使用单引号（'...'）或双引号（"..."）包裹。
列表（list）：一个有序的集合，可以包含不同类型的元素，使用方括号（[...]）定义。
元组（tuple）：与列表类似，但一旦创建便不能修改，使用圆括号（(...)）定义。
字典（dict）：键值对集合，使用大括号（{...}）定义。
集合（set）：无序且元素唯一的集合，使用大括号（{...}）定义，但不是键值对。

控制流

if语句：用于基于一定条件执行代码块。

if condition:
    # do something
elif another_condition:
    # do something else
else:
    # do another thing

for循环：用于遍历序列（如列表、字符串）或其他可迭代对象。

for element in iterable:
    # do something with element

while循环：在满足条件的情况下重复执行代码块。

while condition:
    # do something

函数定义

在Python中，使用def关键字定义函数，后跟函数名和圆括号内的参数列表。

def function_name(parameters):
    # function body
    return result

模块和包的导入

模块是Python代码的文件，包含了函数、类和变量的定义，以及可执行的代码。
包是一种方式，用于将模块组织在一起。

使用import关键字可以导入模块或包中的特定功能。

import module_name
from module_name import function_name

示例代码

下面的示例展示了以上讨论的基本概念：

# 定义变量
my_int = 10
my_float = 20.5
my_str = "Hello Python"

# 使用if语句
if my_int > 5:
    print("my_int is greater than 5")

# 使用for循环遍历列表
my_list = [1, 2, 3, 4, 5]
for number in my_list:
    print(number)

# 定义和调用函数
def add_numbers(a, b):
    return a + b

result = add_numbers(3, 5)
print(result)

# 导入模块
import math
print(math.sqrt(16))

通过掌握这些基本概念，你就能开始使用Python进行各种各样的编程任务了。随着实践的增加，你将更加熟悉这门语言的高级特性和生态系统。

数据结构

Python的内置数据结构包括列表（list）、元组（tuple）、字典（dict）和集合（set），每种数据结构都有其独特的特性和用途，以及一系列的操作方法。

列表（List）

列表是Python中最常用的数据结构之一，它是一个有序的元素集合，元素可以是不同类型的，列表是可变的，这意味着可以添加、移除或更改元素。

创建列表

my_list = [1, 2, "Python", 3.14]

访问元素

print(my_list[2]) # 输出 "Python"

修改元素

my_list[2] = "Hello"

常用方法

append()：在列表末尾添加新的元素。
remove()：移除列表中的一个元素。
pop()：移除列表中的一个元素（默认是最后一个元素），并返回该元素的值。
extend()：扩展列表，添加多个元素。
sort()：对列表进行排序。

元组（Tuple）

元组与列表类似，但元组是不可变的，这意味着一旦创建，你就不能修改元组的元素。

创建元组

my_tuple = (1, 2, "Python", 3.14)

访问元素

print(my_tuple[2]) # 输出 "Python"

不可变性

my_tuple[2] = "Hello" # 会抛出TypeError

字典（Dict）

字典是一个无序的键值对（key-value pairs）集合，键必须是唯一的。

创建字典

my_dict = {"name": "John", "age": 30, "city": "New York"}

访问元素

print(my_dict["name"]) # 输出 "John"

修改或添加元素

my_dict["age"] = 25 # 修改 my_dict["gender"] = "Male" # 添加

常用方法

keys()：返回字典中的键。
values()：返回字典中的值。
items()：返回字典中的键值对。
get()：返回指定键的值。

集合（Set）

集合是一个无序的、不重复的元素集合。

创建集合

my_set = {1, 2, 3, "Python", 4.5}

添加元素

my_set.add(6)

移除元素

my_set.remove(2)

常用操作

并集（union() 或 |）：合并两个集合。
交集（intersection() 或 &）：找出两个集合共有的元素。
差集（difference() 或 -）：找出一个集合有而另一个集合没有的元素。

数据结构的应用

每种数据结构都有其特定的用途：

列表适合于需要经常修改元素的场景，如管理一个动态的元素集合。
元组适合于不需要修改的元素集合，如函数返回多个值。
字典适合于需要快速访问元素（通过键）的场景，如存储对象的属性。
集合适合于需要进行集合运算，以及需要确保元素唯一性的场景。

通过熟悉这些内置数据结构及其操作，你可以更高效地解决各种编程问题。

面向对象编程

面向对象编程（OOP）是一种编程范式，它使用“对象”来设计软件。在Python中，几乎所有的东西都是对象，具有属性（attributes）和方法（methods）。面向对象编程的主要概念包括类（class）、对象（object）、继承（inheritance）和多态（polymorphism）。

类（Class）和对象（Object）

类是创建对象的蓝图或模板，它定义了对象的属性和方法。
对象是根据类定义创建的实例，它具有类定义的属性和方法。

定义类

使用class关键字定义类，类名通常采用大写字母开头的命名规则。

class Person:
    def __init__(self, name, age):
        self.name = name  # 属性
        self.age = age
    
    def greet(self):  # 方法
        print(f"Hello, my name is {self.name} and I am {self.age} years old.")

__init__是一个特殊的方法，被称为类的构造器，用于初始化对象的状态。self参数代表类的实例本身。

创建对象

根据类创建对象非常简单，只需要像调用函数一样调用类即可。

person1 = Person("John", 30) person1.greet() # 输出: Hello, my name is John and I am 30 years old.

继承（Inheritance）

继承允许我们定义一个继承另一个类的所有属性和方法的类。

class Student(Person):  # 继承Person类
    def __init__(self, name, age, student_id):
        super().__init__(name, age)  # 调用父类的__init__方法
        self.student_id = student_id
    
    def study(self):
        print(f"{self.name} is studying.")

使用super()可以调用父类的方法。
子类Student继承了Person类的所有属性和方法，并添加了自己的属性和方法。

多态（Polymorphism）

多态是指不同类的对象对同一消息作出响应的能力，即相同的方法或属性在不同的类中具有不同的实现。

class Teacher(Person):
    def __init__(self, name, age, subject):
        super().__init__(name, age)
        self.subject = subject
    
    def teach(self):
        print(f"{self.name} is teaching {self.subject}.")
    
    def greet(self):  # 重写greet方法
        print(f"Hello, I am {self.name}, the {self.subject} teacher.")

即使Teacher和Student类都有greet方法，但它们的行为是不同的。这就是多态的体现。

面向对象编程的好处

封装：通过隐藏对象的内部状态和复杂性，同时提供操作这些内部状态的公共接口。
继承：允许新创建的类重用现有类的代码。
多态：允许不同类的对象对同一方法调用做出响应。

面向对象编程使得代码更加易于理解、维护和扩展，尤其是在处理大型软件项目时。通过使用类和对象，程序员可以更好地组织和模块化代码，同时实现代码重用。

Python库和框架

在AI和机器学习项目中，有几个Python库是必不可少的：

NumPy

NumPy（Numerical Python）是Python编程语言的一个库，用于支持大量的维度数组与矩阵运算，此外还提供了大量的数学函数库。NumPy是科学计算中一项非常基础的包，很多其他高级的科学计算包如Pandas、Matplotlib、SciPy等都是建立在NumPy的基础上的。

创建和操作数组

创建数组：NumPy最重要的特性之一是其N维数组对象ndarray，可以非常快速灵活地处理大量数据。

import numpy as np

# 从列表创建数组
a = np.array([1, 2, 3])

# 创建特定的数组
zeros_array = np.zeros((2, 3))  # 创建一个2x3的全0数组
ones_array = np.ones((3, 2))  # 创建一个3x2的全1数组
empty_array = np.empty((2, 2))  # 创建一个2x2的空数组（内容随机）
range_array = np.arange(10)  # 类似于Python的range，但返回的是数组

数组操作：NumPy提供了丰富的方法来处理数组，包括数组形状的改变、数组的合并和分割等。

# 改变数组形状
b = np.arange(6).reshape((2, 3))

# 水平合并数组
c = np.hstack((a.reshape(1, 3), a.reshape(1, 3)))

# 垂直合并数组
d = np.vstack((a, a))

数组索引、切片和迭代

索引和切片：和Python的列表类似，但是NumPy数组可以进行更高维度的切片。

# 索引
print(a[2])  # 输出第三个元素

# 切片
print(b[0, :])  # 输出第一行

# 布尔索引
print(a[a > 1])  # 输出大于1的元素

迭代：NumPy数组可以像列表一样进行迭代，对于多维数组，迭代是在第一维度上进行的。

for row in b:
    print(row)

线性代数、傅里叶变换和随机数生成

NumPy提供了大量的函数来进行科学计算。

线性代数：NumPy的linalg模块提供了多种线性代数操作，如矩阵乘法、求解线性方程组、计算特征值等。

# 矩阵乘法
result = np.dot(a, b.T)  # 注意维度匹配

# 求解线性方程组
x = np.linalg.solve(A, b)  # A是系数矩阵，b是结果数组

傅里叶变换：NumPy提供了fft模块来进行快速傅里叶变换（FFT）。

# 快速傅里叶变换
frequencies = np.fft.fft(a)

随机数生成：NumPy的random模块提供了大量生成随机数的函数。

# 生成随机数
random_array = np.random.rand(2, 3)  # 创建一个2x3的数组，数组中的数是从0到1的随机数

结语

NumPy是Python在科学计算中极为重要的一个库，提供了高性能的多维数组对象以及相应的操作。掌握NumPy不仅能够帮助你高效地进行数值计算，还是进一步学习其他科学计算库如Pandas和Matplotlib的基础。通过上面的介绍，希望你能有一个基本的了解并开始使用NumPy来进行科学计算。

Pandas

Pandas是Python中一个功能强大的数据处理和分析库，提供了快速、灵活、表达式丰富的数据结构，旨在使数据清洗、分析工作变得快速简单。它建立在NumPy库基础上，允许进行高效的数组计算。Pandas的核心数据结构是DataFrame和Series。

DataFrame和Series数据结构

Series：一维数组，类似于NumPy的数组，但是可以有一个索引列，索引可以是数字或标签。
DataFrame：二维的、表格型的数据结构，每列可以是不同的值类型（数值、字符串、布尔值等）。它是由多个Series组成的，每个Series作为DataFrame的一列。

创建DataFrame和Series

import pandas as pd
import numpy as np

# 创建Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# 创建DataFrame
df = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20230101'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo'
})

数据导入/导出

Pandas支持多种格式的数据导入和导出，包括CSV、Excel、SQL数据库和JSON等。

# 从CSV文件导入数据
df = pd.read_csv('example.csv')

# 数据导出到CSV文件
df.to_csv('example_out.csv')

数据清洗和处理

数据清洗包括处理缺失数据、去除重复数据等。

# 删除含有缺失值的行
df.dropna(how='any')

# 填充缺失值
df.fillna(value=5)

# 去除重复数据
df.drop_duplicates()

数据筛选、排序和分组

# 筛选
df[df['A'] > 0]

# 排序
df.sort_values(by='B')

# 分组
df.groupby('E').sum()

数据合并、连接

Pandas提供了多种数据合并和连接的方法，如concat、merge和join。

# 数据合并
pd.concat([df1, df2])

# 数据连接
pd.merge(left, right, on='key')

创建透视表

透视表是一种可以对数据动态排布和汇总的表格格式。

df.pivot_table(values='D', index=['A', 'B'], columns=['C'])

结语

Pandas是数据分析和数据科学领域中不可或缺的工具之一，掌握Pandas不仅能够帮助你高效地进行数据处理和分析，还能够让你更好地理解数据本身。通过上面的简介，希望你能够开始使用Pandas来处理和分析真实世界中的数据。随着实践的增加，你会逐渐发现Pandas更多强大的功能。

Matplotlib和Seaborn

Matplotlib和Seaborn是Python中最流行的两个数据可视化库，它们使得数据的可视化变得简单直观。Matplotlib是一个底层的库，提供了大量的基础绘图功能，而Seaborn则是建立在Matplotlib之上的高级接口，提供了更多的绘图模式和美化功能。

Matplotlib

Matplotlib是Python的一个绘图库，提供了大量的绘图方法，适用于创建静态、动态和交互式的图表。

基本用法

import matplotlib.pyplot as plt

# 创建数据
x = [1, 2, 3, 4]
y = [10, 20, 25, 30]

# 绘制简单的线图
plt.plot(x, y)
plt.show()

# 绘制散点图
plt.scatter(x, y)
plt.show()

# 创建多个子图
fig, ax = plt.subplots(2, 1)  # 创建一个包含2个子图的图表
ax[0].plot(x, y)  # 在第一个子图中绘制线图
ax[1].scatter(x, y)  # 在第二个子图中绘制散点图
plt.show()

Seaborn

Seaborn是基于Matplotlib的Python数据可视化库，提供了更高级的接口和默认的更美观的图表样式。Seaborn尤其适合用于探索和理解数据。

基本用法

import seaborn as sns
import pandas as pd

# 创建DataFrame数据
data = pd.DataFrame({
    'x': [1, 2, 3, 4],
    'y': [10, 20, 25, 30]
})

# 使用Seaborn绘制线图
sns.lineplot(x='x', y='y', data=data)
plt.show()

# 绘制箱型图
sns.boxplot(x='x', y='y', data=data)
plt.show()

# 绘制热力图
# 假设我们有一个相关性矩阵corr
corr = data.corr()
sns.heatmap(corr)
plt.show()