机器学习使用Python进行编程时的编程环境和数据集、并以波士顿房价数据集为例进行简单操作

世澈

已于 2022-04-24 17:22:50 修改

阅读量1k

点赞数 2

分类专栏： # 机器学习及其Python实践学习笔记 Python学习笔记文章标签：机器学习 python

于 2022-04-24 16:36:07 首次发布

本文链接：https://blog.csdn.net/weixin_47844457/article/details/124386172

版权

Python学习笔记同时被 2 个专栏收录

40 篇文章 0 订阅

订阅专栏

机器学习及其Python实践学习笔记

7 篇文章 0 订阅

订阅专栏

编程环境和数据集

常用与机器学习相关类库

由第三方机构SciPy.org开发的开源类库
- Numpy
  - 数值计算扩展
  - 最主要的类：ndarray（多维数组类）
- Pandas
  - 数据分析
  - 最主要的类：Series（一维序列类）、DataFrame（二维表格类）
- Matplotlib
  - 数据可视化
  - 最主要的类：pyplot（简单常用的绘图功能）
scikit-learn
- 面向机器学习（尤其是统计学习）的类库；
- 支持绝大部分回归任务、分类任务、聚类任务；
- 目前不支持深度学习和并行计算
- sklearn.datasets模块中的：
  - load_*()函数
    - 可以从官方网站上下载练习用数据集；
  - fetch_*()函数
    - 可以从官方网站上下载并保存较大的真实数据集；
  - make_*()函数
    - 自动生成符合分布的模拟数据集；

安装方法：

win+R
输入cmd，回车；
输入
```
pip install numpy
```
回车
输入
```
pip install Pandas
```
回车
输入
```
pip install Matplotlib
```
回车
输入
```
pip install scikit-learn
```
回车

编程工具Anaconda（推荐使用）

是机器学习编程最好的IDE，基本不需要单独下载安装其他机器学习相关的类库；
Jupyter Notebook
- 基于网页，用于交互计算的编程环境（在浏览器中进行编程）；
- 功能：代码编辑、文档撰写、代码执行、结果展示；

建议文件夹格式

工程文件夹
- 数据文件夹
  - 数据文件1
  - 数据文件2
- 程序文件1
- 程序文件2

举例

以波士顿房价数据集为例，进行简单的引入和存储操作，并输出数据集的行列数量；

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# plt.show()  展示图表

# 下载波士顿房价数据集，保存到本地文件boston.cvs中
from sklearn.datasets import load_boston
house = load_boston()
print (house.data.shape)  # 输出数据行列数量

df = pd.DataFrame(house.data, columns=house.feature_names)
df['MEDV'] = house['target']
df.to_csv("./data/boston.csv", index=None)

# 将数据集的说明文档保存到本地文件boston.txt中
file = open("./data/boston.txt", 'w')
file.write(house.DESCR)
file.close()

输出结果为：

(506, 13)

并新建boston.csv、boston.txt两个文件

世澈

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
机器学习使用Python进行编程时的编程环境和数据集、并以波士顿房价数据集为例进行简单操作

编程环境和数据集常用与机器学习相关类库由第三方机构SciPy.org开发的开源类库Numpy数值计算扩展最主要的类：ndarray（多维数组类）Pandas数据分析最主要的类：Series（一维序列类）、DataFrame（二维表格类）Matplotlib数据可视化最主要的类：pyplot（简单常用的绘图功能）scikit-learn面向机器学习（尤其是统计学习）的类库；支持绝大部分回归任务、分类任务、聚类任务；目前不支持深度学习和并行计算skle
复制链接

扫一扫