【Python数据分析】二手车价格预测

标题实验分析与设计思路

(1)读入数据
(2)分析数据格式和确定使用的模型
(3)数据预处理
(4)使用所选模型进行测试并改进
(5)应用不同算法(模型)对比效果
(6)使用集成学习算法提升回归效果
(7)网格搜索调参数

使用的函数库和初始化

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import time

# 模型预测
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.tree import DecisionTreeRegressor

# 集成学习
from sklearn.ensemble import RandomForestRegressor
import xgboost as xgb

# 参数搜索
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold
# 评价指标
from sklearn.metrics import make_scorer
from sklearn.metrics import mean_squared_error, mean_absolute_error,accuracy_score
from sklearn.model_selection import learning_curve, validation_curve

warnings.filterwarnings("ignore")# 消除警告
# 初始化图形参数
plt.rcParams['figure.figsize'] = (16,9)# 设置大小
# 图形美化
plt.style.use('ggplot')
# 图例无法显示中文的解决方法:设置参数
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号

实验结果及分析

1、读取数据

这里使用在阿里巴巴天池下载的二手车交易数据https://tianchi.aliyun.com/?spm=5176.12281973.J_9711814210.8.3dd53eafkBCu9m

used_car.csv
在这里插入图片描述

  • 数据说明:
    在这里插入图片描述
  • 读入数据
# 读取数据,以空格划分
used_car = pd.read_csv(r'C:\Desktop\数据挖掘实践\大作业\used_car.csv', sep=' ')
# 输出数据大小
print('数据大小:',used_car.shape)
'''可以看到数据一共有150000条,31个属性'''

# 预览头10行数据
used_car.head(10)

查看数据大小:可以看到数据一共有150000条,31个属性
在这里插入图片描述

2、数据预处理
  • 查看数据信息
'''
可以看到:
model、bodyType、fuelType、gearbox这几个属性有缺失值
'''
# 查看对应数据列名和是否存在NAN缺失信息
used_car.info()

在这里插入图片描述
可以看到:model、bodyType、fuelType、gearbox这几个属性有缺失值

print('各列缺失值统计结果为:')
print(used_car.isnull().sum())

在这里插入图片描述

  • 统计描述
# 查看数值特征列的统计信息
used_car.describe()

在这里插入图片描述

  • 去除重复数据
# 默认根据所有属性去除,keep设置保留第一条一样的数据
used_car.drop_duplicates(keep='first')

在这里插入图片描述
可以看出无重复数据

  • 处理缺失值
    前面统计的时候知道,model、bodyType、fuelType、gearbox这几个属性有缺失值
    且这些属性都是标签类的数值型数据
    故填充缺失值使用众数
    对于大数据集也可以直接去掉有空值的样本
    使用函数dropna()
# 如果有多个众数的情况,用used_car.mode()[0]第一个众数填充
used_car['model'] = used_car['model'].fillna(used_car['model'].mode()[0])
used_car['bodyType'] = used_car['bodyType'].fillna(used_car['bodyType'].mode()[0])
used_car['fuelType'] = used_car['fuelType'].fillna(used_car['fuelType'].mode()[0])
used_car['gearbox'] = used_car['gearbox'].fillna(used_car['gearbox'].mode()[0])
  • 再次查看是否还有缺失值
used_car.info()

在这里插入图片描述

  • 提取不同类型的属性名
# 提取数值型属性名(exclude除去分类型)
numerical_cols = used_car.select_dtypes(exclude='object').columns
numerical_cols

  • 21
    点赞
  • 129
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Python爬虫用于抓取网页数据,对于获取二手车数据,你需要访问包含二手车信息的网站,然后使用Python的库如BeautifulSoup、Scrapy或Requests等进行数据抓取。以下是一个简化的步骤: 1. **确定目标网站**:找到提供8000条二手车信息的在线平台,比如瓜子二手车、人人车、CarTune等。 2. **分析网站结构**:了解HTML元素,特别是数据所在的部分(如数据表格、JSON API等)。 3. **使用库**: - 使用`requests`库发送HTTP请求获取网页内容。 - `BeautifulSoup`解析HTML,提取所需数据。 - `pandas`用于数据清洗和存储。 4. **设置限制**:设置好请求频率,避免被服务器封禁,并处理分页,可能需要爬取多页数据。 5. **数据存储**:将数据存储为CSV、JSON或者数据库中的DataFrame,以便后续处理。 6. **异常处理**:处理可能出现的网络错误、解析错误等。 以下是简单的代码片段示例(仅作参考,实际操作会更复杂): ```python import requests from bs4 import BeautifulSoup import pandas as pd # 目标URL url = "https://example.com/used-cars" # 发送请求 response = requests.get(url) # 使用BeautifulSoup解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 提取数据(假设数据在table标签中) data = [] table = soup.find('table') rows = table.find_all('tr') for row in rows: cols = row.find_all('td') cols_data = [col.text.strip() for col in cols] data.append(cols_data) # 创建DataFrame并存储 df = pd.DataFrame(data, columns=['列1', '列2', ...]) # 根据实际列名替换 df.to_csv('used_cars_data.csv', index=False)

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值