数据挖掘与分析
文章平均质量分 76
数据分析常用的知识和一些实战项目
威少的书童
这个作者很懒,什么都没留下…
展开
-
Python机器学习之数据预处理篇
字典特征提取from sklearn.feature_extraction import DictVectorizer# #特征提取# #导入包# from sklearn.feature_extraction.text import CountVectorizer## #实例化CountVectorizer# vector = CountVectorizer()# #调用fit_transform输入并转换数据# res = vector.fit_transform(["life is原创 2022-02-21 12:20:06 · 1611 阅读 · 0 评论 -
企业实践课——基于自然语言处理的期刊文本分类
本文主要通过机器学习的常规算法模型来对期刊文摘数据进行分析预测,期刊文摘的每一条数据都是一个文本数据,可以当作特征值,文摘类别就是数据的标签。通过已有数据进行文本分析,形成一个有效的训练模型来预测期刊文摘的类别。再结合词频统计绘制词云来找出不同期刊文摘类别的特征文字。原创 2021-05-09 15:17:04 · 354 阅读 · 0 评论 -
酒店评论数据分析
2020-2021年度《数据分析与机器学习》课程期末课程设计报告酒店评论数据分析摘要本文主要通过机器学习的常规算法模型来对酒店评论数据进行分析预测,酒店的每一条评论都是一个文本数据,可以当作特征值,评论等级就是数据的标签。通过已有数据进行文本分析,形成一个有效的训练模型来预测英文评论文本的等级。并利用内容分析法进行酒店评论关键因素的提取,再结合词频统计绘制词云来找出影响酒店评论等级好坏的因素。首先我们对英文文本进行分词。将文本数据的特征提取出来转换成用数字表示的词频矩阵,然后再用TF-IDF算法计算原创 2020-12-23 22:01:31 · 12141 阅读 · 39 评论 -
数据分析之泰坦尼克号实战
本文的大部分代码都是参考了这篇文章数据集来自Kaggle官网的Titanic项目,很容易找到的,但是需要注册一个Kaggle账号才可以下载哦。import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestRegressorimport s转载 2021-03-04 10:38:53 · 254 阅读 · 2 评论 -
商品零售购物篮分析——关联挖掘
一、实验目的掌握对数据进行预处理和探索性分析的方法;掌握如何利用Apriori关联规则算法进行购物篮分析。二实验内容构建零售商品的Apriori关联规则模型,分析商品之间的关联性;根据模型结果给出销售策略。三、实验操作步骤和结果分析首先导入需要用到的库import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt加载数据集# 加载数据order_data = pd.read_csv("Goo原创 2021-05-02 21:32:45 · 7492 阅读 · 5 评论 -
python三维可视化
mplot3d绘制三维图像内置于matplotlibFigure对象、Axes3d对象显示三维坐标空间import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dfig = plt.figure()ax3d = Axes3d(fig)plt.show()绘制散点图——scatter(x,y,z)import numpy as npimport matplotlib.pyplot as pltf原创 2021-01-28 11:18:26 · 9439 阅读 · 3 评论 -
pylab绘制图像显示中文乱码解决方案
在进行线性回归预测绘制图形时,遇见图中有中文乱码就像这样解决方案是在主函数中加入一行代码,将图形中的字体设置为黑体pylab.rcParams['font.sans-serif'] = ['SimHei'] # 设置图形里面中文为黑体...转载 2020-11-03 20:03:39 · 626 阅读 · 0 评论 -
Python可视化常用方法和常见问题解决方案
横轴坐标值显示方向调整python中用matplotlib画图时,横坐标标签是默认横着显示的这个图里面显示的横轴坐标值是竖着的,看起来不太美观,把它改成横向的,只需要添加下面一句代码rotation默认是90,即为横着显示,改成360即可正常竖直显示plt.xticks(rotation=360)...原创 2021-01-16 11:24:14 · 2104 阅读 · 4 评论 -
python处理DataFrame类型数据常用方法
全文中pandas简写为pd数据文件的读取#默认情况下第一行数据为表头,设置参数header=None时,data = pd.read_csv("文件路径")data = pd.read.excel("文件路径",sheet_name='写入页名或者编号(第一页为0)')data = pd.read_table("文件路径")获取指定列df.ix[0]#取第0行df.ix[0:1]#取第0行df.ix['one':'two']#取one、two行df.ix[0:2,0]#取第0、1行,原创 2021-01-12 21:34:11 · 3699 阅读 · 0 评论