数据分析与挖掘
clover521
这个作者很懒,什么都没留下…
展开
-
python数据分析与挖掘模块简介
所谓数据分析,即对已知的数据进行分析,然后提取出一-些有价值的信息,比如统计出平均数、标准差等信息,数据分析的数据量有时可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖掘,得到一些未知的,有价值的信息等,比如从网站的用户或用户行为数据中挖掘出用户的潜在需求信息,从而对网站进行改善等。数据分析与数据挖掘密不可分,数据挖掘是数据分析的提升。数据分析与挖掘技术能做什么事情?数据挖掘技...原创 2018-11-24 22:10:00 · 573 阅读 · 0 评论 -
python人工神经网络
人工神经网络在模块keras中,实现步骤如下:#bp人工神经网络的实现#1、读取数据#2、导入对应模块,keras.models Sequential(建立模型) |keras.layers.core Dense(建立层) Activation#3、Sequential建立模型#4、Dense建立层#5、Activation激活函数#6、compile模型编译...原创 2018-12-07 22:15:37 · 1632 阅读 · 0 评论 -
python数据分析与挖掘之聚类kmeans算法
聚类不指定类别进行分类(划分(分裂)法,层次分析法、密度分析法)、网格法、模型法 Kmeans算法属于分裂法随机选择k各点作为聚类中心 计算各个点到这K个点的距离 将对应的点聚到与它最近的这个聚类中心 重新计算聚类中心 比较当前聚类中心与前一次聚类中心,如果是同一个点,得到聚类结果,若不同的点,则重复2-5Kmeans算法实现代码:#kmeans算法'''...原创 2018-12-07 22:11:12 · 900 阅读 · 0 评论 -
python之回归算法
逻辑回归import pandas as pdafname='E:/programCode/huigui.csv'dataf=pda.read_csv(fname)#自变量xx=dataf.iloc[:,1:4].as_matrix()#[:,1:2]中的右边代表列取谁,左边的代表行取谁#因变量yy=dataf.iloc[:,0:1].as_matrix()#.as_matrix...原创 2018-12-07 22:07:51 · 1550 阅读 · 0 评论 -
python数据分析与挖掘之贝叶斯算法算法实现
代码中有详细的注释训练文件:Txt文件中为0,1矩阵,将图片转换为0,1矩阵见上一篇博客方法import numpy import operatorfrom os import listdirclass Bayes: def __init__(self): self.length=-1 self.labelcount=dict()#各类...原创 2018-12-07 22:04:26 · 351 阅读 · 0 评论 -
python数据建模与KNN算法实现手写体数字识别
数据建模指的是对现实世界各类数据的抽象组织,建立一一个适合的模型对数据进行处理。在数据分析与挖掘中,我们通常需要根据一-些数据建 立起特定的模型,然后处理。模型的建立需要依赖于算法, - -般,常见的算法有分类、聚类、关联、回归等。python数据分类实现过程 数据分类主要处理现实生活中的分类问题,一般处理思路如下:1、首先明确需求并对数据进行观察2、其次,...原创 2018-12-07 21:57:30 · 371 阅读 · 0 评论 -
python文本相似度计算
相似度计算步骤::读取要计算的多篇文档对要计算的文档进行分词 对文档进行整理成指定格式,方便后续计算 计算出词语的频率 【可选】对频率低的词语进行过滤 通过语料库建立词典 加载要对比的文档 将要对比的文档,通过doc2bow转化为稀疏向量 对我们的稀疏向量进行进一步处理得到新语料库 将新语料库通过tfidfmodel进行处理,得到tfidf 通过token2id得到特征数...原创 2018-12-07 21:49:31 · 5494 阅读 · 3 评论 -
python文本挖掘
import jieba#全模式sentence='我喜欢武汉欢乐谷'w1=jieba.cut(sentence,cut_all=True)#(句子,模式[True全模式,False精准模式])for item in w1: print(item)print()#精准模式w2=jieba.cut(sentence,cut_all=False)#去掉cut_all这个参数,默...原创 2018-11-24 22:26:25 · 391 阅读 · 0 评论 -
python数据探索与数据清洗
数据探索的目的是及早发现数据的一些简单规律或特征,数据清洗的目的是留下可靠数据,避免脏数据的干扰。这两者没有严格的先后顺序,经常在一个阶段进行。数据探索的核心是: 1、数据质量分析(跟数据清洗密切联系)2、数据特征分析(分布、对比、周期性、相关性、常见统计量等)数据清洗可以按如下步骤进行: 1、缺失值处理(通过describe与len直接发现、通过0数据发现) ...原创 2018-11-24 22:23:48 · 319 阅读 · 0 评论 -
python之matplotlib模块画图
#折线图/散点图plotimport matplotlib.pylab as pylimport numpy as npyx=[1,2,3,4,8]y=[5,7,9,6,3]pyl.plot(x,y) #plot(x轴数据,y轴数据,展现形式)pyl.show()#散点图pyl.plot(x,y,'o')pyl.show()图中颜色设置c-cyan...原创 2018-11-24 22:20:33 · 386 阅读 · 0 评论 -
数据分析之Python数据导入
'''数据导入'''import pandas as pdai=pda.read_csv('E:/programCode/jd.csv',encoding='gb18030')i.describe()#按照某一列进行排序i.sort_values(by='238')#238为列名import xlrd '''导入excel数据'''j=pda.read_exce...原创 2018-11-24 22:13:28 · 331 阅读 · 0 评论 -
python实现Apriori算法
Apriori算法两个概念:支持度:A、B同时发生的概率置信度:若A发生,B发生的概率Apriori算法的实现设定阈值:最小支持度和最小置信度 计算支持度:Supprot(A=>B)=(A与B同时发生的数量)/事件的总数 =Support_count(...原创 2018-12-08 11:28:54 · 3113 阅读 · 0 评论