数据分析
文章平均质量分 55
生产队的驴儿
一个人必须不停地写作,才能不被茫茫人海湮灭。
展开
-
matplot.pyplot 绘制图像 回顾
按年月进行计数,汇总例子导包import pandas as pdimport matplotlib.pyplot as plt读取数据path = r'C:\Users\Administrator\Desktop\42numbers.xls'查看数据data这里选择 某一列 的时间进行,进行汇总统计统计出 不同 年份 不同月份 的数量然后 绘制 柱状图/饼图首先 以 年月 进行 汇总 统计df = datadata_new = df.groupby([df["sell_原创 2021-11-30 20:02:59 · 917 阅读 · 0 评论 -
RNN-时间序列预测模型
RNN-应用场景语音识别音乐生成情感分析:根据输入的评论,猜测评论的分数。DNA序列分析语言翻译等带时间序列应用的场景后面产生的结果,是受到前面结果的影响的。区别于神经网络预测神经网络的输入的特征都是固定不变的,强调特征的位置。标准的神经网络是不适合用来处理带时间序列的模型的。但是RNN 可以处理RNN网络结构将每一个时间状态 进行串联后面的状态后受到前面状态的影响单个单元当前的x 和 前一个状态 a的t-1tanh激活函数 学习非线性的部分输出还乘以权重+偏置原创 2021-10-24 20:29:29 · 3278 阅读 · 0 评论 -
线性回归-预测房价(机器学习)
机器学习-线性回归-预测房价导入我们需要的模块包import pandas as pdimport numpy as np import matplotlib as pltimport seaborn读取数据,查看数据header = None表示不设置,表格的首字段。# 读取训练集data_train = pd.read_csv('kc_train.csv',header = None)#给数据标列名data_train.columns =["销售日期","销售价格","卧室数",原创 2021-10-24 18:59:55 · 6370 阅读 · 12 评论 -
Numpy 高效的工具 下
numpy基本操作生成数据方法生成0和1的数组目的: 建立一个新的0和1的数组np.zero(shape) 生成0的数组np.one(shape) 生成1的数组从现有数组中生成np.array() 和 np.copy() 深拷贝np.asarray() 浅拷贝浅拷贝 asarray就发生变化了最常用的 np.array(data1) 拷贝data1生成固定范围的数组np.linspace(0,10,100)生成[0,10] 范围内,生成100个等距离的数组np.arang原创 2021-10-23 18:02:13 · 1049 阅读 · 0 评论 -
当txt文件或者sql文件数据量太大,无法打开时,可以通过Emeditor这个编辑器打开
当txt文件或者sql文件数据量太大,无法打开时,可以通过Emeditor这个编辑器打开,进行处理和编辑。原创 2021-10-20 09:57:33 · 6073 阅读 · 0 评论 -
mysql导入数据load data infile方法
读取文件load data infile语句从一个文本文件中以很高的速度读入一个表中。使用这个命令之前,mysqld进程(服务)必须已经在运行。为了安全原因,当读取位于服务器上的文本文件时,文件必须处于数据库目录或可被所有人读取。为了对服务器上文件使用load data infile,在服务器主机上你必须有file的权限。关键词:Low_priority: 当被指定的时候,那么MySQL将会等到没有其他人读这个表的时候,才把插入数据。local: 当被指定的时候,表明从客户主机读文件。如果没有原创 2021-10-20 00:07:08 · 4193 阅读 · 1 评论 -
pandas 处理
pandas 基础处理部分pandas是什么数据结构基础操作运算画图pandas是什么数据处理工具pannel + data + analysis面板 计量经济学 三维数据边界数据处理能力读取文件方便封装matplotlib 和 numpy 方便计算三大pandas数据结构dataframepanelseriesDataframe既有行索引,又有列索引的二维数组import pandas as pdimport numpy as npdata = np.random原创 2021-10-19 22:53:58 · 181 阅读 · 0 评论 -
Numpy 高效的运算工具
目录numpy 高效的运算工具numpy优势numpy属性基本操作ndarray.方法()numpy.函数名()ndarray运算逻辑运算统计运算数组间运算合并 分割 IO操作 数据处理Numpy 介绍numpynum numerical 数值化py pythonndarrayn 任意个d dimension 维度array 数组n维 相同数组类型的集合将数据组 转化为 ndarray类型data = np.array(数组)import numpy as np原创 2021-10-18 23:44:39 · 600 阅读 · 5 评论 -
python 分批次 更新数据库
通过python,连接 数据库, 对其中 表进行 批次 循环 更新数据导入包import csvimport osimport reimport tracebackfrom datetime import datetimefrom itertools import isliceimport pymysqlimport xlrdfrom dbutils.pooled_db import PooledDBfrom numpy import double连接数据库连接数据库配置原创 2021-10-18 21:07:52 · 821 阅读 · 0 评论 -
数据分析—缺失值处理问题
图片中,的文字提取如下:建议看图片,有需要,不懂得需要深入查询,的可以来下面赋值文字去百度 or Google进行进一步查询学习。缺失值数据处理了解数据连续型数据折线图、直方图查看分布eg时间、年龄、收入离散型数据条形图查看分布eg性别、国家处理确实数据删除元组将存在遗漏信息属性值的对象(元组,记录)删除数据补齐人工填写(filling manually)均值填充数值型最小/大值、平均值、众数和四分位数非数值型用该属性 出现频率最高的值 来补齐该缺失的属.原创 2021-09-11 12:53:15 · 635 阅读 · 0 评论 -
数据仓库(100)
数据仓库数据仓库:各种数据的中央存储系统,提供数据的存储,管理和分析功能。功能:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),用于做数据分析。通俗讲: 为数据挖掘,多维分析,决策支持,报表系统提供易用数据。数据仓库 比较流行语言的有:AWS Redshift, Greenplum, Hive等主要模块1数据采集平台(数据仓库数据来源)使用语言技术2数据仓库对数据分层建模,保证数据的准确性使用语言技术3数据可视化使用语言技原创 2021-08-10 17:27:04 · 326 阅读 · 0 评论 -
缺失值处理
缺失值处理用0来填充 nan缺失值data_train.fillna(0) 用均值填充data_train.fillna(data_train.mean()) 上下数据填充上文数据data_train.fillna(method='pad') 下文数据```pythondata_train.fillna(method='bfill') 插入值填充算法预测缺失值 填充...原创 2021-08-17 14:38:54 · 160 阅读 · 0 评论 -
数据分析:灰度测试
灰度测试目的主要是 用于产品的发布理解在某项产品或应用正式发布前,选择特定人群试用,逐步扩大其试用者数量,以便及时发现和纠正其中的问题。如何进行灰度测试选择用户经典用户:普通大众用户。代表产品使用用户的特征。极端用户:把产品功能用到极致的用户。目的是为了检测极端情况。灰度测试 和 AB测试AB测试:Web或APP页面或流程制作两个或多个版本,在同一时间,分别让相同类型 客户群 随机地访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。灰度测试:系统通过原创 2021-08-13 11:17:05 · 1147 阅读 · 0 评论