自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 收藏
  • 关注

原创 linux取前一天,前一个月,需注意bug

指定了一个日期,取它的前一天,一周,一个月,一年 分别用day week month year (加不加s均可),代码中顺序不限,代码如下date -d "$testDay 1 day 1 week 1 month 1 year" "+%Y-%m-%d"需要注意月或者年,其计算逻辑是取对应年月的同一天,如果对应年月没有这一天,则月按减算,年按减364算所以才会出现以下的现象,2020年3月31日向前取一个月 结果是2020年3月2日2020年2月29向前取一年 结果是2019年3月1日在

2020-10-12 11:56:07 37

原创 pandas数据处理之 标签列字符转数字

机器学习中,当我们在进行数据预处理的时候,对于标签列非字符的数据,我们往往需要将其转换成字符,因为有的算法可能不支持非数字类型来做特征。那么怎么快捷地来着这个转换呢,请看我的示例:1.构建测试数据import pandas as pdarray = ['good','bad','well','bad','good','good','well','good']2.数据转换下,并获取标签列...

2019-09-27 14:27:51 3305

原创 pandas实现in和 not in

pandas中经常会需要对某列做一些筛选,比如筛选某列里的不包含某些值的行,类似sql里的in和not in功能,那么怎么实现呢。import pandas as pdcolumns = ['name','country']index = [1,2,3,4]row1 = ['a','China']row2 = ['b','UK']row3 = ['c','USA']row4 = ['...

2019-08-01 10:09:36 654

原创 机器学习入门

机器学习项目的流程  1.明确需求,将需求抽象成数学问题  2.获取数据  3.数据预处理  4.特征工程  5.选择模型  6.模型反馈

2019-07-12 18:12:39 79

原创 数据预处理 数据归一化之 sklearn.preprocessing

之所以要数据归一化是因为,不同评价指标往往具有不同的量纲,数值间的差距可能很大,不进行处理会影响到分析的结果,同时也不利于多个指标在同一图标内的展示。数据规范化对于基于距离的算法尤为重要。此处的数据归一化使用的是sklearn.preprocessing里实现的三种方案MaxAbsScaler 将数据规约到[-1,1] 也称小数定标规范化MinMaxScaler 将数据规约到[0,1] 也...

2019-06-21 15:16:56 841

原创 No numeric types to aggregate报错

pandas使用pivote_table时,报错报这个错多半是因为你指定的列里不能执行所对应的聚合操作,你所指定的数字列里包含着字符串或者其他的数据类型要想解决此报错主要就是检查你所指定的列内,此处我使用的是isinstance来判断目标列是否是我想要的列。def ensure_float(x): import numpy as np if isinstance(x,np.f...

2019-06-19 15:56:04 17885 1

原创 关联分析(1)

基本方法关联分析的目标包括两项:发现频繁项集和发现关联规则。首先需要找到频繁相机,然后才能获得关联规则。关联分析的主要目的是寻找频繁项集,如果通过暴力搜索,运算量会呈几何性增长。为了减少频繁项集的计算量,可以采用Apriori算法和FP-Growth算法。Apriori算法原理:如果某个项集是频繁的,那么它的所有子集也是频繁的。这个原理反过来看对实际操作更有作用,即如果一个项集是非频繁项...

2019-06-13 15:08:30 833 1

原创 时间序列预测法

预测是人们根据食物的发展鼓励、历史和现状,分析影响其变化的因素,对其发展前景和趋势进行的一种推测。时间序列分析法

2019-06-11 16:48:38 2518 1

原创 书单

1.决战大数据(升级版):大数据的关键思考 车品觉2.数据即未来 大数据的王者之道 美 布瑞恩戈德西 陈斌译3.数据分析与机器学习实战 python3 2018年8月第一版 龙马高新教育4.机器学习python实践 魏贞原 2018年1月第一版5.spark高级数据分析6.python核心编程第二版7.scala机器学习8.python数据分析与挖掘实战9.解析pyth...

2019-06-11 15:23:28 220

原创 爱词霸 每日一词爬取

要爬取的目标网站是金山词霸的每日一句栏目本人热衷英语学习,同时觉得其使用的图片以后可以当做素材,作为一个什么限制也没有的基础网站,学习爬虫的初学者拿这个网站试手就很好。本次爬虫所要爬取的内容包括每日一句的英文,翻译,以及对应的图片。创建工程scrapy startproject iciba生成spider文件scrapy genspider IcibaSpider news.icib...

2019-06-06 13:51:51 584

原创 CDSW安装遇到的问题

1.域名解析的问题。配置需要仔细仔细再仔细,否则dns解析不了是无法访问CDSW工作台的。dns解析的命令一定要验证,等待cdsw启动的时候也应当验证下配置是否ok。2.磁盘问题。挂载了整块磁盘之后无需做多余的操作,自作主张进行分区什么的都有可能导致初始化docker环境时失败。3.软件和服务千万不要自作主张手工安装docker服务,也不要启动httpd服务,80端口会占用cdsw工作台...

2019-06-05 17:42:24 763 1

原创 CDSW安装手册

CDSW是cloudera的数据科学工作台

2019-06-03 14:38:55 2663 11

原创 python动态调用函数

举例 文件 windows_params 包含两个方法,两个参数a = 1b = 2def count(): print('count')def get(): print('get')然后来调用啦import windows_params as lpdef invoke_method(method): value = eval('lp.'+met...

2019-05-10 18:05:02 834

原创 python学习入门

python基础1.启动jupyter notebook2.在桌面上新建名为jupyter的文件夹,进入文件夹,新建python3文件,修改文件名为python_learning然后开始我们的编码3.python的基本内容数据类型:数字型 int,long,float,bool,complex(复数)例如:int 84 -680long 29979062458L -84140...

2019-05-06 21:30:27 71

转载 pycharm 破解

因为原来的破解补丁下载链接失效了,今天来更新下新的补丁。首先感那些无私制作并免费提供补丁的人,世界因他们而光明!!!同时,我也更新下教程,详细说明下激活前需要注意的一些细节,希望同学们少走弯路,有一个好的开始!!!激活前准备工作*激活前请先关闭pycharm*修改配置文件的时候你需要填写你的安装路径*如果出现修改配置文件后无法打开pycharm,那就移动补丁的位置,比如我从斌目录移...

2019-05-06 20:21:53 112 2

原创 python开发环境安装

安装anacondaAnaconda下载 下载python 3.X版本之后一键安装即可。安装 jupyter notebookconda install jupyter运行cmd,运行jupyter notebook 启动浏览器 即可进入jupyter的客户端运行cmd ,运行python出现如图结果即ok.2.安装pycharm下载pycahrm pycharm下载...

2019-05-06 10:42:31 84

原创 django跨域设置

setting文件里添加CORS_ALLOW_CREDENTIALS = TrueCORS_ORIGIN_ALLOW_ALL = TrueCORS_ORIGIN_WHITELIST = (‘*’)CORS_ALLOW_METHODS = (‘DELETE’,‘GET’,‘OPTIONS’,‘PATCH’,‘POST’,‘PUT’,‘VIEW’,)CORS_ALLOW_...

2019-04-26 13:44:50 254

原创 pandas数据处理

去重df.drop_duplicates(keep=‘first’,inplace=True)条件df.loc[(df[‘CLEAR_ALARM_TIME’]!=‘0’)]空值处理df.fillna(‘0’) 填默认值df.dropna()删除空值单列选择df[‘CLEAR_ALARM_TIME’]多列选择 使用列的indexdf[2:5]...

2019-04-26 11:26:19 85

原创 pandas设置不用科学计数法

import numpy as npnp.set_printoptions(suppress=True)

2019-04-26 11:20:00 9872

原创 pandas 遍历行和列

需求判断一个df中的各行各列是否包含某值,然后做出操作读取文件import pandas as pddf= pd.read_csv(‘file’)获取列columns_list = df.columns.tolist()columns_list定义行处理函数def row_process(row):for column in columns_list:if row[colu...

2019-04-26 11:17:35 4109

原创 json.dumps的数据封装问题

json.dumps封装数据在使用pandas处理数据时时长会碰到需要将数据转换成json输出 到前端。正常的json数据可以直接正常封装,但碰到NAN数据的时候,使用json封装时会自动把json转换成字符串,以至于后面前端获取不到json对象。pandas的列操作获取多个列df[[‘column1’,‘column2’]]添加条件df.loc[(df[‘column1’]!=‘0...

2019-04-22 18:44:55 136

原创 spark stream数据处理过程中不要去读hdfs文件

今天访问hdfs,偶然报错There are 0 datanode(s) running and no node(s) are excluded in this operation。然后就是提示主机端口50010连不上去。果断去查看50010的端口连接,发现好几万个端口连接状态为CLOSE_WAIT的。再去找进程,发现是spark stream的进程。50010的端口连接是datanode的,主...

2019-01-16 14:43:57 406

原创 mongodb 分片集群报错整理

从节点默认没有读写权限error: { “$err” : “not master and slaveOk=false”, “code” : 13435 }在从节点上直接使用查询命令都会查不出结果,如果非要在从节点下读取使用rs.slaveOk()即可no such command找不到命令明明看到命令提示里有这个命令,打出来就是提示不存在这个情况很有可能就是你使用命令的端口不正确n...

2018-12-21 16:33:29 478

原创 mongodb分片集群部署

。。

2018-12-21 16:09:20 90

原创 idea创建scala项目

安装了scala插件file 》setting》plugins搜SCALA安装完之后重启,晚上下载sbt安装。主要设置下setting里的sbtvm参数如下:-Dsbt.override.build.repos=true-XX:MaxPermSize=512M-Dsbt.log.format=true-Dsbt.ivy.home=C:/softwares/sbt/.ivy2-Ds...

2018-12-07 10:49:53 204

原创 pycharm配置anaconda编译

pycharm安装完之后需要设置下,file>>settings>>general>>auto import>>python>>show import popup这样就会提示你自动导入包还要安装anaconda,方便包管理。安装了anaconda之后,File》settings>project>>project i...

2018-12-05 13:38:12 167

原创 sqoop常见问题处理

事务处理 由于线程的并发性,一个导入操作可能并不是原子性的。会一次statement插入100条数据,然后每100 个statement提交一次,所以一次就会提交10000条数据。如果tasks失败了(由于网络问题或者其它的问题), 这些tasks会尝试从它们开始导入数据的地方重新开始,会插入重复的记录。这次写数据的时候,Sqoop不 提防这种潜在的问题。Sqoop提供的一个解决办法就是...

2018-11-28 17:10:23 2354

原创 oracle jdbc Connection Reset问题

oracle jdbc Connection Reset问题oracleJDBC在建立连接时需要一些随机数据用以加密session token之类的东西Linux内核熵池,通过搜集键盘,鼠标,中断,磁盘操作来产生随机数据通过以下命令查看当前的熵值:cat /proc/sys/kernel/random/entropy_avail在读取时,/dev/random设备会返回小于熵池噪声总数...

2018-11-28 15:11:12 968

原创 数据预处理 Python主要数据预处理函数

interpolate包含了大量的插值函数unique去除数据中的重复元素isnull/notnull判断元素是否空值random用于生成服从特定分布的随机矩阵PCA对指标变量矩阵进行主成分分析...

2018-11-27 14:29:08 467

原创 数据预处理(2)数据集成 和 数据变换 数据规约

数据集成数据挖掘的过程中往往需要的数据分布在不同的数据库,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程。实体识别同名异义名字相同但实际代表的含义不同异名同义名字不同但代表的意思相同单位不统一冗余属性识别相同的属性出现多次同一属性命名不一致导致重复数据变换1. 简单函数变换2. 规范化最小最大规范化值与最小值的差 再除以极差得...

2018-11-27 14:24:44 4193

原创 数据预处理(1)数据清洗

数据预处理的内容主要包括数据清洗,数据集成,数据变换和数据规约。数据清洗数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,帅选掉与挖掘主题无关的数据,处理缺失值、异常值等。缺失值处理缺失值处理的方法可分为三类:删除记录、数据插补和不处理。常用的数据 插补方法有:均值中位数众数插补使用固定值插补使用最近临插补回归方法 建立拟合模型预测缺失的属性值插值法 利用已知...

2018-11-27 13:44:34 1503

原创 数据探索(3)Python主要数据探索函数

Python中用于数据探索的库主要是Pandas(数据分析)和Matplotlib(数据可视化)。数据探索函数可大致分为统计特征函数和统计作图函数。Pandas的主要统计特征函数。sum() 列总和mean() 平均数var() 方差std() 标准差corr()Spearman相关系数矩阵cov()协方差矩阵skew()偏度(3阶矩阵)Kurt()峰度(4阶矩阵)...

2018-11-27 10:47:24 196

原创 数据探索(2)数据特征分析

数据特征分析分布分析1.定量数据的分布分析对于定量变量而言,选择组数和组宽是做频率分布分析时最主要的问题,一般按照以下步骤进行。1)求极差2)决定组距和组数3)决定分店4)列出频率分布表5)绘制频率分布直方图遵循以下原则:1)各组之间必须相互排斥2)各组必须包含所有数据3)各组的组宽最好相等2.定性数据的分布分析对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和...

2018-11-27 10:32:31 358

原创 数据探索(1)数据质量分析

数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括如下内容:缺失值异常值不一致的值重复的值以及包含特殊符号的数据缺失值分析数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失。(1)缺失值产生的原因1)有些信息暂时无法获取,或者获取信息的代价太大2)有些信息被遗漏...

2018-11-27 10:02:25 1287

原创 python数据分析工具

Numpy提供数组支持Scipy提供矩阵支持Matplotlib数据可视化工具、作图库pandas数据分析和探索工具Scikit-Learn支持回归、分类、聚类等的强大的机器学习库StatsModels统计建模和计量经济学,包括描述统计、统计模型估计和判断Keras深度学习库,用于建立神经网络以及深度学习模型...

2018-11-26 17:48:56 208

原创 Python使用入门

运行方式一般两种方式:客户端执行python3使用Jupyter编码建议安装anaconda,方便包管理使用#来添加注释使用‘’’‘’’来添加多行注释脚本中有中文还要在文件头注明字符编码# -*- coding: utf-8 -*python严格遵循缩进基本命令判断if 条件1: 语句2elseif 条件3: 语句4else: 语句5...

2018-11-26 17:41:58 88

原创 Python数据挖掘过程

数据挖掘的建模过程定义挖掘目标明确系统完成后想要达成什么样的效果。我们需要分析应用领域,了解相关领域的情况,熟悉背景知识,弄清用户需求。数据取样从业务系统中抽取一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性。衡量取样数据质量的标准如下:1)资料完整无缺,各类指标项齐全。2)数据准确无误,反映的都是正常(而不是异常)状态下的水平。数据探索...

2018-11-26 16:51:19 1274

原创 读 数据即未来 第二章

序道德经阐述:道生一,一生二,二生三,三生万物。1964年美国科学家盖尔曼提出中子,质子这一类强子是由三个更基本的单元夸克构成的,验证了道德经中《三生万物》的物理存在原理。数据科学是一门日新月异的科学,数据库常变,软件常变,硬件常变 ……不变的只有洞察本质的思维方式和对问题解决之道的不懈追求。第二章 通过好的提问设置目标保持意识:经验、领域专家和其他与项目相关的知识会帮助你在问题出现...

2018-11-23 17:10:50 115

原创 读 数据即未来 大数据的王者之道

序道德经阐述:道生一,一生二,二生三,三生万物。1964年美国科学家盖尔曼提出中子,质子这一类强子是由三个更基本的单元夸克构成的,验证了道德经中《三生万物》的物理存在原理。数据科学是一门日新月异的科学,数据库常变,软件常变,硬件常变 ……不变的只有洞察本质的思维方式和对问题解决之道的不懈追求。为什么会产生数据科学首先,随着社会发展,人类的社会实践、生产实践和科学实验产生了大量的数据。同...

2018-11-23 16:23:51 171

原创 mysql数据备份

使用mysql的dump命令以sql格式存储。mysqldump -uroot -p database > backup.sql使用此命令来备份所需备份的数据。在所需备份的机器上进入该库(没有就新建)source backup.sql即可完成数据的恢复。此方式只适合小数据量的场景,大数据量的还需斟酌。...

2018-11-22 15:09:17 127

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除