自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 mysql错误:Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated colum

Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated colum原因:MySQL 5.7.5及以上默认对功能依赖的检测。如果启用了only_full_group_by SQL模式,MySQL就会拒绝选择列表、条件或顺序列表引用的查询,这些查询将引用组中未命名的非聚合列,而不是在功能上依赖于它们。select @@global.sql_mode出现:ONLY_FULL_GROUP_BY,S

2020-06-22 21:10:15 2740

原创 python_django(禁止访问 (403) CSRF验证失败. 请求被中断)

禁止访问 403错误原因解决方法:错误Forbidden (403)CSRF verification failed. Request aborted.禁止访问 (403)CSRF验证失败. 请求被中断.原因django的配置中设置了跨站请求的限制,默认禁止的状态。form表单提交时,除了常用的字段之外,额外添加一个token ,这个token是服务器端生成的,是一个随机的数字。服务器端就会检查从浏览器发过来的数据中有没有token,并且这个token的值是不是和服务器端保存的相等,如果

2020-06-18 09:38:45 8254

原创 (sklearn)机器学习(六)特征降维

特征降维1 降维 - 降低维度1 降维 - 降低维度

2020-06-16 10:07:29 2847

原创 特征预处理(sklearn)

@toc特征预处理什么是特征预处理?包含内容:数值型数据的无量钢化:归一化、标准化特征预处理API:sklearn.preprocessing为什么要进行归一化或标准化?特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征1 归一化如:在进行欧氏距离时:有一组数值太小,对结果影响不大,也就是该属性值无法起到相应作用mx、mi:归一化的区间如:属性:90,100,50计算:①X’=(90 - 50

2020-06-16 09:50:39 2597

原创 selenium自动化(python)

selenium介绍安装安装浏览器驱动开始使用1.调用浏览器2.Selenium的8种定位方式3. 控制浏览器操作方法4. 鼠标事件5.键盘事件7. 获取断言信息8.设置元素等待显式等待隐式等待9.多表单切换10.多窗口切换11.警告框处理12.下拉框选择13.文件上传14.cookie操作15.调用JavaScript代码16.窗口截图17.关闭浏览器介绍Selenium是用于测试网站的自动化测试工具,支持Chrome、Firefox、Safari浏览器,也支持phantomJS无界面浏览器。支持系

2020-06-14 14:41:33 2998

原创 特征工程(使用sklearn)

特征工程特征提取介绍字典的特征提取应用场景:文本特征提取用TF-IDF的方法进行文本特征抽取特征提取介绍为什么要进行特征提取?机器学习算法、统计方法 、 数学公式无法计算(如文本,要将文本类型–>数值类型 --> 数值)1.将任意数据(如文本或图像)转换为可用于机器学习的数字特征字典特征提取文本特征提取字典的特征提取作用:对字典数据进行特征值化sklearn.feature_extraction.DictVectorizer(sparse=True,...) D

2020-06-01 16:07:34 3023

原创 RFM客户价值模型

RFM客户价值模型1 说明2 导入相关库2 读取数据3 数据审查4 数据预处理5 确定RFM划分区间6 计算RFM因子权重7 RFM计算过程8 保存RFM结果到Excel9 写数据到数据库1 说明依赖库:time、numpy、pandas、sklearn、pyecharts程序输入:sales.xlsx程序输出:RFM得分数据写本地文件sales_rfm_score.xlsx和数据表(sales_rfm_score)2 导入相关库import time # 时间库imp

2020-06-01 10:36:20 3243

原创 用户流失预测分析与应用

1 导入库import pandas as pdfrom sklearn.model_selection import train_test_split # 数据分区库import xgboost as xgbfrom sklearn.metrics import accuracy_score, auc, confusion_matrix, f1_score,precision_score, recall_score, roc_curve # 导入指标库from imblearn.over_

2020-05-31 00:12:46 3618 1

原创 (sklearn)机器学习(八)回归与聚类算法

回归与聚类算法1 线性回归2 欠拟合与过拟合3 岭回归4 逻辑回归5 模型保存与加载6 K-means算法(无监督学习)1 线性回归原理线性回归的损失和优化API什么是线性回归?线性回归线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式线性模型: 自变量是一次方 参数是一次方损失函数/cost/成本函数/目标函数最小二乘法优化损失:优化方法?正规方程能直接求解(W),但当特征过多过复杂时,求解速度太慢并且得不到结

2020-05-30 20:47:24 3300

原创 (sklearn)机器学习(七)分类算法

分类算法1 sklrnan转换器和预估器2 k-近邻算法(KNN算法)3 模型选择与调优4 朴素贝叶斯算法5 决策树6 决策树可视化7 随机森林1 sklrnan转换器和预估器1.用于分类的估计器:from sklearn.neighbors # k-近邻算法from sklearn.naive_bayes # 贝叶斯from sklearn.linear_model.LogisticRegression # 逻辑回归from sklearn.tree # 决策树与随机森林

2020-05-30 20:29:56 3536

原创 ImdbLSTM情感分析

ImdbLSTM情感分析1. 导入库、数据准备2. 数据准备3 建立模型4. 训练模型5. 评估模型的准确率6. 预测概率7. 预测结果8. 查看预测结果9 serialize model to JSON1. 导入库、数据准备from tensorflow.keras.datasets import imdbfrom tensorflow.keras.preprocessing import sequencefrom tensorflow.keras.preprocessing.text i

2020-05-30 17:21:12 3137

原创 face_recognition进行人脸识别

face_recognition:API详细1.1 将图像文件(.jpg,.png等)加载到numpy数组中2.face_recognition.load_image_file(file,mode ='RGB')参数: file –图像文件名或要加载的文件对象 mode –将图像转换成的格式。仅支持“ RGB”(8位RGB,3通道)和“ L”(黑白)。返回值: 图像内容为numpy数组1.2 使用cnn人脸检测器cnn人脸检测器返回图像中人脸边界框的2d数组。如果您使用的是GPU,由

2020-05-30 15:31:05 3686

原创 HBase、zookeeper、Thrift

1 安装HBase基础环境确认,单机安装hbase之前需要安装如下软件:hadoop版本:2.6.4JDK版本:1.8.0_92下载Hbase1.2.2,下载地址:Hbase1.2.2下载将下载的hbase压缩包上传到linux的目录下这里以上传到“/home/project/soft/hbase”地址为例。当前目录下解压压缩包,命令如下:tar -xzvf hbase-1.2.2-bin.tar.gz修改conf/hbase-env.sh先切换到hbase下的

2020-05-30 15:19:43 3114

原创 python(二)Kafka

1 Kafka简介Apache Kafka是分布式发布-订阅消息系统,一个分布式发布-订阅消息传递系统。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。1.1 Kafka基本架构1、话题(Topic):是特定类型的消息流。消息是字节的有效负载(Payload),话题是消息的分类名或种子(Feed)名;2、生产者(Producer):是能够发布消息到话题的任何对象;3、服务代理(Broker):已发布的消息保存在一组服务器中,它们被称为代理(Broker)或

2020-05-30 15:03:59 3041

原创 python(一)降维算法

降维算法简介很多算法可以回归也可以分类降维算法PCA降维(主成分分析)LDA降维(线性判别分析)MDS降维(多维标度法)流形学习Isomap简介很多算法可以回归也可以分类把连续值变为离散值:1.回归模型可以做分类:可以依据阀值(二元分类或多元分类)来分类2.逻辑回归二元分类,一个阀值。3.连续值进行分箱,实现多元分类4.把离散值变为连续值:插值法(1~2,在离散值之间插入足够密集的值)降维算法1.特征过多:特征工程、筛选特征2.单个特征维度过高3.通过降维算法来避免维度灾难。4.通过

2020-05-30 14:47:26 4193

原创 pandas (八)时间处理 时间序列

时间处理 时间序列# 时间索引df.index = pd.DatetimeIndex(df.index)# 时间只保留日期df['date'] = df['time'].dt.date# 将指定字段格式化为时间类型df["date"] = pd.to_datetime(df['时间'])# 转化为北京时间df['time'] = df['time'].dt.tz_convert('Asia/Shanghai')# 转为指定格式,可能会失去秒以后的精度df['time'] = df['ti

2020-05-30 08:52:51 3400

原创 pandas (七)数据合并

数据合并# 合并拼接行# 将df2中的行添加到df1的尾部df1.append(df2)# 指定列合并成一个新表新列ndf = (df['提名1'] .append(df['提名2'], ignore_index=True) .append(df['提名3'], ignore_index=True))ndf = pd.DataFrame(ndf, columns=(['姓名']))# 将df2中的列添加到df1的尾部df.concat([df1, df2], ax

2020-05-30 08:52:07 3053

原创 pandas (六)数据处理 GroupBy 透视

数据处理 GroupBy 透视df.groupby(col) # 返回一个按列col进行分组的Groupby对象df.groupby([col1,col2]) # 返回一个按多列进行分组的Groupby对象df.groupby(col1)[col2] # 返回按列col1进行分组后,列col2的均值# 创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表df.pivot_table(index=col1, values=[col2,col3],

2020-05-30 08:51:35 3315

原创 pandas (五)数据选取

数据选取df[col] # 根据列名,并以Series的形式返回列df[[col1, col2]] # 以DataFrame形式返回多列df.loc[df['team'] == 'B',['name']] # 按条件查询,只显示name 列s.iloc[0] # 按位置选取数据s.loc['index_one'] # 按索引选取数据df.loc[0,'A':'B'] # A到 B 字段的第一行 df.loc[2018:1990, '第一产业增加值':'第三产业增加值']df.loc[0,[

2020-05-29 16:20:59 3361

原创 pandas (四)数据处理

数据处理Filter保留小数位,四舍六入五成双多条件查询筛选为空的内容类似 SQL where in先按列col1升序排列,后按col2降序排列数据多索引处理前100行只取指定行将ages平分成5个区间并指定 labels格式化增加一行指定新列shift 函数是对数据进行平移动的操作Filter保留小数位,四舍六入五成双# 保留小数位,四舍六入五成双df.round(2) # 全部df.round({'A': 1, 'C': 2}) # 指定列df['Name'] = df.Name # 取列名

2020-05-29 16:16:13 3214

原创 pandas (三)数据清理的常用方法

数据清理的常用方法df.columns = ['a','b','c'] # 重命名列名df.columns = df.columns.str.replace(' ', '_') # 列名空格换下划线df.loc[df.AAA >= 5, ['BBB', 'CCC']] = 555 # 替换数据df['pf'] = df.site_id.map({2: '小程序', 7:'M 站'}) # 将枚举换成名称pd.isnull() # 检查DataFrame对象中的空值,并返回一个 Boolea

2020-05-29 16:15:23 3122

原创 Hive(三)Hive 函数

Hive 函数内置函数自定义函数内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;常用内置函数字符串连接函数: concatselect concat('abc','def’,'gh');带分隔符字符串连接函数: concat_wsselect concat_w

2020-05-29 16:09:39 2996

原创 Hive(二)查询、排序

Hive 查询语法SELECT常用函数LIMIT语句WHERE语句like 和 rlike分组GROUP BY 语句HAVING 语句表的别名内连接左外连接右外连接多表连接排序全局排序按照别名排序多个列排序每个MapReduce内部排序(Sort By)局部排序分区排序(distribute by)cluster bySELECT基本查询语法:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHER

2020-05-29 16:08:47 3567

原创 Hive(一)表操作

Hive学习Hive 安装二、Hive数据库1.创建数据库python连接Hive数据库三、Hive数据表1. create table创建表2. alter table修改表Hive 安装是基于Hadoop的一个数据仓库基础工具前往apache下载Hive# 解压文件tar zxvf apache-hive-0.14.0-bin.tar.gz# 将解压文件复制到/usr/local...

2020-05-29 16:07:53 3003

原创 pandas (二)数据的查看、检查、统计、属性

查看、检查、统计、属性查看、检查累计统计查看、检查df.head(n) # 查看 DataFrame 对象的前n行df.tail(n) # 查看 DataFrame 对象的最后n行df.sample(n) # 查看 n 个样本,随机df.shape # 查看行数和列数df.info() # 查看索引、数据类型和内存信息df.describe() # 查看数值型列的汇总统计df.dtypes # 查看各字段类型df.axes # 显示数据行和列名df.mean() # 返回所有列的均值d

2020-05-29 15:57:48 7313

原创 shell (一)脚本启动常用组件、文件与目录管理

处理目录的常用命令处理目录的常用命令rm (移除文件或目录)mv (移动文件与目录,或修改名称)启动zookeeper等组件脚本启动spark和Hadoop脚本启动Jupyter、pyspark脚本启动kylin脚本处理目录的常用命令ls: 列出目录及文件名cd:切换目录pwd:显示目前的目录mkdir:创建一个新的目录rmdir:删除一个空的目录cp: 复制文件或目录rm: 移除文件或目录mv: 移动文件与目录,或修改文件与目录的名称-a :全部的文件,连同隐藏文件( 开头为 . 的

2020-05-29 15:55:53 3148

原创 python下如何对MySQL数据库调用及操作

MySQL学习一、管理MySQLMySQL 管理Windows 启动、关闭MySQL服务器linux 中启动和关闭MySQL命令添加MySQL用户Python 连接 MySQL二、数据库操作1.创建数据库2.删除数据库MySQL 数据类型数值类型三、数据表操作1.创建数据表2.删除数据表四、数据操作五、JOIN 多表查询数据1. 内连接:INNER JOIN2. 左连接:LEFT JOIN3. 右...

2020-05-29 15:51:42 4142

原创 linux挂载共享文件

挂载共享文件sudo mount -t vboxsf VBoxG /home/hduser/win_shareVBoxG: win下的文件夹名/home/hduser/win_share:Linux下的文件路径

2020-05-29 15:50:36 2984

原创 Windows系统配置Hadoop

1.下载1、Windows版本的Hadoop:Hadoop下载http://archive.apache.org/dist/hadoop/core/winutils下载:https://github.com/steveloughran/winutils2、解压到无中文无空格的目录的路径下3、Windows配置环境变量:HADOOP_HOME: hadoop的路径在path中添加:%HADOOP_HOME%\bin%HADOOP_HOME%\ sbin4、hadoop下创建两个文件夹:

2020-05-29 15:48:57 2953

原创 pandas (一)读取各种格式文件的方法

pandas 读取各种格式文件的方法导入数据读取CSVsql 读取从限定分隔符的文本文件导入数据Excel 导入JSON 导入URL粘贴板字典对象导入导入字符串导入数据读取CSV# 从 CSV 文件导入数据pd.read_csv('file.csv', name=['列名','列名2'])# 如:pd.read_csv('c:/mydata/jit.csv',encoding='gb18030')sql 读取# 从 SQL 表/库导入数据pd.read_sql(query, connec

2020-05-29 15:48:03 4179

原创 使用python、dlib、PyQt5做人脸识别

人脸识别环境版本Windows系统下的图形界面功能函数解决中文问题环境版本python:3.6dlib:19.17.0tensorflow-gpu:2.0PyQt5:5.13pyecharts:1.7.1OpenCV:4.1.1.26Windows系统下的图形界面搭建应用界面可先使用qt designer快速建立基本排版和组件,界面代码较多不就贴上了。功能函数摄像头视频流的获取,使用opencv读取没帧图像部分代码如(之后整理再发完整版):from datetime

2020-05-29 15:26:51 4102 2

TF 2.0.xlsx

tensorflow 在不同版本下模块变动后的对照表,列出了 TF 2.0--TF 1.x 的变动对照

2020-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除