勇气在前-CSDN博客

原创 mysql错误：Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated colum

Expression #2 of SELECT list is not in GROUP BY clause and contains nonaggregated colum原因：MySQL 5.7.5及以上默认对功能依赖的检测。如果启用了only_full_group_by SQL模式，MySQL就会拒绝选择列表、条件或顺序列表引用的查询，这些查询将引用组中未命名的非聚合列，而不是在功能上依赖于它们。select @@global.sql_mode出现：ONLY_FULL_GROUP_BY,S

2020-06-22 21:10:15 2740

原创 python_django(禁止访问 (403) CSRF验证失败. 请求被中断)

禁止访问 403错误原因解决方法：错误Forbidden (403)CSRF verification failed. Request aborted.禁止访问 (403)CSRF验证失败. 请求被中断.原因django的配置中设置了跨站请求的限制，默认禁止的状态。form表单提交时，除了常用的字段之外，额外添加一个token ，这个token是服务器端生成的，是一个随机的数字。服务器端就会检查从浏览器发过来的数据中有没有token,并且这个token的值是不是和服务器端保存的相等，如果

2020-06-18 09:38:45 8254

原创（sklearn）机器学习（六）特征降维

特征降维1 降维 - 降低维度1 降维 - 降低维度

2020-06-16 10:07:29 2847

原创特征预处理（sklearn）

@toc特征预处理什么是特征预处理？包含内容：数值型数据的无量钢化：归一化、标准化特征预处理API：sklearn.preprocessing为什么要进行归一化或标准化？特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征1 归一化如：在进行欧氏距离时：有一组数值太小，对结果影响不大，也就是该属性值无法起到相应作用mx、mi：归一化的区间如：属性：90,100,50计算：①X’=（90 - 50

2020-06-16 09:50:39 2597

原创 selenium自动化（python）

selenium介绍安装安装浏览器驱动开始使用1.调用浏览器2.Selenium的8种定位方式3. 控制浏览器操作方法4. 鼠标事件5.键盘事件7. 获取断言信息8.设置元素等待显式等待隐式等待9.多表单切换10.多窗口切换11.警告框处理12.下拉框选择13.文件上传14.cookie操作15.调用JavaScript代码16.窗口截图17.关闭浏览器介绍Selenium是用于测试网站的自动化测试工具，支持Chrome、Firefox、Safari浏览器，也支持phantomJS无界面浏览器。支持系

2020-06-14 14:41:33 2998

原创特征工程（使用sklearn）

特征工程特征提取介绍字典的特征提取应用场景:文本特征提取用TF-IDF的方法进行文本特征抽取特征提取介绍为什么要进行特征提取？机器学习算法、统计方法、数学公式无法计算（如文本，要将文本类型–>数值类型 --> 数值）1.将任意数据（如文本或图像）转换为可用于机器学习的数字特征字典特征提取文本特征提取字典的特征提取作用：对字典数据进行特征值化sklearn.feature_extraction.DictVectorizer(sparse=True,...) D

2020-06-01 16:07:34 3023

原创 RFM客户价值模型

RFM客户价值模型1 说明2 导入相关库2 读取数据3 数据审查4 数据预处理5 确定RFM划分区间6 计算RFM因子权重7 RFM计算过程8 保存RFM结果到Excel9 写数据到数据库1 说明依赖库：time、numpy、pandas、sklearn、pyecharts程序输入：sales.xlsx程序输出：RFM得分数据写本地文件sales_rfm_score.xlsx和数据表（sales_rfm_score）2 导入相关库import time # 时间库imp

2020-06-01 10:36:20 3243

原创用户流失预测分析与应用

1 导入库import pandas as pdfrom sklearn.model_selection import train_test_split # 数据分区库import xgboost as xgbfrom sklearn.metrics import accuracy_score, auc, confusion_matrix, f1_score,precision_score, recall_score, roc_curve # 导入指标库from imblearn.over_

2020-05-31 00:12:46 3618 1

原创（sklearn）机器学习（八）回归与聚类算法

回归与聚类算法1 线性回归2 欠拟合与过拟合3 岭回归4 逻辑回归5 模型保存与加载6 K-means算法（无监督学习）1 线性回归原理线性回归的损失和优化API什么是线性回归？线性回归线性回归是利用回归方程（函数）对一个或多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方式线性模型：自变量是一次方参数是一次方损失函数/cost/成本函数/目标函数最小二乘法优化损失：优化方法？正规方程能直接求解（W），但当特征过多过复杂时，求解速度太慢并且得不到结

2020-05-30 20:47:24 3300

原创（sklearn）机器学习（七）分类算法

分类算法1 sklrnan转换器和预估器2 k-近邻算法（KNN算法）3 模型选择与调优4 朴素贝叶斯算法5 决策树6 决策树可视化7 随机森林1 sklrnan转换器和预估器1.用于分类的估计器：from sklearn.neighbors # k-近邻算法from sklearn.naive_bayes # 贝叶斯from sklearn.linear_model.LogisticRegression # 逻辑回归from sklearn.tree # 决策树与随机森林

2020-05-30 20:29:56 3536

原创 ImdbLSTM情感分析

ImdbLSTM情感分析1. 导入库、数据准备2. 数据准备3 建立模型4. 训练模型5. 评估模型的准确率6. 预测概率7. 预测结果8. 查看预测结果9 serialize model to JSON1. 导入库、数据准备from tensorflow.keras.datasets import imdbfrom tensorflow.keras.preprocessing import sequencefrom tensorflow.keras.preprocessing.text i

2020-05-30 17:21:12 3137

原创 face_recognition进行人脸识别

face_recognition：API详细1.1 将图像文件（.jpg，.png等）加载到numpy数组中2.face_recognition.load_image_file（file，mode ='RGB'）参数： file –图像文件名或要加载的文件对象 mode –将图像转换成的格式。仅支持“ RGB”（8位RGB，3通道）和“ L”（黑白）。返回值：图像内容为numpy数组1.2 使用cnn人脸检测器cnn人脸检测器返回图像中人脸边界框的2d数组。如果您使用的是GPU，由

2020-05-30 15:31:05 3686

原创 HBase、zookeeper、Thrift

1 安装HBase基础环境确认，单机安装hbase之前需要安装如下软件：hadoop版本：2.6.4JDK版本：1.8.0_92下载Hbase1.2.2，下载地址：Hbase1.2.2下载将下载的hbase压缩包上传到linux的目录下这里以上传到“/home/project/soft/hbase”地址为例。当前目录下解压压缩包，命令如下：tar -xzvf hbase-1.2.2-bin.tar.gz修改conf/hbase-env.sh先切换到hbase下的

2020-05-30 15:19:43 3114

原创 python（二）Kafka

1 Kafka简介Apache Kafka是分布式发布-订阅消息系统，一个分布式发布-订阅消息传递系统。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。1.1 Kafka基本架构1、话题（Topic）：是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名或种子（Feed）名；2、生产者（Producer）：是能够发布消息到话题的任何对象；3、服务代理（Broker）：已发布的消息保存在一组服务器中，它们被称为代理（Broker）或

2020-05-30 15:03:59 3041

原创 python（一）降维算法

降维算法简介很多算法可以回归也可以分类降维算法PCA降维（主成分分析）LDA降维（线性判别分析）MDS降维（多维标度法）流形学习Isomap简介很多算法可以回归也可以分类把连续值变为离散值：1.回归模型可以做分类：可以依据阀值（二元分类或多元分类）来分类2.逻辑回归二元分类，一个阀值。3.连续值进行分箱，实现多元分类4.把离散值变为连续值：插值法（1~2，在离散值之间插入足够密集的值）降维算法1.特征过多：特征工程、筛选特征2.单个特征维度过高3.通过降维算法来避免维度灾难。4.通过

2020-05-30 14:47:26 4193

原创 pandas （八）时间处理时间序列

时间处理时间序列# 时间索引df.index = pd.DatetimeIndex(df.index)# 时间只保留日期df['date'] = df['time'].dt.date# 将指定字段格式化为时间类型df["date"] = pd.to_datetime(df['时间'])# 转化为北京时间df['time'] = df['time'].dt.tz_convert('Asia/Shanghai')# 转为指定格式，可能会失去秒以后的精度df['time'] = df['ti

2020-05-30 08:52:51 3400

原创 pandas （七）数据合并

数据合并# 合并拼接行# 将df2中的行添加到df1的尾部df1.append(df2)# 指定列合并成一个新表新列ndf = (df['提名1'] .append(df['提名2'], ignore_index=True) .append(df['提名3'], ignore_index=True))ndf = pd.DataFrame(ndf, columns=(['姓名']))# 将df2中的列添加到df1的尾部df.concat([df1, df2], ax

2020-05-30 08:52:07 3053

原创 pandas （六）数据处理 GroupBy 透视

数据处理 GroupBy 透视df.groupby(col) # 返回一个按列col进行分组的Groupby对象df.groupby([col1,col2]) # 返回一个按多列进行分组的Groupby对象df.groupby(col1)[col2] # 返回按列col1进行分组后，列col2的均值# 创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表df.pivot_table(index=col1, values=[col2,col3],

2020-05-30 08:51:35 3315

原创 pandas （五）数据选取

数据选取df[col] # 根据列名，并以Series的形式返回列df[[col1, col2]] # 以DataFrame形式返回多列df.loc[df['team'] == 'B',['name']] # 按条件查询，只显示name 列s.iloc[0] # 按位置选取数据s.loc['index_one'] # 按索引选取数据df.loc[0,'A':'B'] # A到 B 字段的第一行 df.loc[2018:1990, '第一产业增加值':'第三产业增加值']df.loc[0,[

2020-05-29 16:20:59 3361

原创 pandas （四）数据处理

数据处理Filter保留小数位，四舍六入五成双多条件查询筛选为空的内容类似 SQL where in先按列col1升序排列，后按col2降序排列数据多索引处理前100行只取指定行将ages平分成5个区间并指定 labels格式化增加一行指定新列shift 函数是对数据进行平移动的操作Filter保留小数位，四舍六入五成双# 保留小数位，四舍六入五成双df.round(2) # 全部df.round({'A': 1, 'C': 2}) # 指定列df['Name'] = df.Name # 取列名

2020-05-29 16:16:13 3214

原创 pandas （三）数据清理的常用方法

数据清理的常用方法df.columns = ['a','b','c'] # 重命名列名df.columns = df.columns.str.replace(' ', '_') # 列名空格换下划线df.loc[df.AAA >= 5, ['BBB', 'CCC']] = 555 # 替换数据df['pf'] = df.site_id.map({2: '小程序', 7:'M 站'}) # 将枚举换成名称pd.isnull() # 检查DataFrame对象中的空值，并返回一个 Boolea

2020-05-29 16:15:23 3122

原创 Hive（三）Hive 函数

Hive 函数内置函数自定义函数内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;常用内置函数字符串连接函数： concatselect concat('abc','def’,'gh');带分隔符字符串连接函数： concat_wsselect concat_w

2020-05-29 16:09:39 2996

原创 Hive（二）查询、排序

Hive 查询语法SELECT常用函数LIMIT语句WHERE语句like 和 rlike分组GROUP BY 语句HAVING 语句表的别名内连接左外连接右外连接多表连接排序全局排序按照别名排序多个列排序每个MapReduce内部排序（Sort By）局部排序分区排序（distribute by）cluster bySELECT基本查询语法：SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHER

2020-05-29 16:08:47 3567

weixin_44525558的博客