自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 SQL基础查询语句(二)

####################### 多表连接查询# join left join / right join / inner joinselect a.*, b.province, b.area, c.category, c.small_category from spm_order as aleft join spm_area as b on a.city = b.cityleft join spm_product as c on a.product_id = c.product

2020-05-30 09:23:57 225

原创 SQL基础查询语句

###############################基础查询# 检索列SELECT order_id,product_id FROM spm_order# 查找销售人员select distinct sales_name from spm_order# 前100行数据select * from spm_order limit 100# where语句select * from spm_order where city in ('北京', '上海', '广州', '深圳', '

2020-05-26 22:34:19 226

原创 逻辑回归算法原理及其python实现

1.逻辑回归原理1.决策边界梯度下降要做的就是在使损失函数尽量小的情况下求的一组Θ2.损失函数为何此处损失函数要用对数损失?https://www.jianshu.com/p/b6bb6c035d8c2.线性逻辑回归python实现数据集展示from matplotlib import pyplot as pltimport numpy as np# 载入数据dat...

2020-03-09 17:57:37 1299

原创 K均值(KMeans)算法原理机器python实现

1.算法原理根据k-均值算法的工作流程,我们可以写出伪代码:创建k个点作为初始质心(通常是随机选择)当任意一个点的簇分配结果发生改变时: 对数据集中的每个点: 对每个质心: 计算质心与数据点之间的距离 将数据点分配到据其最近的簇 对每个簇,计算簇中所有点的均值并将均值作为新的质心直到簇不再发生变化或者达到最大迭代次数距离计算公式可以使用欧几里...

2020-03-07 16:07:45 434

原创 K近邻(KNN)算法原理及python实现

1.算法原理KNN是一个极其简单的算法,工作流程如下:距离计算公式可以使用欧几里得距离,曼哈顿距离,闵可夫斯基距离等等,代码展示为了简单使用欧几里得距离。2.代码实现""" 函数功能:KNN分类器参数说明: inx:需要预测分类的数据集 dataSet:已知分类标签的数据集(训练集) k:k-近邻算法参数,选择距离最小的k个点 返回:result:分类...

2020-03-07 15:35:21 556

原创 sklearn之网格搜索用法

网格搜索:能够帮助我们同时调整多个参数的技术,枚举技术,给定几个参数的取值范围取最优缺点:给出的参数一定会用上,不能自己舍弃参数,多个参数的搭配可能没有少数几个参数(自己调的)的分数高以决策树为例from sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import GridSearchCVp...

2020-02-26 11:36:43 1761

原创 sklearn之多项式回归

多项式回归其实本质上与线性回归一样,在sklearn中,多项式回归与线性回归的使用方法一致,唯一不同的是需要我们自己手动创造多项式(生成新特征),然后再使用线性回归的方法来进行拟合,同样该方法可以在逻辑回归上尝试。多项式变化sklearn.preprocessing.PolynomialFeatures(degree=2,interaction_only=False,include_bias=...

2020-02-26 11:26:05 2590

原创 sklearn之SVM,ROC曲线与AUC面积

1.重要参数kernel对于这三个参数的取值问题,直接上网格搜索或学习曲线,因为当gamma的符号变化,或者degree的大小变化时,核函数本身甚至都不是永远单调的。不同核函数在不同数据集上的表现from sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_breast_ca...

2020-02-25 20:46:35 10720 1

原创 sklearn之kmeans

Kmeans工作原理sklearn.cluster.KMeans1.参数n_clustersn_clusters是KMeans中的k,表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,当我们拿到一个数据集,如果可能的话,我们希望能够通过绘图先观察一下这个数据集的数据分布,以此来为我们聚类时输入的n_clusters做一个参考。2.参数init &...

2020-02-25 12:00:30 1456

原创 sklearn之逻辑回归

逻辑回归的损失函数无正则项添加正则项sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’...

2020-02-24 18:32:34 2461

原创 sklearn之PCA

属性components_,输出降维后新的特征空间print(PCA(2).fit(x).components_) # svd求出的新的特征空间属性explained_variance_ratio_,查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比,又叫做可解释方差贡献率print(PCA(2).fit(x).explained_variance_ratio_)# ar...

2020-02-24 11:46:24 481

原创 sklearn之特征选择

Embedded嵌入法嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和全部特征对模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以...

2020-02-24 10:28:41 796

原创 sklearn之数据预处理

数据归一化preprocessing.MinMaxScaler归一化原理,x减去当前列的最小值,再除以当前列的最大值减最小值(极差)from sklearn.preprocessing import MinMaxScalerdata = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]scaler = MinMaxScaler(feature_range=[0...

2020-02-24 09:40:05 883

原创 sklearn之随机森林

重要参数1.控制基评估器的参数criterion 不纯度的衡量指标,有基尼系数和信息熵两种选择max_depth 树的最大深度,超过最大深度的树枝都会被剪掉 左min_samples_leaf 一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练本,否则分枝就不会发生 左min_samples_split 一个节点必须要包含至少min_samples_spli...

2020-02-23 11:13:03 839

原创 sklearn之决策树

1.criterion不填默认基尼系数,填写gini使用基尼系数,填写entropy使用信息增益2.random_state输入任意整数,会一直长出同一棵树,让模型稳定下来,可防止过拟合3.splitter有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",...

2020-02-23 10:25:38 297

原创 决策树(Decision Tree)算法原理及其python实现

1.熵的概念不确定性越大熵就越大,不确定性越小熵就越小说明A的不确定性最大,B的不确定性较小,C是一个确定性事件所以熵为02.ID3算法ID3算法是通过信息增益的计算来选择根节点的划分会发现age的信息增益最大,根据ID3算法,始终选择信息增益最大的作为根节点,所以把age作为根节点决策树生成第一层之后,在每个叶子节点重复上面的操作再确定下一个分支结点同时对于连续变量的处...

2019-12-12 10:32:02 413

原创 python爬虫案例之动态加载数据(三),爬取药监局网站上的公司信息

目标网址:http://125.35.6.84:81/xk/在首页点击每家公司会弹出一个页面该页面会有该家公司的详细信息首先先判断是不是动态加载的数据,进行局部搜索,说明是动态加载,因为在与网址相同的url的response中搜索不到页面的信息。那么数据是从哪里来的?局部搜索找不到数据,我们再进行全局搜索,看看数据来自哪个请求找到请求的url和请求方式以及下方的参数换了一家企业...

2019-11-14 11:15:30 6833 11

原创 python爬虫案例之动态加载数据(二),爬取肯德基餐厅位置信息

目标网址:http://www.kfc.com.cn/kfccda/storelist/index.aspx当我们输入城市关键字点击查询之后,网址的url并没有改变,说明我们想要的数据并没有在该网址上,数据都是动态加载出来的使用抓包工具当点击查询的时候得到如下一个请求在response中得到一个json字符串,格式化之后得到这样一个列表可知这才是我们想要数据的url直接对该ur...

2019-11-14 10:59:26 2282 2

原创 python爬虫案例之动态加载数据(一),爬取豆瓣案例

目标网站:https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=当鼠标滚轮向下滑动的时候,发现网页内容是自己加载出来的每加载一页就会有一个链接跳出来,那这个链接有没有包含我们想要抓取的内容呢,来到response发现json字符串...

2019-11-14 10:46:39 1026

原创 python爬虫之selenium,谷歌无头浏览器加规避风险

from time import sleepfrom selenium import webdriver# 规避风险且创建一个参数对象,用来控制chrome以无界面模式打开from selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeS...

2019-11-11 20:32:37 618 1

原创 Mysql 学习笔记(六):索引,数据备份,事务,sql注入

数据准备索引原理#!/usr/bin/env python# -*- coding:utf-8 -*-# 什么是索引 -- 目录 # 就是建立起的一个在存储表阶段 # 就有的一个存储结构能在查询的时候加速# 索引的重要性 # 读写比例 : 10:1 # 读(查询)的速度就至关重要了# 索引的原理 # block 磁盘预读原理 ...

2019-11-02 09:06:27 86

原创 Mysql 学习笔记(五):单表与多表查询

表与表之间的关系#!/usr/bin/env python# -*- coding:utf-8 -*-# book :id name price author_id# author:aid name birthday gender# 作者与书 一对多# create table author(# aid primary key auto_increment,# name cha...

2019-10-30 16:49:48 162

原创 Mysql 学习笔记(四):约束与表,数据操作

约束#!/usr/bin/env python# -*- coding:utf-8 -*-# 约束 # unsigned 设置某一个数字无符号 # not null 某一个字段不能为空 # default 给某个字段设置默认值 # unique 设置某一个字段不能重复 # 联合唯一 # auto_increment 设置某一个in...

2019-10-30 16:34:24 86

原创 Mysql 学习笔记(三):数据类型

数值类型整数UNSIGNED(无符号) ,如果需要在字段里面保存非负数或者需要较大的上限值时,可以用此选项,它的取值范围是正常值的下限取 0,上限取原值的 2 倍,例如,tinyint 有符号范围是-128~+127,而无符号范围是 0~255。如果一个列指定为 zerofill,则 MySQL 自动为该列添加 UNSIGNED 属性。对于5种整数类型(tinyint、smallint、m...

2019-10-24 16:30:34 412

原创 Mysql 学习笔记(二):基础语句

Mysql登录与账号创建#进入mysql客户端$mysqlmysql> select user(); #查看当前用户mysql> exit # 也可以用\q quit退出# 默认用户登陆之后并没有实际操作的权限# 需要使用管理员root用户登陆$ mysql -uroot -p # mysql5.6默认是没有密码的#遇到password直接按回车键my...

2019-10-24 15:40:46 99 1

原创 Mysql 学习笔记(一):下载与安装

下载打开网址,https://www.mysql.com,点击downloads之后跳转到https://www.mysql.com/downloads下拉找到并点击MySQL Community (GPL) Downloads »选择下载MySQL Community Server默认最新版本,如果想要下载其他版本点击Looking for previous GA versio...

2019-10-24 15:20:23 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除