自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 收藏
  • 关注

原创 KNN改进

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import GridSearchCVdef knn_iris_gs

2020-07-31 16:23:22 204

原创 KNN算法

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierdef knn_iris(): #1、获取数据 iris = load_iris() #2、划分数据集

2020-07-31 15:44:10 158

原创 特征工程主要内容

2020-07-31 11:48:06 246

原创 4-06主成成分分析

2020-07-10 17:42:33 132

原创 4-05线性回归

如何评价线性回归效果的好坏(左边是一元线性系数,右边是多元线性系数)R越接近1,回归效果越好接近0,效果差好的回归DW接近2,4是残差正相关0是残差负相关

2020-07-10 17:21:28 99

原创 5-08特征衍生

通常我们采集到的数字特征一般维度不大,而且一般不能直接反应信息,需要通过已有的数据组合,加减乘除(时间)这些是推荐系统中,特征扩维常用的方法和思路

2020-07-09 16:43:14 108

原创 5-06特征变换3

正规化的本质是将一个向量的长度正规到单位1,以下有两种正则化L1正则化,L2正则化(也叫做欧式正则,分子保持不变分母用的是欧式长度)一般用在后两个在#正规化import numpy as npimport pandas as pdfrom sklearn.preprocessing import Normalizer#直接正规化就行,不用和标注一起进行(也就是监督学习),所以直接用fit_transform()#第一个结果不是我们想要的,因为他是对每一行进行正规化操作print(Nor

2020-07-09 15:13:59 205

原创 5-06特征变换代码2

独热编码是在数字编码的基础上进行变换处理,所以第一步要进行labelencoding(另外理解fix和transform)知乎python 的fit() transform()fit()可以说是调用的通用方法。fit(X),表示用数据X来训练某种模型。 函数返回值一般为调用fit方法的对象本身。fit(X,y=None)为无监督学习算法,fit(X,Y)为监督学习算法transform()在Fit的基础上,进行标准化,降维,归一化等操作Fit_transform()fit_transform是f

2020-07-09 14:45:59 118

原创 5-06特征变换2

下一个方法数值化在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。3.定

2020-07-08 21:36:10 128

原创 5-06特征变换代码

#连续数据离散化之分箱技术import numpy as npimport pandas as pdlst=[6,8,10,15,24,25,40,67]#第一种等深分箱(就是根据数量进行分箱)这里是将离散化数据更加规整print(pd.qcut(lst,q=3))print(pd.qcut(lst,q=3,labels=["low","medium","high"]))#第二种是等距分箱(就是根据数的大小,分成几个等分)print(pd.cut(lst,bins=3))print(pd

2020-07-08 20:48:35 104

原创 5-06特征变换

顾名思义就是根据选好的特征进行转换,使特征充分发挥他的特点**下面介绍比较常用的特征变换的方法(对指化)**1、(数值太小)取指数—归一化,在机器学习中,有一个直接的函数叫softmax numpy.exp2、取对数(数值太大)numpy.log下面介绍另一种方法离散化为什么离散化(第一数据有噪声,第二朴素贝叶斯只能用离散化数据,第三数据有明显拐角点,离散更有意义,见下图)方法(前两种叫做分箱)数据在分箱前,一定要进行排序,分好后找一个好的数来代替这个箱子里的内容,下面是等深分箱(

2020-07-08 20:23:43 1134

原创 5-05特征选择代码

import numpy as np#pandas主要作用是表结构DataFrame,另外嵌入numpy纯数学import pandas as pd#scipy是基于numpy纯数学,他的区别是有数学模型(正太什么的,比较直接0import scipy.stats as ssdf = pd.DataFrame({"A":ss.norm.rvs(size=10),"B":ss.norm.rvs(size=10),"C":ss.norm.rvs(size=10 ),"D":np.random.rand

2020-07-08 17:59:06 206

原创 5-05特征选择(特征预处理第一步)

区别:Numpy是以矩阵为基础的数学计算模块,纯数学。Scipy基于Numpy,科学计算库,有一些高阶抽象和物理模型。比方说做个傅立叶变换,这是纯数学的,用Numpy;做个滤波器,这属于信号处理模型了,在Scipy里找。Pandas提供了一套名为DataFrame的数据结构,比较契合统计分析中的表结构,并且提供了计算接口,可用Numpy或其它方式进行计算。特征选择可以在特征变化之前,也可以在之后,本章是根据统计学模型、机器学习模型进行相关度排序(最终实现降维度)特征选择需要重复做,需要模型去验证,

2020-07-07 20:41:20 195

原创 5-04标注

上一节我们讲了数据清晰的内容,通过清晰我们保留了正常的数据,在处理特征预处理内容之前,我们先要确定标注,反应目的的属性就是标注,其他有关系的特征

2020-07-07 18:32:54 99

原创 5-03异常值处理

#处理异常值import numpy as npimport pandas as pddf = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1","b2","b2","b3",None],"C":[1,2,None,3,4,5],"D":[0.1,0.4,0.4,0.7,8.3,None],"E":["e1","e2","e3","e4","e5","w2"]})print(df)#注意数字为NaN,字符为None#空

2020-07-07 18:19:39 164

原创 jdbcutil

package com.sikiedu.exception;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class JDBCUtils {p...

2020-05-04 22:19:46 158

原创 异常的抛出和处理

package com.sikiedu.exception;import java.util.ArrayList;public class Exceptiondemo01 {public static void main(String[] args){// try{// ArrayList list=null;// //list目前为空,因为还没有创建,不能用这个方法// ...

2020-05-04 22:17:45 240

原创 jdbc

import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import javax.xml.crypt...

2020-05-04 22:13:29 94

原创 scrapy——京东

import scrapyimport jsonclass CatalogSpider(scrapy.Spider): name = 'catalog' allowed_domains = ['3.cn'] start_urls = ['https://dc.3.cn/category/get'] def parse(self, response): ...

2020-03-15 17:44:16 116

原创 scrapy-亚马逊

import timeimport scrapyfrom scrapy import Requestclass MobileSpider(scrapy.Spider): name = 'mobile' allowed_domains = ['amazon.com'] start_urls = ['https://www.amazon.cn/s?k=mobile+...

2020-03-15 15:13:29 423

原创 scrapy-腾讯新闻

import scrapyfrom scrapy import Requesttypes = ['major', 'finance']class NewsSpider(scrapy.Spider): name="news" allowed_domains="www.news.qq.com" start_urls=[ 'https://www.news...

2020-03-14 20:46:07 99

原创 Django入门

1、重量级框架-功能俱全2、python自带数据库支持-SQLite3、MVT模式——特有MVC模式——常见MVT vs MVCMVCM(数据层)V(视图层) C(控制)用户-视图层-控制-数据层-数据库,再返回实现分离MVTM(视图层) V(控制层) T(模板取代了原来地视图层)没有什么本质地不同重量级——什么都管、限制太多mvt模式——mvc...

2020-03-14 16:47:17 78

原创 scrapy-移动号码

import scrapyclass PhoneSpider(scrapy.Spider): name="phone" start_urls=[ 'https://www.jihaoba.com/escrow/'] def parse(self,reponse): for li in reponse.xpath("//div[@class='tj_hm']/ul/li"): ...

2020-03-14 15:49:56 86

原创 python将图片变成水墨画

from PIL import Imageimport numpy as npa=np.asarray(Image.open("G:/timg.jpg").convert("L")).astype("float")depth=10#深度的范围为0~100,我们先取10这个数grad = np.gradient(a) #取图像灰度的梯度值,有两个grad_x, grad_y = grad ...

2020-03-06 23:27:12 2784 1

原创 Python爬虫——Ajax豆瓣json

import urllibimport urllib.requesturl="https://movie.douban.com/j/new_search_subjects?sort=U"headers = { "User-Agent": "Mozilla / 5.0(iPhone;CPUiPhoneOS11_0likeMacOSX) AppleWebKit / 604.1.38(...

2020-02-25 20:23:33 255

原创 python爬虫——利用抓包有道翻译post文件

import urllibimport urllib.requesturl="http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule "key=input("请输入要输入的文字")headers = { "Host" : "fanyi.youdao.com", "Connectio...

2020-02-24 23:07:24 249

原创 Python爬虫——总结小知识点

urllib入门mport urllib.request#向指定的url地址发送请求,并返回服务器响应的类文件对象response = urllib.request.urlopen("http://www.baidu.com/")#服务器返回的类文件对象支持python文件对象的操作方法#read()方法就是读取文件里面的全部内容,返回字符串#此方法的缺点是不能构造,headers不能...

2020-02-24 21:08:17 292

原创 Python爬虫——疫情地图

import requestsimport jsonfrom pyecharts import Mapfrom lxml import etreeclass S: def __init__(self): self.headers={ "User-Agent" :"Mozilla / 5.0(iPhone;CPUiPhoneOS11_0lik...

2020-02-23 19:17:54 872

原创 Python爬虫——美女图片放在文件夹

import requestsimport reimport timeimport osurl1="https://www.vmgirls.com/12985.html"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" ...

2020-02-22 19:21:52 271

原创 python爬虫——up主信息——正则

import requestsimport reimport jsonclass BookSpider(object): def __init__(self): kw="博士" self.base_url = "https://search.bilibili.com/all?keyword=" + str(kw) + "&from_sour...

2020-02-22 11:43:03 163

原创 列表和数组的区别

列表里面的数据类型多种多样数组里面的数据类型只能有一种

2020-02-19 16:24:53 317

原创 Python爬虫——保存至csv

import requestsfrom lxml import etreeimport jsonimport csvclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"U...

2020-02-19 12:14:58 465

原创 Python爬虫——allitebooke_bs4

import requestsfrom lxml import etreeimport jsonfrom bs4 import BeautifulSoupclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" ...

2020-02-18 23:15:34 172

原创 Python爬虫——allitebooks网站——xpath

import requestsfrom lxml import etreeimport jsonclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"User-Agent":...

2020-02-18 22:43:31 187

原创 Python爬虫——json和csv

import jsonimport csv#需求json中的数据转换成csv文件#1、分别是读,创建文件json_fd = open("02json.json","r")csv_fd=open("03.csv","w")#2、提出表头,表内容#将字符串转化成列表data_list = json.load(json_fd)sheet_title=data_list[0].keys...

2020-02-18 19:01:21 205

原创 PYTHON爬虫——json和xml

1、xml是json的前身,他是重量级的(加标签),而json是轻量级的他们都是用于数据交互的格式,而html是给用户看的展示数据2、json 数据交互格式简单理解就是一个字典或者是一个列表语法:不能写注释 keyvalue必须是双引号 末尾不能写逗号 整个文件有且仅有一个字典或列表...

2020-02-18 18:16:06 219

原创 Python爬虫——bs4

from bs4 import BeautifulSoupimport requestsurl="https://www.douban.com/?p=1"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" }c...

2020-02-17 11:49:34 299

原创 Python爬虫——xpath的几种查询

1、直接查找一个或多个的内容title_list = x_data.xpath("//a[@class=‘rec_topics_name’]/text()")2、模糊查询(一群id里面前半部分一样,后半部分不一样)title_list = x_data.xpath("//a[contains(@id=‘rec_topics_name’)]/text()")3、平级关系的下一个节点foll...

2020-02-17 10:26:20 249

原创 Python爬虫——豆瓣小链接和小题目

简单的爬虫,此代码具有模板的作用要具有面向对象的特点,所以分开写每一部分import requestsfrom lxml import etreeimport jsonclass BB(object): def __init__(self): self.url="https://www.douban.com" self.headers={ "User-Agent":...

2020-02-17 01:17:48 157

原创 Python爬虫——xpath

import requestsfrom lxml import etreeurl = "https://news.baidu.com"headers = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"}data = requests.get(url,headers...

2020-02-16 23:09:00 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除