(๑• . •๑)框-CSDN博客

原创 KNN改进

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import GridSearchCVdef knn_iris_gs

2020-07-31 16:23:22 212

原创 KNN算法

from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierdef knn_iris(): #1、获取数据 iris = load_iris() #2、划分数据集

2020-07-31 15:44:10 166

原创特征工程主要内容

2020-07-31 11:48:06 262

原创 4-06主成成分分析

2020-07-10 17:42:33 139

原创 4-05线性回归

如何评价线性回归效果的好坏（左边是一元线性系数，右边是多元线性系数）R越接近1，回归效果越好接近0，效果差好的回归DW接近2，4是残差正相关0是残差负相关

2020-07-10 17:21:28 104

原创 5-08特征衍生

通常我们采集到的数字特征一般维度不大，而且一般不能直接反应信息，需要通过已有的数据组合，加减乘除（时间）这些是推荐系统中，特征扩维常用的方法和思路

2020-07-09 16:43:14 114

原创 5-06特征变换3

正规化的本质是将一个向量的长度正规到单位1，以下有两种正则化L1正则化，L2正则化（也叫做欧式正则，分子保持不变分母用的是欧式长度）一般用在后两个在#正规化import numpy as npimport pandas as pdfrom sklearn.preprocessing import Normalizer#直接正规化就行，不用和标注一起进行（也就是监督学习），所以直接用fit_transform()#第一个结果不是我们想要的，因为他是对每一行进行正规化操作print(Nor

2020-07-09 15:13:59 218

原创 5-06特征变换代码2

独热编码是在数字编码的基础上进行变换处理，所以第一步要进行labelencoding(另外理解fix和transform)知乎python 的fit() transform()fit()可以说是调用的通用方法。fit(X)，表示用数据X来训练某种模型。函数返回值一般为调用fit方法的对象本身。fit(X,y=None)为无监督学习算法，fit(X,Y)为监督学习算法transform()在Fit的基础上，进行标准化，降维，归一化等操作Fit_transform()fit_transform是f

2020-07-09 14:45:59 124

原创 5-06特征变换2

下一个方法数值化在统计学中，统计数据主要可分为四种类型，分别是定类数据，定序数据，定距数据，定比变量。1.定类数据（Nominal）：名义级数据，数据的最低级，表示个体在属性上的特征或类别上的不同变量，仅仅是一种标志，没有序次关系。例如， ”性别“，”男“编码为1，”女“编码为2。2.定序数据（Ordinal）:数据的中间级，用数字表示个体在某个有序状态中所处的位置，不能做四则运算。例如，“受教育程度”，文盲半文盲=1，小学=2，初中=3，高中=4，大学=5，硕士研究生=6，博士及其以上=7。3.定

2020-07-08 21:36:10 134

原创 5-06特征变换代码

#连续数据离散化之分箱技术import numpy as npimport pandas as pdlst=[6,8,10,15,24,25,40,67]#第一种等深分箱(就是根据数量进行分箱）这里是将离散化数据更加规整print(pd.qcut(lst,q=3))print(pd.qcut(lst,q=3,labels=["low","medium","high"]))#第二种是等距分箱（就是根据数的大小，分成几个等分）print(pd.cut(lst,bins=3))print(pd

2020-07-08 20:48:35 108

原创 5-06特征变换

顾名思义就是根据选好的特征进行转换，使特征充分发挥他的特点**下面介绍比较常用的特征变换的方法（对指化）**1、（数值太小）取指数—归一化，在机器学习中，有一个直接的函数叫softmax numpy.exp2、取对数（数值太大）numpy.log下面介绍另一种方法离散化为什么离散化（第一数据有噪声，第二朴素贝叶斯只能用离散化数据，第三数据有明显拐角点，离散更有意义，见下图）方法（前两种叫做分箱）数据在分箱前，一定要进行排序，分好后找一个好的数来代替这个箱子里的内容，下面是等深分箱（

2020-07-08 20:23:43 1160

原创 5-05特征选择代码

import numpy as np#pandas主要作用是表结构DataFrame，另外嵌入numpy纯数学import pandas as pd#scipy是基于numpy纯数学，他的区别是有数学模型（正太什么的，比较直接0import scipy.stats as ssdf = pd.DataFrame({"A":ss.norm.rvs(size=10),"B":ss.norm.rvs(size=10),"C":ss.norm.rvs(size=10 ),"D":np.random.rand

2020-07-08 17:59:06 215

原创 5-05特征选择（特征预处理第一步）

区别：Numpy是以矩阵为基础的数学计算模块，纯数学。Scipy基于Numpy，科学计算库，有一些高阶抽象和物理模型。比方说做个傅立叶变换，这是纯数学的，用Numpy；做个滤波器，这属于信号处理模型了，在Scipy里找。Pandas提供了一套名为DataFrame的数据结构，比较契合统计分析中的表结构，并且提供了计算接口，可用Numpy或其它方式进行计算。特征选择可以在特征变化之前，也可以在之后，本章是根据统计学模型、机器学习模型进行相关度排序（最终实现降维度）特征选择需要重复做，需要模型去验证，

2020-07-07 20:41:20 209

原创 5-04标注

上一节我们讲了数据清晰的内容，通过清晰我们保留了正常的数据，在处理特征预处理内容之前，我们先要确定标注，反应目的的属性就是标注，其他有关系的特征

2020-07-07 18:32:54 107

原创 5-03异常值处理

#处理异常值import numpy as npimport pandas as pddf = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1","b2","b2","b3",None],"C":[1,2,None,3,4,5],"D":[0.1,0.4,0.4,0.7,8.3,None],"E":["e1","e2","e3","e4","e5","w2"]})print(df)#注意数字为NaN，字符为None#空

2020-07-07 18:19:39 183

原创 jdbcutil

package com.sikiedu.exception;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class JDBCUtils {p...

2020-05-04 22:19:46 168

原创异常的抛出和处理

package com.sikiedu.exception;import java.util.ArrayList;public class Exceptiondemo01 {public static void main(String[] args){// try{// ArrayList list=null;// //list目前为空，因为还没有创建，不能用这个方法// ...

2020-05-04 22:17:45 254

原创 jdbc

import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import javax.xml.crypt...

2020-05-04 22:13:29 99

原创 scrapy——京东

import scrapyimport jsonclass CatalogSpider(scrapy.Spider): name = 'catalog' allowed_domains = ['3.cn'] start_urls = ['https://dc.3.cn/category/get'] def parse(self, response): ...

2020-03-15 17:44:16 122

原创 scrapy-亚马逊

import timeimport scrapyfrom scrapy import Requestclass MobileSpider(scrapy.Spider): name = 'mobile' allowed_domains = ['amazon.com'] start_urls = ['https://www.amazon.cn/s?k=mobile+...

2020-03-15 15:13:29 436

原创 scrapy-腾讯新闻

import scrapyfrom scrapy import Requesttypes = ['major', 'finance']class NewsSpider(scrapy.Spider): name="news" allowed_domains="www.news.qq.com" start_urls=[ 'https://www.news...

2020-03-14 20:46:07 101

原创 Django入门

1、重量级框架-功能俱全2、python自带数据库支持-SQLite3、MVT模式——特有MVC模式——常见MVT vs MVCMVCM(数据层）V(视图层) C(控制)用户-视图层-控制-数据层-数据库，再返回实现分离MVTM(视图层) V(控制层) T(模板取代了原来地视图层)没有什么本质地不同重量级——什么都管、限制太多mvt模式——mvc...

2020-03-14 16:47:17 80

原创 scrapy-移动号码

import scrapyclass PhoneSpider(scrapy.Spider): name="phone" start_urls=[ 'https://www.jihaoba.com/escrow/'] def parse(self,reponse): for li in reponse.xpath("//div[@class='tj_hm']/ul/li"): ...

2020-03-14 15:49:56 88

原创 python将图片变成水墨画

from PIL import Imageimport numpy as npa=np.asarray(Image.open("G:/timg.jpg").convert("L")).astype("float")depth=10#深度的范围为0~100，我们先取10这个数grad = np.gradient(a) #取图像灰度的梯度值，有两个grad_x, grad_y = grad ...

2020-03-06 23:27:12 2870 1

原创 Python爬虫——Ajax豆瓣json

import urllibimport urllib.requesturl="https://movie.douban.com/j/new_search_subjects?sort=U"headers = { "User-Agent": "Mozilla / 5.0(iPhone;CPUiPhoneOS11_0likeMacOSX) AppleWebKit / 604.1.38(...

2020-02-25 20:23:33 258

原创 python爬虫——利用抓包有道翻译post文件

import urllibimport urllib.requesturl="http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule "key=input("请输入要输入的文字")headers = { "Host" : "fanyi.youdao.com", "Connectio...

2020-02-24 23:07:24 261

原创 Python爬虫——总结小知识点

urllib入门mport urllib.request#向指定的url地址发送请求，并返回服务器响应的类文件对象response = urllib.request.urlopen("http://www.baidu.com/")#服务器返回的类文件对象支持python文件对象的操作方法#read()方法就是读取文件里面的全部内容，返回字符串#此方法的缺点是不能构造，headers不能...

2020-02-24 21:08:17 298

原创 Python爬虫——疫情地图

import requestsimport jsonfrom pyecharts import Mapfrom lxml import etreeclass S: def __init__(self): self.headers={ "User-Agent" :"Mozilla / 5.0(iPhone;CPUiPhoneOS11_0lik...

2020-02-23 19:17:54 890

原创 Python爬虫——美女图片放在文件夹

import requestsimport reimport timeimport osurl1="https://www.vmgirls.com/12985.html"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" ...

2020-02-22 19:21:52 274

原创 python爬虫——up主信息——正则

import requestsimport reimport jsonclass BookSpider(object): def __init__(self): kw="博士" self.base_url = "https://search.bilibili.com/all?keyword=" + str(kw) + "&from_sour...

2020-02-22 11:43:03 171

原创列表和数组的区别

列表里面的数据类型多种多样数组里面的数据类型只能有一种

2020-02-19 16:24:53 335

原创 Python爬虫——保存至csv

import requestsfrom lxml import etreeimport jsonimport csvclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"U...

2020-02-19 12:14:58 477

原创 Python爬虫——allitebooke_bs4

import requestsfrom lxml import etreeimport jsonfrom bs4 import BeautifulSoupclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" ...

2020-02-18 23:15:34 181

原创 Python爬虫——allitebooks网站——xpath

import requestsfrom lxml import etreeimport jsonclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"User-Agent":...

2020-02-18 22:43:31 192

原创 Python爬虫——json和csv

import jsonimport csv#需求json中的数据转换成csv文件#1、分别是读，创建文件json_fd = open("02json.json","r")csv_fd=open("03.csv","w")#2、提出表头，表内容#将字符串转化成列表data_list = json.load(json_fd)sheet_title=data_list[0].keys...

2020-02-18 19:01:21 221

原创 PYTHON爬虫——json和xml

1、xml是json的前身，他是重量级的（加标签），而json是轻量级的他们都是用于数据交互的格式，而html是给用户看的展示数据2、json 数据交互格式简单理解就是一个字典或者是一个列表语法：不能写注释 keyvalue必须是双引号末尾不能写逗号整个文件有且仅有一个字典或列表...

2020-02-18 18:16:06 235

原创 Python爬虫——bs4

from bs4 import BeautifulSoupimport requestsurl="https://www.douban.com/?p=1"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" }c...

2020-02-17 11:49:34 311

原创 Python爬虫——xpath的几种查询

1、直接查找一个或多个的内容title_list = x_data.xpath("//a[@class=‘rec_topics_name’]/text()")2、模糊查询（一群id里面前半部分一样，后半部分不一样）title_list = x_data.xpath("//a[contains(@id=‘rec_topics_name’)]/text()")3、平级关系的下一个节点foll...

2020-02-17 10:26:20 264

原创 Python爬虫——豆瓣小链接和小题目

简单的爬虫，此代码具有模板的作用要具有面向对象的特点，所以分开写每一部分import requestsfrom lxml import etreeimport jsonclass BB(object）： def __init__(self): self.url="https://www.douban.com" self.headers={ "User-Agent":...

2020-02-17 01:17:48 166

原创 Python爬虫——xpath

import requestsfrom lxml import etreeurl = "https://news.baidu.com"headers = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"}data = requests.get(url,headers...

2020-02-16 23:09:00 130

空空如也

空空如也