- 博客(61)
- 收藏
- 关注
原创 KNN改进
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import GridSearchCVdef knn_iris_gs
2020-07-31 16:23:22 204
原创 KNN算法
from sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierdef knn_iris(): #1、获取数据 iris = load_iris() #2、划分数据集
2020-07-31 15:44:10 158
原创 4-05线性回归
如何评价线性回归效果的好坏(左边是一元线性系数,右边是多元线性系数)R越接近1,回归效果越好接近0,效果差好的回归DW接近2,4是残差正相关0是残差负相关
2020-07-10 17:21:28 99
原创 5-08特征衍生
通常我们采集到的数字特征一般维度不大,而且一般不能直接反应信息,需要通过已有的数据组合,加减乘除(时间)这些是推荐系统中,特征扩维常用的方法和思路
2020-07-09 16:43:14 108
原创 5-06特征变换3
正规化的本质是将一个向量的长度正规到单位1,以下有两种正则化L1正则化,L2正则化(也叫做欧式正则,分子保持不变分母用的是欧式长度)一般用在后两个在#正规化import numpy as npimport pandas as pdfrom sklearn.preprocessing import Normalizer#直接正规化就行,不用和标注一起进行(也就是监督学习),所以直接用fit_transform()#第一个结果不是我们想要的,因为他是对每一行进行正规化操作print(Nor
2020-07-09 15:13:59 205
原创 5-06特征变换代码2
独热编码是在数字编码的基础上进行变换处理,所以第一步要进行labelencoding(另外理解fix和transform)知乎python 的fit() transform()fit()可以说是调用的通用方法。fit(X),表示用数据X来训练某种模型。 函数返回值一般为调用fit方法的对象本身。fit(X,y=None)为无监督学习算法,fit(X,Y)为监督学习算法transform()在Fit的基础上,进行标准化,降维,归一化等操作Fit_transform()fit_transform是f
2020-07-09 14:45:59 118
原创 5-06特征变换2
下一个方法数值化在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。3.定
2020-07-08 21:36:10 128
原创 5-06特征变换代码
#连续数据离散化之分箱技术import numpy as npimport pandas as pdlst=[6,8,10,15,24,25,40,67]#第一种等深分箱(就是根据数量进行分箱)这里是将离散化数据更加规整print(pd.qcut(lst,q=3))print(pd.qcut(lst,q=3,labels=["low","medium","high"]))#第二种是等距分箱(就是根据数的大小,分成几个等分)print(pd.cut(lst,bins=3))print(pd
2020-07-08 20:48:35 104
原创 5-06特征变换
顾名思义就是根据选好的特征进行转换,使特征充分发挥他的特点**下面介绍比较常用的特征变换的方法(对指化)**1、(数值太小)取指数—归一化,在机器学习中,有一个直接的函数叫softmax numpy.exp2、取对数(数值太大)numpy.log下面介绍另一种方法离散化为什么离散化(第一数据有噪声,第二朴素贝叶斯只能用离散化数据,第三数据有明显拐角点,离散更有意义,见下图)方法(前两种叫做分箱)数据在分箱前,一定要进行排序,分好后找一个好的数来代替这个箱子里的内容,下面是等深分箱(
2020-07-08 20:23:43 1134
原创 5-05特征选择代码
import numpy as np#pandas主要作用是表结构DataFrame,另外嵌入numpy纯数学import pandas as pd#scipy是基于numpy纯数学,他的区别是有数学模型(正太什么的,比较直接0import scipy.stats as ssdf = pd.DataFrame({"A":ss.norm.rvs(size=10),"B":ss.norm.rvs(size=10),"C":ss.norm.rvs(size=10 ),"D":np.random.rand
2020-07-08 17:59:06 206
原创 5-05特征选择(特征预处理第一步)
区别:Numpy是以矩阵为基础的数学计算模块,纯数学。Scipy基于Numpy,科学计算库,有一些高阶抽象和物理模型。比方说做个傅立叶变换,这是纯数学的,用Numpy;做个滤波器,这属于信号处理模型了,在Scipy里找。Pandas提供了一套名为DataFrame的数据结构,比较契合统计分析中的表结构,并且提供了计算接口,可用Numpy或其它方式进行计算。特征选择可以在特征变化之前,也可以在之后,本章是根据统计学模型、机器学习模型进行相关度排序(最终实现降维度)特征选择需要重复做,需要模型去验证,
2020-07-07 20:41:20 195
原创 5-04标注
上一节我们讲了数据清晰的内容,通过清晰我们保留了正常的数据,在处理特征预处理内容之前,我们先要确定标注,反应目的的属性就是标注,其他有关系的特征
2020-07-07 18:32:54 99
原创 5-03异常值处理
#处理异常值import numpy as npimport pandas as pddf = pd.DataFrame({"A":["a0","a1","a1","a2","a3","a4"],"B":["b0","b1","b2","b2","b3",None],"C":[1,2,None,3,4,5],"D":[0.1,0.4,0.4,0.7,8.3,None],"E":["e1","e2","e3","e4","e5","w2"]})print(df)#注意数字为NaN,字符为None#空
2020-07-07 18:19:39 164
原创 jdbcutil
package com.sikiedu.exception;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class JDBCUtils {p...
2020-05-04 22:19:46 158
原创 异常的抛出和处理
package com.sikiedu.exception;import java.util.ArrayList;public class Exceptiondemo01 {public static void main(String[] args){// try{// ArrayList list=null;// //list目前为空,因为还没有创建,不能用这个方法// ...
2020-05-04 22:17:45 240
原创 jdbc
import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import javax.xml.crypt...
2020-05-04 22:13:29 94
原创 scrapy——京东
import scrapyimport jsonclass CatalogSpider(scrapy.Spider): name = 'catalog' allowed_domains = ['3.cn'] start_urls = ['https://dc.3.cn/category/get'] def parse(self, response): ...
2020-03-15 17:44:16 116
原创 scrapy-亚马逊
import timeimport scrapyfrom scrapy import Requestclass MobileSpider(scrapy.Spider): name = 'mobile' allowed_domains = ['amazon.com'] start_urls = ['https://www.amazon.cn/s?k=mobile+...
2020-03-15 15:13:29 423
原创 scrapy-腾讯新闻
import scrapyfrom scrapy import Requesttypes = ['major', 'finance']class NewsSpider(scrapy.Spider): name="news" allowed_domains="www.news.qq.com" start_urls=[ 'https://www.news...
2020-03-14 20:46:07 99
原创 Django入门
1、重量级框架-功能俱全2、python自带数据库支持-SQLite3、MVT模式——特有MVC模式——常见MVT vs MVCMVCM(数据层)V(视图层) C(控制)用户-视图层-控制-数据层-数据库,再返回实现分离MVTM(视图层) V(控制层) T(模板取代了原来地视图层)没有什么本质地不同重量级——什么都管、限制太多mvt模式——mvc...
2020-03-14 16:47:17 78
原创 scrapy-移动号码
import scrapyclass PhoneSpider(scrapy.Spider): name="phone" start_urls=[ 'https://www.jihaoba.com/escrow/'] def parse(self,reponse): for li in reponse.xpath("//div[@class='tj_hm']/ul/li"): ...
2020-03-14 15:49:56 86
原创 python将图片变成水墨画
from PIL import Imageimport numpy as npa=np.asarray(Image.open("G:/timg.jpg").convert("L")).astype("float")depth=10#深度的范围为0~100,我们先取10这个数grad = np.gradient(a) #取图像灰度的梯度值,有两个grad_x, grad_y = grad ...
2020-03-06 23:27:12 2784 1
原创 Python爬虫——Ajax豆瓣json
import urllibimport urllib.requesturl="https://movie.douban.com/j/new_search_subjects?sort=U"headers = { "User-Agent": "Mozilla / 5.0(iPhone;CPUiPhoneOS11_0likeMacOSX) AppleWebKit / 604.1.38(...
2020-02-25 20:23:33 255
原创 python爬虫——利用抓包有道翻译post文件
import urllibimport urllib.requesturl="http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule "key=input("请输入要输入的文字")headers = { "Host" : "fanyi.youdao.com", "Connectio...
2020-02-24 23:07:24 249
原创 Python爬虫——总结小知识点
urllib入门mport urllib.request#向指定的url地址发送请求,并返回服务器响应的类文件对象response = urllib.request.urlopen("http://www.baidu.com/")#服务器返回的类文件对象支持python文件对象的操作方法#read()方法就是读取文件里面的全部内容,返回字符串#此方法的缺点是不能构造,headers不能...
2020-02-24 21:08:17 292
原创 Python爬虫——疫情地图
import requestsimport jsonfrom pyecharts import Mapfrom lxml import etreeclass S: def __init__(self): self.headers={ "User-Agent" :"Mozilla / 5.0(iPhone;CPUiPhoneOS11_0lik...
2020-02-23 19:17:54 872
原创 Python爬虫——美女图片放在文件夹
import requestsimport reimport timeimport osurl1="https://www.vmgirls.com/12985.html"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" ...
2020-02-22 19:21:52 271
原创 python爬虫——up主信息——正则
import requestsimport reimport jsonclass BookSpider(object): def __init__(self): kw="博士" self.base_url = "https://search.bilibili.com/all?keyword=" + str(kw) + "&from_sour...
2020-02-22 11:43:03 163
原创 Python爬虫——保存至csv
import requestsfrom lxml import etreeimport jsonimport csvclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"U...
2020-02-19 12:14:58 465
原创 Python爬虫——allitebooke_bs4
import requestsfrom lxml import etreeimport jsonfrom bs4 import BeautifulSoupclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" ...
2020-02-18 23:15:34 172
原创 Python爬虫——allitebooks网站——xpath
import requestsfrom lxml import etreeimport jsonclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"User-Agent":...
2020-02-18 22:43:31 187
原创 Python爬虫——json和csv
import jsonimport csv#需求json中的数据转换成csv文件#1、分别是读,创建文件json_fd = open("02json.json","r")csv_fd=open("03.csv","w")#2、提出表头,表内容#将字符串转化成列表data_list = json.load(json_fd)sheet_title=data_list[0].keys...
2020-02-18 19:01:21 205
原创 PYTHON爬虫——json和xml
1、xml是json的前身,他是重量级的(加标签),而json是轻量级的他们都是用于数据交互的格式,而html是给用户看的展示数据2、json 数据交互格式简单理解就是一个字典或者是一个列表语法:不能写注释 keyvalue必须是双引号 末尾不能写逗号 整个文件有且仅有一个字典或列表...
2020-02-18 18:16:06 219
原创 Python爬虫——bs4
from bs4 import BeautifulSoupimport requestsurl="https://www.douban.com/?p=1"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" }c...
2020-02-17 11:49:34 299
原创 Python爬虫——xpath的几种查询
1、直接查找一个或多个的内容title_list = x_data.xpath("//a[@class=‘rec_topics_name’]/text()")2、模糊查询(一群id里面前半部分一样,后半部分不一样)title_list = x_data.xpath("//a[contains(@id=‘rec_topics_name’)]/text()")3、平级关系的下一个节点foll...
2020-02-17 10:26:20 249
原创 Python爬虫——豆瓣小链接和小题目
简单的爬虫,此代码具有模板的作用要具有面向对象的特点,所以分开写每一部分import requestsfrom lxml import etreeimport jsonclass BB(object): def __init__(self): self.url="https://www.douban.com" self.headers={ "User-Agent":...
2020-02-17 01:17:48 157
原创 Python爬虫——xpath
import requestsfrom lxml import etreeurl = "https://news.baidu.com"headers = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"}data = requests.get(url,headers...
2020-02-16 23:09:00 127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人