自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 python正则表达式

在python中,我们可以使用内置的re模块来使用正则表达式。re模块的一般使用步骤:1.使用compile()函数将正则表达式的字符串形式编译为一个Pattern对象,使用函数compile(pattern,flag) 进行预编译2.通过Pattern对象提供的一系列方法将文本进行匹配查找,获得匹配结果(一个Match对象)3.最后使用Match对象提供的属性和方法获得信息,根据...

2019-09-27 16:39:25 120

原创 python异常处理:try-except语句的应用

读写文件时候文件打开错误或者文件写入错误,写爬虫时网络请求失败,返回错误404.再或者函数处理一些不确定参数时候,都可以用到异常捕获。异常可以通过 try 语句来检测. 任何在 try 语句块里的代码都会被监测, 检查有无异常发生。try 语句有两种主要形式: try-except 和 try-finally . 这两个语句是互斥的, 也就是说你只能使用其中的一种 . 一个 try 语句可...

2019-09-27 16:39:08 1749

原创 静态爬虫研究

1.HTML代码所谓的html代码,浏览博客的你右手一定在鼠标上,好的,跟着我左手右手一个慢动作,点击右键,找到“查看网页源代码”,不同浏览器可能这个描述不太一样,博主是Chrome,不过都差不太多,是不是有看到类似下面这个图的一堆不知道是什么鬼的代码?html代码其实就是用许多个"<Y yy='aaa'>xxxx</Y>"是的结构将想要输出在页面上的内容包含起来的...

2019-09-27 16:38:48 173

原创 数据可视化工具

数据可视化工具:Jquery、D3、Echarts、Tableau、ProcessingD3和Echarts的区别:场景:一般是根据计算数据量的大小来进行分析:1)对于客户的需求要求的图表拥有大量的用户交互场景,用d3比较方便,因为d3中的svg画图支持事件处理器,是基于dom进行操作的。想要实现某个操作,直接调用相关的方法实现效果即可。2)对于大量的数据展示并且对于用户交互...

2019-09-27 16:38:20 136

原创 数据库基础知识——数据模型

数据模型:用来表示实体类型以及实体间联系的模型,用于抽象描述数据的逻辑结构。包括三部分主体:数据结构:实体类型以及实体间联系数据操作:对数据库的检索和更新(插入、删除、更改)数据完整性约束:实体Entity:具有相同属性和特征的客观或抽象事物的集合实例:实体这个集合中的一个元组属性Attributtes:表示实体的一类特征二元实体联系的种类:1:1 1:n...

2019-07-08 22:39:00 238

原创 数据库基础知识1

1.主流数据库管理系统有哪些?数据库管理系统(DBMS)是为管理数据库而设计的计算机软件系统,一般具有存储、截取、安全保障、备份等基础功能,目前主流的数据库管理系统有:Oracle、MySQL、SQL Server、DB2和Sybase(均为关系型数据库)。1.1OracleOracle数据库是甲骨文公司推出的一款关系数据库管理系统,是当前数据库领域最有名、应用最广泛的数据库管理系统之...

2019-07-08 22:10:46 482

原创 分类器的性能评估指标:混淆矩阵、精度、召回率、ROC曲线等等

在使用回归器的时候,我们通常用预测结果的准确率来评估模型的优良与否,但该指标并不一定适用于分类器,特别是处理某些偏斜数据集(即某些类比其他类更为频繁时)时。评估分类器性能的更好方法是混淆矩阵。总体思路就是统计A类别实例被分成为B类别的次数。例如,对于一个0-9数字分类器,要想知道分类器将数字3和数字5混淆多少次,只需要通过混淆矩阵的第5行第3列来查看。 下图是一个二分类器预测结果的混淆矩...

2018-11-27 12:11:37 1412

转载 sklearn报错Error message: fit_transform() takes 2 positional arguments but 3 were given的解决方法

最近在读 Hands-On Machine Learning with Scikit-Learn &amp; TensorFlow 这本书,在学到pipeline的时候,我模仿者写了这也的代码:[python] view plain copynum_attribs=list(housing_numerical)   cat_attribs=["ocean_proximity"]    ...

2018-11-26 11:21:35 897

原创 Spyder快捷键

块注释/块反注释 Ctrl + 4/5 断点设置 F12 关闭所有 Ctrl + Shift + W 代码完成 Ctrl +空格键 条件断点 SHIFT + F12 配置 F6 复制 Ctrl + C 向下复制 Ctrl + Alt +向下 剪切 Ctrl + X 调试 Ctrl + F5键 删除 Del 向上复制 Ctrl + Alt +向上 粘贴 Ctrl + V 前...

2018-11-23 12:11:08 131

原创 hist()参数详解

import matplotlib.pyplot as plthousing.hist(bins=50, figsize=(20,15))bins指bin(箱子)的个数,即每张图柱子的个数figsize指每张图的尺寸大小  

2018-11-23 11:20:08 32187 1

原创 数据获取渠道

使用真实数据学习机器学习最好使用真实数据进行实验, 而不仅仅是人工数据集。 我们有成千上万覆盖了各个领域的开放数据集可以选择。 以下是一些可以获得数据的地方:·流行的开放数据存储库:·UC Irvine Machine Learning Repository(http://archive.ics.uci.edu/ml/)·Kaggle datasets(https://www.kaggle....

2018-11-23 11:14:46 2127

原创 决策树(一):ID3算法

1.决策树的基本原理与伪代码决策树算法,是一种监督学习的分类算法,可细分为ID3、C4.5、CART等三种算法,前两种适用于标称型数据,后一种适用于数值型数据。1.1决策树的基本原理:所谓决策树,即根据样本数据集的不同特征不断对数据集进行划分,划分的最终结果构成一棵树。该算法的难点在于:在众多特征中,最先选择哪一个特征对数据集进行划分?ID3算法采用信息增益;C4.5算法采用信...

2018-11-19 21:26:16 600

原创 机器学习轻松入门——KNN算法的PYTHON语言实现

KNN算法,也称K近邻算法,是一种监督学习的分类算法。本篇文章主要由以下几个方面构成:KNN算法的原理及伪代码 KNN算法的优缺点 KNN算法实现手写数字识别系统1.KNN算法的原理及伪代码KNN算法,即在已知训练集数据所对应标签的情况下,去预测测试集数据所对应的标签,其算法核心就是要找到其训练集数据与其标签之间的对应关系。伪代码:计算当前测试数据(1个)与所有训练集数据...

2018-11-15 12:17:53 312

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除