谢厂节的博客

Cade's Blog

Python 爬虫入门 1 了解爬虫Scrapy

一、爬虫概念一个在网上到处或定向抓取数据的程序。它会把页面的URL加载到抓取队列中,然后进入到新页面后再递归进行操作。二、ScrapyScrapy是一个为了抓取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。构架图: 1. 安装环境:ub...

2017-06-30 22:54:20

阅读数:332

评论数:0

Android Studio 代码混淆

混淆作用 将程序变得难以阅读,防范程序被逆向。 Android Studio开启混淆的方法 Android Studio自身集成Java语言的ProGuard作为压缩,优化和混淆工具,可以配合Gradle构建工具使用。找到gradle里的minifyEnabled设置为true即可。 ...

2017-06-29 21:40:24

阅读数:319

评论数:0

重放攻击

一、 定义重放攻击(Replay Attacks)又称为重播攻击、回放攻击,是指攻击者发送一个目的主机已接收过的包,来达到欺骗系统的目的,主要用于身份认证过程、破坏认证的正确性。 重放攻击可以由发起者、或拦截方进行。重放攻击基于网络嗅探。很多时候嗅探到的数据是加密过的,但攻击者虽然无法解密,但如...

2017-06-28 19:11:55

阅读数:1865

评论数:0

机器学习笔记二十 利用SVD简化数据

暂无

2017-06-26 14:02:02

阅读数:198

评论数:0

机器学习笔记十九 使用PCA简化数据(未完)

PCA (Principal Component Analysis ),即主成分分析,是采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。 这个算法有一个经典应用:人脸识别。

2017-06-26 14:01:34

阅读数:278

评论数:0

机器学习笔记十八 FP-growth

暂无

2017-06-26 14:00:52

阅读数:199

评论数:0

机器学习笔记十七 Apriori

暂无

2017-06-26 14:00:10

阅读数:151

评论数:0

机器学习笔记十六 K-均值聚类算法

暂无

2017-06-26 13:59:40

阅读数:244

评论数:0

机器学习笔记十五 AdaBoost(未完)

暂无

2017-06-26 13:59:02

阅读数:203

评论数:0

机器学习笔记十四 朴素贝叶斯实例

机器学习 一个重要应用就是文档的自动分类。可以观察文档出现的词,并把每个词 出现或者不出现作为一个特征,这样得到的特征数目就会跟词汇表中的词目一样多。朴素贝叶斯是贝叶斯分类器的一个扩展,是用于文档分类的常用算法。

2017-06-26 13:57:44

阅读数:569

评论数:0

机器学习笔记十三 朴素贝叶斯

贝叶斯分类是一类分类算法的总称,这类算法以贝叶斯定理为基础。 贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

2017-06-26 13:56:58

阅读数:261

评论数:0

CSDN机器学习笔记十二 k-近邻算法实现手写识别系统

本文主要内容来自《机器学习实战》示例:手写识别系统为了简单起见,这里构造的系统只能识别数字0到9。需要识别的数字要使用图形处理软件,处理成具有相同的色彩和大小:32*32 黑白图像。为了方便理解,这里将图像转换成文本格式。1. 流程 收集数据:提供文本文件 准备数据:编写函数img2vector(...

2017-06-26 12:46:18

阅读数:674

评论数:0

Matplotlib入门使用

Matplotlib是一个Python的2D绘图库。入门1. 画直线import matplotlib.pyplot as plt plt.plot([1,2,3,4]) plt.ylabel('some numbers') plt.show()2. 画4个点import matplotlib.p...

2017-06-23 13:24:38

阅读数:924

评论数:0

CSDN机器学习笔记十一 k-近邻算法

本文内容来自《机器学习实战》中国工信出版集团 人民邮电出版社一、简介简单地说,k-近邻算法采用测量不同特征值之间的距离方法进来分类 特点: 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型 k-近邻算法称为kNN,它的工作原理是:存在一...

2017-06-23 09:08:52

阅读数:2290

评论数:0

CSDN机器学习笔记十 Xgboost

xgboost过拟合问题比较大。 E(x,y)E_{(x,y)} 期望值 惩罚项: pip install xgboost有问题的话: 到http://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost下载参数:xgb1=XGBClassifier( ...

2017-06-22 20:45:43

阅读数:257

评论数:0

CSDN机器学习笔记九 支持向量机

一、概念支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVN,还支持矢量网络...

2017-06-20 21:35:02

阅读数:337

评论数:0

大数据学习——过滤及推荐常用算法简介

一、过滤算法Bloom-Filter算法简介即布隆过滤器,1970年由Bloom提出,它可以用于检索一个元素否在一个集合中。它是一种空间效率很高的随机数据结构,它利用数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的概率算法。BF有可能出现错判 ,但不会漏掉...

2017-06-19 15:12:14

阅读数:1941

评论数:0

Hadoop学习笔记十二 YARN基础知识

本文学习内容来自《精通Hadoop Mastering Hadoop》中国工信出版集团、人民邮电出版社一、简介YARN(Yet Another Resource Negotiator)是Hadoop2.0 为集群引入的一个资源管理层。基本思想是将JobTracker的两个主要功能:资源管理和作业调...

2017-06-16 08:50:26

阅读数:521

评论数:0

CSDN机器学习笔记八 梯度下降

一、梯度下降梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 可以用于求解非线性方程组。 例子: 求函数f(x)=x2的最小值。 利用梯度下降...

2017-06-15 22:40:05

阅读数:211

评论数:0

CSDN机器学习笔记七 实战样本不均衡数据解决方法

信用卡检测案例原始数据:0特别多,1特别少——样本不均衡。 要么让0和1一样多,要么让0和1一样少。 1.下采样对于数据0和1,要变为同样少——在0里选择和1一样多数据。from sklearn.preprocessing import StandardScaler data['normAmo...

2017-06-15 20:31:28

阅读数:1298

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭