
机器学习笔记录
机器学习相关的公式推导过程、算法实现流程等文章的集合。
毕小宝
从事 Java 开发 7 年+,精于 Java 服务器端程序开发,熟悉设计模式及其在各大主流框架中的应用原理,研究过 Java 并发包源码,搭建过 ORM 框架。路漫漫,仍然在路上的 Java 程序员!
-
原创 Python 数据分析之逐块读取文本
背景《利用Python进行数据分析》,第 6 章的数据加载操作 read_xxx,有 chunksize 参数可以进行逐块加载。经测试,它的本质就是将文本分成若干块,每次处理 chunksize 行的数据,最终返回一个TextParser 对象,对该对象进行迭代遍历,可以完成逐块统计的合并处理。示例代码文中的示例代码分析如下:from pandas import DataFrame,Seriesimport pandas as pd path='D:/AStudy2018/pydata-bo2020-12-10 09:15:521840
6
-
原创 Python 爬取图集网站的图片
爬取图片http://www.ivsky.com 这个网站上有很多壁纸的图片,看到动漫类型的图片都挺好看,本文来练习用 Python 爬取图片并存储到本地。实现过程1.站点分析分析这个站点,选择动漫壁纸 “https://www.ivsky.com/bizhi/dongman/”,定位到图片区域所在的 ul ,可用看到选择特征是 class="ali"。同时 “下一页” 按钮里面是下一页的...2019-08-14 06:52:33341
0
-
原创 Python 操作 JSON 文本
背景一个简单的练习,CSDN问答频道上的一个问题,原文链接:https://ask.csdn.net/questions/751223这里简单实现下,当做温习Python编程技能了。数据准备创建一个info.txt文件,将如下JSON格式的数据拷贝到文件中。{"item_id": 4036886, "title_features": {"1": 1, "2": 1, "3": 1, &2019-03-08 10:21:54326
0
-
原创 决策树学习知识点
决策树知识点汇总信息熵参考:https://blog.csdn.net/qq_39521554/article/details/79078917信息增益https://www.zhihu.com/question/22928442信息增益率https://www.zhihu.com/question/22928442算法ID3使用信息增益确定分裂特征排序。C4.5对ID3的改进,...2019-02-12 15:37:41163
0
-
原创 Python 练习题:try-except-finally对学生成绩求极值
今天整理一个 Python 练习题,需求描述如下:程序一: 接收用户输入的名字和成绩,成绩是1-100 间、最多两位小数。按Q结束输入,并将合法输入的数据写入到一个文件。程序二:读取程序一输出的文件,然后对成绩计算平均值,并输出最高分和最低分值及姓名。2020-04-24 07:06:07318
1
-
原创 Python 爬金十数据并生成词云
背景玩了下 Python 的 request 模块爬取 金十数据 首页中间部分的资讯信息,练习了两种处理过程:写入 MySQL 数据库和词云分析,对比之下 Python 几行代码就能完成 MySQL入库,真是太简洁了!环境准备使用到的 python 库有:PILjiebarequestswordcloudpymysql本机环境为 python 3.6 ,发现有些库如 word...2019-08-13 06:41:05799
1
-
原创 玩玩Python-计算日期间隔
背景Python现在这么火,听说已经列入国家发展计划了,小学生都开始学Python了,我想自己也是一名IT从业者,也不应该落后啊,所以从今年1月份开始断断续续在阅读《利用Python进行数据分析》这本书,虽然进度慢的堪忧,多少也快入门了。近期重新捡起来继续读,发现已经到了第10章,快终于要读完了,一想这对我也算是历史性的时刻啊,赶快记录一下吧。利用Python进行数据分析第10章讲述的是时...2018-05-05 06:57:161431
1
-
原创 逻辑回归函数学习笔记
继续逻辑回归学习,今日笔记记录。1、逻辑回归和线性回归的关系:对逻辑回归的概率比取自然对数,则得到的是一个线性函数,推导过程如下。首先,看逻辑回归的定义其次,计算两个极端y/(1-y),其值为(负指数分之一,则负负得正):取自然对数后得到等式:2、考虑具有N个独立变量的向量x,其表现形式为:设条件慨率P(y=1|x)=p为根据观测量相对于某事件x发生的概率。假设这个概率分布情...2019-01-31 11:30:04248
0
-
原创 拉格朗日乘数法基础
背景线性可分 SVM 的目标函数最终转换为一个带约束条件的求极值问题,而拉格朗日乘子法,恰恰是一种多元函数在变量受到条件约束时,求极值的方法。正好可以用来解决 SVM 的目标函数最优化。那么拉格朗日乘数法的理论过程如何呢?本文将摘录高等数学下册中拉格朗日乘数法的数学知识,08年学的高等数学下册,十多年了早还给老师了,只是还保留着当年的书本,这次春节回家把两本高数书带来了,当作AI学习的参考资...2019-02-19 10:17:338339
0
-
原创 SVM 对偶问题学习笔记
主问题描述构造拉格朗日函数:定义L的下确界(极小值)为:(Γ希腊字母γ的大写,读音为/'gæmə/)inf(L),这里就是极小值。“下确界”是数学分析中的基本概念,它是在“下界”的基础上定义的。任给一数集E,我们称E的最大下界为E的下确界,记为infE. 显然,E中每个元素均大于或等于infE.主问题和infL最优解的关系主函数f(x)的最优解为f(x~),从约束条件来看inf(L...2019-02-22 11:33:16351
0
-
原创 机器学习的几个概念
背景机器学习的几个模型,前面看完,后面就忘了,为了理解模型,需要反复看,加深记忆。自学过程中,对着教程,额外搜索网络文章作为补充,多少能领悟一二。为了能在残酷的未来能不被AI取代,我能想到的办法就是掌握一些AI的技能。严格线性回归基本思想:在向量空间里用线性函数去拟合样本。该模型以所有样本实际位置到该线性函数的综合距离为损失,通过最小化损失来求取线性函数的参数;一个样本只要不是正好落在最终...2019-03-11 18:02:08165
0
-
原创 HMM 基本问题的公式推导及 Java 实现(一)
背景年初买了一份机器学习的课程,学了一半中断了。半年过去了,想着不能半途而废,而 AI 前途无量,还是要继续学习的,七月中旬捡起来。学习 HMM 的计算问题及其解决算法时,在没有概率基础知识的情况下,看得相当吃力。断断续续,反复推导,终于彻底搞清楚了公式的前因后果。这里总结一下一些资料里面省略掉的推导过程,而哪些才是初学者理解过程的重要部分。HMM 计算问题已知:HMM 的模型参数 λ ...2019-07-28 10:40:23214
0
-
原创 HMM 基本问题的公式推导及 Java 实现(二)
后向概率公式及推导过程1.后向概率定义给定 λ,定义到时刻 t ,部分观测序列为 q1,q2,…,qt 且状态为 si 的概率为前向概率。记作: αt(i) = P(q1,q2,…qt,st=si | λ)。2.后向概率的初始条件根据定义,第一个时刻的前向概率是 α1(i)=P(q1,s1=si| λ) ,给定观察模型下,第一个时刻的状态为 Si 且观测结果为 q1 。这个值很容易用 H...2019-07-31 06:39:45563
0
-
原创 HMM 基本问题的公式推导及 Java 实现(三)
HMM 的预测问题HMM 预测问题的定义:给定模型 λ=(A,B,π) 和观测序列 Q={q1,q2,…,qT},求给定观测序列条件概率 P(I|Q,λ)最大的状态序列 I 。即推导一组使得目标观测序列产生的概率最大的状态序列。单个状态的概率求给定模型 λ 和观测序列 Q 的情况下,在时刻 t 处于状态 si 的概率,记作:这是单个状态的概率定义,其意义是用于判断在每个时刻最可能...2019-08-05 18:16:26382
0
-
原创 Python 数据科学之矩阵乘法以及 Java 实现
背景Python数据分析离不开矩阵的基础知识,周末看了一章节的数学基础知识,重新学习了一下矩阵的乘法知识,线性代数的知识还是十年前上大学时学的,早就忘干净了,今日重新整理了一下,其实就是基本的规则记忆,还是能够理解的。矩阵乘法定义计算规则线性规划中的矩阵乘法Java实现矩阵乘法...2018-07-10 07:28:49304
0
-
原创 逻辑回归函数求导过程
基础公式逻辑回归函数形式为:它在二维坐标系中的表现形式是这样的:因为其外形类似S形状,因而又称为Sigmoid函数。sigmoid,英/'sɪgmɒɪd/n. 乙状结肠(等于sigmoidal);S状弯曲。导数公式逻辑回归函数的导数公式为:这个公式怎么推导的呢,查了下数学资料,要点是除法求导公式和指数求导公式。得出推导过程如下:启示录当年读书时,不知道高等数学具体在计算机中...2019-01-28 11:28:582203
0
-
原创 EM 算法未知分布 Qi 的推导过程
EM 算法引入未知分布 Qi(z(i))Q_i(z^{(i)})Qi(z(i)) 后,根据 Jensen 不等式得到一个等式:P(xi,zi;θ)Qi(z(i))=c,c为常数\frac{P(x^i,z^i;\theta)}{Q_i(z^{(i)})}=c,c为常数Qi(z(i))P(xi,zi;θ)=c,c为常数如果根据这个等式推导出 Qi(z(i))Q_i(z^{(i)})Qi(...2019-09-19 18:04:34146
0
-
原创 KMeans 算法学习笔记
聚类算法分配原则:簇内平方和贡献最小是纳入某各簇的基本原则。WCSS 全称为 【Within Clustering Sum Squarts】,簇内平方和,定义为:该公式表明 xp 点对 Si 簇内平方和贡献最小,因为它距离 Si 的中心 ui 最近,距离其他簇比较远,所以对 Si 簇的 WCSS 贡献最小。学习笔记对比KNN 和 KMeans 对比:都需要参数 KKNN 是半...2019-09-03 08:52:48196
1
-
原创 谱聚类算法学习笔记
谱聚类算法谱聚类【全称:Spectral Clustering】,是一种基于图切割的、有别于 KMeans 算法的无监督学习算法,它同样也使用了距离,但不需要指定 K 。以样本及样本间的距离构造一个图,根据指定的距离阀值初步切割图,形成若干个独立的子图,这些子图的含义与 KMeans 的簇相同,就是一个独立的分类。图切割流程以样本为点,、本间的距离为边,构造一个初始的大图,然后对图进行分割,...2019-09-05 13:54:51190
0