尚优未来-CSDN博客

原创 “达观杯”文本智能处理挑战赛

一、报名http://www.dcjingsai.com/static_page/cmpList.html寻找到“达观杯”文本智能处理挑战赛二、下载下载数据集下载使用Anaconda的spyder或者Pycharm三、编写代码import pandas as pdfrom sklearn.linear_model import LogisticRegress...

2018-10-09 19:24:23 1110 2

原创强化学习001_基础揭秘

一、强化学习1、策略函数与策略迭代2、无模型学习3、记忆回放4、Bellman方程5、策略梯度算法6、值函数与值迭代7、动态规划8、探索与利用二、Q-Learning and Sarsa三、Deep Q Network传统表格，如果表格状态浩如繁星……将状态和动作当成神经网络的输入值四、策略梯度 Policy Gradients...

2018-09-20 10:06:14 170

原创强化学习002_隐马尔科夫模型HMM

HMM是一个关于时序的概率模型，描述了一个由隐藏的马尔科夫链随机生成的不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。主要由五部分组成：状态序列、状态转移矩阵、观测序列、观测概率分布、初始的状态分布通过现象看本质的学习模型：隐马尔科夫模型我们输入的拼音字母就是观测序列，而这个观测到的表象的实质应该是我们想要的拼音字母或者是句子。隐马尔科夫模型就是通过输...

2018-09-17 11:10:38 1284

原创机器学习005_Logistic回归

用一条直线对假设的数据点进行拟合（该线称为最佳拟合直线）这个拟合过程称为回归。表示要找到最佳拟合参数集。Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。（1）收集数据（2）准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。（3）分析数据：采用任意方法对数据进行分析。（4）训练算法：大部分时间将用于...

2018-09-12 09:45:41 237

原创算法笔记002_我读《The Emperor’s New Mind》

第一章电脑能有精神吗？是什么东西赋予个别人其单独的认同性呢？第一个理由：任何活人身体的物质都处于联系代换的状态中。实际上我们身体的整个物质从诞生以来被代换了许多回。第二个理由：量子物理，按照量子力学，任意两个电子必须是完全等同的，这同样适用于任意两个质子以及任一特殊种类的两个粒子。第二章算法和图灵机顺延第一章的观点——所有相关的物理总能由数字计算来仿照。那么（除了时间...

2018-09-07 10:04:52 535 1

原创机器学习004_朴素贝叶斯

1.1 基于朴素贝叶斯决策理论的分类方法优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式较为敏感适用数据类型：标称型数据“朴素”——整个形式化过程只做最原始、最简单的假设。朴素贝叶斯是贝叶斯决策论的一部分，选择具有最高概率的决策。Thomas Bayes 通过引入先验知识和逻辑推理来处理不确定命题。概率、条件概率、贝叶斯准则P（x，y...

2018-09-05 20:16:57 266

原创机器学习003_决策树

决策树优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型。1.1 决策树的构造创建分支的伪代码函数CreateBranch（）：检测数据集中的每个子项是否属于同一分类：If so return 类标签Else 寻找划分数据集的最好特征划分数据集 ...

2018-08-31 17:03:28 288

原创算法笔记001_我读《高等人工智能原理》

读钟义信老先生的《高等人工智能原理》一书：这里面提到了一些观念、方法、模型、理论上的知识，有一定程度上的启发，特此记录。1、机器本身不能自主地发现和定义问题及预设求解目标因为面对具体环境，根据永恒目的和先验知识发现和定义问题，并预设求解目标的能力是人类创造力的首要前提。解读：从大的角度去理解，似乎是无懈可击的；但是如果用分而治之的思维去一点点逐个击破每一个词语，感觉还是有点意思...

2018-08-29 20:56:22 333

原创机器学习002_k-近邻算法

1.1 概述采用测量不同特征值之间的距离方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高适用数据范围：数值型和标称型 1.2 kNN分类算法伪代码：对位置类别属性的数据集中的每个点依次执行以下操作：（1）计算已知类别数据集中的点与当前点之间的距离；（2）按照距离递增次序进行排序；（3）选取与当前点距离最小的k个点...

2018-08-29 19:50:51 282

原创数据处理 001_关于CSV文件的操作

因为做项目的需要，所以边学边做对于csv文件的处理，也是对于数据预处理这部分的学习。操作需求分析：(1) 统计所有列数，生成所有序列，将t-1时刻的数值和var4其它时刻的数值列数提取出来，其它的列数据都删掉，这里的列数一共有561列，不相关的有561-@…%#&…￥&还是交给程序吧使用简单的for循环即可以哩！https://www.cnblogs.com/d...

2018-07-19 16:29:23 898

原创机器学习 001_主成分分析Principal Component Analysis

一、预备知识点(1)均值描述的是样本集合的中间点。(2)标准差给我们描述的则是样本集合的各个样本点到均值的距离的平均值是多少，我们可以理解为平均值这个点“向心力”或者“凝聚力”的强弱。也可以理解为“波动性”……即标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同。这里有一个点：就是标准差什么时候除以n，什么时候除以n-1如果计算一个数据集的标准差，就除以n；如果...

2018-07-19 16:27:14 233

原创深度学习 001_关于卷积神经网络的不解之处

一、输入层没什么好说的了，我曾经纠结过对于彩色图片为什么划分为RGB三通道？然后……计算机能够对数字进行计算，但无法以我们的方式来解读图像。因此我们必须以某种方式将图像转换为计算机能够理解的数字。所以说，图像处理中有两种常用的方法： 1.使用灰度级（Greyscale）：图像将被转换为灰度级（灰色范围从白色到黑色），计算机将根据颜色的深浅为每个像素分配一个值。所有的数字都将...

2018-06-22 11:11:22 376 2

算法图解源代码（各类语言表示的各种算法）

包含二分查找、快速查找、回归、哈希表、广度优先搜索算法、贪婪算法、动态规划、狄克斯特拉等算法。使用不同的语言编写算法，包括java、lua、python、php、scala、c、c++、swift等

2018-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人