自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 主成分分析(PCA)推导过程及简单实例

本文对主成分分析(Principal Component Analysis,PCA)进行了详细的讲解,它是一种常用的数据降维算法,可以将高维度的数据降到低维度,去除噪声和部分关联特征。文中主要讲解了PCA中协方差矩阵的定义,以及PCA具体的实现步骤。此外,为了便于读者理解,提供了完整的实例。

2018-11-14 17:40:13 7147 6

原创 将csv转换为json,并查找json中的数据

json和字典不同,字典是一个特定数据结构,而json是一种数据的传输格式。通常先构造标准的数据结构格式dict,然后通过json.dumps(dict)方法将dict一次性转化为json格式。因此,需要读取csv文件,接着转为dict的格式,然后生成json数据

2019-10-24 13:04:28 2096

原创 pd.read_csv()报'utf-8' codec can't decode bytes in position 20-21: invalid continuation byte异常的处理

csv中的编码格式是‘ANSI’,而Python 3默认读取格式为‘utf-8’,导致decode异常,不过编码格式也有可能是其它格式,反正不是‘utf-8’,所以要对症下药。本文提供两种解决方式,均已尝试过。

2018-12-09 17:11:46 13583 1

原创 Java查找字符串并替换为字典中的value值

根据字典对字符串中的字母进行替换 ,并打印出所有的可能,使用Python会更容易些,直接调用字典就可以了。这里使用Java,并通过Json解析字典。

2018-12-04 22:00:01 4864

原创 Windows和Ubuntu环境下修改Jupyter Notebook默认文件路径

本文有两部分,分别介绍在Windows和Ubuntu环境下,如何修改Jupyter Notebook默认文件路径。1)Windows环境中有三个步骤,而网上多数答案只提供两步,结果保存的文件还在原来的路径,根本不起作用;2)Ubuntu比较简单,两步OK。

2018-11-15 11:40:34 4661 7

原创 改进的迭代尺度法(IIS)详细分析

本文详细分析了改进的迭代尺度法(Improved Iterative Scaling,IIS)的推导过程,它是一种常见的优化算法,在最大熵模型(Maximum Entropy Model,MaxEnt)和条件随机场(Conditional Random Field,CRF)中都会用IIS进行相应的处理,从而提高算法的效率。

2018-11-13 00:27:49 3417

原创 隐马尔可夫模型基本问题——概率计算问题详细讲解

本文详细介绍了隐马尔科夫基本问题中的概率计算问题,首先阐述了它的计算条件、计算目标和求解方式。然后,对求解方式中的直接计算法、前向算法和后向算法进行了分析,并指明了不足的地方。此外,提供了完整的实例,方便读者理解HMM。

2018-11-11 14:05:36 5961

原创 Numpy.array中[:]和[::]的区别

[:]和[::]的区别蛮大的,用的好可以节省时间,下面以实例进行分析array([:])>>> import numpy as np>>>>>> x=np.array([1,2,3,4,5,6,7,8,9,10,11,12])>>> print(x[1:5])#打印index为1~5的数组,范围是左闭右开[2 3 ...

2018-11-09 21:21:09 12353 3

原创 SMO(Sequential minimal optimization)算法的详细实现过程

SMO算法主要是为优化SVM(支持向量机)的求解而产生的,SVM的公式基本上都可以推到如下这步:maxα∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxiTxjmax_{\alpha}\sum_{i=1}^{m}\alpha_{i}-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^{T...

2018-11-08 19:41:44 1450

原创 Python中读取txt文件的三种可行办法

Python中读取txt文件的三种可行办法,并且把txt文件转换成Python容易处理的csv文件,分别是csv.reader(),numpy.loadtxt(),pandas.red_csv(),文中将一一进行介绍

2018-11-08 11:51:49 16784 1

原创 机器学习——朴素贝叶斯(Naive Bayes)详细解读

本文是从机器学习的角度分析朴素贝叶斯(Naive Bayes),主要分析的内容有贝叶斯定理、朴素贝叶斯分类器和极大似然估计法等。此外,针对贝叶斯定理,举了两个容易理解的例子,并且在朴素贝叶斯的实现方面,也提供了详细的代码和数据集,供读者上机操作。

2018-11-05 16:24:20 7535 1

原创 sklearn.model_selection中train_test_split()函数

train_test_split()是sklearn.model_selection中的分离器函数,用于将数组或矩阵划分为训练集和测试集,函数样式为:X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size, random_state,shuffle)参数解释:train_...

2018-11-03 13:42:29 21141 2

原创 机器学习——线性回归模型详解

机器学习——线性回归模型简单分析线性的含义**线性是什么?**字面理解是一条直线,这可能让我们回到初中、高中时候的定义的y=ax+b,而在线性回归模型中,它是一个特征或多个特征和结果的拟合模型(好比预测房子的价格,房子的面积、房龄、房间数等等表示的是特征,而所要预测的房子的价格就是需要的结果)...

2018-11-02 18:09:12 2395

鸢尾花数据

鸢尾花数据,总共有150行数据,每行数据包括萼片的长度,萼片的宽度,花瓣的长度,花瓣的宽度,以及所属的类别,比较适合机器学习训练。

2018-11-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除