![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 78
spark man
crazy for coding
展开
-
自己用的停用词(2955个)
停用词多就是好啊,先记下来,以后增加的话再增。原创 2022-10-20 09:23:37 · 741 阅读 · 1 评论 -
再谈谈时间序列
1.分解一个time series分解一个time series 可以用additive decomposition或者multiplicative decomposition。我们可以通过目测大概知道一个原创 2019-11-17 18:35:29 · 1608 阅读 · 3 评论 -
朴素贝叶斯案例之text classification
准备数据:20news groups你可以在github上下到该数据集:20newsbydate.tar.gz然后找到dataset loader打开twenty_newsgroups.py将里面的部分代码修改为:运行:categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphic...原创 2019-11-13 13:27:36 · 356 阅读 · 0 评论 -
朴素贝叶斯之理论部分
条件概率假设事件AAA:你错过上学事件BBB:你闹钟没响P(A)P(A)P(A)或者P(B)P(B)P(B)都很小,但是P(A∣B)P(A|B)P(A∣B)就不一定小了。P(A∣B)P(A|B)P(A∣B)表示在BBB的条件下AAA发生的概率,例子中就是你闹钟没响的情况下错过上学的概率,这就可能很大了,因为:...原创 2019-10-25 16:29:04 · 126 阅读 · 2 评论 -
Python中的时间序列分析——带有许多例子的全面导读
时间序列是在一定时间间隔内被记录下来的观测值。这篇导读会带你走进python中时间序列上的特征分析的大门。1.什么是时间序列?时间序列是在一定时间间隔内记录下的观测值序列。依据观测的频率,时间序列可以是按小时的,按天的,按周的,按季度的,和按年的。有时,你甚至有秒和分的时间序列,像每分钟的点击次数和用户访问量。为什么要分析一个时间序列?因为那是你预测一个序列的准备步骤。此外,序列预测有...翻译 2019-10-23 14:07:27 · 1463 阅读 · 0 评论 -
吴恩达Logistic Regression课后作业
参考:https://www.bilibili.com/video/av40371149/?p=1example:根据学生的两门成绩,判断是否会被大学accepted。data:34.62365962451697,78.0246928153624,030.28671076822607,43.89499752400101,035.84740876993872,72.902198027083...原创 2019-10-20 17:39:43 · 359 阅读 · 0 评论 -
Logistic Regression理论部分
参考:吴恩达机器学习我们要解决的问题:分类问题。如:是否为垃圾邮件?是否为肿瘤恶性?是否为恶意信息?……这都是二分类的问题。所以yyy的取值为000或者111。是否为肿瘤恶性的问题。有一堆training set,横轴是tumor size,纵轴是Malignant or Benign,1代表恶性,0代表良性。按照linear regression,hθ(x)=θTxh_{...原创 2019-10-20 13:02:25 · 211 阅读 · 0 评论 -
K-means聚类(二)
我们将上次的K-means聚类方法付诸实践。数据:Iris.csv链接:https://pan.baidu.com/s/1ZKU6JoYrSQZnvK8eV8-Reg提取码:y19n这是常用的鸢尾花数据,如果你装了seaborn,该数据是自带的。由于这次是我们自己的数据,不像上次那样随机生成了1000个点,所以只要将数据稍作处理即可,代码不需要多大改动。主函数中的改动: df ...原创 2019-10-15 16:09:56 · 151 阅读 · 0 评论 -
K-means聚类(一)
我们的问题是:怎么给一堆数据分类?首先,每一类都叫一个簇(Cluster),如何才能算作是同一类能?我们有K-means聚类,DBSCAN(Density-Based Spatial Clustering of Application with Noise),hierarchical clustering等等这些聚类算法,这些算法区分同一类的方式都不同,比如DBSCAN,它是以一定的密度进行传...原创 2019-09-30 20:21:34 · 405 阅读 · 0 评论 -
k-近邻算法及识别手写数字的案例
K近邻算法学习笔记:视频地址:https://www.bilibili.com/video/av35390140名称:k-近邻算法,英文名是k nearest neighbour algorithm,也就是k个最近邻居的算法,简称knn。算法:原来有一堆数据,它们已经分好了类别,现在有新的数据加进来,那么,它应该属于哪一类呢?①首先,我们要算出新数据与原来所有数据的“距离”。这里的...原创 2019-09-27 16:05:53 · 215 阅读 · 0 评论