- 博客(17)
- 收藏
- 关注
原创 文本挖掘入门(一):大众点评评论爬虫
最近在学习文本分析,包括爬虫、文本清洗、词向量、机器学习建模等,一边学一边做个案例,希望各位大虾多给点意见~整体思路爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID)提取出来并存储到MYSQL数据库中。网页爬取和解析链接格式为"http://www.dianping.com/shop/" + sho...
2018-09-29 16:50:56 3110 8
原创 利用朴素贝叶斯进行新闻文本分类
初探文本分类,本文使用的数据是5000条中文新闻文本数据,目的是使用朴素贝叶斯算法,对中文新闻文本进行分类预测。流程如下:文本数据载入及清洗搜狗新闻数据源:http://www.sogou.com/labs/resource/ca.php我们从搜狗下载的数据是类似XML的带标签对的数据,因此需要使用正则表达式或者BeautifulSoup等工具处理为dataframe格式,如下图,大家通过...
2018-09-19 15:50:44 14729 5
原创 数据挖掘技术入门
MeU教材归纳pandas入门: http://nbviewer.jupyter.org/github/py-bin/ipynb_share/blob/master/pandas_rumen/Pandas_rumen.ipynb 美国总统竞选赞助数据分析: http://nbviewer.jupyter.org/github/py-bin/ipynb_share/blob/master/...
2018-02-28 17:24:32 1151
原创 利用决策树算法预测西瓜的好坏
最近看完了《机器学习实战》和天池直播课堂中的决策树算法,觉得意犹未尽,特别是信息熵部分理解并不透彻,于是又把西瓜书中的决策树看了,略有感悟,希望与大家分享一下,下面我按照自己的理解,尽量用通俗的语言总结记录下决策树算法。1.决策树介绍举个通俗的栗子来解释一下什么是决策树,想象一个女孩的母亲要给这个女孩介绍男朋友: 女儿:有没有房子?母亲:有。 女儿:长的帅不帅?母亲:挺帅...
2018-09-05 16:39:57 12706 3
原创 用python从零开始搭建神经网络
用python从零开始搭建人工神经网络什么是人工神经网络?分类神经网络主要是处理分类问题,比如垃圾邮件识别:现在有一封电子邮件,把其中的所有词汇提取出来,放到机器里,机器判断这封邮件是否垃圾邮件。这种能自动对输入的东西进行分类的机器,就叫做分类器(classifier)。 分类器的输入是一个数值向量,叫做特征向量。比如在垃圾邮件识别例子中,用0,1分别代表字典中的单词在...
2018-06-28 11:09:51 7121 6
原创 不用框架,Python实现手写数字识别
不用框架,纯Python识别手写字体 有一句话说得好,要有造轮子的技术和用轮子的觉悟,今年来人工智能火的不行,大家都争相学习机器学习,作为学习大军中的一员,我觉得最好的学习方法就是用python把机器学习算法实现一遍,下面我介绍一下用逻辑回归实现手写字体的识别。逻辑回归知识点回顾 线性回归简单又易用hθ(x)=θTxhθ(x)=θTxh_\theta(x)=\theta...
2018-06-15 15:27:38 10300 5
原创 我的数据分析师转行之路
转行一年!写一篇文章来总结一下,也希望给想转行的同学一点经验。 先说一下我的背景,高中理科生,数学很好,大学读的一所普通211经管专业,由于不是自己喜欢的专业,四年吃喝玩乐的就过去了,毕业进了一家国企的孙公司做跨境物流运营。国企各部门间政治斗争比较严重,凡是涉及跨部门的合作都要走流程,流程还特别长。工资不高、发展前景模糊都促使我产生新的想法,结合我个人兴趣、特长和时代发展趋势,我选择...
2018-05-01 00:34:59 13248 18
原创 Pandas剔除混合数据中非数字的数据
我们日常拿到的数据,指标字段有时会混入非数字的数据,这时候会影响我们的操作,nameheightHang180Ben145ChonotknowXIn189比如read_csv读入时,该列会以object形式读入,也不能直接进行计算,不然会出现如unsupported operand type(s) for +: 'float' and 'str'的错误这时候就需要进行数据预处理,清除掉指标值中非数...
2018-02-26 13:18:02 16708
原创 《数学之美》中数学应用场景总结
18年第一本读完的书——《数学之美》。读完数学之美,才真正明白“数学是科学的皇后”这句名言。这本书以简单的语言介绍了数学在日常科技中的应用,下面我们来总结一下书中的科技应用场景以及涉及到的数学原理。1、语音识别、机器翻译1.1马尔可夫假设”一个句子是否合理,就看它的可能性大小如何,即这个句子出现的概率”一个句子S的概率P(S)等于句子里面每个词(w1,w2,w3...wn)按顺序出现的概率P(w1...
2018-02-25 10:17:00 852
原创 缺失值处理
pandas使用NaN(Not a Number)表示浮点和非浮点数组中的缺失数据,Python内置的None值也会被当做NA处理,pandas对象上的所有描述统计都排除了缺失数据。NA处理方法方法说明dropna根据各标签的值是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍度fillna用指定值或插值方法(如ffill或bfill)填充缺失数据isnull返回布尔对象,表示那些值是...
2018-02-24 17:49:30 752
原创 numpy索引和切片
1、基本的索引和切片基本索引与切片与python列表操作类似arr = [1,2,3,4,5]arr[2:4] #[3,4]当把标量值赋予给一个切片时(如arr[2:4]=12),该值会广播到整个选区。注意数组切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数据上。多维数据索引中,索引位置上的元素不是标量,而是一维数组了arr2=np.array([[1,2,3...
2018-02-24 10:49:07 755
原创 习题及答案(一):通讯录合并
#利用字典将两个通讯录文本合并为一个文本ftele1=open('TeleAddressBook.txt','r')ftele2=open('EmailAddressBook.txt','r')ftele1.readline()#跳过第一行ftele2.readline()lines1 = ftele1.readlines()lines2 = ftele2.readlines()
2018-02-02 14:16:50 837
转载 GitHub桌面版的下载安装及使用
GitHub桌面版的操作GitHub桌面版对于个人用户非常方便,不用去记忆那么多的命令,只需要懂得一些概念,然后点击界面即可。1 下载GitHub桌面版下载客户端,这里推荐大家去官网下载:https://desktop.github.com/点击download即可:(官网只提供了windows和mac版本,暂时没有linux版,让我们一起期待吧~)
2018-02-02 11:19:51 9259 1
原创 Python字典基础
字典的主要属性:通过键来读取而不是通过偏移(如列表)任意对象的无序集合属于可变映射类型可变长、异构、任意嵌套对象引用表(散列表)常见字典操作操作解释D={}创建空字典D={'sapm':3,'eggs':2}D={'food':{'ham':1,'egg',2}}字典的嵌套D=dict.from
2018-02-01 23:02:21 266
原创 Pandas索引&层次化索引
Pandas索引df['列名']得到一个单独列In[9]:kuandai['分公司']Out[9]: 入网时间2018-01-04 深圳2018-01-04 深圳2018-01-05 深圳......df[2:5]得到行的切片In[14]:kuandai[2:4]Out[14]: 入网时间 KD012指标 付费方式 付费类型 光宽类型 分公司 十六大渠道 ...
2018-01-17 22:58:17 471
原创 Pandas常用函数小结
下列笔记实例数据源均为宽带339日模型数据,均已import下列库import numpy as npimport pandas as pdfrom pandas import Series, DataFramepct_change()Series.pct_change(periods=1, fill_method='pad', limit=None, freq=None, **kwargs)[s
2018-01-17 22:31:48 534
原创 Python文件处理学习笔记
以下内容为我学习中国大学MOOC,嵩天老师的Python语言程序设计的学习笔记,感谢中国大学MOOC,感谢嵩天老师一、打开文件 = open(, )文件名,文件路径 打开模式r 只读,如果文件不存在,则输出错误w只写,如果文件不存在,则自动创建文件a表示附加到文件末尾,如果文件不存在,则自动创建文件r
2017-09-20 22:52:43 647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人