zheng_weibin
码龄7年
关注
提问 私信
  • 博客:100,866
    社区:425
    问答:546
    101,837
    总访问量
  • 16
    原创
  • 1,891,798
    排名
  • 212
    粉丝
  • 1
    铁粉

个人简介:一个转行数据分析的菜鸟,希望有朝一日学成独孤九剑纵横江湖

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-09-06
博客简介:

小子令狐冲

博客描述:
从事数据分析的成长记录,自2017/09始
查看详细资料
个人成就
  • 获得101次点赞
  • 内容获得47次评论
  • 获得466次收藏
  • 代码片获得429次分享
创作历程
  • 16篇
    2018年
  • 1篇
    2017年
成就勋章
TA的专栏
  • python
    4篇
  • Pandas
    5篇
  • 公司Python小组
    2篇
  • 其他
    3篇
  • 机器学习
    4篇
兴趣领域 设置
  • 人工智能
    pytorch
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

文本挖掘入门(一):大众点评评论爬虫

最近在学习文本分析,包括爬虫、文本清洗、词向量、机器学习建模等,一边学一边做个案例,希望各位大虾多给点意见~整体思路爬取大众点评十大热门糖水店的评论,爬取网页后从html页面中把需要的字段信息(顾客id、评论时间、评分、评论内容、口味、环境、服务、店铺ID)提取出来并存储到MYSQL数据库中。网页爬取和解析链接格式为"http://www.dianping.com/shop/" + sho...
原创
发布博客 2018.09.29 ·
3191 阅读 ·
2 点赞 ·
8 评论 ·
16 收藏

利用朴素贝叶斯进行新闻文本分类

初探文本分类,本文使用的数据是5000条中文新闻文本数据,目的是使用朴素贝叶斯算法,对中文新闻文本进行分类预测。流程如下:文本数据载入及清洗搜狗新闻数据源:http://www.sogou.com/labs/resource/ca.php我们从搜狗下载的数据是类似XML的带标签对的数据,因此需要使用正则表达式或者BeautifulSoup等工具处理为dataframe格式,如下图,大家通过...
原创
发布博客 2018.09.19 ·
14828 阅读 ·
11 点赞 ·
5 评论 ·
192 收藏

利用决策树算法预测西瓜的好坏

最近看完了《机器学习实战》和天池直播课堂中的决策树算法,觉得意犹未尽,特别是信息熵部分理解并不透彻,于是又把西瓜书中的决策树看了,略有感悟,希望与大家分享一下,下面我按照自己的理解,尽量用通俗的语言总结记录下决策树算法。1.决策树介绍举个通俗的栗子来解释一下什么是决策树,想象一个女孩的母亲要给这个女孩介绍男朋友: 女儿:有没有房子?母亲:有。 女儿:长的帅不帅?母亲:挺帅...
原创
发布博客 2018.09.05 ·
12784 阅读 ·
9 点赞 ·
3 评论 ·
108 收藏

用python从零开始搭建神经网络

用python从零开始搭建人工神经网络什么是人工神经网络?分类神经网络主要是处理分类问题,比如垃圾邮件识别:现在有一封电子邮件,把其中的所有词汇提取出来,放到机器里,机器判断这封邮件是否垃圾邮件。这种能自动对输入的东西进行分类的机器,就叫做分类器(classifier)。 分类器的输入是一个数值向量,叫做特征向量。比如在垃圾邮件识别例子中,用0,1分别代表字典中的单词在...
原创
发布博客 2018.06.28 ·
7158 阅读 ·
18 点赞 ·
6 评论 ·
74 收藏

不用框架,Python实现手写数字识别

不用框架,纯Python识别手写字体​ 有一句话说得好,要有造轮子的技术和用轮子的觉悟,今年来人工智能火的不行,大家都争相学习机器学习,作为学习大军中的一员,我觉得最好的学习方法就是用python把机器学习算法实现一遍,下面我介绍一下用逻辑回归实现手写字体的识别。逻辑回归知识点回顾​ 线性回归简单又易用hθ(x)=θTxhθ(x)=θTxh_\theta(x)=\theta...
原创
发布博客 2018.06.15 ·
10325 阅读 ·
12 点赞 ·
5 评论 ·
50 收藏

我的数据分析师转行之路

    转行一年!写一篇文章来总结一下,也希望给想转行的同学一点经验。    先说一下我的背景,高中理科生,数学很好,大学读的一所普通211经管专业,由于不是自己喜欢的专业,四年吃喝玩乐的就过去了,毕业进了一家国企的孙公司做跨境物流运营。国企各部门间政治斗争比较严重,凡是涉及跨部门的合作都要走流程,流程还特别长。工资不高、发展前景模糊都促使我产生新的想法,结合我个人兴趣、特长和时代发展趋势,我选择...
原创
发布博客 2018.05.01 ·
13493 阅读 ·
18 点赞 ·
18 评论 ·
43 收藏

数据挖掘技术入门

MeU教材归纳pandas入门: http://nbviewer.jupyter.org/github/py-bin/ipynb_share/blob/master/pandas_rumen/Pandas_rumen.ipynb 美国总统竞选赞助数据分析: http://nbviewer.jupyter.org/github/py-bin/ipynb_share/blob/master/...
原创
发布博客 2018.02.28 ·
1163 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

Pandas剔除混合数据中非数字的数据

我们日常拿到的数据,指标字段有时会混入非数字的数据,这时候会影响我们的操作,nameheightHang180Ben145ChonotknowXIn189比如read_csv读入时,该列会以object形式读入,也不能直接进行计算,不然会出现如unsupported operand type(s) for +: 'float' and 'str'的错误这时候就需要进行数据预处理,清除掉指标值中非数...
原创
发布博客 2018.02.26 ·
16806 阅读 ·
4 点赞 ·
0 评论 ·
24 收藏

《数学之美》中数学应用场景总结

18年第一本读完的书——《数学之美》。读完数学之美,才真正明白“数学是科学的皇后”这句名言。这本书以简单的语言介绍了数学在日常科技中的应用,下面我们来总结一下书中的科技应用场景以及涉及到的数学原理。1、语音识别、机器翻译1.1马尔可夫假设”一个句子是否合理,就看它的可能性大小如何,即这个句子出现的概率”一个句子S的概率P(S)等于句子里面每个词(w1,w2,w3...wn)按顺序出现的概率P(w1...
原创
发布博客 2018.02.25 ·
875 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

缺失值处理

pandas使用NaN(Not a Number)表示浮点和非浮点数组中的缺失数据,Python内置的None值也会被当做NA处理,pandas对象上的所有描述统计都排除了缺失数据。NA处理方法方法说明dropna根据各标签的值是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值的容忍度fillna用指定值或插值方法(如ffill或bfill)填充缺失数据isnull返回布尔对象,表示那些值是...
原创
发布博客 2018.02.24 ·
763 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

numpy索引和切片

1、基本的索引和切片基本索引与切片与python列表操作类似arr = [1,2,3,4,5]arr[2:4] #[3,4]当把标量值赋予给一个切片时(如arr[2:4]=12),该值会广播到整个选区。注意数组切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数据上。多维数据索引中,索引位置上的元素不是标量,而是一维数组了arr2=np.array([[1,2,3...
原创
发布博客 2018.02.24 ·
774 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

习题及答案(一):通讯录合并

#利用字典将两个通讯录文本合并为一个文本ftele1=open('TeleAddressBook.txt','r')ftele2=open('EmailAddressBook.txt','r')ftele1.readline()#跳过第一行ftele2.readline()lines1 = ftele1.readlines()lines2 = ftele2.readlines()
原创
发布博客 2018.02.02 ·
852 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

GitHub桌面版的下载安装及使用

GitHub桌面版的操作GitHub桌面版对于个人用户非常方便,不用去记忆那么多的命令,只需要懂得一些概念,然后点击界面即可。1 下载GitHub桌面版下载客户端,这里推荐大家去官网下载:https://desktop.github.com/点击download即可:(官网只提供了windows和mac版本,暂时没有linux版,让我们一起期待吧~)
转载
发布博客 2018.02.02 ·
9341 阅读 ·
7 点赞 ·
1 评论 ·
33 收藏

Python字典基础

字典的主要属性:通过键来读取而不是通过偏移(如列表)任意对象的无序集合属于可变映射类型可变长、异构、任意嵌套对象引用表(散列表)常见字典操作操作解释D={}创建空字典D={'sapm':3,'eggs':2}D={'food':{'ham':1,'egg',2}}字典的嵌套D=dict.from
原创
发布博客 2018.02.01 ·
272 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Pandas索引&层次化索引

Pandas索引df['列名']得到一个单独列In[9]:kuandai['分公司']Out[9]: 入网时间2018-01-04 深圳2018-01-04 深圳2018-01-05 深圳......df[2:5]得到行的切片In[14]:kuandai[2:4]Out[14]: 入网时间 KD012指标 付费方式 付费类型 光宽类型 分公司 十六大渠道 ...
原创
发布博客 2018.01.17 ·
473 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Pandas常用函数小结

下列笔记实例数据源均为宽带339日模型数据,均已import下列库import numpy as npimport pandas as pdfrom pandas import Series, DataFramepct_change()Series.pct_change(periods=1, fill_method='pad', limit=None, freq=None, **kwargs)[s
原创
发布博客 2018.01.17 ·
541 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

请求大神解答下如何用python读取复杂dat中文本文的问题

答:

可以使用pandas来把字典转为DataFrame,然后就可以看到像表格一样的数据了,我只提供了一些思路哈,仅供参考

回答问题 2017.11.04

Python文件处理学习笔记

以下内容为我学习中国大学MOOC,嵩天老师的Python语言程序设计的学习笔记,感谢中国大学MOOC,感谢嵩天老师一、打开文件 = open(, )文件名,文件路径 打开模式r      只读,如果文件不存在,则输出错误w只写,如果文件不存在,则自动创建文件a表示附加到文件末尾,如果文件不存在,则自动创建文件r
原创
发布博客 2017.09.20 ·
657 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏
加载更多