数据挖掘
文章平均质量分 75
xudailong_blog
徐代龙的新博客:http://blog.csdn.net/xudailong_blog
微信公众号:蛇崽网盘教程资源
展开
-
快速成为数据挖掘工程师
知乎: https://www.zhihu.com/question/29265587原创 2017-11-21 12:55:29 · 501 阅读 · 0 评论 -
数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(上)
(一)步骤流程:#(一) 目标确定:根据已有数据预测未知旅客生死# (二)数据准备:1 数据获取,载入训练集csv,测试集csv# (三)数据清洗:补齐或抛弃缺失值,数据类型变化(字符串转数字)# (四)数据重构:根据需要重新构造数据(重组数据,构建新特性)#(五)数据分析: 1 描述性分析,画图,直观分析 2 探索性分析, 机器学习模型# (六)...原创 2018-05-07 23:37:20 · 5222 阅读 · 0 评论 -
数据挖掘实战系列 之 Kaggle 泰坦尼克号灾难(下)
更多原创文章请访问: https://blog.csdn.net/xudailong_blog 如果没有看到上册的话:可以点击这里:[数据挖掘实战系列] Kaggle之泰坦尼克号灾难(上)https://www.jianshu.com/p/fc5f33d4b84c上主要是对数据进行一些处理,这里的下主要是对数据进行一些分析:(一)描述性分析(1)单身存活率d...原创 2018-05-14 23:36:59 · 1668 阅读 · 2 评论 -
推荐系统实践学习系列(一)好的推荐系统
主要学习内容:1、什么是推荐系统2、个性化推荐系统的应用3 、推荐系统评测指标4、 推荐系统评测一:什么是推荐系统 场景:假如现在你要买一包花生米,你可以选择去便利店,找到货架,转一圈,比较花生米的几个牌子或价格,掏钱付款;当然了,你也可以去附近的大超市(沃尔玛),走进店里,按照分类指示牌走到食品楼层,再找到卖干果的货架,在货架上寻找你要的花生米,挑喜欢的牌子比较价格...原创 2018-06-05 00:00:23 · 1119 阅读 · 0 评论 -
推荐系统实践学习系列(二)利用用户行为数据(上)
主要学习内容1 用户行为数据简介 2 用户行为分析 3 实验设计和算法评测 4 基于领域的算法 (1)基于用户的协同过滤算法 (2)基于物品的协同过滤算法 5 隐语义模型 6 基于图的模型(一)用户行为数据简介用户行为数据在网站上最简单的存在形式为日志。很多互联网业务会把多种原始日志按照用户行为汇总成会话日志,其中会话表示一次用户行为和对应的服...原创 2018-06-05 23:39:55 · 1363 阅读 · 0 评论 -
数据挖掘之朴素贝叶斯定理
做下记录总结:朴素贝叶斯,可能大家都忘了,但是稍微提一下,给个公司,或许你还会知道怎么求解。朴素贝叶斯公式:首先这个公式为什么叫朴素贝叶斯呢?他是英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中首次提出的这个定理。首先我们了解下”条件概率”: 在事件B发生的情况下,事件A发生的概率,用P(A|B)表示对条件概率进行变形:“...原创 2018-06-06 00:05:27 · 911 阅读 · 0 评论 -
推荐系统实践学习系列(二)利用用户行为数据(下)
基于上节, https://blog.csdn.net/xudailong_blog/article/details/80588950 这里我们接着说一下基于邻域的算法基于邻域的算法类别 基于邻域的算法是推荐系统中最基本的算法,在业界中得到广泛应用 - 1 基于用户的协同过滤算法 - 2 基于物品的协同过滤算法(一)基于用户的协同算法(1)...原创 2018-06-13 00:53:28 · 1790 阅读 · 2 评论 -
推荐系统实践学习系列(三)推荐系统冷启动问题
冷启动问题的出现如果在一开始的阶段就希望有个性化推荐应用的网站,在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统冷启动问题的分类1 用户冷启动 新用户无行为数据,无法根据新用户的历史行为预测其兴趣的问题2 物品冷启动 新的物品入库的时候推荐给对该物品感兴趣的用户的问题3 系统冷启动 一个新开发的网站(无用户、无用户行为,只有物品信...原创 2018-06-21 21:45:42 · 669 阅读 · 0 评论 -
推荐系统实践学习系列(四)利用用户标签数据
推荐系统的目的是联系用户的兴趣和物品流行的推荐系统通过3种方式联系用户兴趣和物品(1):利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品,这是基于物品的算法。 (2):利用和用户兴趣相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品,这是基于用户的算法。 (3):通过一些特征(feature)联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品。...原创 2018-06-22 22:33:50 · 554 阅读 · 0 评论 -
推荐系统实践学习系列(五)利用上下文信息
上下文包括用户访问推荐系统的时间、地点、心情等。(一)时间上下文1 用户的兴趣是随着时间变化的,三天打鱼两天晒网是最好的例子2 物品也是有生命周期的,新鲜的事物会很热门,但是十年前的就不一定热门了3 季节效应,夏天吃冰激凌,冬天吃火锅时间上下文推荐算法最近最热算法时间上下文的ItemCF算法时间上下文相关的UserCF算法(二)地点上下文...原创 2018-06-24 10:13:10 · 498 阅读 · 0 评论 -
推荐系统实践学习系列(六)利用网络社交数据
(一)获取网络社交数据途径1 邮件2 用户注册信息3 用户的位置数据4 论坛和讨论组5 即时聊天工具6 社交网站(二)社交网络数据双向确认的社交网络数据单向关注的社交网络数据基于社区的社交网络数据(三)基于社交网络的推荐 - 好友推荐增加推荐的信任度 - 社交网络推荐解决冷启动问题(四) 推荐算法 - 基于邻域的社会化推荐算法 - 基于图的社会化推...原创 2018-06-24 10:27:58 · 508 阅读 · 0 评论 -
推荐系统实践学习系列(七)推荐系统实例
(一)外围架构推荐系统是如何和其他网站进行接口的一般来说,每个网站都会有一个UI系统,UI系统负责给用户展示网页并和用户交 互。网站会通过日志系统将用户在UI上的各种各样的行为记录到用户行为日志中。日志可能存储 在内存缓存里,也可能存储在数据库中,也可能存储在文件系统中。而推荐系统通过分析用户的 行为日志,给用户生成推荐列表,最终展示到网站的界面上。下图便是这样的一个例子。数据...原创 2018-06-24 10:46:26 · 4552 阅读 · 1 评论 -
推荐系统实践 学习总结
对于项亮的推荐系统实践一书,个人的总结理论,理论,理论;更多的是理论,里面讲述了推荐系统的由来,围绕着是什么,怎样做,为什么这样做,这样做的结果的主题讲吧,里面很多伪代码,与其说是实践,我总感觉这是对于一个小白入门学习推荐系统的奠基石。因为里面的伪代码,稍微没有点功夫造诣的人,比如说我,能看懂, 但并不能把它运行在代码中的吧。建议: 对于这本书,还是有必要读一下,对于推荐系统这个...原创 2018-06-24 11:26:05 · 760 阅读 · 0 评论 -
jupyter notebook的安装与使用
概要jupyter notebook是一个python交互式编辑器,是一个运行在wen上的运行程序,允许创建和共享包含实时代码,方程,可视化和说明文档。(简明一点就是ipython的升级版)主要用途更多的用途是在数据分析与挖掘方面的使用,包括数据清理、转换;数值模拟;统计建模;机器学习等。安装因为用的是win10 + python3的环境,jupyter的安装方式很简单...原创 2018-04-30 00:08:28 · 624 阅读 · 0 评论 -
数据挖掘实战系列 之 Kaggle 练习项目快速入门
更多精彩原创文章请访问:https://blog.csdn.net/xudailong_blog(一)关于Kaggle作为小白只能这样子解释Kaggle了,不敢高声语。(二)电影数据分析(一)电影数据下载: tmdb_5000_movies这里我们要下载两个文件: -(二)kaggle的注册:可能一开始你没有注册kaggle,首先说一下,kaggle用1...原创 2018-05-03 23:02:23 · 7579 阅读 · 2 评论 -
python3 数据挖掘 之 爬取 智联招聘网站来巩固pandas
写在前面通过使用pandas对智联招聘上的数据进行分析,进一步的了解,熟悉pandas为后面学习数据挖掘打基础更多学习链接可访问主页: https://blog.csdn.net/xudailong_blog运行环境:python3 ,jupyter notebook## 下面为jupyter notebook上代码(含详细注释)# 数据表基本信...原创 2018-05-02 23:12:27 · 6246 阅读 · 0 评论 -
数据挖掘入门学习
工作经历从Android移动端开发到现在的Python爬虫端开发,渐渐的由前端走向后端,来垫基自己的IT基础知识,不是因为转得快,学得杂,虽然学Python也不到1年,但是对后台语言还是抱有很大程度的热爱的。这次想继续往深一点学习,学习数据挖掘,可能路上遇到很多难题,但是自己也要坚持下去,毕竟爬虫只是浅层次(说这个话,可能自己有点膨胀了),反正就是活到老,学到老,只要自己在这一行。起由...原创 2018-03-11 17:38:06 · 468 阅读 · 0 评论 -
数据挖掘与数据分析的区别
版权声明: 更多最新原创文章请访问:最新原创主页 更多最全原创文章请访问:更多原创主页百科这里因为没有梯子,暂时用百度百科 数据分析:1 概念 2 具体方法3 分析方法 数据挖掘:1 概念2 数据挖掘起源3 分析方法4 九大经验5 十大算法结论想尝试自己做一个总结,但是可能自己.原创 2018-03-11 18:22:40 · 19773 阅读 · 0 评论 -
数据挖掘之Python3下pandas 的安装
pip update 一下python -m pip install --upgrade pippip install --user numpy scipy matplotlib jupyter pandas sympy nose使用豆瓣镜像源安装pip install matplotlib -i http://pypi.douban.com/simple --tr...原创 2018-04-07 15:52:54 · 9129 阅读 · 2 评论 -
数据挖掘入门小知识
什么是数据挖掘数据挖掘(Data Mining)又称为:数据中的知识发现(KDD),也就是通过数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示等一系列步骤,对数据进行分类,聚类,发现其中的关系或者离群点,来发现新的知识,新的价值。(一)数据类型1)数据库数据数据库系统,又称为数据库管理系统(DBMS),一种关系型数据库。有唯一的关键字标识来表示一个对象,每个...原创 2018-03-21 01:24:57 · 550 阅读 · 0 评论 -
数据挖掘之Python3下pandas的使用
(一)介绍Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。(二)序列(Series)序列(Series)是Python中的列表、元组的高级版...原创 2018-04-07 22:53:12 · 1292 阅读 · 0 评论 -
数据挖掘之matplotlib入门
简单介绍matplotlib库是Python数据挖掘中的库之一,主要用于2D绘图,简单的3D绘图,数据可视化的库。简单使用(一)画根直线代码:def print_line_draw(): """ 画直线图 :return: """ # 创建一个0-10之间以1为间隔的numpy数组 x = np.arange(0...原创 2018-03-26 23:27:05 · 461 阅读 · 0 评论 -
Python3 豆瓣《前任3》评论的词云
纪念下自己的过去本是件技术活,无奈却也伤感了少许,《体面》 这首歌单曲循环两个礼拜,每次深夜一两点设置四点后再睡去,也许现在的自己并不够优秀,只能一个劲的羡慕别人的五年小长跑,一辈子的长跑,而我,却再也不能回去了吧。不想一份感情像纸张一样,揉了又铺好,又揉。她很好,只是我不够优秀 大学两年,异地一年,不同校,隔三差五就往她的学校跑,熟悉了两个校园,也习惯了有彼此的日子。...原创 2018-03-28 01:19:35 · 1087 阅读 · 1 评论 -
数据挖掘之Numpy详细了解
不是最全,但是也是很详细的练习,阅读时长可能过长,建议先收藏(一) 定义(1)官方文档:NumPy is the fundamental package for scientific computing with Python. It contains among other things:a powerful N-dimensional array object ...原创 2018-04-03 23:42:34 · 371 阅读 · 0 评论 -
python3 scrapy爬取智联招聘存mongodb
写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来(一)scrapy框架的使用scrapy框架是python爬虫里面一个比较出色的框架,支持分布式,里面内部已经实现了从爬取解析到下载的一条龙服务,用这个框架或者是基于这个框架,可以很大程度上避免了一些不必要的bug,当然前提是你需...原创 2018-04-30 21:25:45 · 1580 阅读 · 0 评论 -
python3 scrapy_redis 分布式爬取房天下存mongodb
(一)scrapy_redis 简单介绍scrapy_redis基于scrapy框架的基础上集成了redis,通过了redis实现了去重,多台服务器进行分布式的爬取数据。(二)scrapy_redis 简单配置(1)settings.py 文件中加入两行代码:#启用Redis调度存储请求队列SCHEDULER = "scrapy_redis.scheduler.Sched...原创 2018-04-30 23:54:15 · 2847 阅读 · 2 评论 -
Python 文本挖掘(一)
更多文章请访问: https://blog.csdn.net/xudailong_blog(一)定义是什么: 文本挖掘是从大量文本中,比如微博评论,知乎评论,JD,天猫淘宝大量评论中,文本中,抽取出有价值的知识,并利用这些知识创造出价值,实现变现的过程。目的:把文本信息转化为人类可利用的知识(二)语料库是什么:语料库就是我们要分析的所有文档的集合,生活...原创 2018-04-25 00:31:46 · 2934 阅读 · 0 评论 -
Python数据挖掘 之 数据处理(使用pandas对智联招聘上的北京地区python岗位进行数据清洗)
上两篇我们爬了一篇智联招聘的数据,主要是北京地区python开发岗位的数据,数据量不是很大,几千条,这一篇文章我们队智联招聘的数据进行数据处理。一直以来,我以为的数据处理是已经在python爬虫阶段已经做好了,其实并不是,python爬虫并没有把数据处理这一部分的工作完全给做好,数据处理只是数据挖掘的一小部分,接下来,就是在jupyter notebook上进行数据处理,到中途就卡壳掉...原创 2018-05-02 23:02:28 · 4348 阅读 · 0 评论