数据挖掘与分析
半吊子全栈工匠
半吊子全栈工匠一枚
展开
-
《基于社交网络的数据挖掘》一书的随手札记
社交网络由时尚变为主流,有人建议用巨型全球图(Giant Global Graph,GGG)来代替万维网(www),进一步地说,语义网(www.foaf-project.org)是未来网络的趋势。 自然语言工具包(NLTK)提供了大量用于文本分析的工具,包括常见度量的计算、信息提取和NLP。回答“人们正在讨论什么的问题”的最简单的方法是进行基本词频分析。Grahviz是可视化社区的主要工具原创 2012-12-01 14:10:00 · 9869 阅读 · 0 评论 -
码农不识贝叶斯,虽知数据也枉然
码农不识贝叶斯,虽知数据也枉然呀!原创 2017-08-06 11:55:19 · 7731 阅读 · 2 评论 -
一文贯通python文件读取
不论是数据分析还是机器学习,乃至于高大上的AI,数据源的获取是所有过程的入口。读取文件的操作,文件有各种各样的格式:文本,音视频,pdf,word,excel等等...... Life is short, just use python.原创 2017-05-07 15:35:31 · 4800 阅读 · 2 评论 -
markdown中的数学公式简要
在CSDN的博客开始支持Markdown编辑器后,自己完全转向了markdown编辑器。 ......看一下Markdown中书写数学公式的三招两式吧原创 2017-04-24 13:26:36 · 16271 阅读 · 0 评论 -
六行python代码的爱心曲线
笛卡尔与公主的爱心曲线,是凄美的故事,抑或美丽的谎言,都不妨碍对那些曲线美,以及对Python的喜欢吧!原创 2017-04-10 06:49:38 · 70450 阅读 · 17 评论 -
10行python代码的词云
关于词云wordcloud什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。现在,可以从网络上找到各种各样的词云,下面一图来自沈浩老师的微博:从百度图片中可以看到更多制作好的词云,例如词云制作有很多工具…..从技术上来看,词云是一种有趣的数据可视化方法,互联网上有很多的现成的工具原创 2017-03-06 10:22:56 · 18555 阅读 · 2 评论 -
全栈必备MySQL性能调优
对于全栈而言,数据库技能不可或缺,关系型数据库或者nosql,内存型数据库或者偏磁盘存储的数据库,对象存储的数据库或者图数据库……林林总总,但是第一必备技能还应该是MySQL。MySQL数据库技术的方方面面也是很多,这里只涉及必备的性能调优,推崇从下向上的性能调优,主要包括运行环境,配置参数,SQL性能,数据库架构......原创 2016-09-11 20:57:15 · 7627 阅读 · 4 评论 -
地铁译:Spark for python developers ---Spark流式数据处理
列举了流式处理架构应用的基础,描述了他们的挑战,约束,和优势。深入了解了Spark Streaming 的内部工作原理包括如何Spark Core 适用,以及与Spark SQL 和 Spark MLlib对话, 通过TCP sockets 解释了流处理概念。使用Kafka最大限度地增加了流处理架构的弹性,讨论了上下行数据与消费者之间的解耦合。 还讨论了Flume—这个可靠,灵活,伸缩性数据摄取和传输的流水线系统。翻译 2016-06-15 09:22:28 · 23497 阅读 · 1 评论 -
mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用
系统性能调优尤其是mysql数据库性能调优一个主要依据就是慢查询日志了。原来在ubantu 或centos 上有一个强大工具就是 percona toolkit,那么在mac 上如何使用pt-query-digest呢?下载 percona toolkit访问 http://www.percona.com/downloads/percona-toolkit , 采用源代码安装......原创 2016-06-08 22:11:00 · 6034 阅读 · 3 评论 -
大数据架构的典型方法和方式
NoSQL 技术为应用提供了缓存和搜索特性,但既然是处理数据,就需要定义一种方法来处理各种数据流,以便能够给用户输出见解或数据服务。通过审视被IT组织使用广泛的数据架构来定义处理的拓扑结构。当考虑服务水平SLA时 需要进行结构分割。最后,讨论一个特殊种类的架构, lambda这一多种类型架构的结合体。原创 2016-06-04 15:15:30 · 31765 阅读 · 2 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境1
一个多月的地铁阅读时光,阅读《Spark for python developers》电子书,不动笔墨不看书,随手在evernote中做了一下翻译,多年不习英语,自娱自乐。周末整理了一下,发现再多做一点就可基本成文了,于是开始这个地铁译系列。为开发搭建一个独立的虚拟环境,通过Spark和Anaconda提供的PyData 库为该环境补充能力。 这些库包括Pandas,Scikit-Learn, Blaze,翻译 2016-05-08 20:16:02 · 5924 阅读 · 0 评论 -
地铁译:Spark for python developers ---Spark与数据的机器学习
机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能.翻译 2016-05-30 09:11:27 · 12911 阅读 · 1 评论 -
地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备
从GitHub收集有关Apache Spark的信息, 在Twitter上检查相关的tweets, 使用 Meetup从更广泛的开源社区得到更多Spark 相关感受。 本章中, 我们将概览各种信息和数据源,理解他们的结构,从批处理到流处理介绍数据处理流水线,要点如下: + 从批处理到流处理介绍......翻译 2016-05-17 06:54:45 · 15404 阅读 · 0 评论 -
MongoDB 命令速查表
MongoDB 一个面向文档可扩展的高性能开源数据库,典型的应用场景有网页数据,缓存,代替文档存储等。命令的记忆和使用是一门基本功,这里准备了速查表,可以做案头手册。原创 2016-05-04 13:55:02 · 10601 阅读 · 2 评论 -
地铁译:Spark for python developers --- 搭建Spark虚拟环境3
在VirtualBox 上建Ubantu虚机,安装Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齐名的wordcount 例子程序.....翻译 2016-05-10 20:18:44 · 22283 阅读 · 0 评论 -
RStudio: Warning message: Setting LC_CTYPE failed, using "C" 浅析
RStudio 不能显示中文? 问题是怎样的呢?.... Mac OS 是一个类Linux系统,在Linux中,locale来设置程序运行的不同语言环境,locale由 ANSI C提供支持。locale的命名规则为_.,如zh_CN.GBK,zh代表中文, CN代表大陆地区,GBK表示字符集。在locale环境中,用一组变量代表国际化环境中的不同设置.....原创 2016-04-10 21:39:56 · 11152 阅读 · 3 评论 -
关于移动互联网产品的指标分析初探
本文初步列举了 移动互联网产品 的4个类别,69个分析指标,这还只是自己的初探而已,还可以进一步拓展,如果进行数据的时序分析,就大概是大数据分析的范畴了。你的产品能够获得这些数据么?你如何看待这些数据呢?在产品设计上,你是否考虑过这些运营层面的非功能性需求吗?原创 2016-02-27 21:22:27 · 6576 阅读 · 3 评论 -
ES的一知半解
一个互联网应用(例如网上商城),搜索功能基本上是必备的。搜索的解决方案要快,最好有一个零配置和完全免费的搜索模式,能够简单地使用JSON通过HTTP的索引数据。搜索服务器始终可用,并能够从一台扩展到数百台,搜索的实时性要好......Elasticsearch(简称ES)不仅可以解决这些问题,而且可以做更多的事情。ES 是什么ES是基于Lucene的实时搜索和分析引擎,可以用来做全...原创 2019-01-21 08:58:00 · 1160 阅读 · 0 评论