数据挖掘
Xiao_Qiang_
java,python
展开
-
揭穿 XQuery 的神话和误解
XQuery 是一种有前途的技术,有助于更容易地构建使用 XML 的服务文档选项<trvalign="top"><img alt="" height="1" width="8"src="//www.ibm.com/i/c.gif"/><img alt="" width="转载 2009-02-26 18:15:00 · 849 阅读 · 0 评论 -
为什么说OLAP产品毁了BI
笔者从1998年开始研究并从事商业智能(BI)项目,10年来在BI方面积累了一些心得,谨供大家参考。为什么说OLAP产品毁了BI?企业为了确定经营战略和市场战略所进行的经营活动,在BI项目的分析决策过程中,需要基于多种报告和报表进行分析。理想的市场活动展开,大多需要各个营业点的销售报表,每种商品按季节销售的业绩图表等,这就需要大量准确的并且易于判断的数据。然而,对于作为转载 2009-02-26 19:17:00 · 1221 阅读 · 0 评论 -
文本相似度计算--余弦定理和广义Jaccard系数
在7.9余弦定理+空间向量--我的数学3 中简单地说了一下利用余弦定理来计算文本相似度。下面是利用余弦定理和广义Jaccard系数来计算文本相似度。简单介绍一下Jaccard系数:广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(有另一种系数也称为Tanimoto系数)。该系数用EJ表示,由下式定义:EJ(x,y)转载 2009-02-27 09:37:00 · 4478 阅读 · 2 评论 -
用户行为分析之--apache日志分析(一)
Apache 日志分析 我们公司的apache日志类型是混合类的“Combined Log Format”,这是apache官方的一种叫法。结构如下; Normal 0 7.8 磅 0 2 false false false原创 2009-03-26 17:20:00 · 2989 阅读 · 0 评论 -
用户行为分析之--apache日志分析(二)
在上一篇“用户行为分析之--apache日志分析(一)”中最后介绍到了apache 的log信息中的爬虫,那么为啥要介绍他呢,无非就是为了达到标题“用户行为分析”的目的,爬虫可不是咱们网站的真正用户,所以要过滤掉他;在过滤他之前咱们不是首先要知道人家长啥样不是! 考虑到开发的便捷性,和各个语言的特长,python非常适合做这种事情,文本的处理,就是把日志中的爬虫信息过滤掉原创 2009-03-26 17:58:00 · 2380 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
<br /> 海量数据处理:十道面试题与十个海量数据处理方法总结<br /><br /> 作者:July、youwang、yanxionglu。<br /> 时间:二零一一年三月二十六日<br /> 说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。<br /> 出处:http://blog.csdn.net/v_JULY_v 。<br /> ----------------------------------转载 2011-03-28 15:10:00 · 808 阅读 · 0 评论 -
可视化的数据结构和算法
<br />导读:作者陈皓之前写过关于可视化排序的一篇文章,现在他又给大家罗列出可视化的数据结构和算法来供大家学习参考。文中分别从基础、索引、排序、动态编程等方面进行描述。<br />文章内容如下:<br /><br />还记得之前发布过的那个关于可视化排序 的文章吗?在网上又看到了一个旧金山大学David Galles 做的各种可视化的数据结构和基本算法的主页,网址在这里 ,大家可以看看。我把这个页面的目录列在下面并翻译了一下,大家可以直接点击了。<br />不知道国内的教育有没有相关的教学课件,至转载 2011-05-07 08:23:00 · 1755 阅读 · 0 评论 -
程序员必知8大排序3大查找
每天都在叫嚣自己会什么技术,什么框架,可否意识到你每天都在被这些新名词、新技术所迷惑,.NET、XML等等技术固然诱人,可是如果自己的基础不扎实,就像是在云里雾里行走一样,只能看到眼前,不能看到更远的地方。这些新鲜的技术掩盖了许多底层的原理,要想真正的学习技术还是走下云端,扎扎实实的把基础知识学好,有了这些基础,要掌握那些新技术也就很容易了。 要编写出优秀的代码同样要扎实的基础,如果排转载 2012-05-10 10:24:10 · 742 阅读 · 0 评论