- 博客(5)
- 资源 (21)
- 收藏
- 关注
原创 数据挖掘笔记-聚类-DBSCAN-网页正文提取
进行网页正文提取算法之前必须先对网页源文件代码进行预处理,过滤掉一些诸如脚本、样式、注释等元素。过滤后的网页信息不包含任何HTML标签,将每行的文本视为一个二维空间中的点Point(x,y),x表示当前行号,y表示当前行文本的字符长度。基于这些点作为基础,进行DBSCAN聚类算法。通过聚类的结果可以发现:具有相似密度如导航栏、广告栏等区域的点会成为一类,而正文文本区域的点由于文本密度高的特点,会使
2014-11-29 17:47:09 1961 3
原创 Cassandra学习笔记-基本特性与API操作
Apache Cassandra是一套开源分布式Key-Value存储系统。它最初由Facebook开发,用于储存特别大的数据。主要特性:分布式、基于column的结构化、高伸展性Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra 的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某
2014-11-05 00:36:59 5580 5
多级层次行政区划相关的文件
2019-09-27
winutils.exe hadoop.dll
2014-10-18
java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949
2010-09-23
eclipse快捷键eclipse快捷键eclipse快捷键
2010-09-23
[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook
2010-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人