- 博客(8)
- 收藏
- 关注
转载 Apriori
1 Apriori介绍Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。其中,Apriori算法具有这样一条性
2014-07-17 11:11:29 653
原创 1.5抓取网页
1.5抓取网页现在我们把所有的都放在一起,尝试着做一次网页的抓取,大概的思路已经十分清楚了,首先建立连接,然后下载网页的内容,最后将网页内容存储到本地硬盘中。import java.io.BufferedInputStream;import java.io.DataOutputStream;import java.io.File;import java.io.FileOutpu
2014-07-17 10:50:10 481
原创 1.3 Redict
1.3 Redict 在获取网页的过程中,往往会发生跳转,为了有效的处理跳转,需要用getStatusCode()方法获取服务器的状态码并且加以判断,如果返回值是以3开头的,那么则发生了跳转,这时候要确定新的地址,常见的几个以3开头的状态码是HttpStatus.SC_MOVED_TEMPORARILY、HttpStatus.SC_MOVED_PERMANENTLY) 、HttpSt
2014-07-17 10:49:00 1176
转载 1.2StateCode
1.2StateCode 成功(2字头) 这一类型的状态码,代表请求已成功被服务器接收、理解、并接受。200 OK请求已成功,请求所希望的响应头或数据体将随此响应返回。201 Created请求已经被实现,而且有一个新的资源已经依据请求的需要而建立,且其 URI 已经随Location 头信息返回。假如需要的资源无法及时建立的话,应当返回 '202 Accept
2014-07-17 10:48:02 708
原创 网络舆情系统的开发
第一章 爬取网页这一章主要介绍如何爬取网页,在实际应用中,通常采用网络爬虫来快速抓取大量网页,存入本地硬盘内,开源的爬虫软件有很多,在开源中国中有详细的介绍,http://www.oschina.net/project/tag/64/spider。在这一版本的舆情监控系统中,暂时不采用这样庞大的爬虫,因为我们需要的信息量并不大,通过自己写的爬虫程序便可以抓取足够的网页信息,在这一章,我们将抓取
2014-07-17 10:30:45 5275 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人