yuqingjiankong-CSDN博客

原创大数据

有人问什么是大数据，大数据就是

2014-07-19 11:54:21 505

原创软件故障定位

软件故障定位的研究方法，应用

2014-07-19 11:49:39 1113

原创改一个参数就是创新？

中国人搞研究是怎么了，几年下来就改一个参数就发论文了，zhesh

2014-07-18 19:06:47 608 1

转载 Apriori

1 Apriori介绍Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。其中，Apriori算法具有这样一条性

2014-07-17 11:11:29 653

原创 1.5抓取网页

1.5抓取网页现在我们把所有的都放在一起，尝试着做一次网页的抓取，大概的思路已经十分清楚了，首先建立连接，然后下载网页的内容，最后将网页内容存储到本地硬盘中。import java.io.BufferedInputStream;import java.io.DataOutputStream;import java.io.File;import java.io.FileOutpu

2014-07-17 10:50:10 481

原创 1.3 Redict

1.3 Redict 在获取网页的过程中，往往会发生跳转，为了有效的处理跳转，需要用getStatusCode()方法获取服务器的状态码并且加以判断，如果返回值是以3开头的，那么则发生了跳转，这时候要确定新的地址，常见的几个以3开头的状态码是HttpStatus.SC_MOVED_TEMPORARILY、HttpStatus.SC_MOVED_PERMANENTLY) 、HttpSt

2014-07-17 10:49:00 1176

转载 1.2StateCode

1.2StateCode 成功（2字头）这一类型的状态码，代表请求已成功被服务器接收、理解、并接受。200 OK请求已成功，请求所希望的响应头或数据体将随此响应返回。201 Created请求已经被实现，而且有一个新的资源已经依据请求的需要而建立，且其 URI 已经随Location 头信息返回。假如需要的资源无法及时建立的话，应当返回 '202 Accept

2014-07-17 10:48:02 708

原创网络舆情系统的开发

第一章爬取网页这一章主要介绍如何爬取网页，在实际应用中，通常采用网络爬虫来快速抓取大量网页，存入本地硬盘内,开源的爬虫软件有很多，在开源中国中有详细的介绍，http://www.oschina.net/project/tag/64/spider。在这一版本的舆情监控系统中，暂时不采用这样庞大的爬虫，因为我们需要的信息量并不大，通过自己写的爬虫程序便可以抓取足够的网页信息，在这一章，我们将抓取

2014-07-17 10:30:45 5275 1

yuqingjiankong的专栏