Search Technology
wangicter
金融产品研发
展开
-
基于人人网的简单爬虫(一)——正则表达式
应课程实验要求,要写一个基于人人网的简单爬虫。实验要求如下: 学会使用一种编程语言实现爬取人人网关系网络的程序。该程序功能如下:1. 能够输入用户登陆所产生的cookie,允许爬虫对人人网进行爬取网页。2. 能够使用正则表达式对所获取的网页内容进行过滤,提取出所需要的重要信息。3. 能够分析所获得信息,得到社交网络中各个个体之间的好友关系。4. 能够将该关系矩阵导入到matlab中,以供数据分析使用。 本文主要针对正则表达式进行介绍。(摘自百度百科) 一个正则表达式,就是用某种原创 2011-01-03 20:41:00 · 8056 阅读 · 5 评论 -
基于人人网的简单爬虫(二)——具体实现
<br /> 该程序分为三个部分:获取人人网登陆权限、爬取所需要的好友信息和分析好友关系。下面对这三个部分的设计思路进行阐述。<br /> <br />(1)获取人人网登陆权限<br /> 设计的核心思想是:将登陆所需要的cookie放在程序中,使得程序能够在爬取网页之前能够获得登陆的权限。<br /> 这里用到了firebug这样一个运行在firefox浏览器中的插件,来获得所需要的cookie。如图:<br /> <br /><br /> <br /> 由此获得的cookie可以用下面一段代码登陆原创 2011-01-03 21:07:00 · 4634 阅读 · 4 评论 -
一个可以用来站内检索的简单爬虫
昨晚一时兴起,感觉那个课程实验可以用来进行站内检索,于是搞到临晨三点多,实现了一个简单的可以用来进行站内检索的小爬虫。 站内检索,顾名思义,是用来对特定域名范围内进行检索。主要困难在于获得特定域的多个网址。针对这个问题,我采用了从一个网址发散,来不断爬取新的url,最终获得针对特定域的众多网址。 程序的主要思想是:先从一个网页(通常选主页)开始,爬取其包含的相关链接(当然跟指定域相关),然后继续对这些页面进行分析,如此不断进行深度爬取。我这个程序只爬取了三层,输入是一个主页,输出是count数目的u原创 2011-01-03 21:45:00 · 2115 阅读 · 0 评论 -
关于IM Robot的一些资料【转载】
用.NET开发MSN聊天机器人 - MSN聊天机器人开发揭秘。转载 2011-02-24 21:57:00 · 1201 阅读 · 0 评论