自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 信息度的分类提取策略-------基于python(网络爬虫)

      考虑到各个网页的复杂性,以及标签的多层嵌套性,我打算提出一个策略,那就是:基于类型网站的分类提取策略。具体如下:门户网站就是提取title与meta之间的正文内容放到数据库,非门户网站,则直接提取标签或之间的内容。当然就优先来讲,>>为什么会用此策略呢。。原因很简单,分析了一些网页后,发现一些非门户网站的主题内容不是放在标签之间就是之间,所以,分析此网站的主题内容,只要提取该部分就行了

2009-11-26 14:05:00 673 4

原创 用于网页判断的智能代理技术的简单实现------------基于python实现(网络爬虫)

 首先说一下什么叫智能代理技术,智能代理技术是一种通过内建的知识库和感知到的信息来采取行动。一个好的智能代理系统,应当有学习的能力,通过感知到的知识不断学习,从而适应环境的不断变化情况。为了简化问题的复杂性,只使用内建知识库来判断所要处理的网站是否是需要的那种类型的网站。而我们通过什么方式来表现知识库的形式呢?根据那篇论文,我们可以用文本向量的模式来表示,那什么叫文本向量呢?文本向量就是由特定

2009-11-19 14:04:00 644

原创 关于估价函数的实现-------基于python语言(网络爬虫)

    估价函数是一个对特定链接进行评价的函数,符合相关规则的,进行权值的增加。而规则怎么定?权值加多少?这又是我们要讨论的问题。根据那篇论文,我们可以知道规则不过为对链接本身以及对链接文本中存在的链接的规则。对于链接本身我们应该判断这个链接在不在门户网站的范围内,而门户网站当然是事先放在缓冲区里面了。假如在缓冲区里面找不到,我们就访问该链接文本里面的外部链接,然后判断这些链接有没有我们要的目标网

2009-11-12 15:12:00 1575

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除