zhushengweii-CSDN博客

原创信息度的分类提取策略-------基于python(网络爬虫)

考虑到各个网页的复杂性，以及标签的多层嵌套性，我打算提出一个策略，那就是：基于类型网站的分类提取策略。具体如下：门户网站就是提取title与meta之间的正文内容放到数据库，非门户网站，则直接提取标签或之间的内容。当然就优先来讲，>>为什么会用此策略呢。。原因很简单，分析了一些网页后，发现一些非门户网站的主题内容不是放在标签之间就是之间，所以，分析此网站的主题内容，只要提取该部分就行了

2009-11-26 14:05:00 673 4

原创用于网页判断的智能代理技术的简单实现------------基于python实现(网络爬虫)

首先说一下什么叫智能代理技术，智能代理技术是一种通过内建的知识库和感知到的信息来采取行动。一个好的智能代理系统，应当有学习的能力，通过感知到的知识不断学习，从而适应环境的不断变化情况。为了简化问题的复杂性，只使用内建知识库来判断所要处理的网站是否是需要的那种类型的网站。而我们通过什么方式来表现知识库的形式呢？根据那篇论文，我们可以用文本向量的模式来表示，那什么叫文本向量呢？文本向量就是由特定

2009-11-19 14:04:00 644

原创关于估价函数的实现-------基于python语言（网络爬虫）

估价函数是一个对特定链接进行评价的函数，符合相关规则的，进行权值的增加。而规则怎么定？权值加多少？这又是我们要讨论的问题。根据那篇论文，我们可以知道规则不过为对链接本身以及对链接文本中存在的链接的规则。对于链接本身我们应该判断这个链接在不在门户网站的范围内，而门户网站当然是事先放在缓冲区里面了。假如在缓冲区里面找不到，我们就访问该链接文本里面的外部链接，然后判断这些链接有没有我们要的目标网

2009-11-12 15:12:00 1575

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 信息度的分类提取策略-------基于python(网络爬虫)

原创 用于网页判断的智能代理技术的简单实现------------基于python实现(网络爬虫)

原创 关于估价函数的实现-------基于python语言（网络爬虫）

空空如也

空空如也

原创信息度的分类提取策略-------基于python(网络爬虫)

原创用于网页判断的智能代理技术的简单实现------------基于python实现(网络爬虫)

原创关于估价函数的实现-------基于python语言（网络爬虫）