爬取新浪搜索内容遇到的问题及解决

最新推荐文章于 2021-03-27 20:32:26 发布

Edward-liang

最新推荐文章于 2021-03-27 20:32:26 发布

阅读量2.4k

点赞数 1

分类专栏： Python 爬虫文章标签：新浪搜索爬虫 Nutch Python

本文链接：https://blog.csdn.net/edward_liang_/article/details/50174507

版权

Python 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

爬虫

8 篇文章 0 订阅

订阅专栏

在Nutch爬虫爬取新浪的时候爬取率低，抽查了相关种子发现新浪搜索页面的帖子爬取率很低。遂展开分析–

搜索页面的网页内容特点

和专业的搜索引擎一样，新浪的搜索引擎搜索结果往往是众多网页的聚合，既是众多内容的聚合，也是多种形式的聚合。

这就意味着要解析索引到的这些网页，需要编写很多解析插件。幸运的是大多数类型的新浪网页，虽然网页所属的板块不同，然而网页的结构类似，采用了相同的网页模板，对于这些网页，需要修改nutch的过滤插件regex-urlfilter.txt使其支持url，并在自己写的解析插件中支持这种url。至于其他网站的网页，以及新浪采用不同模板的网页暂不考虑，爬取率保证在90%以上即可。我们需要用新浪的新闻搜索引擎搜索一些手机的相关新闻按相关度排序。以华为为例，搜索的链接为
http://search.sina.com.cn/?range=all&c=news&q=%BB%AA%CE%AA&from=top&col=&source=&country=&size=&time=&a=&sort=rel，附上网页链接（用casperjs获取到的实时链接）

下面是在验证爬取率时出现的两种情况：多爬和少爬。

多出来的链接

少爬的链接

更复杂的情况

这次我们用华为，中兴，小米做关键词分别进行搜索，结果发现少的链接数多了，多爬的也多了。开始我比较了三个数据:
网页实际的链接 a ->Nutch获取到的链接数 b ->实际爬取的链接数 c
发现b>a>c ，找不到原因，b中莫名其妙的多出一些重复。
后来发现其实是出链获取过程中，会获取重复的链接，对a/b/c都增加了去重，比较b和c，a和c，a和b都合理了。其实这时发现和简单的情况一样，比较a和c即可。

经验证我们过滤掉的url数目d满足：a-b+1=d。

MARK一下写的python去重和比较脚本

before = []
after = []
total = []
total_no_repeat =[]
irregular = []


def remove_same_item(before_file, after_file):
    try:
        f = open(before_file)
        for each_line in f:
            piece =each_line.split(' ')
            before.append(piece[-1])
        f.close()
        before_deduplicated = list(set(before))
        before.sort()
        print ("after deduplication, size of outlinks: "+str(before_deduplicated.__len__()))
        # for each_line in before:
        #     print each_line
        f = open(after_file)
        for each_line in f:
            piece =each_line.split(' ')
            after.append(piece[-1])
        f.close()
        after_deduplicated = list(set(after))
        after.sort()
        print ("actual size of links to crawl: "+str(after_deduplicated.__len__()))
        # for each_line in after:
        #     print each_line
        for each_line in after_deduplicated:
            if before_deduplicated.__contains__(each_line):
                before_deduplicated.remove(each_line)

        print (before_deduplicated.__len__())
        for each_line in before_deduplicated:
            print each_line
    except ValueError:
        pass


def count_irregular(file_name):
    try:
        f = open (file_name)
        for each_line in f:
            total.append(each_line)
            if not str(each_line).__contains__(".shtml"):
                irregular.append(each_line)
        print "number of links on webpages: "+str(total.__len__())
        total_no_repeat = list(set(total))
        total_no_repeat.sort()
        print "number of links on webpages after dedupaliction: "+str(total_no_repeat.__len__())
        print "number of irregular links on webpages: "+str(irregular.__len__())
    except ValueError:
        pass

count_irregular('original.txt')
remove_same_item('before.txt','after.txt')