有哪些适合练手的爬虫小项目?

点击上方蓝色字体,星标公众号

我们正在发起一场公益活动:

无私帮助大家解决难题,真正解决的那种!

问答起飞

如果你平时遇到任何困扰你已久的问题,可以加群,告诉我们,统一记录到《QA》表中。

我们解决不了的,会在公众号内发起求助,总之,尽最大努力帮助你解决问题,真正解决的那种!

第四弹问题

爬虫有哪些练手的小项目吗?各位大佬,最好质量较好一点的啊。

爬虫案例

这里先为大家推荐一个爬取豆瓣书籍的爬虫吧,方便大家搜罗各种美书!

包含评价人数、评分、被链接数、链入的图书节点、链出的图书节点等信息。

另外给出爬虫的全部代码,实现的功能包括:

实现功能:

  • 1 可以爬下豆瓣读书标签下的所有图书

  • 2 按评分排名依次存储

  • 3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet

  • 4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

使用的包:

#-*- coding: UTF-8 -*-

import sys
import time
import urllib
import urllib2
import requests
import numpy as np
from bs4 import BeautifulSoup
from openpyxl import Workbook

reload(sys)
sys.setdefaultencoding('utf8')

中间代码稍长,不贴到这里了,下面是测试代码:

if __name__=='__main__':
    #book_tag_lists = ['心理','判断与决策','算法','数据结构','经济','历史']
    #book_tag_lists = ['传记','哲学','编程','创业','理财','社会学','佛教']
    #book_tag_lists = ['思想','科技','科学','web','股票','爱情','两性']
    #book_tag_lists = ['计算机','机器学习','linux','android','数据库','互联网']
    #book_tag_lists = ['数学']
    #book_tag_lists = ['摄影','设计','音乐','旅行','教育','成长','情感','育儿','健康','养生']
    #book_tag_lists = ['商业','理财','管理']  
    #book_tag_lists = ['名著']
    #book_tag_lists = ['科普','经典','生活','心灵','文学']
    #book_tag_lists = ['科幻','思维','金融']
    book_tag_lists = ['个人管理','时间管理','投资','文化','宗教']
    book_lists=do_spider(book_tag_lists)
    print_book_lists_excel(book_lists,book_tag_lists)
    

其他20多个小项目的部分截图:

这20几个小项目已经制作成pdf,感兴趣的关注管理员的微信,资料比较珍贵,单独发:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值