python3爬虫实练
龙王.*?
向来心是看客心,奈何人是剧中人。
展开
-
大魔王叶天txt下载——爬虫源码,txt附属
今天有个朋友叫我帮他利用爬虫下载一本小说叫《大魔王叶青》,之所以需要我利用爬虫帮忙下载是因为以下几点:这本小说较火,宅男、闷骚男的热爱。 这本小说各大手机app都找不到或者找到要付费。 电脑可以在言情888网观看,但无法txt下载,只能在线观看。所需库:requests 、lxml源码如下:import requestsfrom lxml import etreeDEFAU...原创 2020-03-11 22:16:38 · 2582 阅读 · 0 评论 -
爬取全书网小说
网站:http://www.quanshuwang.com/目标:爬取小说内容步骤:打开一本小说源代码 获取各个章节的链接 打开各个章节的源代码 提取各个章节的内容 下载内容小说链接如下:http://www.quanshuwang.com/book/9/9055(每本小说链接都不同,这本是盗墓笔记的链接)各个章节链接如下:注意的是,在打印源码内容时要...原创 2018-08-09 21:01:05 · 1625 阅读 · 0 评论 -
爬取我主良缘,获取个人图片及其信息
网站:http://www.lovewzly.com/jiaoyou.html工具:python3 ,pycharm ,火狐浏览器自带F12功能目标:获取妹子信息,将图片与个人信息分开保存在不同文件夹下步骤:分为一下四步:设置条件 解析网页 下载图片 保存信息# coding=utf-8import osimport requests#设置条件def quary...原创 2018-08-07 16:26:00 · 1000 阅读 · 0 评论 -
模拟登录12306网站
首先用火狐浏览器进入12306网站的登录界面,F12获取登录界面的url地址.再获取验证码图片的链接及其验证码校正所post的数据最后获取用户名和密码的登录链接及其post的数据# coding=utf-8import requestsimport os#下载验证码图片def save_image(): image_url = 'http...原创 2018-08-08 17:02:39 · 3888 阅读 · 3 评论 -
爬取迷你mp4各个电影信息
网站:www.minimp4.com# coding=utf-8import requestsfrom lxml import etreeclass Minimpe_moves(object): def Getmovies(self,page): url = 'http://www.minimp4.com/movie/?page={}'.format(pa...原创 2018-08-09 00:00:32 · 3678 阅读 · 0 评论 -
全书网整本小说爬取
工具:requests模块 beautifulsoup4模块 logging模块 lxml模块主要流程:请求url,返回页面 解析页面,提取数据 保存数据注:在解析上我写了两种不同方式,一种是用Beautifulsoup,另一种是Xpath。源码中的请求头有删改。源码如下:import requestsfrom bs4 import BeautifulSoupi...原创 2019-03-24 18:51:55 · 854 阅读 · 0 评论 -
爬取百度图片——详细思路
最近尝试将百度的图片爬取下来,下面讲解下我的整个爬取思路的流程。首先打开百度图片首页,输入搜索图片的关键字,浏览器就展示给我们许多的指定图片。我们知道,爬取图片的核心在于获取到对应图片的url。我一如往常般的打开网页源代码,F12审查元素来获取指定图片在源代码的位置。可是发现源代码里根本就找不到。这个时候我就想到,这应该是通过js请求来获取到图片的。所以我下一个目标就是找到js请求...原创 2019-05-08 15:51:35 · 23345 阅读 · 26 评论