爬虫
clover521
这个作者很懒,什么都没留下…
展开
-
python微信爬虫
微信网站为http://weixin.sogou.com/微信爬虫,使用代理服务器爬一个网址。注意设置代理服务器时,该代理服务器有可能失效,需要换成新的有效代理服务器。代理服务器可以百度到。import urllib.requestimport reimport timeimport urllib.error# 自定义函数,功能为使用代理服务器爬一个网址def use_pr...原创 2018-11-20 17:37:18 · 689 阅读 · 0 评论 -
python多线程爬虫
先记录一下,普通的糗事百科爬虫:import urllib.requestimport reimport timeimport urllib.errorheaders=('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0')opener=urlli...原创 2018-11-21 09:27:23 · 280 阅读 · 0 评论 -
python爬虫Scrapy框架
Scrapy框架是一个Python爬虫框架,适合做一些大型爬虫项目。Scrapy框架常见命令:1、基本格式:scrapy 命令名 -参数(如scrapy fetch –h显示fetch命令帮助,fetch显示爬虫爬取过程)2、Shell命令,启动Scrapy交互终端 >scrapy shell http://www.baidu.com --nolog3、Startp...原创 2018-11-21 09:43:12 · 969 阅读 · 4 评论 -
Scrapy框架糗事百科自动爬虫
糗事百科自动爬虫:1、在cmd进入项目文件夹,创建爬虫项目和爬虫文件>scrapy startproject qsauto2、进入项目文件夹创建爬虫文件>scrapy genspider -t crawl cw qiushi.com(我创建的爬虫文件为cw, qiushi.com为糗事百科网域名)3、用pycharm打开这个项目 ...原创 2018-11-21 09:49:28 · 205 阅读 · 0 评论 -
自动模拟登陆爬虫
有时候需要抓取登陆后的页面,让爬虫登陆网址。此程序可以实现模拟登陆爬虫,包括图片验证码的处理。1、在cmd进入项目文件夹,创建爬虫项目和爬虫文件>scrapy startproject douban2、进入项目文件夹创建爬虫文件>scrapy genspider -t crawl db qiushi.com(我创建的爬虫文件为db, qiushi.com为糗事百科网域名...原创 2018-11-21 09:59:41 · 597 阅读 · 0 评论 -
python当当网爬虫
最终要实现的是将当当网上面的书籍信息,书籍名字,网址和评论数爬取,存入到数据库中。(首先要做的是创建好数据库,创建的数据库名字为dd,创建的表为books,字段为title,link,comment)。1、创建项目 scrapy startproject dangdang2、进入项目文件夹创建爬虫文件>scrapy genspider –t basic dd dangdan...原创 2018-11-24 22:03:29 · 2310 阅读 · 0 评论 -
Scrapy框架基于crawl爬取京东商品信息爬虫
Items.py文件# -*- coding: utf-8 -*-# Define here the models for your scraped items# See documentation in:# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass JingdongItem(scrap...原创 2018-11-24 22:06:58 · 624 阅读 · 0 评论