python爬虫
记录python爬虫的学习过程,分享一些有趣的spider
TamoR.
一个迷茫的迫切想入行的有志青年
展开
-
爬虫最强ip代理池设置,三家免费ip共享王网站资源
import requests from lxml import etree import threading from queue import Queue threads=[] headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chro...原创 2019-12-30 19:08:30 · 1296 阅读 · 0 评论 -
scrapy框架爬取虎牙直播有关信息
主程序hy.py: # -*- coding: utf-8 -*- import scrapy from ..items import sortItem,gameInfo,gameSonSort,houseInfo from scrapy import Request import re from time import sleep class HySpider(scrapy.Spider):...原创 2019-12-15 22:57:47 · 356 阅读 · 0 评论 -
scrapy爬虫爬取新片场信息
# -*- coding: utf-8 -*- import scrapy import re from scrapy import Request import json def convert(s): if s is str and s.isdigit: return int(s.resplace(',')) else: return 0 c...原创 2019-12-04 09:07:08 · 375 阅读 · 0 评论 -
多线程抓取英雄联盟全皮肤并保存
import requests import threading from queue import Queue from lxml import etree import time import wget import os urlQueue=Queue()#链接队列 threads_num=100 #线程数 threads=[] urList=[] skin=[] def getUrl...原创 2019-12-01 10:12:05 · 167 阅读 · 0 评论 -
学习爬虫第一天笔记
第二章:BeautifulSoup的使用 下行遍历: .contents:子节点的列表 .children:子节点的迭代类型,循环遍历儿子节点。 .descendants:子孙节点的迭代类型,循环遍历子孙节点 上行遍历: .parent:节点的父亲标签 .parents:节点的先辈标签的迭代类型,用于循环遍历先辈节点 平行遍历: .next_sibing:返回以HTML顺序的下一个平行节点 .pr...原创 2019-11-28 18:02:39 · 138 阅读 · 0 评论 -
最好大学网爬取大学排名源码
import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text ...原创 2019-11-28 12:11:16 · 278 阅读 · 1 评论 -
python requests、xpasth爬虫使用代理IP池爬取博客,增加浏览量
一篇煎蛋的python爬虫,爬取CSDN文章,借助免费的代理IP网站,分析出IP地址,使用代理IP访问,阔以去玩一下 import os import time import random import requests from lxml import etree #准备部分 #1.headers headers={'User-Agent':'Mozilla/5.0 (Windows NT 10...原创 2019-07-28 18:09:18 · 572 阅读 · 5 评论