spider
我的名字叫冬冬
这个作者很懒,什么都没留下…
展开
-
猫眼电影爬虫示例基础1
猫眼电影爬虫示例代码部分 代码部分 // An highlighted block # 1. 打印程序执行时间 # 2. 随机的User-Agent,(确保每次发请求使用随机) # 3. 数据爬下来后做处理(字符串),定义成字典 # 4. 一条龙: 获取 -> 调用解析 -> 数据处理 from urllib import request import time import re ...原创 2019-08-29 09:02:16 · 467 阅读 · 0 评论 -
电影天堂爬去示例基础2
代码部分1 // An highlighted block from urllib import request import re import time import random from useragents import * import pymysql class FilmSky(object): def __init__(self): self.url = ...原创 2019-08-29 09:12:22 · 393 阅读 · 0 评论 -
链家二手房代码爬取三示例基础3
代码部分1 // An highlighted block import requests from lxml import etree import time import random class LianjiaSpider(object): def __init__(self): self.url = 'https://bj.lianjia.com/ershoufang/pg...原创 2019-08-29 09:15:32 · 556 阅读 · 0 评论 -
百度贴吧爬取示例基础4
代码部分1 // An highlighted block import requests from lxml import etree import random import time class BaiduImageSpider(object): def __init__(self): self.headers = {'User-Agent':'Mozilla/4....原创 2019-08-29 09:18:38 · 213 阅读 · 0 评论 -
爬取代理并且筛选出可用代理
import requests from lxml import etree from fake_useragent import UserAgent # 获取User-Agent def get_random_ua(): # 1.创建User-Agent对象 ua = UserAgent() return ua.random url = 'https://www...原创 2019-08-29 13:04:52 · 149 阅读 · 0 评论 -
如何爬取动态类型的网站示例代码
import requests # import time class DoubanSpider(object): def __init__(self): self.url = 'https://movie.douban.com/j/chart/top_list?' \ 'type=11&interval_id=100%3A9...原创 2019-08-29 18:07:13 · 320 阅读 · 0 评论