爬虫
Xu_sa_sa
这个作者很懒,什么都没留下…
展开
-
Python学习(三):多线程写Python爬虫
人人车网站为例 总体框架: # 爬取人人车车辆信息 # 多线程/多进程:提高代码执行效率,提高爬取效率,实现使用多个多个进程对多个页面发起请求 from urllib.request import urlopen # 进程池: 比较方便,使用简单 from multiprocessing import Pool import re, sqlite3 class RRCSpi...原创 2019-01-11 20:38:18 · 270 阅读 · 0 评论 -
Python学习(四):多线程下载今日头条的街拍图片
本程序使用了MongoDB数据库保存 MongoDB数据库可以保存字典 使用了进程池Pool 同时下载100页网站的内容 # 使用多进程第街拍图片进行下载,并将图片相关信息保存到MongoDB数据库中 from _md5 import md5 import requests, re, json, pymongo from multiprocessing import Pool fro...原创 2019-01-11 20:42:46 · 232 阅读 · 0 评论 -
Python学习(二):爬取51job(前程无忧)网站数据
# 讲解51job(前程无忧)网站数据 from urllib.request import urlopen, Request, urlretrieve import re, json def parse_city_code(): """ 请求并解析城市编码的函数 :return: 返回一个字典 """ # decode()函数默认使用utf8转化字节码...原创 2019-01-08 19:38:37 · 3703 阅读 · 1 评论 -
Python学习(五):爬虫之爬各城市天气
源代码如下,可以再pycharm直接运行 # 解析天气接口,获取某一个城市的天气预报 import requests, json class Weather(object): def __init__(self): self.api = "https://api.map.baidu.com/location/ip?ak=KHkVjtmfrM6NuzqxEALj0p8...原创 2019-01-11 20:49:50 · 1721 阅读 · 1 评论