Python爬虫
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
来自内蒙古的田园蒙牛
吃葱想蒜,啥都想干
展开
-
1-practice之Python爬取度娘页面
1.获取需求from urllib import request2.根据需求,寻找网站url = 'http://www.baidu.com'3.将网站数据获取到本地req = request.Request(url)response = request.urlopen(req)4.定位数据html_bytes = response.read()5.存储数......原创 2018-08-14 20:47:22 · 16060 阅读 · 0 评论 -
爬取页面的封装函数
from urllib import request,parsefrom urllib.error import HTTPError,URLErrordef get(url, headers=None): return urlrequests(url, headers=headers)def post(url, from, headers=None): return u...原创 2018-08-13 22:34:14 · 240 阅读 · 0 评论 -
爬取页面的封装函数2
from urllib import request,parsefrom urllib.error import HTTPError,URLError#保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar.Co...原创 2018-08-14 22:52:38 · 153 阅读 · 0 评论 -
实践之Python爬取从网页面
实践之Python爬取喜马拉雅,人人网原创 2018-08-15 08:07:30 · 2657 阅读 · 0 评论 -
practice之Python爬取有道翻译页面
1.获取需求import timeimport randomimport jsonfrom day1.tuozhan_all import post2.定义MD5加密def md5_my(need_str): import hashlib #创建MD5对象 md5_o = hashlib #需要有bytes作为参数 #有str 转换为...原创 2018-08-16 01:10:15 · 367 阅读 · 0 评论 -
实践之Python爬取Py网页面
1.获取需求import urllib import request2.根据需求,寻找网站url = 'http://www.python.org/'3.定义请求头(headers)我用谷歌user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chr...原创 2018-08-16 21:33:15 · 579 阅读 · 0 评论 -
practice之Pythonl爬取页面mysql数据库连接
导包import pymysql创建mysql相关的类class MysqlHelper(object): 初始化函数,实例化的时候自动执行 def __init__(sel): 连接mysql数据库的代码 self.db = pymysql.connect(host='127.0.0.1',port=3306,user='sql...原创 2018-08-23 19:36:42 · 284 阅读 · 0 评论 -
practice之Python爬取页面(xpath)
导包及数据库import requestsfrom lxml import etreeimport mysqlhelper根据需求寻找链家网页(添加%s占位)base_url = 'https://bj.lianjia.com/zufang/pg%srp1/'实例化定义好的连接数据库的文件,并编写sql语句myhelper = mysqlhelper.MysqlH......原创 2018-08-23 19:53:24 · 785 阅读 · 0 评论 -
Scrapy的数据流程及各部分作用
Scrapy architecture(体系结构)组件:Scrapy Engine:引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。调度器(Scheduler)调度器从引擎接受 request 并将他们入队,以便之后引擎请求他们时提供给引擎。下载器(Downloader)下载器负责获取页面数据并提供给引擎,而后提供给S...原创 2018-08-30 09:21:36 · 1097 阅读 · 0 评论 -
practice之Python爬取今日头条图片(正则表达式)
导入所需的包(re,requests,json,os,urllib的request)import reimport requestsimport jsonimport osfrom urllib import request通过需求指定网址url = 'https://www.toutiao.com/a6590127156037157379/'由于该网站有反爬机制要添...原创 2018-08-23 21:45:55 · 446 阅读 · 0 评论