Python爬虫_来自内蒙古的田园蒙牛的博客-CSDN博客

Python爬虫

关注

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

关注数：文章数：10 文章阅读量：22856 文章收藏量：12

作者: 来自内蒙古的田园蒙牛

吃葱想蒜，啥都想干

展开

1-practice之Python爬取度娘页面

1.获取需求from urllib import request2.根据需求，寻找网站url = 'http://www.baidu.com'3.将网站数据获取到本地req = request.Request(url)response = request.urlopen(req)4.定位数据html_bytes = response.read()5.存储数......

原创 2018-08-14 20:47:22 · 16165 阅读 · 0 评论
爬取页面的封装函数

from urllib import request,parsefrom urllib.error import HTTPError,URLErrordef get(url, headers=None): return urlrequests(url, headers=headers)def post(url, from, headers=None): return u...

原创 2018-08-13 22:34:14 · 240 阅读 · 0 评论
爬取页面的封装函数2

from urllib import request,parsefrom urllib.error import HTTPError,URLError#保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar.Co...

原创 2018-08-14 22:52:38 · 153 阅读 · 0 评论
实践之Python爬取从网页面

实践之Python爬取喜马拉雅，人人网

原创 2018-08-15 08:07:30 · 2700 阅读 · 0 评论
practice之Python爬取有道翻译页面

1.获取需求import timeimport randomimport jsonfrom day1.tuozhan_all import post2.定义MD5加密def md5_my(need_str): import hashlib #创建MD5对象 md5_o = hashlib #需要有bytes作为参数 #有str 转换为...

原创 2018-08-16 01:10:15 · 370 阅读 · 0 评论
实践之Python爬取Py网页面

1.获取需求import urllib import request2.根据需求，寻找网站url = 'http://www.python.org/'3.定义请求头（headers）我用谷歌user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chr...

原创 2018-08-16 21:33:15 · 612 阅读 · 0 评论
practice之Pythonl爬取页面mysql数据库连接

导包import pymysql创建mysql相关的类class MysqlHelper(object): 初始化函数，实例化的时候自动执行 def __init__(sel): 连接mysql数据库的代码 self.db = pymysql.connect(host='127.0.0.1',port=3306,user='sql...

原创 2018-08-23 19:36:42 · 284 阅读 · 0 评论
practice之Python爬取页面（xpath）

导包及数据库import requestsfrom lxml import etreeimport mysqlhelper根据需求寻找链家网页（添加%s占位）base_url = 'https://bj.lianjia.com/zufang/pg%srp1/'实例化定义好的连接数据库的文件,并编写sql语句myhelper = mysqlhelper.MysqlH......

原创 2018-08-23 19:53:24 · 786 阅读 · 0 评论
Scrapy的数据流程及各部分作用

Scrapy architecture（体系结构）组件：Scrapy Engine：引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。调度器（Scheduler）调度器从引擎接受 request 并将他们入队，以便之后引擎请求他们时提供给引擎。下载器（Downloader）下载器负责获取页面数据并提供给引擎，而后提供给S...

原创 2018-08-30 09:21:36 · 1103 阅读 · 0 评论
practice之Python爬取今日头条图片（正则表达式）

导入所需的包（re，requests，json，os，urllib的request）import reimport requestsimport jsonimport osfrom urllib import request通过需求指定网址url = 'https://www.toutiao.com/a6590127156037157379/'由于该网站有反爬机制要添...

原创 2018-08-23 21:45:55 · 450 阅读 · 0 评论

Python爬虫

作者: 来自内蒙古的田园蒙牛

1-practice之Python爬取度娘页面

爬取页面的封装函数

爬取页面的封装函数2

实践之Python爬取从网页面

practice之Python爬取有道翻译页面

实践之Python爬取Py网页面

practice之Pythonl爬取页面mysql数据库连接

practice之Python爬取页面（xpath）

Scrapy的数据流程及各部分作用

practice之Python爬取今日头条图片（正则表达式）