![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
yx_ming
这个作者很懒,什么都没留下…
展开
-
python爬虫人人网登陆
Day1:人人网登录第一种方式#导入模块from urllib import request,parse from http import cookiejar#保存cookie,实例化cookiecookie = cookiejar.CookieJar() handler = request.HTTPCookieProcessor(cookie) opener = req...原创 2018-08-14 22:20:06 · 302 阅读 · 0 评论 -
什么是 Selenium 和 WebDriver?
Selenium是一个浏览器自动化操作框架。selenium主要由三种工具组成。 1.第一个工具——SeleniumIDE,是Firefox的扩展插件,支持用户录制和回访测试。录制/回访模式存在局限性,对许多用户来说并不适合。2.因此第二个工具——Selenium WebDriver提供了各种语言环境的API来支持更多控制权和编写符合标准软件开发实践的应用程序。3.最后一个工具——Sel...原创 2018-08-21 23:32:38 · 10412 阅读 · 2 评论 -
python基础链家网爬虫实战
封装一个与数据库连接的MySQL类文件命名为 mysql.py#导入pyMySQL包import pymysqlclass MYSQL(object): def __init__(self): self.db=pymysql.connect(host='127.0.0.1',user='root',password='123456',port=3306,d...原创 2018-08-20 23:20:12 · 785 阅读 · 0 评论 -
封装 python爬虫 爬取妹子图到mysql数据库
import requestsfrom lxml import etreefrom mysql import MYSQL1. 声明一个lianjia函数def lianjia(url,headers): # 2.给于url路径 # url = 'http://bj.lianjia.com/ershoufang/pg2/' for i in range(...原创 2018-08-22 22:01:48 · 519 阅读 · 0 评论 -
BeautifulSoup作用
功能BeautifulSoup是用来从HTML或XML中提取数据的Python库。 对于不具备良好格式的 HTML 内容,lxml 提供了两个有用的包:lxml.html 模块和 BeautifulSoup 解析器。导入使用方法: from bs4 import BeautifulSoup soup = BeautifulSoup(html)pycharm内导入Beaut...转载 2018-08-22 21:18:30 · 9895 阅读 · 0 评论 -
python爬取 xueqiu网 数据 存入MySQL数据库中
#导入包from urllib import request import json import pymysql#声名一个class类class mysql_connect(object): # 初始化的构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1',u...原创 2018-08-17 00:37:45 · 738 阅读 · 0 评论 -
python爬虫基础函数的封装
from urllib import request,parse from urllib.error import HTTPError,URLError import json封装get()请求def get(url,headers=None): return urlrequests(url,headers=headers)封装post()请求def post(...原创 2018-08-13 22:25:46 · 418 阅读 · 1 评论 -
session 和 cookie的区别, 他们都是什么?
什么是Session?1.由于HTTP协议是无状态的协议,所以服务端需要记录用户的状态时,就需要用某种机制来识具体的用户,这个机制就是Session. 2.Session用于标识这个用户,并且跟踪用户,Session是保存在服务端的,有一个唯一标识。在服务端保存Session的方法很多,内存、数据库、文件都有。 3.大型的网站,一般会有专门的Session服务器集群,用来保存用户会话,这个...原创 2018-08-13 20:45:33 · 6136 阅读 · 1 评论 -
基础反爬虫 cookie反爬 post / get 方法 函数封装
from urllib import request,parsefrom urllib.error import HTTPError,URLError保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar...原创 2018-08-14 22:28:53 · 1541 阅读 · 0 评论 -
简单实现webdriver网页驱动 百度搜索、简书测试
Ⅰ、百度搜索 webdriver网页驱动测试# 导入 selenium 下的 webdriver(网页内驱动模块)from selenium import webdriver# 导入 time 时间模块import time# websriver(网页内驱动)Chrome(谷歌浏览器)driver = webdriver.Chrome()# time.sleep(睡眠等待...原创 2018-08-21 23:57:45 · 1177 阅读 · 1 评论