lijz的博客

Python工作学习

Selenium的基本使用(Python)

import time, os, sys from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from ...

2018-06-10 14:34:20

阅读数 163

评论数 0

PyQuery库的简单实用(Python)

import requests from bs4 import BeautifulSoup from pyquery import PyQuery as pq if __name__ == '__main__': # 实例1 # url = 'https://book.doub...

2018-06-09 22:35:01

阅读数 156

评论数 0

requests + re 爬去网站图书信息(Python)

# -*- coding: utf-8 -*-import requestsimport re, jsonif __name__ == '__main__':    content = requests.get('https://book.douban.com/').text    reg_bas...

2018-06-09 14:08:32

阅读数 341

评论数 0

BeautifulSoup的基本使用

import requestsfrom bs4 import BeautifulSoupdef del_span(l):    while True:        if '\n' in l:            l.remove('\n')        else:            br...

2018-06-09 14:07:01

阅读数 197

评论数 0

爬虫技术库-urllib.request和requests库的使用(Python)

1.  requests库         import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML...

2018-04-19 22:04:33

阅读数 1773

评论数 0

urllib通过Get请求爬取KeyWords页面信息

import baseSpider import urllib # www.baidu.com/s?wd=python keyword = input("请输入你要查询的关键词:") wd = {"wd":keyword}...

2018-03-27 14:36:04

阅读数 87

评论数 0

爬虫代理和本地封装类库的实现和使用(Python)

1. 封装好的类库from urllib import request, error from requests import RequestException import lijzMD5 from lijzLog import * import requests import json, re...

2018-03-25 19:02:49

阅读数 214

评论数 0

爬虫Selenium+PhantomJS爬取动态网站图片信息(Python)

from urllib import request, error from requests import RequestException import lijzMD5 from lijzLog import * import requests import json, re, time, ...

2018-03-24 22:07:05

阅读数 387

评论数 0

爬虫Scrapy框架的安装和使用(Python)

Scrapy框架:    好处: 省事,快速搭建一个系统,快速抓取数据。    坏处: 细节不清楚,框架的限制需要考虑,学习成本高,可能隐藏了很多未知的问题。1.  安装Scrapy      安装Scrapy in Ubuntu:               sudo apt-get insta...

2018-03-23 15:03:07

阅读数 99

评论数 0

爬虫requests库简单抓取页面信息功能实现(Python)

import requests import re, json,time,random from requests import RequestException UserAgentList = [ "Mozilla/5.0 (Windows NT 6.1; WOW6...

2018-03-21 15:46:11

阅读数 604

评论数 0

Selenium + PhantomJS爬去动态网站的数据示例(Python)

Selenium一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵;Selenium也可以做类似的事情,但是它是在浏览器中做这样的事情。安装: sudo pip install selenium(pip install selenium)在Python中from se...

2018-03-21 11:22:02

阅读数 72

评论数 0

爬虫Get请求参数匹配得到字典类型格式(Python)

import re if __name__ == '__main__': urls = 'i=d%0A&from=AUTO&to=AUTO&smartresult=dict' pattern = r'&...

2018-03-20 17:40:24

阅读数 552

评论数 0

urllib通过Post请求爬去数据并解析JSON(Python)

1.   封装的请求post函数:def downloadPostPage(url, dictdata, headers, charset='utf-8', reqnum=5): data = bytes(parse.urlencode(dictdata), encoding=charse...

2018-03-20 17:13:13

阅读数 1113

评论数 0

JSON的简单数据解析与转换(Python)

import json jsonDict = {'One':'1', 'Two':'2'} # json encode # dict --> json string # json.dumps jsonDumps = json.dumps(jsonDict) print(...

2018-03-20 14:42:06

阅读数 80

评论数 0

urllib模块的使用(Python3.x)

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开的网址 - ...

2018-03-20 13:31:32

阅读数 77

评论数 0

常用的正则表达式匹配(Python)

 手机号:  r'(13|14|15|18|17)[0-9]{9}' 邮箱:^\w+@\w+\.[^@]+$  网址url: r'^((https|http)?:\/\/)[^\s]+' 中文匹配: r'[\u4e00-\u9fa5]'  身份证号码: r'\d{17}[\d|x]|\d{15}'...

2018-03-19 18:57:50

阅读数 69

评论数 0

爬虫XPath库的使用(Python)

XPath的使用:    bookStore.xml文档内容如下:    <?xml version="1.0" encoding="utf-8" ?> &...

2018-03-19 18:45:55

阅读数 236

评论数 0

BeautifulSoup库中解析器的比较(Python)

1. 安装解析库       Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:$ apt-get install Python-lxml$ easy_install lxml$...

2018-03-19 18:36:46

阅读数 359

评论数 0

爬虫库BeautifulSoup的使用(Python)

1.  安装        sudo pip3 install beautifulsoup42.  导包        from bs4 import BeautifulSoup3.  测试代码from bs4 import BeautifulSoup html_doc = "...

2018-03-19 18:31:05

阅读数 70

评论数 0

简单爬虫函数的封装(Python)

def downloadPage2(url, req_num=10, charset='utf-8', user_agent=None): """ 下载网页信息,user-Agent的设置 处理了500-600的错误 ...

2018-03-19 10:22:01

阅读数 424

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭