yangbenhao-CSDN博客

原创用scrapy框架爬取拉勾网的全站招聘信息

## 文章开头做个说明，拉勾网的反爬机制为利用scrapy框架的cookie来识别你的身份，所以要在settings里面的COOKIES_ENABLED = False的注释打开,然后再全局里面加上拉勾网自己的cookie信息,然后程序就能运行起来了DEFAULT_REQUEST_HEADERS = { ‘Accept’: ‘text/html,application/xhtml+...

2018-09-13 20:03:48 2329

原创用scrapy框架爬取微博所有人的微博内容的

import scrapy import json import re import datetime import time from w3lib.html import remove_tags import math from my_project.items import WeiboItem class WeiboSpider(scrapy.Spider): nam...

2018-09-13 19:57:41 1385

原创解决用anaconda中安装basemap过程中遇到的 Microsoft Visual C++ 14.0 is required和Command "python setup.py egg_info"

首先要先去https://www.lfd.uci.edu/~gohlke/pythonlibs/下载相对应的包,进链接之后直接ctrl+f搜索basemap然后根据自己python环境的版本信息(27，32，34代表着python2.7,3.2,3.4版本，依次类推),32和64指的是你安装python的时候选择的信息,直接打开jupyter qtconsole最上面会提示你的版本信息,...

2018-09-13 19:54:05 1530

原创获取代理ip的类

import requests#这是一个用来获取并更新代理ip的类class GetProxy(object): #初始化就拥有一个代理ip和requsets里面需要的proxy def __init__(self): self.proxy_str = get_ip_string() self.proxy = { 'htt...

2018-08-23 22:05:35 327

原创用代理的方式爬取boss直聘的信息

import requestsfrom bs4 import BeautifulSoupfrom get_proxy import GetProxyfrom urllib import parsefrom day03.pymysql_text import Mysql_text#请求头信息，放到全局变量方便使用headers = { 'User-Agent': 'Mozilla...

2018-08-23 22:03:53 836

原创一个简单的用chromedrive实现自动登录并且破解登录的验证码

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64#操作浏览器def getheaders(): driver = webdriver.Chrome() #这是要访问的网站 url = 'https://accounts.douba...

2018-08-22 09:10:31 3962

原创用多进程爬取西刺代理能用的proxy

import requestsfrom lxml import etreeimport time# 424.13342022895813import multiprocessingfrom multiprocessing import Queue,Pool#定义一个获取所有的代理ip的函数def get_all_proxy(queue): url = 'http://ww...

2018-08-21 22:30:37 718

原创浅谈进程和线程的个人理解

进程和线程首先什么是进程？进程是操作系统动态执行的基本单元，进程就可以说是一段程序的执行过程，当我们有很多程序同时执行时，就有了一种类似于排队的模式，就如说我们去银行柜台取钱，为了同时进行，我们可以规定让每个人一次只能取500，取完之后就下一个人取，如此循环，先取完就等同于程序执行完了，然后慢的就继续刚刚的排队。线程又是什么呢。线程是操作系统动态执行的最小单元，为什么要引入线程。因为比如...

2018-08-20 22:57:37 6608

原创爬妹子图的爬虫小程序

import requestsimport osfrom lxml import etreefrom urllib import requestimport random#定义一个函数def meizitu(url): headers = { 'Cookie' : 'UM_distinctid=1654601b2fc0-05766907b723fb-376641...

2018-08-19 21:33:28 1412

原创一个简单的爬取一个电影网的磁力链接

import requestsfrom lxml import etreefrom urllib import parseimport re#定义一个函数def ygdy(baseurl): headers ={ 'Cookie' : 'cscpvcouplet4298_fidx=1; cscpvrich5041_fidx=1', 'Refer...

2018-08-19 21:28:32 6610

原创一个简单的恋家的信息爬取

import requestsfrom lxml import etreefrom day03.pymysql_text import Mysql_text#封装一个函数def lainjia(url): response = requests.get(url) # with open('lianjia.html','wb')as f: # f.writ...

2018-08-17 16:27:57 402

原创今日头条的街拍图片的简单自动爬取

import requestsimport re,osimport jsonfrom urllib import request#定义一个函数def tout(url): #定义头部信息 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...

2018-08-16 23:02:04 557

原创封装了一个函数用来实现全自动爬取雪球网的数据

import requestsimport jsonfrom pymysql_text import Mysql_text# url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&amp;max_id=-1&amp;count=10&amp;category=111'# url ...

2018-08-15 23:20:15 1520 2

原创一个简单的进行数据库操作的类，调用内部sqlzz函数并加入sql语句即可

import pymysql#简单封装一个可以执行sql语句的类class Mysql_text(object): #定义一个初始化函数用来打开数据库连接和创建游标对象 def __init__(self): self.db = pymysql.connect('localhost','root','123456','py11') self.c...

2018-08-15 23:12:52 606

原创用代码实现通过人人网的登录

from day01.fengzhuang3 import post,getimport jsonfrom urllib import request,parse#保存cookiefrom http import cookiejar#通过对象保存cookiecookie_object = cookiejar.CookieJar()#handler 对应一个操作handler = ...

2018-08-14 21:38:01 1264

原创用cookie来通过一个简单的登录验证的爬虫方法

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorfrom http import cookiejar#定义一个类用来实现cookie的存储class Cookieset(object): def __init__(self): #这里类似于创建一个容易用来存放你...

2018-08-14 21:28:25 1834

原创 session 和 cookie 的小总结

session 与 cookie首先，session是什么？当我们访问服务器的时候，服务器会生成一个session与sessionid，这个sessionid是session的唯一标识，当我们再次访问这个服务器的时候，服务器会将这次的sessionid与之前保存的sessionid进行比对，找到属于你自己的唯一sessionid而cookie跟session一样是用于身份验证的，当你用浏览...

2018-08-13 22:39:53 236

原创爬虫中requests方法封装post和get原理

from urllib import request,parsefrom urllib.error import HTTPError,URLError#从下面的urlrequest详细封装了post方法函数def post(url,form=None,headers=None): return urlrequests(url,form,headers)#从下面的urlrequ...

2018-08-13 21:40:40 1100

yangbenhao的博客