自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (2)
  • 收藏
  • 关注

原创 bs4 page_text中文出现乱码问题

对response拆开来写:对其进行编码成‘gbk’main_url = ‘https://www.du00.net/read/131/131890/index.html’response = requests.get(url = main_url,headers = headers)response.encoding = 'gbk'page_text = response.textfp = open(’./汉乡.txt’,‘w’,encoding=‘utf-8’)#数据解析soup =

2021-07-15 22:03:25 580

原创 No module named ‘protego‘

在使用scrapy框架时执行工程:scrapy crawl spiderName得到结果:No module named 'protego'在终端尝试该行代码:pip install scrapy --default-timeout=10000

2021-07-04 22:51:53 401

原创 ProxyError: Conda cannot proceed due to an error in your p roxy configuration. Check for typos and o

下载该模块时,出现以下问题:ProxyError: Conda cannot proceed due to an error in your proxy configuration.Check for typos and other configuration errors in any '.netrc' file in your home directory,any environment variables ending in '_PROXY', and any other system-w

2021-07-03 22:11:28 686 2

原创 selenium.common.exceptions.JavascriptException: Message: javascript error: windows is not defined 问题

执行代码:bro.execute_script('windows.scrollTo(0,document.body.scrollHeight)')sleep(2)执行结果:selenium.common.exceptions.JavascriptException: Message: javascript error: windows is not defined (Session info: chrome=91.0.4472.124)注意!!!windows 不要加s自动填充的时候注

2021-06-28 15:58:53 3130 1

原创 ‘list‘ object has no attribute ‘click‘问题

执行该代码:执行结果:在输入find_element(s)_by_css_selector时要注意有没有多一个s!!!!!在填写时它会自动填充!!!注意注意!!!正确书写形式:

2021-06-28 15:53:43 593

原创 python之二分法

函数二分法面向过程编程思想匿名函数原理应用迭代的内容 比较的值模块什么是模块为何要用模块如何用模块foo二分法算法:高效解决问题的办法需求:有一个从小到大顺序排列的数字列表,需要从该数字列表中要找我们想要的那个数字,如何更高效nums = [-3,4,7,10,13,21,43,77,89]find_num = 13#方案一:整体遍历效率太低for num in nums: if num == find_num: print('find it') break#方案二:

2021-04-25 15:25:59 415 1

原创 python之叠加装饰器

叠加装饰器叠加多个装饰器加载顺序运行分析生成器的高级玩法yield挂起函数生成式列表生成式字典生成式集合生成式生成器表达式函数的递归调用叠加多个装饰器加载顺序一、叠加多个装饰器的加载(了解)加载顺序自下而上#@deco1 #index = deco1(deco2.wrapper的内存地址)#@deco2 #deco2.wrapper的内存地址=deco2(deco3.wrapper的内存地址)#@deco3 #deco3.wrapper的内存地址=deco3(index)def deco1

2021-04-22 23:00:35 284

原创 python之有参装饰器

装饰器装饰器补充有参装饰器迭代器生成器装饰器补充#偷梁换柱:即将原函数名指向的内存地址偷梁换柱成了wrapper函数,所以应该将wrapper做的跟原函数一样才行from functools import wrapsdef outer(func): @wraps(func) def wrapper(*args,**kwargs): res = func(*args,**kwargs) #res=index(1,2) return res #将原函数的属性赋值给wrapper函数 #函

2021-04-18 15:12:01 196 1

原创 爬虫之模拟登陆

模拟登陆模拟登陆笔记实战模拟登陆人人网附件超级鹰代码模拟登陆笔记1.模拟登陆:爬取基于某些用户的用户信息。2.需求:对人人网进行模拟登陆。- ①点击登陆按钮之后会发起一个post请求- ②post请求中会携带登陆之前录入的相关的登陆信息(用户名,密码,验证码…)- ③验证码:每次请求都会动态变化3.需求:爬取当前用户的相关的用户信息(个人主页中显示的用户信息)4.http/https协议特性:无状态。5.没有请求到对应页面数据的原因:发起的第二次基于个人主页页面请求的时候,服务器端并不知

2021-04-17 16:44:21 339

原创 爬虫之验证码识别

一、验证码识别1.反爬机制:验证码、识别验证码图片中的数据,用于模拟登陆操作2.识别验证码的操作:1)人工肉眼识别(不推荐)2)第三方自动识别(推荐)- 超级鹰二、实战:识别超级鹰登陆页面中的验证码-超级鹰所提供的的代码-在个人库中将其定义为yh#!/usr/bin/env python coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __in

2021-04-12 21:56:35 537

原创 爬虫之数据解析

目录复制数据解析数据解析笔记实战爬取图片正则解析bs4解析案例二级目录二级目录二级目录二级目录数据解析笔记聚类爬虫:爬取页面中指定的页面内容- 编码流程:- 指定url- 发起请求- 获取响应数据- 数据解析- 持久化存储数据解析分类:正则bs4xpath(***)数据解析原理概述:- 解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储- 1.进行指定标签的定位- 2.标签或者标签对应的属性中存储的数据数值进行提取(解析)bs4进行数据解析:- 数据解析的原理

2021-04-11 20:03:08 250 1

原创 爬虫之requests模块

requests模块实战实战一:爬取搜狗首页页面的数据实战二:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)实战三:破解百度翻译实战四:爬取豆瓣电影分类排行榜实战五:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据实战实战一:爬取搜狗首页页面的数据import requests#step1:指定urlurl = 'https://www.sogou.com/'#step2:发起请求#get方法会返回一个响应对象response = requests.get(url

2021-04-09 16:25:45 343 6

原创 python之无参装饰器

在讲装饰器之前,要知道以下知识点一、储备知识点1.*args,**kwargsdef index(x,y): print(x,y)def wrapper(*args,**kwargs): index(*args,**kwargs) #index(y = 222,x = 111)wrapper(y = 222, x = 111)2.名称空间与作用域:名称空间的‘嵌套’关系是在函数定义阶段,即检测语法的时候确定的。3.函数对象可以把函数当做参数传入可以把行数当做返回值返回def in

2021-03-28 17:36:28 1173 2

原创 python之闭包函数

一、大前提闭包函数 = 名称空间与作用域+函数嵌套+函数对象核心点:名字的查找关系是以函数定义阶段为准二、什么是闭包函数‘闭’函数指的是该函数是内嵌函数‘包’函数指的是该函数包含对外层作用域名称的引用(不是对全局作用域)闭包函数之名称空间与作用域的应用+函数嵌套def f1(): def f2(): pass #闭包函数之名称空间与作用域的应用+函数嵌套def f1(): x = 3333 def f2(): print(x) f2()x = 111def bar(

2021-03-28 15:58:27 123 1

原创 python之函数嵌套

函数嵌套1.函数的嵌套调用:在调用一个函数的过程中又调用其他函数。def max2(x,y): if x > y: return x else: return ydef max4(a,b,c,d): #第一步:比较a和b得到res1 res1 = max2(a,b) #第二步:比较res1,c得到res2 res2 = max(res1,c) #第三步:比较res2,d得到res3 res3 = max2(res2,d) return res3res = max4

2021-03-28 15:23:57 264

原创 python之函数对象

函数1.函数对象函数对象的实质1.1赋值1.2 传参数1.3返回值1.3容器类型1.3.1应用1.函数对象函数对象的实质函数对象的实质在于,可以把函数当成变量去用func = 内存地址def func(): print('from func')1.1赋值函数对象可以赋值def func(): print('from func')f = funcprint(f,func)f()1.2 传参数可以把函数当做参数传给另外一个函数def func(): print('from

2021-03-24 22:16:23 767 1

原创 python之获得文本语料和词汇资源(3)

一级目录二级目录三级目录2.2条件频率分布条件频率分布是频率分布的集合,每个频率分布有一个不同的条件。这个条件通常是文本的类别。当预料分为几类时,可以计算每个类别独立的领率分布。就可以研究类别之间的系统性差异。2.2.1按照文本计数词汇import nltkfrom nltk.corpus import browncfd = nltk.ConditionalFreqDist( (genre,word) for genre in brown.categories() f

2021-03-23 15:09:36 391 2

原创 python之获得文本语料和词汇资源(2)

2.1 获取文本语料库2.1.1古腾堡语料库import nltkprint(nltk.corpus.gutenberg.fileids())#简·奥斯丁的《艾玛》–emma,找出它包含多少词emma = nltk.corpus.gutenberg.words('austen-emma.txt')print(len(emma))#‘austen-emma.txt’ 该文本中surprize的上下文emma = nltk.Text(nltk.corpus.gutenberg.words('

2021-03-21 22:42:40 427

原创 python之名称空间习题

作业要求:下述所有代码画图以及分析代码执行流程1、以定义阶段为准,先画出名称空间的嵌套关系图2、然后找到调用函数的位置,写出函数调用时代码的执行过程,涉及到名字的查找时,参照1中画好的嵌套图,标明查找顺序,一层一层直到找到位置=题目一= input=333 def func(): input=444 func() print(input)=题目二= def func(): print(x) x=111 func()=题目三=x=1 def func(

2021-03-18 13:51:40 118 1

原创 python之函数习题

1、写函数,,用户传入修改的文件名,与要修改的内容,执行函数,完成批了修改操作def func(filename,old,new): import os with open('filename',mode='rt',encoding='utf-8') as f1,\ open('.filename.swap',mode='wt',encoding='utf-8') as f2: for line in f1: if old in li

2021-03-18 11:12:22 183

原创 NLP之获得文本语料和词汇内容(1)

2.1获取文本语料库基本语料库函数的说明

2021-03-18 09:32:36 79

原创 NLP之练习题(1)

from nltk.book import*print(12/(4+1))print(26**100)print([‘Monty’,‘Python’]20)print(3sent1)print(len(text2))print(sorted(set(text2)))print(text2.dispersion_plot([‘Elinor’,‘Marianne’,‘Edward’,‘Willoughby’]))7 .print(text5.collocatio

2021-03-17 19:38:16 453 1

原创 python之名称空间

一、名称空间namespaces:存放名字的空间,是对栈区的划分,有了名称之后,就可以在栈区中存放相同的名字,详细的,名称空间分为三种。1.1 内置名称空间存放的名字:存放的是python解释器内内置的名字存活周期:python解释器启动则产生。python解释器关闭则销毁。'''>>> print<built-in function print>'''1.2 全局名称空间存放的名字:只要不是函数内定义,也不是内置的,剩下的都是全局孔家名称。存活周期:py

2021-03-17 19:32:58 382 1

原创 NLP之语言处理与Python(2)

1.4回到python:决策与控制控制:程序设计的一个关键特征是让机器能够按照我们的医院决策,在遇到特定条件时执行特定命令,或者对文本数据源从头到尾不断循环指导条件满足。这一特征被称为控制。from nltk.book import*关系运算print(sent7)print([w for w in sent7 if len(w)>7])print([w for w in sent7 if len(w)>=7])print([w for w in sent7 if len(w)!

2021-03-15 22:26:36 121

原创 NLP之语言处理与Python(1)

1.1语言计算:文本和词汇NLTK入门第一步是在python提示符后输入一个特殊的命令,告诉解释器去加载一些我们要用的文本:from nltk.book import* # 以下所有操作均在此操作下进行找到文本print(text1) #这里只能看到该文件的标题print(text2)print(text3)print(text4)...搜索文本#.concordance() 找特定词以及上下文#搜索text1文本中monstrous出现的情况,包括它的上下文print(tex

2021-03-15 21:05:56 194

原创 python之函数参数的使用

函数参数的使用一、形参与实参介绍1.形参:在定义函数阶段定义的参数称之为形式参数。简称形参,相当于变量名def func(x,y): print(x,y)2.实参:在调用函数阶段传入的值称之为实际参数,简称实参,相当于变量。func(1,2)形参与实参的关系:①在调用阶段,实参(变量值)会绑定给形参(变量名)②这种绑定关系只能在函数体内使用③实参与形参的绑定关系在函数调用时生效,函数调用结束后解除绑定关系实参是传入的值,值可以是??形式形式一:func(1,2)形式二:

2021-03-14 09:15:59 288 1

转载 ntlk入门函数

#from nltk.book import *; #导入NTLK包中book中的所有的例子模型#print(text1); #输出book中text1的相关信息#text1.concordance(“monstrous”); #在text1中找到特定单词并显示出上下文#print(“monstrous in text1 similar to”);#text1.similar(“monstrous”); #在text1找到用法、意义与该单词相似的词#print();#print

2021-03-13 15:23:22 161

原创 python之函数的基本使用

‘’’1.什么是函数?函数就相当于具备某一功能的工具函数的使用必须遵循一个原则:先定义后调用2.为何要用函数:组织结构不清晰,可读性差;代码冗余;可维护性、扩展性差3.如何用函数先定义:三种定义方式后调用:三种调用方式返回值:三种返回值的形式‘’’1.先定义定义的语法def 函数名(参数1,参数2,...): '''文档描述''' 函数体 return 值形式一:无参函数def func(): #x #print( print('哈哈哈哈哈') print('

2021-03-12 10:26:30 196

原创 python之文件修改的两种方式

c.txt的内容alex is sbsb is alexegon is hahahahh方式一:文本编辑器采用的方式优点:省硬盘空间with open('c.txt',modse='rt',encoding='utf-8') as f: res = f.read() data = res.replace('alex','dsb') print(date)with open ('c.txt',mode='wt',encoding= 'utf-8') as f1: f1.write(da

2021-03-12 09:04:32 121

原创 python之seek的使用

import timewith open ('access.log',mode='rb') as f:#1将指针跳到文件末尾#f.read() #错误做法 f.seek(0,2) while True: line = f.readline() if len(line) == 0: time.sleep(0.3) else: print(line.decode('utf-8')下面往acess.log里面输入日志,上面可以动态监测到日志的一个变化with open('a

2021-03-12 08:53:42 272

原创 python之文件操作2

1.x模式(控制文件操作的模式)–>了解x模式,只写模式[不可读;不存在则创建,存在则报错]with open(r'c.txt',mode='x',encoding='utf-8') as f: f.read() #报错with open(r'x.txt',mode='x',encoding='utf-8') as f: f.write('哈哈哈哈哈哈') #指针将在头部with open (r'd.txt',mode = 'x',encoding='utf-8') as f: f.

2021-03-11 13:43:06 80

原创 文件操作练习2

2.1:编写用户登录接口1、输入账号密码完成验证,验证通过后输出"登录成功"2、可以登录不同的用户3、同一账号输错三次锁定,(提示:锁定的用户存入文件中,这样才能保证程序关闭后,该用户仍然被锁定)count =1while count <= 3: inp_username = input('your name>>:').strip() inp_password = input('your password>>:').strip() with o

2021-03-10 20:27:12 135

原创 文件操作小练习1

1、编写文件copy工具 with open('ggg.txt', mode='rt', encoding='utf-8') as f1, \ open('ttt.txt', mode='wt', encoding='utf-8') as f2: res = f1.read() print(f2.write(res)) src_file = input('源文件路径>>:').strip() dst_file = input('源文件路径>&g

2021-03-09 21:03:12 111 1

原创 python之文件操作模式详解

以t模式为基础进行内存操作r(默认的操作模式):只读模式,当文件不存在时报错,当文件存在时文件指针跳到最开始位置with open ('ccc.txt',mode='rt',encoding='utf-8') as f: print('第一次读'.center(50,'*')) res = f.read() #把所有内容从硬盘读入内存 print(res)with open ('ccc.txt',mode='rt',encoding='utf-8') as f: print('第二次读'.c

2021-03-08 22:32:56 514 2

原创 python之指定字符编码

控制文本读写内容的模式t文本b二进制 / bytes控制文件读写操作的模式r只读模式w只写模式a只追加写模式+:r + w + a +#没有指定encoding参数操作系统会使用自己默认的编码#linux系统默认utf-8#windows系统默认为gbkwith open('ccc.txt',mode='rt',**encoding='utf-8'**) as f: res = f.read() #t模式会将f.read()独处的结果解码成unicode print(res,typ

2021-03-08 21:53:39 447 1

原创 python之with上下文管理

#文件对象又称为文件句柄with open(‘a.txt’,mode = ‘rt’) as f1,open(‘b.txt’,mode=‘rt’) as f2:res1 = f1.read()res2 = f2.read()print(res1)print(res2)f1.close()f2.close()

2021-03-08 21:46:16 64

原创 python之文件操作流程

1.打开文件open()注:windows路径分隔符问题open('C:\a\b\d.txt')解决方案一:(推荐)open(r'C:\a\b\d.txt')解决方案二:open('C:/a/b/d.txt')f = open(r'C:\a\b\d.txt,mode = 'rt')print(f)#f的值是一种变量,占用的是应用程序的内存空间2.操作文件:读/写,应用程序对文件的读写请求都是在向操作系统发送系统调用,然后由操作系统控制硬盘把数据读入内存或者写入硬盘res = f.

2021-03-08 21:40:47 127 1

原创 文件与文件模式介绍

1.什么是文件?文件是操作系统提供给用户/应用程序操作硬盘的一个虚拟的接口/功能。用户/应用程序操作系统(文件)计算机硬件(硬盘)2.为何要用文件?①用户/应用程序可以通过文件将数据永久保存到硬盘中。即操作文件就是操作硬盘。②用户/应用程序直接操作的是文件,对文件进行所有的操作,都是在向操作系统发送调用,然后在由操作将其转换成具体的硬盘操作。3.如何用文件: open()①控制文本读写内容的模式:r和b强调:t和b不能单独使用,必须跟r/w/a连用t文本(默认模式)(1)读写的都是以

2021-03-08 21:30:52 217

原创 集合练习题

一.关系运算  有如下两个集合,pythons是报名python课程的学员名字集合,linuxs是报名linux课程的学员名字集合  pythons={‘alex’,‘egon’,‘yuanhao’,‘wupeiqi’,‘gangdan’,‘biubiu’}  linuxs={‘wupeiqi’,‘oldboy’,‘gangdan’}求出即报名python又报名linux课程的学员名字集合print(pythons & linuxs)求出所有报名的学生名字集合print(py

2021-03-06 22:38:03 210

原创 python之集合

1.作用1.1 关系运算将两个列表中相同的人名取出来friends1 = ['zero','kevin','jason','egon']friends2 = ['jy','ricky','jason','egon']l = []for x in friends1: if x in friends2: l.append(x)print(l)用集合将很容易实现上述内容,下文将继续讲解。2.定义在{}内用逗号分隔开多个元素,多个元素元素满足以下三个条件:(1)集合内元素必须是不可变类

2021-03-05 19:59:08 301

大学生六级英语真题及答案.zip

大学生六级英语真题及答案.zip

2021-04-07

白菜本体 修改.owl

该本体是针对蔬菜的栽培管理进行的,由于全程是手工构建,因此可能会存在一些问题,因此该本体仅供参考。

2021-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除