自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 python爬虫面试题

shell命令1.怎么查看一个文件第100行数据思路:通过head和tail指令搭配,head指令查看前面多少行,tail指令查看后面多少行,举例:某log日志有很多很多行,我们获取他的第40行的数据,思路就是先用head获取前40行,然后tail获取最后一行,这样我们得到的就是第40行的数据了。cat data.txt | head -100 | tail -1 head -100 da...

2019-11-13 16:58:36 552

原创 python爬虫---豆瓣电影top250

豆瓣电影top250的urlhttps://movie.douban.com/top250每页的url有规律,可以构造url列表本文是找到后页的链接构造完整的url链接的方式今天要爬取的数据有电影的标题电影的年份电影的国家电影的类型电影的评分电影的主题查看源码可以发现页面标签和源码一样,可以直接提取数据# -*- encoding:utf-8 -*-"""@pyt...

2019-11-07 10:07:02 577

原创 python爬取百度美女图片

首先用chrome浏览器打开百度图片官网,抓包发现urlhttps://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=美女&cl=2&lm=-1&ie=utf-8&oe=utf-8&amp...

2019-10-31 11:50:28 1065

原创 1024写一句代码

print('Hello World')

2019-10-24 22:12:18 498

转载 设置守护进程

1.守护进程daemon=Truet = threading.Thread(target=do2, daemon=True)或者t = threading.Thread(target=do2)t.setDaemon(True)

2019-10-22 10:47:23 522

原创 python把字母转为大写,小写,第一个字符大写

1.大小写操作所有大写str.upper()所有小写str.lower()把第一个字母转化为大写字母,其余小写str.capitalize()把每个单词的第一个字母转化为大写,其余小写 str.title()...

2019-10-21 16:35:05 10015

原创 linux命令chmod

1.chmod1.字符法chmod u/g/o/a +/-/= rwx 文件u:user 表示该文件的所有者g:group 表示与该文件的所有者属于同一组( group )者,即用户组o:other 表示其他以外的人a:all 表示这三者皆是r:read 表示可读取w:write 表示可写入x:excute 表示可执行# 文件拥有着添加可执行权限chmod u+x test...

2019-10-21 12:56:47 188

原创 python计算取整和保留小数

1.int()向下取整 内置函数1 n = 3.752 print(int(n))>>> 32.round() 四舍五入 内置函数1 n = 3.752 print(round(n))>>> 43.floor() 向下取整 math模块函数1 import math2 n = 3.753 print(math.floor(n))&gt...

2019-10-18 13:02:06 1672

原创 pyecharts生成词云、柱状图、饼图、热力图、散点图

1.WordCloud生成词云# 数据清洗,去掉无效词data = pd.read_excel(GOODS_STANDARD_EXCEL_PATH)jieba.analyse.set_stop_words(STOP_WORDS_FILE_PATH)# 1、词数统计keywords_count_list = jieba.analyse.textrank(' '.join(data.titl...

2019-10-17 22:46:54 1645 1

转载 jieba统计词频

1.jieba统计词频# -*- coding: UTF-8 -*-import numpy as npimport pandas as pdimport jiebaimport jieba.analyseimport codecs#设置pd的显示长度pd.set_option('max_colwidth',500)#载入数据rows=pd.read_csv('datas1...

2019-10-17 22:36:53 901

原创 机器学习

一、监督学习(输入数据是由输入特征值和目标值所组成)①分类,目标值为离散型1.数据集划分sklearn.model_selection.train_test_split(arrays, *options)x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)2.K-近邻算法sklearn.nei...

2019-10-13 22:29:11 165

原创 特征工程:特征提取、特征预处理、特征选择

一、特征提取1.字典特征提取sklearn.feature_extraction.DictVectorizer(sparse=True,…)dict = DictVectorizer(sparse=False)data = dict.fit_transform([{'city': '北京','temperature':100},{'city': '上海','temperature':60}...

2019-10-13 21:53:57 1662

原创 pandas命令

1.pandas数据结构Series:一维数据(只有行索引),类似字典,如果没有key,则自己创建索引DateFrame:二维数据DateFramepd.DataFrame(data, index=***, columns=***) # 添加行(index)索引,列(columns)索引# 生成一个时间的序列,略过周末非交易日date = pd.date_range('2017-01...

2019-10-13 14:31:04 156

原创 numpy命令

1.np.zeros()np.zeros([3,4])>>>array([[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]])2.np.array()是深copy.copy()是深copynp.asarray()是浅copy3.创建随机数组np.random.rand(num) ...

2019-10-13 12:30:21 306

原创 python面试11

1.解释一下 python 中 pass 语句的作用?占位符,什么也不做;在特别的时候用来保证格式或是语义的完整性2.简述你对 input()函数的理解在 Python3 中,input()获取用户输入,不论用户输入的是什么,获取到的都是字符串类型的。在 Python2 中有 raw_input()和 input(), raw_input()和 Python3 中的 input()作用是一...

2019-10-10 11:03:48 150

原创 python面试10---正则表达式

1.使用正则表达式匹配出百度一下,你就知道中的地址str1 = '<html><h1>百度一下,你就知道</html>'print(re.findall(r"<h1>(.*?)</html>", str1)[0])2.a=“张明 98 分”,用 re.sub,将 98 替换为 100a = "张明 98 分"print(re....

2019-10-10 09:43:05 308

原创 tensor与ndarray相互转换

1.tensor和ndarray相互转换import numpy as npimport tensorflow as tfndarray = np.ones([3, 3])# tf.multiply将ndarrray转换成tensortensor = tf.multiply(ndarray, 42)print(tensor)# numpy操作会自动将tensor转换成numpy数组...

2019-10-09 09:24:26 4627

原创 【详解】windows下安装tensorflow的cpu和gpu版本

一、安装tensorflow的cpu版本pip install tensorflow默认安装的是2.0版本(2019.10.08),安装完成,即可使用!二、安装tensorflow-gpu版本本人显卡GTX1060python版本3.7.3特别注意:需要去查看tensorflow、cuda和cudnn版本支持关系显卡支持型号查询:https://developer.nvidia.c...

2019-10-08 20:36:53 1141 1

原创 python面试9---高级特征

1.函数装饰器有什么作用?请列举说明?装饰器本质上是一个 Python 函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象。它经常用于有切面需求的场景,比如:插入日志、性能测试、事务处理、缓存、权限校验等场景。2.Python 垃圾回收机制?最简单的,Python每个变量上都有一个引用计数器,当引用计数器为0时,自动销毁变量。复杂一些的,例如存...

2019-10-05 10:55:14 176

原创 python面试8---操作类题目

1.Python 交换两个变量的值a, b = b, a2.在读文件操作的时候会使用 read、readline 或者 readlines,简述它们各自的作用read()是读取自定义大小,若不传参数,则读取所有文档所有内容readline是读取一行readlines是读取所有行,返回一个列表,列表中的元素为每行数据3.json 序列化时,可以处理的数据类型有哪些?如何定制支持 dat...

2019-10-03 12:44:42 270

原创 python面试7---综合

1.Python 常用的数据结构的类型及其特性?A:{1:0,2:0,3:0}B:{“a”:0, “b”:0, “c”:0}C: {(1,2):0, (2,3):0}D: {[1,2]:0, [2,3]:0}A,B,C为字典类型,D有问题。字典类型的key为不可变类型数据,且不能重复。2.如何交换字典 {“A”:1,“B”:2}的键和值?print({v: k for k, v in...

2019-10-03 10:56:32 146

原创 python面试6---字典

1.字典操作中 del 和 pop 有什么区别pop()函数会返回删除的值,–> D.pop(key)del()函数直接删除元素,没有返回值 --> del D[key]2.按照字典的内的年龄排序d1 = [ {‘name’:‘alice’, ‘age’:38}, {‘name’:‘bob’, ‘age’:18}, {‘name’:‘Carl’, ‘age’:28},...

2019-10-03 10:11:37 312

原创 python面试题5---列表

1.已知 AList = [1,2,3,1,2],对 AList 列表元素去重,写出具体过程list(set(AList))2.如何实现 “1,2,3” 变成 [“1”,“2”,“3”]“1,2,3” .split(’,’)3…给定两个 list,A 和 B,找出相同元素和不同元素A = ['a', 'b', 'c']B = ['a', 'd', 'c']print(set(A) &...

2019-10-02 10:08:14 406

原创 python面试4---字符串

1.列举 Python 中的基本数据类型?int,bool,str,list,tuple,dict,set2.如何区别可变数据类型和不可变数据类型1.可变数据类型:在id不变的情况下,value可改变(列表和字典是可变类型,但是字典中的key值必须是不可变类型)2.不可变数据类型:value改变,id也跟着改变。(数字,字符串,布尔类型,都是不可类型)3.将"hello world"转换...

2019-10-02 09:32:44 278

原创 python面试题3---编码规范

1.什么是PEP8?《Python Enhancement Proposal #8》 (8号python增强提案)又叫PEP8,他针对的python代码格式而编订的风格指南。https://blog.csdn.net/weixin_39363245/article/details/887631112.了解 Python 之禅么?我们在命令行中输入 ==import this ==即可获得 ...

2019-10-01 09:49:01 349

原创 matplotlib绘图命令折线图plot,柱状图bar,直方图hist,饼图pie,散点图scatter

1.绘制折线图—单个坐标系import matplotlib.pyplot as pltimport randomplt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号plt.figure(figsize=(20, 8), d...

2019-10-01 00:02:53 1296

原创 爬虫程序定时启动crontab

注意:第一次进入crontab,选择vim编辑器如果不小心选择了其他编辑器,执行以下代码即可export EDITOR="/usr/bin/vim"1.添加***.sh文件 cd `dirname $0` || exit 1 python ./main.py >> run.log 2>&12.添加可执行权限sudo chmod +x myspder.sh...

2019-09-30 16:19:01 193

原创 进程和线程区别以及各自用法

1.定义的不同进程进程是系统进行资源分配和调度的一个独立单位.线程线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源2.区别1.一个程序至少有一个进程,一个进程至少有一个线程...

2019-09-30 13:31:25 134

原创 python面试题2---语言特性

1.谈谈对 Python 和其他语言的区别Python是一门语法简洁优美,功能强大无比,应用领域非常广泛,具有强大完备的第三方库的一门弱类型的可移植,可扩展,可嵌入的解释型编程语言1.语言特点:简洁、优雅,省略了各种大括号和分号,还有一些关键字,类型说明;语言类型:解释型语言,运行的时候是一行一行的解释,并运行,所以调试代码很方便,开发效率很高;2.第三方库:python是开源的,并且py...

2019-09-30 10:58:43 167

原创 selenium爬虫加载网页,查看请求信息,定位元素命令,selenium爬虫使用代理

1.selenium基本命令加载网页from selenium import webdriver driver = webdriver.PhantomJS(“c:…/pantomjs.exe”)driver.get("http://www.baidu.com/")driver.save_screenshot("长城.png") # 保存截屏图片查看请求信息driver.page_...

2019-09-30 00:32:07 901

原创 python爬虫中图片上传到阿里云,数据写入mysql

1.爬取到的数据上传到mysql数据库>>>mysql语法可以参照下面sql = "select count(*) from categoryMovieTable where title='{}'".format(item.get('title'))sql1 = "insert into categoryMovieTable(category, url, title, so...

2019-09-28 14:36:22 431

原创 python-阿里云oss怎么上传图片或者文件,怎么取得链接

python上传文件到阿里云oss步骤1.开通阿里云oss服务2.安装包pip install oss23.可以查看官方文档https://help.aliyun.com/document_detail/32026.html?spm=a2c4g.11186623.2.10.551c15cdpfUSev#concept-32026-zh4.例子import oss2access_ke...

2019-09-27 10:51:41 3783 3

原创 xpath命令following-sibling用法

/a/following-sibling::* # a同级下所有标签/a/following-sibling::*[1] # a同级下第一个标签/a/following-sibling::ul[1] # a同级下第一个ul标签preceding-sibling # 选取当前节点之前的所有同级节点...

2019-09-26 18:13:30 6989

原创 mysql与python交互

from pymysql import *def main(): # 创建Connection连接 conn = connect(host='localhost',port=3306,database='jing_dong',user='root',password='mysql',charset='utf8') # 获得Cursor对象 cs1 = conn....

2019-09-24 23:33:01 148

原创 BeautifulSoup笔记

1.安装pip install BeautifulSoup42.find和find_allfind_all() # 所有符合结果 <class 'bs4.element.ResultSet'>find() # 符合条件的第一个 <class 'bs4.element.Tag'>.get_text() # 获取文本内容>tag.find('span')...

2019-09-24 22:28:38 155

原创 python中os模块

import osos.path.abspath(__file__) # 获取当前文件的路径os.path.dirname(path) # path路径的上一级os.path.exists(path) # 文件或者文件夹是否存在,bool类型os.mkdir(path) # 创建文件夹os.path.join(path1, path2) # 将多个路径组合返回列子1:创建目...

2019-09-23 23:59:53 130

原创 python匿名函数lambda、map、filter、zip

1.匿名函数lambda x: x * x等价于def f(x): return x * x①冒号:前面的是函数的变量,后面的时候函数体②匿名函数有个限制,就是只能有一个表达式,不用写return,返回值就是该表达式的结果2.map(function, iterable, …),会根据提供的函数对指定序列做映射map(lambda x: x**2, [1, 2, 3, 4,...

2019-09-23 23:18:11 172

原创 python中hashlib加密变量,md5,sha1

1.hashlib中md5,MD5是最常见的摘要算法,速度很快,生成结果是固定的128 bit字节,通常用一个32位的16进制字符串表示import hashlibmd5 = hashlib.md5()md5.update(b'hello world') # 需要传入字节类型数据print(md5.hexdigest()) # 5eb63bbbe01eeed093cb22bb8f5a...

2019-09-23 22:50:20 610

原创 python面试题1

1.列出 5 个常用 Python 标准库?os:提供了不少与操作系统相关联的函数sys:通常用于命令行参数 sys.argv[0]re:正则匹配math:数学运算datetime:处理日期时间time:时间random:随机queue:队列pymysql:连接数据库json:json函数处理json字符串loggin:日志urllib、urllib22.Python...

2019-09-23 10:10:46 206

原创 python逐行读取文件,readline,readlines,for,read

参照:https://blog.csdn.net/enweitech/article/details/787908881.readline,优点:节省内存,不需要一次性把文件内容放入内存中缺点:速度相对较慢f = open("ip.txt", "r", encoding="utf-8")ret = f.readline()while ret: print(ret, end='')...

2019-09-22 16:34:10 8640

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除