python 入门
tsing_9521
这个作者很懒,什么都没留下…
展开
-
python字符串(str)的主要方法二()
str.isalpha(): 判断是否为字母,输出 true/falsetest=teststr.isalpha()print(test)输出:Truestr.isdigit():判断是否为数字,输出 true/falsetest=teststr.isdigit()print(test)输出:Falsestr.isnumeric(): 判断是否为数字,包括特殊字符,如...原创 2019-01-23 18:41:40 · 378 阅读 · 0 评论 -
pandas read_csv 主要参数详解
用途:读取CSV(逗号分割)文件到DataFrame,也支持文件的部分导入和选择迭代语法:pandas.read_csv(filepath_or_buffer, sep=’, ‘, delimiter=None, header=‘infer’, names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mang...原创 2019-03-04 16:15:07 · 894 阅读 · 1 评论 -
pandas数据清洗与计算(二)
dataframe.duplicated(subset=None,keep=‘first’)函数检查是否是重复行,返回布尔值:subset=None:str,传入列名/列名列表,可检查指定列是否存在重复值keep: {‘first’, ‘last’, False}, default ‘first’keep=first: 当出现重复行时,第一次出现的数据不算重复(false)keep=l...原创 2019-03-06 19:42:31 · 282 阅读 · 0 评论 -
pandas数据清理和计算(一)
pandas数据清理和计算1. dataframe.merge:根据一个或多个键将不同dataframe的列连接起来语法:DataFrame.merge(left,right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes...原创 2019-03-06 14:18:49 · 476 阅读 · 0 评论 -
Python匿名函数/lambda
关键字:lambdafunc=lambda x: 简单逻辑实例:单个参数:func=lambda x: x+1print(func(10))输出:11多个参数:func=lambda x,y,z:(x+1,y+1,z+1)print(func(1,2,3))输出:(2, 3, 4)匿名函数+逻辑判断func=lambda x: x+1 if x>2 else ...原创 2019-02-27 14:14:09 · 154 阅读 · 0 评论 -
python 递归函数/尾递归/递归溢栈
定义:递归函数就是在函数内部调用自己递归需要一个结束条件:例如 if…… return基本结构:def func():…return func示例:叠乘计算:使用普通函数:def func(n): a=1 for i in range(2,n+1): a*=i return aprint(func(5))输出:12...原创 2019-02-27 13:40:40 · 839 阅读 · 0 评论 -
python global函数/全局变量/局部变量
局部变量只能在子程序可调用,不可跨程序调用def fun(): a = 10 print(a)def fun1(): b=20 c=a+b print(c)print('调用函数fun')fun()print('调用函数fun1')fun1()输出:调用函数fun10调用函数fun1Traceback (most recent...原创 2019-02-27 11:29:19 · 693 阅读 · 1 评论 -
python 字典及其主要方法
字典即键值对:结构:dict={‘keyq’:‘value1’,‘key2’:‘value2’}列表,字典,布尔值不能作为字典的key元组能作为字典的key字典是无序的从字典中取值:方法1:value=dict.get(‘key’)方法1:value=dict.get(‘key’)dic={'name':'lily','age':20,'hobbies':['唱歌','跳...原创 2019-02-26 22:36:55 · 140 阅读 · 0 评论 -
python 集合的运算/set函数/交集/并集/补集
去重函数:set(): 去重,但会改变顺序list1=["d","w","f","e","d"] #列表li1=set(list1)print(li1)输出:{'d', 'f', 'e', 'w'} #输出集合求两个列表的交集:set.intersection(set1, set2 … etc)# intersection作用的事set对象list1=["d",&原创 2019-02-26 22:17:37 · 2660 阅读 · 0 评论 -
pandas 的分组与聚合运算/groupby/transform/apply/agg
dataframe.groupby():用途:对一个dataframe或series进行分组计算操作基本语法: DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)参数释义:by : 计算方式by=函数:对df/s...原创 2019-03-08 09:38:49 · 3866 阅读 · 0 评论 -
爬虫项目3
from urllib import requestfrom urllib.parse import urlencodeimport requestsimport refrom bs4 import BeautifulSoupimport csvproxy={'http':'210.22.176.146'}proxy_support=request.ProxyHandler(pro...原创 2019-03-12 11:45:45 · 520 阅读 · 0 评论 -
Python 利用nltk,jieba库统计词频并导入csv文件
利用Python的nltk模块进行词频统计:示例的negreview.txt 链接见:链接:https://pan.baidu.com/s/10XJiJtzjhVauGJ8vtyxDIQ提取码:g65t这是一段女装差评文本,我们需要统计词频并写入csv文件:import nltkimport jiebafrom nltk.corpus import stopwordsimport ...原创 2019-04-03 11:38:17 · 2588 阅读 · 0 评论 -
利用pandas对womenclothing 的列进行处理与可视化
import pandas as pdimport matplotlib.pyplot as pltfrom pylab import *#设置显示行数和列数pd.set_option('display.max_rows',25000)pd.set_option('display.max_columns',30)#data=pd.read_csv('wc.csv')#查看数据基本...原创 2019-04-09 10:10:52 · 142 阅读 · 0 评论 -
利用jieba库进行中文文本分析词频统计 并存储到字典里
利用jieba库进行中文文本分析 并存储到字典里:import jiebawords=jieba.lcut(''' 我与父亲不相见已二年余了,我最不能忘记的是他的背影。那年冬天,祖母死了,父亲的差使也交卸了,正是祸不单行的日子,我从北京到徐州,打算跟着父亲奔丧回家。到徐州见着父亲,看见满院狼藉的东西,又想起祖母,不禁簌簌地流下眼泪。父亲说,“事已如此,不必难过,好在天无绝人之路!” 回家变...原创 2019-04-01 16:34:36 · 2556 阅读 · 0 评论 -
Python3 绘制简单的散点图
import pandas as pdimport matplotlib.pyplot as plt#设置显示的行列数pd.set_option('display.max_rows',25000)pd.set_option('display.max_columns',30)#读取数据data=pd.read_csv('wc0329.csv')#利用groupby聚合,并排序...原创 2019-04-01 14:14:35 · 1077 阅读 · 0 评论 -
mysql和Python3 连接 pymysql 模块
安装模块:pip install pymysqlimport pymysqlconn=pymysql.connect(host='127.0.0.1',port=3306, user='root', passwd='12345qq',db='project') #建立连接 host:'127.0.0.1,不用联网也可访问数据库 port:2206 user:登录mysql的用户名,...原创 2019-04-01 11:30:00 · 285 阅读 · 0 评论 -
python 词云 wordcloud
试了一下在线的一些词云,很多对文本大小有限制,然后发现Python有wordcloud模块。示例文本里有136W单词,加载速度也没有很慢wordcoud的所有参数见:https://blog.csdn.net/u010309756/article/details/67637930简单实例#导入模块from wordcloud import WordCloud,ImageColorGen...原创 2019-03-27 15:11:30 · 235 阅读 · 0 评论 -
kaggle women clothing 项目
项目kaggle地址:https://www.kaggle.com/nicapotato/womens-ecommerce-clothing-reviews分析思路:首先通过观察数据得知,这是女装销售情况及评价的数据,变量有商品ID,服装所属的三级类目,客户年龄,评分,评论标题,评论内容。变量分类:我们把这几个变量分为三大类:商品变量,客户变量,反馈变量商品变量包括 clothing i...原创 2019-03-31 16:23:06 · 1504 阅读 · 0 评论 -
Python +正则表达式爬取豆瓣页面邮箱
python + 正则爬取豆瓣页面的邮箱:import requestsimport rehtml=requests.get('https://www.douban.com/group/topic/124565040/?start=0')pattern=re.compile(r'[a-zA-Z0-9-_\.]+@[a-zA-Z0-9-_]+\.[a-zA-Z0-9-_]+')res=r...原创 2019-03-18 10:41:58 · 549 阅读 · 0 评论 -
列表的主要方法/浅拷贝VS深拷贝
切片取值:li=[1,3,5,7,9]print(li[1:3])输出:[3, 5]索引取值:li=[1,3,5,7,9]print(li[3])输出:7判断存在,输出布尔值li=[1,3,5,7,9]print(11 in li)输出:False向列表添加单个:添加到末尾li=[]for i in range(10): if i &...原创 2019-02-26 19:04:25 · 164 阅读 · 0 评论 -
Python dataframe 相关系数和协方差
相关系数和协方差:一.协方差只表示线性相关的方向,取值正无穷到负无穷。也就是说,协方差为正值,说明一个变量变大另一个变量也随之变大(正相关);取负值说明一个变量变大另一个变量变小(负相关),取0说明两个变量没有相关关系。注意:协方差的绝对值不反映线性相关的程度(其绝对值与变量的取值范围有关系)。二.相关系数不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。也就是说,相关...原创 2019-03-02 17:39:13 · 7953 阅读 · 0 评论 -
python爬虫项目1:小说下载
最近在学爬虫,被动态网站,分布式什么的搞得头昏脑涨,所以先停下来巩固一下基础。先从小的完整的项目写起,代码小学生水平,接受批评…目标:爬取笔趣看这个网站的一本小说:工具:requests模块,re模块,正则表达式代码如下:import requestsimport re#目录urlurl='https://www.biqukan.com/1_1094/'#获取目录htmlre...原创 2019-02-19 11:34:40 · 348 阅读 · 0 评论 -
Python的类/类的继承/多态/封装
类=属性+方法Classname.__dict__查看类属性Classname.dir查看类方法#创建Dog类,类名首字母大写class Dog: def __init__(self,name,gender,age): print('start') self.mingzi=name self.xingbie=gender ...原创 2019-02-28 14:40:03 · 124 阅读 · 0 评论 -
Python random模块常用方法
random.randint(a,b) 生成1个a-b之间的随机整数import randomnum=random.randint(1,100)print(num)输出:100random.seed(int): 传入一个int,生成随机数的种子,在这个种子下生成的随机数是固定的import randomseed=random.seed(138733)num=rando...原创 2019-02-28 10:06:56 · 421 阅读 · 4 评论 -
python模块之datetime模块
datetime 模块提供的类有date,time,datetime,timedelta,tzinfo。一. date类:date对象的结构:datetime.date(year, month, day)生成date对象:import datetimefrom datetime import datet=datetime.date(2017,4,29)print(t)输出:...原创 2019-02-27 22:50:48 · 275 阅读 · 0 评论 -
python模块之time模块
time.time()方法:返回当前时间的时间戳import timeprint(time.time())输出:1547873005.0744386time.localtime(): 返回当前时间import timeprint(time.localtime())输出:time.struct_time(tm_year=2019, tm_mon=1, tm_mday=19...原创 2019-02-27 21:45:18 · 287 阅读 · 0 评论 -
正则表达式 贪婪匹配和惰性匹配 分组和去优先级
最近在学爬虫,用到正则的贪婪匹配和惰性匹配,findall方法分组优先匹配和去优先级,举几个例子感受一下:import re#不分组,无优先级print(re.findall('m.+?','ascxdcmmmmmdabnxamnx')) #惰性匹配,+匹配到一个即匹配成功输出:['mm', 'mm', 'md', 'mn']print(re.findall('m*?','ascxd...原创 2019-02-12 13:40:59 · 633 阅读 · 0 评论 -
Python利用numpy.random模块生成随机数的方法
numpy.random.rand(m,n,p,q…)生成0到1之间的n个随机数,参数是shape#传入单个参数import numpy as npdata=np.random.rand(3)print(data)输出:[0.42487743 0.92537519 0.53686567]#传入两个参数:输出一个值在0-1之间的三行四列数组import numpy as np...原创 2019-02-27 16:32:38 · 2553 阅读 · 0 评论 -
Python一些函数 map/filter/reduce 持续更新...
map函数(映射函数):语法:map(function, iterable, …)iterable:一个或多个序列function:函数(普通函数,匿名函数)对可迭代对象依次使用function 函数,方便多次重复调用#实例1:func为普通函数def func(n): m=0 if n <100: m+=n return mres...原创 2019-02-27 14:40:01 · 225 阅读 · 0 评论 -
python 迭代器/生成器
**迭代器**可迭代对象:可调用__iter__()方法的对象,大部分对象都是可迭代的string='hello world'print(string.__iter__())输出:<str_iterator object at 0x0311CB10>容器:•容器是一系列元素的集合,str、list、set、dict、file、sockets对象都可以看作是容器,容器都...原创 2019-02-28 18:42:04 · 144 阅读 · 0 评论 -
python 装饰器
1. 闭包函数概念:函数内部定义的函数;引用了外部变量但非全局变量。#示例def count(): a = 1 b = 1 def sum(): c = 1 return a + c # a - 自由变量 return sum2. 高阶函数:函数参数是一个函数,返回一个函数名函数参数是一个函数,返回一个函数名def f...原创 2019-02-28 22:12:31 · 83 阅读 · 0 评论 -
pandas dataframe汇总和计算方法
Dataframe汇总计算的主要方法有:Pandas 统计的一些常用方法:frame.idxmax(): 列的最大值 输出每列最大值的索引np.random.seed(38754)data=np.random.randint(0,15,15).reshape(5,3)frame=DataFrame(data,index=['a','b','c','d','e'],columns=[...原创 2019-03-02 17:06:49 · 12855 阅读 · 0 评论 -
Python Pandas/ pandas.dataframe/dataframe 的主要方法(一)
Dataframe:dataframe:二维的表格型数据结构,是组合的series。dataframe 的每一行和每一列都是一个series。语法结构:DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)data:数组(多维),可迭代对象,字典嵌套或dataframeindex:索引名称,如不传入,则...原创 2019-03-02 14:54:38 · 1773 阅读 · 0 评论 -
Python pandas,pandas.series,series的主要方法
Pandas 安装:pip install pandasnumpy 和pandas 区别:numpy :生成的是ndarray,数组pandas:基于numpy,生成两种对象,一种是series,一种是dataframe。series: 一维数组类似array,series=索引+数据。区别是Series能保存不同种数据类型,字符串、boolean值、数字等,而numpy只能存储同类型数...原创 2019-03-02 10:36:53 · 6775 阅读 · 1 评论 -
python numpy库/数组
数组和列表的区别:数组:数组是用于储存多个相同类型数据的集合列表:一个列表内可包好多种数据类型数组:一旦创建,指定位置元素不能删除,除非重建数组对象列表:列表内元素可以删除,删除后,后续元素会前移数组库名:numpy 别名:np安装:pip install numpy生成的数据类型:&amp;amp;amp;amp;amp;lt;class ‘numpy.ndarray’&amp;amp;amp;amp;amp;gt;1. ndarray的创建:语法结构原创 2019-03-01 18:11:04 · 333 阅读 · 0 评论 -
pandas timeseries 时间序列
1. pandas.to_datetime(): 将对象转换为datetime对象:语法:pandas.to_datetime(arg, dayfirst=False, yearfirst=False, utc=None, box=True, format=None, exact=True, unit=None, infer_datetime_format=False, origin=‘uni...原创 2019-03-05 11:00:22 · 2250 阅读 · 0 评论 -
Python正则表达式/分组/优先级
正则表达式:参考链接:https://www.cnblogs.com/zjltt/p/6955965.html模块:re用途:用于模糊匹配正则表达式的符号一.元字符. 通配符:可代指任意一个符号,除换行符import reprint(re.findall('a..x','scdcdabnxmn'))#输出:['abnx']^ 在字符串开头匹配import repr...原创 2019-03-01 09:13:28 · 2284 阅读 · 0 评论 -
Python json模块
JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。JSON的数据格式其实就是python里面的字典格式.json 有四个主要方法:dump,dumps,loads,loadjson.dumps(): 把数据类型转换成字符串:#实例import jsonprint(type(json.dumps(1)))#输出:<...原创 2019-02-28 22:41:55 · 235 阅读 · 0 评论 -
python爬虫项目2:爬取图片并保存
下载http://pic.yxdown.com/list/0_0_4.html网站图片并保存:用到的库:requests,beautifulsoupimport requestsimport refrom bs4 import BeautifulSoup#设置初始urlbaseurl='http://pic.yxdown.com/list/'urls=[]#拼接前20页的url...原创 2019-02-19 16:03:50 · 1307 阅读 · 0 评论 -
pandas agg apply, transform的区别
agg,apply 和transform 都可以对dataframe进行运算,下面对这三种方法做一下比较:作用:dataframe.agg():只做聚合操作dataframe.apply() 作用对象是dataframedataframe.transform()对dataframe的每个series做transform操作,返回的结构与原dataframe一致可接受的func类型:ag...原创 2019-04-22 15:51:42 · 4621 阅读 · 0 评论