Python
文章平均质量分 50
在工作实践中遇到的Python相关问题及解决办法
leeshutao
这个作者很懒,什么都没留下…
展开
-
画决策树可以用的包
决策树可视化常用包原创 2022-12-15 03:52:18 · 402 阅读 · 0 评论 -
Keras_深度学习_MNIST数据集手写数字识别之各种调参
注:这里的代码是听台大李宏毅老师的ML课程敲的相应代码。先各种importimport numpy as npnp.random.seed(1337)# https://keras.io/!pip install -q kerasimport kerasfrom keras.models import Sequentialfrom keras.layers.co原创 2018-01-30 22:38:14 · 2738 阅读 · 0 评论 -
keras之preprocessing.sequence.pad_sequences
学自python函数—序列预处理pad_sequences()序列填充原创 2020-04-23 23:09:29 · 1940 阅读 · 0 评论 -
【Python】实例:批量爬取百度贴吧页面数据
批量爬取百度贴吧页面数据原创 2018-01-04 21:27:04 · 702 阅读 · 0 评论 -
【特征】特征选择(1)
sklearn -- 1.13. 特征选择(Feature selection)简书 -- scikit-learn--Feature selection(特征选择)1 移除低方差的特征假设有一个带有布尔特征的数据集,要移除那些超过80%的数据都为1或0的特征。布尔特征是伯努利随机变量,该类变量的方差为:可以使用阈值.8*(1-.8)。推测这里应该不限制于伯努利分布。............原创 2019-07-02 22:21:21 · 209 阅读 · 0 评论 -
【Python】pandas读取亿级数据
思想是分块读取,通过read_csv或read_table的两种方式(两个参数:chunksize和iterator)。原创 2022-07-01 14:29:41 · 1823 阅读 · 0 评论 -
【Python】data[item].astype(‘category’).cat.codes类别型变量映射到整数型
Category可以很好的节省在时间和空间的消耗。转载 2022-06-14 19:44:05 · 2177 阅读 · 0 评论 -
【Python】jupyter多次import不生效
如果在修改了被导入的包以后,想重新导入它怎么办呢?原创 2022-06-11 17:23:26 · 733 阅读 · 0 评论 -
【DGL】定义邻居采样器和数据加载器
6.1 Training GNN for Node Classification with Neighborhood Samplinghttps://docs.dgl.ai/en/0.6.x/guide/minibatch-node.html#guide-minibatch-node-classification-samplerDGL提供了几个邻居采样类,这些类会生成需计算的节点在每一层计算时所需的依赖图。 最简单的邻居采样器是MultiLayerFullNeighborSampler,它可获取节点.原创 2022-04-14 00:25:37 · 3398 阅读 · 0 评论 -
【Python】「argparse基本用法」及「jupyter中使用 args = parser.parse_args()并传参」
【argparse基本用法】及【jupyter中使用 args = parser.parse_args()并传参】原创 2022-03-22 17:09:18 · 4687 阅读 · 0 评论 -
【Python】深拷贝和浅拷贝
import torcha = torch.arange(12)b = a.reshape((3,4))b[:] = 2a #里面的元素也都变成2了原创 2021-05-16 19:09:45 · 88 阅读 · 0 评论 -
python之改变对象的字符串显示
8.1 改变对象的字符串显示class Pair: def __init__(self, x, y): self.x = x self.y = y def __repr__(self): return 'Pair({0.x!r}, {0.y!r})'.format(self) def __str__(self): return '({0.x!s}, {0.y!s})'.format(self)根据pytho原创 2020-10-26 17:48:08 · 309 阅读 · 0 评论 -
ubuntu安装anaconda
第一步:https://blog.csdn.net/u012318074/article/details/77074665的安装部分基本就是各种回车和一个‘yes’第二步:https://blog.csdn.net/x_lock/article/details/53170321的启用部分其中“2.在.bashrc文件末尾添加:(路径换成自己的)”如果打开发现路径已经在了就不用操作这一步第三步:命令...原创 2018-04-09 10:21:23 · 278 阅读 · 0 评论 -
pandas里面时间戳转时间to_datetime注意unit
Using pandas to_datetime with timestamps(遇到在pandas里面时间戳转时间的问题,把查到的答案记录在这里)主要注意to_datetime函数里面的单位unit默认是毫秒ms,而非秒,而一般的10位时间戳的单位是秒,因此需要加上这个参数。...原创 2019-05-24 15:50:05 · 6292 阅读 · 0 评论 -
numpy中nonzero()的用法
转自:python numpy中nonzero(),isnan()用法nonzero(a)---返回数组a中值不为零的元素de下标,,返回值为一个长度为a.ndim(数组a的秩)的元组,元组的每个元素都是一个整数数组,其值为非零元素的下标在对应轴上的值.例如一维布尔数组b1,nonzero(b1)所得到的是长度为1的元组,表示b1[0]和b1[2]的值不为0(False).注:使用布尔...转载 2019-07-06 16:16:52 · 648 阅读 · 0 评论 -
pandas根据列名对列重新排序
之前自己排序的方式。。。。今天发现一个函数就能搞定:In [1]: frame=pd.DataFrame(np.arange(12).reshape((4,3)),columns=['c','a','b'],index=['D','B','C','A']) c a bD 0 1 2B 3 4 5C 6 7 8A 9 10 11...原创 2019-08-01 17:23:11 · 20224 阅读 · 0 评论 -
groupby用法记录
1. dataphone level tag131 A 1132 B 0133 C 0134 A 1135 A 1136 B 1137 B 0138 A 0139 A 1140 C 02.grouped = data.groupby('level')3.grouped.head()是对每个组的数据进行head原创 2019-08-01 17:37:54 · 805 阅读 · 0 评论 -
Get Started with PySpark and Jupyter Notebook in 3 Minutes
在Jupyter Notebook上用PySpark的配置方法:Get Started with PySpark and Jupyter Notebook in 3 Minutes转载 2019-08-29 23:39:14 · 138 阅读 · 0 评论 -
Python3安装geohash,pip成功但是import失败
1. 之前一直没有配置python包的环境变量,主要参考自这篇文章:pip装了一个包,但是python里Import的时候找不到怎么办?ceiec@tf:~$ pip install matplotlib #看一下返回的路径如下:Requirement already satisfied: pyparsing in ./anaconda2/lib/python2.7/site-packag...原创 2019-05-08 17:48:47 · 1545 阅读 · 0 评论 -
pandas的apply函数作用于多列
import pandas as pdimport numpy as nptable = pd.DataFrame({'cnt1':[1,2,np.nan,4,np.nan,6], 'cnt2':[5,10,np.nan,np.nan,6,10]})#写成一句table['sub'] = table.apply(lambda row: ro...原创 2019-04-24 14:44:33 · 3230 阅读 · 1 评论 -
Numpy数组操作
创建数组arr = np.array([[1,2,3],[4,5,6]])一、属性常用的ndarray对象属性有:arr.ndim数组的维数(返回单个值)arr.shape数组的维度(返回一个元组,如上面的数组会返回(2,3)arr.size数组元素的总个数,等于shape属性中元组元素的乘积。arr.dtype数组元素的总个数,等于shape属性中元组元素的乘积。arr.itemsize数组中每...原创 2018-05-04 17:09:00 · 899 阅读 · 0 评论 -
进行PCA行数据读取出现的问题
Part 1:最开始出现的问题在于map对象前面没有加list,后来转化为list又报错:ValueError: could not convert string to float原因是数据中含有一些不能转化为数据的字符。后来发现原来原始数据读进来每一行是这样的['1', '.', '0', '1', '.', '0', '3', '4', '4', '9', '3', '6', '5', '1'...原创 2018-04-03 16:12:07 · 812 阅读 · 0 评论 -
Python模块/包/库安装(6种方法)
用到过其中的方法二。Python模块/包/库安装(6种方法)转载 2018-04-10 09:39:49 · 21038 阅读 · 0 评论 -
Google Colab Free GPU教程
本文翻译自:点击打开链接简单的操作不多赘述,这里主要针对想在GPU里面使用自己的数据文件(如上传的txt文件)做实验。使用Google Colab运行或导入.py文件首先运行这些代码以安装必要的库并执行授权。!apt-get install -y -qq software-properties-common python-software-properties module-init-tools...翻译 2018-04-09 11:12:37 · 1540 阅读 · 0 评论 -
surprise库使用(二)——使用自定义数据集
surprise库有一组内建 数据集,但当然可以使用自定义数据集。加载评分数据集可以从文件(例如csv文件)或pandas数据框中完成。无论哪种方式,都需要定义一个Reader对象来解析文件或数据框。\要从文件加载数据集(例如csv文件),需要 load_from_file()方法:from surprise import BaselineOnlyfrom surprise import Dat...翻译 2018-04-08 15:44:33 · 5176 阅读 · 0 评论 -
surprise库使用(一)——使用内置数据集
自动交叉验证法from surprise import SVDfrom surprise import Datasetfrom surprise.model_selection import cross_validatedata = Dataset.load_builtin('ml-100k') #加载movielens-100k数据集algo = SVD() #使用SVD算法c...翻译 2018-04-08 15:05:36 · 5020 阅读 · 0 评论 -
怎么将一个很大的数写进一个文件时不用科学计数法?
数据原始的格式是numpy,我现在需要将这些数据写进txt文件。原始数据其中一行的格式如下:我最初直接用str()方法,但是其中一个数据就变成了这样:“2.82769379e+08”,这可能会影响以后的数据读取。所以问题来了,如何不以科学计数法显示并转为字符串变量?最开始试了各种办法,以为其中一个办法会有用:python 不以科学计数法输出即:import numpy as npnp.set_p...原创 2018-04-07 21:46:21 · 3527 阅读 · 2 评论 -
python3 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range
python3,以下代码一直报错“UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range”id = pickle.load(open("list.pkl","rb"))解决办法见:点击打开链接因此上面的代码应该改为id = pickle.load(open("list....原创 2018-03-22 19:08:50 · 1494 阅读 · 0 评论 -
pandas之drop函数
drop函数的使用(1)drop函数的使用:删除行、删除列print frame.drop(['a'])print frame.drop(['Ohio'], axis = 1)12drop函数默认删除行,列需要加axis = 1(2)drop函数的使用:inplace参数采用drop方法,有下面三种等价的表达式:DF= DF.drop('column_name', axis=1) #这里的axi...转载 2018-07-04 08:54:17 · 2230 阅读 · 0 评论 -
多任务的概念
多任务的概念什么叫“多任务”呢?简单地说,就是操作系统可以同时运行多个任务。打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。 现在,多核CPU已经非常普及了,但是,即使过去的单核CPU,也可以执行多任务。由于CPU执行代码都是顺序执行的,那么,单核CPU是怎么执行多任务的呢...转载 2018-07-12 11:24:09 · 948 阅读 · 0 评论 -
列出一个文件夹里的文件
之前从guixiang那里看到可以用glob:https://blog.csdn.net/hzau_yang/article/details/78257052今天在自己的电脑上install失败,jinjiao说可以直接用osimport osos.chdir(r'/Users/username/Desktop/alp')filelist = os.listdir()filelis...原创 2019-04-15 15:46:42 · 136 阅读 · 0 评论 -
pandas生成时间区间
主要用到函数pd.data_rangehttps://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.date_range.htmlpd.date_range(start='1/1/2018', periods=5, freq='M')#DatetimeIndex(['2018-01-31', '2018-02-28'...原创 2019-04-22 19:39:25 · 1313 阅读 · 0 评论 -
pandas求某个日期的上个月月底
from pandas.tseries.offsets import Day, MonthEndimport pandas as pddata = pd.read_table('imei_date.txt',parse_dates = ['date'])data['date']-MonthEnd(1)方法来自:Python手册(Time Series)--pandas(Part...原创 2019-02-18 16:19:48 · 3345 阅读 · 0 评论 -
pandas日期列读取成日期格式
read_cav的时候加一个参数:parse_dates = ['date'],就会把date这一列自动转化为日期格式,例如: import pandas as pddata = pd.read_csv('test.csv',parse_dates = ['date']) 如果原来读取进来日期格式为 “2018-05-09 10:43:52”, 想把该日期变为 “20180...原创 2019-02-18 15:28:03 · 16928 阅读 · 1 评论 -
pandas 看某一列的数据类型不能用value_counts()
pandas 用value_counts() 看某一列如date这一列的分布,即使得到的dtype是int也不意味着date这一列的类型一定是int原创 2019-01-15 11:15:56 · 1495 阅读 · 2 评论 -
dateutil库里的parse函数、strftime函数、strptime函数
dateutil.parser 顾名思义,就是与日期相关库里的一个日期解析器,能够将字符串 转换为日期格式。给它一个日期,就能解析。例子:>>>import datetime>>>from dateutil.parser import parse>>>datetime.strftime(parse(str(20181031))...原创 2019-01-14 22:24:57 · 5123 阅读 · 0 评论 -
出现一个imei对多个date情况的处理方式
1. 确定哪些imei对应2个及2个以上的imeidata_group = data.groupby('imei').agg({'date':'count'})data_group[data_group.date>=2]2. 去重例如,如果要保留最新日期,则可以按照date倒序排序,再按照imei去重data.sort_values(by = 'date', ascen...原创 2019-01-14 16:47:28 · 284 阅读 · 2 评论 -
pandas 统计某个字段的数值分布(把空值的数量也显示出来)
data.flag.value_counts(dropna=False)原创 2019-01-14 15:13:13 · 16845 阅读 · 0 评论