自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小颜颜6035的博客

共同进步,共同学习。

  • 博客(150)
  • 收藏
  • 关注

原创 jupyter notebook如何使用anaconda的虚拟环境

刷新一下jupyter notebook的页面,发现刚才的虚拟环境被添加进来了。1.打开anaconda prompt。切换到要使用的虚拟环境。

2023-05-18 17:43:59 697

原创 windows安装tensorflow cpu详细教程

3.接下来创建虚拟环境,输入conda create -n 虚拟环境名称 python=python版本,示例:conda create -n tf_cpu python=3.7。安装后进行验证,进入python解释器,输入import tensorflow as tf。首先要知道自己用tensorflow搭建的神经网络是用cpu训练还是gpu训练。至此windows安装tensorflow cpu完毕!

2023-05-18 11:44:38 799 1

原创 windows搭建pyspark环境详细教程

将hadoop.dll和winutils.exe均拷贝到D:\hadoop-2.7.1\bin下和C:\Windows\System32下(两个文件各拷贝一份)此时bin目录(D:\hadoop-2.7.1\bin)下可能没有hadoop.dll及winutils.exe文件,接下来安装py4j,在cmd中输入pip install py4j。变量值:D:\spark-3.0.0-bin-hadoop2.7。变量值:D:\jdk 也就是jdk的安装路径。变量值:D:\hadoop-2.7.1。

2023-05-17 19:53:42 2703 1

原创 win10如何快速打开高级系统设置

找到电脑屏幕左下角的windows图标,右键鼠标点击运行,输入sysdm.cpl,确定,点高级即可

2022-03-24 11:40:56 4549

原创 anaconda如何配置环境变量

anaconda安装好后,在cmd输入conda,显示:‘conda’ 不是内部或外部命令,也不是可运行的程序或批处理文件。原因是:anaconda没有配置环境变量那接下来我就教大家如何配置环境变量,网上有些文章的步骤是错误的本地开发时,我们最好保持pycharm所用的python解释器是anaconda的python,这样在以后的开发过程当中,pycharm和jupyter notebook的环境保持一致,便于管理。那么如何配置anaconda的环境变量呢?1.找到anaconda的安装路

2022-03-24 11:34:04 70100 7

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 2: illegal multibyte seque

python将列表各元素写入txt文件,一个元素占一行:# df3是一个dataframefile_handle = open(r"E:\work_notebook\区域+人群-商品类目相关性分析\df3_cols.txt",mode='w')for col in df3.columns: col1 = col + ' ' + 'float,' file_handle.write(col1 + '\n')file_handle.close() # 必须要加close,不然数据无法

2021-12-30 19:58:01 1039

原创 pandas修改dataframe的索引未成功

刚开始使用df.reindex(new_index),发现索引并没有修改成功,查看答案,发现网上说的方法是指定axis参数,即:df.reindex(new_index, axis='rows')但是依然没有解决:故使用粗暴方法,解决了:df.index = new_index...

2021-12-30 15:34:42 1479

原创 sns.heatmap 画图报错TypeError: ufunc ‘isnan‘ not supported for the input types, and the inputs could not

报错原因:我画的是pandas 的DataFrame 的类型。然后问题就在于我的数据是float的,但是我的特征是object于是就引发了上述的错误:于是就修改特征数据类型:df3[list(df3.columns)]=df3[list(df3.columns)].astype(float)再运行如下代码,问题解决:sns.set(font='SimHei',font_scale=1.0) # 解决Seaborn中文显示问题并调整字体大小fig, ax = plt.subplots(fi

2021-12-24 17:45:57 1632

原创 如何通过命令行从hbase导出数据到本地

1.首先要切换到hbase目录下:如果不知道在哪里,可以通过find / -name hbase-daemon.sh查找路径我的是在/opt/cloudera/parcels/CDH-5.12.2-1.cdh5.12.2.p0.4/lib/hbase/bin/目录下2.执行hbase shell3.输入list查看hbase有多少表4.退出hbase shell命令行 输入echo “scan ‘recs_user_label’”|hbase shell >test1.csv进行导出

2021-11-16 16:11:36 3948

原创 如何分享conda环境

如何想保持自己的python环境及各种第三方库的版本和开发同事保持一致,可以将同事的conda环境存为.yml文件,然后执行命令就可以了。流程如下:1.打开Anaconda Prompt2.执行:conda env export --name root >environment.yml3.在本地C:\Users\admin路径下会生成.yml文件4.拿到environment.yml文件后,将该文件放在工作目录下,可以通过以下命令从该文件创建环境conda env create -f en

2021-11-16 15:40:39 1959

原创 模型训练报错InvalidArgumentError: indices[12,0] = 4 is not in [0, 4) [[node model_1/emb_lookup_user_sex

运行代码:train_df = pd.read_csv('E:/work_notebook/09.06_个性化推荐点击率预估/user_item_act_train_df.csv')val_df = pd.read_csv('E:/work_notebook/09.06_个性化推荐点击率预估/user_item_act_val_df.csv')x_train = train_df.iloc[:, :-1].valuesy_train = train_df['label'].valuesx_val

2021-11-09 20:20:04 2324

原创 Error response from daemon: You cannot remove a running container 96683146ee5bcc37ef65707f559ffcd37a

解决方法:sudo docker ps -a根据ID进行删除:sudo docker rm -f 96683146ee5b至此问题已解决

2021-11-04 15:08:24 880

原创 linux卸载docker旧版本,安装最新稳定版本,并使用tensoflow serving部署深度学习模型

一:如果在linux第一次使用docker部署深度学习模型,则应先查看以下docker版本:停止docker服务:systemctl stop docker查看当前版本:rpm -qa | grep docker如果不是最新版本,则卸载当前版本:卸载软件包:yum erase docker \ docker-client \ docker-client-latest \ docker-c

2021-11-04 11:41:42 445

原创 如何让jupyter notebook使用anaconda 的base(虚拟)环境

打开anaconda prompt,默认进入base环境使用命令jupyter notebook打开即可:

2021-10-14 20:32:11 1302

原创 linux安装python faiss模块

我们安装cpu版本,因此执行:conda install faiss-cpu -c pytorch中途输入y安装成功:

2021-10-14 15:35:32 549

原创 inverse_transform()的用法

将编码之后的数据还原为原始数据

2021-10-13 18:21:36 2056

原创 np.random.permutation()解析

作用:对列表或数组进行随机打乱,类似于sklearn.until.shufflea = np.array([1, 2, 3, 4])b = np.random.permutation(a)b # array([4, 2, 3, 1])

2021-10-13 15:23:19 555

原创 raise RuntimeError(“tf.placeholder() is not compatible with “ RuntimeError: tf.placeholder() is not

解决方法:代码开头加:tf.compat.v1.disable_eager_execution()

2021-10-12 19:53:54 1250 1

原创 如何删除pandas处理数据中产生的Unnamed:0列

解决方案:pd.read_csv(path, index_col=0)或:pd.to_csv(path, index=False)

2021-10-12 14:20:21 2179 1

原创 如何解压上传到jupyter的zip文件

import zipfilef = zipfile.ZipFile("./EGES_embedding_rec.zip",'r') # 原压缩文件在服务器的位置for file in f.namelist(): f.extract(file,"./") # 解压到的位置f.close()

2021-10-12 11:32:34 2680

原创 python如何将训练模型保存为pickle文件并加载

模型保存:import picklemodel.fit(x_data, y_data)with open('model.pickle', 'wb') as fw: pickle.dump(model, fw)模型加载:f = open('model.pickle', 'rb')s = f.read()model = pickle.loads(s)

2021-10-12 10:42:07 1198

原创 linux如何退出root用户

普通用户通过su命令切换成root用户,使用exit命令可以退出root用户的shell回到原来的用户shell。

2021-10-11 21:11:59 13415

原创 linux如何激活或退出tensorflow环境?

激活tensorflow环境:source activate tensorflow退出tensorflow环境:source deactivate tensorflow

2021-10-11 21:06:35 844

原创 如何将lightgbm模型存为pmml文件

1.下载jpmml-lightgbm文件https://github.com/jpmml/jpmml-lightgbm上传到linux上解压:tar -zxvf 文件名切换到解压文件夹所在目录下:mvn clean install若显示没有mvn命令,请点击此处:https://blog.csdn.net/yinjun3215/article/details/120702748?spm=1001.2014.3001.5501成功,会在当前目录下生成target文件cd target

2021-10-11 15:41:29 1477

原创 linux 安装 maven 、解决:bash: mvn: command not found

1.安装wget命令:yum -y install wget2.下载maven安装包:wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz下载成功,已下载到当前路径下:3.解压:tar -zxvf apache-maven-3.5.4-bin.tar.gz4.配置maven:vim /etc/profile发现没有write权限,继续敲入命令:chmod

2021-10-11 15:01:18 6065

原创 输入yum命令报错:Loaded plugins: fastestmirror You need to be root to perform this command.

解决方法:是提示要获取root权限输入su 回车输入密码即可

2021-10-11 14:06:06 5174 2

原创 python time模块,时间戳,时间元组,时间字符串之间的互转

import time#获取此时的时间戳time_timestamp = time.time()print(time_timestamp) #1609656974.8415737#将时间戳转换为时间元组print(time.gmtime(time_timestamp))#获取此时的时间元组time_tuple = time.localtime()print(time_tuple) #time.struct_time(tm_year=2021, tm_mon=1, tm_mday=3,

2021-01-03 15:22:12 800

原创 pandas拼接多个数据表(具有相同的格式) ???

#将data目录下的csv文件拼接在一起import pandas as pd import osdf_concat = pd.dataFrame({}) #设定一个空dataframefor file_name in os.listdir("./data"): full_path = "./data/ + file_name df_temp = pd.read_csv(full_path) df_concat = pd.concat(df_concat,df_temp

2020-10-22 20:57:40 381

原创 numpy如何计算差分和累计和?

#计算差分a = np.array([1,2,3,4,5,6,7])np.diff(a) out:array([1, 1, 1, 1, 1, 1])#计算累积和b = np.array([1,2,3,4,5,6,7,8])b.cumsum() out:array([ 1, 3, 6, 10, 15, 21, 28, 36])

2020-10-22 20:55:06 2508

原创 什么是ETL和OLAP?

ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题 的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用 缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是 没有任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage ou

2020-10-22 20:53:23 1567

原创 np.arange()的用法,size和shape的功能

x_arange = 0.041 * np.arange(20, 25, 1)print(x_arange.size) #5print(x_arange.shape) #(5,)x = np.arange(5)print(x) [0 1 2 3 4]

2020-10-22 20:51:44 2801

原创 numpy.mat的功能matrix

>>> m= np.mat([1,2,3]) #创建矩阵>>> mmatrix([[1, 2, 3]])>>> m[0] #取一行matrix([[1, 2, 3]])>>> m[0,1] #第一行,第2个数据2>>> m[0][1] #注意不能像数组那样取值了Traceback (most recent call la

2020-10-22 20:49:03 352

原创 机器学习中train_test_split()函数的详解

from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scoreimport numpy as npa数组最少是二维的 因为样本属性不能只通过一个属性去描述a = np.array([[1,1.5],[2,2.6],[3,3.4],[4,4.6],[5,5.3],[6,6.8]])#数据

2020-10-21 20:01:43 1784 2

原创 dataframe_转换日期格式

1 pd.to_datetime转成时间格式2 设置格式1 df1[‘付款时间1’] = pd.to_datetime(df1[‘付款时间’])2 df1[‘year_month’] = df1[‘付款时间1’].apply(lambda x : x.strftime(’%Y-%m-%d’))3 print(df1[‘year_month’])万水千山总是情,点个关注行不行加微信 yyf1752432501 领取python免费资料(python基础语法,js,html,vue,flask,

2020-10-21 17:12:26 5927

原创 如何用pandas将daraframe中的某一列的空值取出来

万水千山总是情,点个关注行不行加微信 yyf1752432501 领取python免费资料

2020-10-21 13:12:54 956

原创 python如何操作excel文件

Excel文件处理在爬虫开发中,我们主要关注Excel文件的读写,不会过多关心Excel中的一些样式。如果想要读写Excel文件,需要借助到两个库xlrd和xlwt,其中xlrd是用于读的,xlwt是用于写的,安装命令如下:pip install xlrdpip install xlwt读取Excel文件:import xlrdworkbook = xlrd.open_workbook("成绩表.xlsx")sheet_names = workbook.sheet_names()prin

2020-10-20 22:00:58 116

原创 csv文件如何操作

csv文件处理读取csv文件:import csvwith open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x)这样操作,以后获取数据的时候,就要通过下表来获取数据。如果想要在获取数据的时候通过标题来获取。那么可以使用DictReader。示例代码如下:import csvwith open('stock

2020-10-20 21:56:58 297

原创 json字符串和python对象的相互转化以及保存读取

json文件处理:什么是json:JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见:https://baike.baidu.com/item/JSON/2462549?fr=aladd

2020-10-20 21:54:20 434

原创 生产者消费者模式多线程爬取京东手机相关信息

完整代码如下:'''selenium爬虫京东商品详情,评论爬虫爬取自营5G手机起始页:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA%E8%87%AA%E8%90%A55g&enc=utf-8&suggest=7.his.0.0&wq=&pvid=1af7b1d6b37d4807a2fad131c9bcfe69'''from selenium import webdriverfrom selen

2020-10-16 21:08:53 186

原创 jupyter基础知识详解

jupyter基本使用方法pandas基础增:df[‘sum’] = 100删:改:df[‘sum’] = df[‘sum’].apply(lambda x : x+2)df.loc[查询条件,需要修改的列] = 100查:df[‘列名'] 或df.列名df['列名'][’行名']df.loc[起始行:结束行,起始列:结束列]df.loc[[需要选的行(1,3,5,7],[需要选的列(语文,数学)]]df.groupby('列名').聚合函数(mean,std,median,ma

2020-09-27 15:34:17 9159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除