青云---CSDN博客

原创 jupyter notebook如何使用anaconda的虚拟环境

刷新一下jupyter notebook的页面，发现刚才的虚拟环境被添加进来了。1.打开anaconda prompt。切换到要使用的虚拟环境。

2023-05-18 17:43:59 928

原创 windows安装tensorflow cpu详细教程

3.接下来创建虚拟环境，输入conda create -n 虚拟环境名称 python=python版本，示例：conda create -n tf_cpu python=3.7。安装后进行验证，进入python解释器，输入import tensorflow as tf。首先要知道自己用tensorflow搭建的神经网络是用cpu训练还是gpu训练。至此windows安装tensorflow cpu完毕！

2023-05-18 11:44:38 1098 1

原创 windows搭建pyspark环境详细教程

将hadoop.dll和winutils.exe均拷贝到D:\hadoop-2.7.1\bin下和C:\Windows\System32下（两个文件各拷贝一份）此时bin目录（D:\hadoop-2.7.1\bin）下可能没有hadoop.dll及winutils.exe文件，接下来安装py4j,在cmd中输入pip install py4j。变量值：D:\spark-3.0.0-bin-hadoop2.7。变量值：D:\jdk 也就是jdk的安装路径。变量值：D:\hadoop-2.7.1。

2023-05-17 19:53:42 4700 3

原创 win10如何快速打开高级系统设置

找到电脑屏幕左下角的windows图标，右键鼠标点击运行，输入sysdm.cpl,确定，点高级即可

2022-03-24 11:40:56 6522

原创 anaconda如何配置环境变量

anaconda安装好后，在cmd输入conda，显示：‘conda’ 不是内部或外部命令，也不是可运行的程序或批处理文件。原因是：anaconda没有配置环境变量那接下来我就教大家如何配置环境变量，网上有些文章的步骤是错误的本地开发时，我们最好保持pycharm所用的python解释器是anaconda的python,这样在以后的开发过程当中，pycharm和jupyter notebook的环境保持一致，便于管理。那么如何配置anaconda的环境变量呢？1.找到anaconda的安装路

2022-03-24 11:34:04 96794 10

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘ in position 2: illegal multibyte seque

python将列表各元素写入txt文件，一个元素占一行：# df3是一个dataframefile_handle = open(r"E:\work_notebook\区域+人群-商品类目相关性分析\df3_cols.txt",mode='w')for col in df3.columns: col1 = col + ' ' + 'float,' file_handle.write(col1 + '\n')file_handle.close() # 必须要加close,不然数据无法

2021-12-30 19:58:01 1309

原创 pandas修改dataframe的索引未成功

刚开始使用df.reindex(new_index),发现索引并没有修改成功，查看答案，发现网上说的方法是指定axis参数，即：df.reindex(new_index, axis='rows')但是依然没有解决：故使用粗暴方法，解决了：df.index = new_index...

2021-12-30 15:34:42 1701

原创 sns.heatmap 画图报错TypeError: ufunc ‘isnan‘ not supported for the input types, and the inputs could not

报错原因：我画的是pandas 的DataFrame 的类型。然后问题就在于我的数据是float的，但是我的特征是object于是就引发了上述的错误：于是就修改特征数据类型：df3[list(df3.columns)]=df3[list(df3.columns)].astype(float)再运行如下代码，问题解决：sns.set(font='SimHei',font_scale=1.0) # 解决Seaborn中文显示问题并调整字体大小fig, ax = plt.subplots(fi

2021-12-24 17:45:57 1982

原创如何通过命令行从hbase导出数据到本地

1.首先要切换到hbase目录下：如果不知道在哪里，可以通过find / -name hbase-daemon.sh查找路径我的是在/opt/cloudera/parcels/CDH-5.12.2-1.cdh5.12.2.p0.4/lib/hbase/bin/目录下2.执行hbase shell3.输入list查看hbase有多少表4.退出hbase shell命令行输入echo “scan ‘recs_user_label’”|hbase shell >test1.csv进行导出

2021-11-16 16:11:36 4424

原创如何分享conda环境

如何想保持自己的python环境及各种第三方库的版本和开发同事保持一致，可以将同事的conda环境存为.yml文件，然后执行命令就可以了。流程如下：1.打开Anaconda Prompt2.执行：conda env export --name root >environment.yml3.在本地C:\Users\admin路径下会生成.yml文件4.拿到environment.yml文件后，将该文件放在工作目录下，可以通过以下命令从该文件创建环境conda env create -f en

2021-11-16 15:40:39 2684

原创模型训练报错InvalidArgumentError: indices[12,0] = 4 is not in [0, 4) [[node model_1/emb_lookup_user_sex

运行代码：train_df = pd.read_csv('E:/work_notebook/09.06_个性化推荐点击率预估/user_item_act_train_df.csv')val_df = pd.read_csv('E:/work_notebook/09.06_个性化推荐点击率预估/user_item_act_val_df.csv')x_train = train_df.iloc[:, :-1].valuesy_train = train_df['label'].valuesx_val

2021-11-09 20:20:04 2583

原创 Error response from daemon: You cannot remove a running container 96683146ee5bcc37ef65707f559ffcd37a

解决方法：sudo docker ps -a根据ID进行删除：sudo docker rm -f 96683146ee5b至此问题已解决

2021-11-04 15:08:24 971

原创 linux卸载docker旧版本，安装最新稳定版本，并使用tensoflow serving部署深度学习模型

一：如果在linux第一次使用docker部署深度学习模型，则应先查看以下docker版本：停止docker服务：systemctl stop docker查看当前版本：rpm -qa | grep docker如果不是最新版本，则卸载当前版本：卸载软件包：yum erase docker \ docker-client \ docker-client-latest \ docker-c

2021-11-04 11:41:42 629

原创如何让jupyter notebook使用anaconda 的base(虚拟)环境

打开anaconda prompt,默认进入base环境使用命令jupyter notebook打开即可：

2021-10-14 20:32:11 1607

原创 linux安装python faiss模块

我们安装cpu版本，因此执行：conda install faiss-cpu -c pytorch中途输入y安装成功：

2021-10-14 15:35:32 886

原创 inverse_transform()的用法

将编码之后的数据还原为原始数据

2021-10-13 18:21:36 2287

原创 np.random.permutation()解析

作用：对列表或数组进行随机打乱，类似于sklearn.until.shufflea = np.array([1, 2, 3, 4])b = np.random.permutation(a)b # array([4, 2, 3, 1])

2021-10-13 15:23:19 643

原创 raise RuntimeError(“tf.placeholder() is not compatible with “ RuntimeError: tf.placeholder() is not

解决方法：代码开头加：tf.compat.v1.disable_eager_execution()

2021-10-12 19:53:54 1468 1

原创如何删除pandas处理数据中产生的Unnamed:0列

解决方案：pd.read_csv(path, index_col=0)或：pd.to_csv(path, index=False)

2021-10-12 14:20:21 2442 1

原创如何解压上传到jupyter的zip文件

import zipfilef = zipfile.ZipFile("./EGES_embedding_rec.zip",'r') # 原压缩文件在服务器的位置for file in f.namelist(): f.extract(file,"./") # 解压到的位置f.close()

2021-10-12 11:32:34 2998

原创 python如何将训练模型保存为pickle文件并加载

模型保存：import picklemodel.fit(x_data, y_data)with open('model.pickle', 'wb') as fw: pickle.dump(model, fw)模型加载：f = open('model.pickle', 'rb')s = f.read()model = pickle.loads(s)

2021-10-12 10:42:07 1430

原创 linux如何退出root用户

普通用户通过su命令切换成root用户，使用exit命令可以退出root用户的shell回到原来的用户shell。

2021-10-11 21:11:59 15279

原创 linux如何激活或退出tensorflow环境？

激活tensorflow环境：source activate tensorflow退出tensorflow环境：source deactivate tensorflow

2021-10-11 21:06:35 953

原创如何将lightgbm模型存为pmml文件

1.下载jpmml-lightgbm文件https://github.com/jpmml/jpmml-lightgbm上传到linux上解压:tar -zxvf 文件名切换到解压文件夹所在目录下：mvn clean install若显示没有mvn命令，请点击此处：https://blog.csdn.net/yinjun3215/article/details/120702748?spm=1001.2014.3001.5501成功，会在当前目录下生成target文件cd target

2021-10-11 15:41:29 1909

原创 linux 安装 maven 、解决：bash: mvn: command not found

1.安装wget命令：yum -y install wget2.下载maven安装包：wget http://mirrors.cnnic.cn/apache/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz下载成功，已下载到当前路径下：3.解压：tar -zxvf apache-maven-3.5.4-bin.tar.gz4.配置maven:vim /etc/profile发现没有write权限，继续敲入命令：chmod

2021-10-11 15:01:18 6688

原创输入yum命令报错：Loaded plugins: fastestmirror You need to be root to perform this command.

解决方法：是提示要获取root权限输入su 回车输入密码即可

2021-10-11 14:06:06 6258 3

原创 python time模块，时间戳，时间元组，时间字符串之间的互转

import time#获取此时的时间戳time_timestamp = time.time()print(time_timestamp) #1609656974.8415737#将时间戳转换为时间元组print(time.gmtime(time_timestamp))#获取此时的时间元组time_tuple = time.localtime()print(time_tuple) #time.struct_time(tm_year=2021, tm_mon=1, tm_mday=3,

2021-01-03 15:22:12 904

原创 pandas拼接多个数据表(具有相同的格式) ???

#将data目录下的csv文件拼接在一起import pandas as pd import osdf_concat = pd.dataFrame({}) #设定一个空dataframefor file_name in os.listdir("./data"): full_path = "./data/ + file_name df_temp = pd.read_csv(full_path) df_concat = pd.concat(df_concat,df_temp

2020-10-22 20:57:40 522

原创 numpy如何计算差分和累计和？

#计算差分a = np.array([1,2,3,4,5,6,7])np.diff(a) out:array([1, 1, 1, 1, 1, 1])#计算累积和b = np.array([1,2,3,4,5,6,7,8])b.cumsum() out:array([ 1, 3, 6, 10, 15, 21, 28, 36])

2020-10-22 20:55:06 2715

原创什么是ETL和OLAP？

ETL即数据抽取（Extract）、转换（Transform）、装载（Load）的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有：滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统，如果其中存在着大量的噪声数据，那么这个系统也是没有任何意义的，因为“垃圾进，垃圾出”（garbage in, garbage ou

2020-10-22 20:53:23 1854

原创 np.arange()的用法,size和shape的功能

x_arange = 0.041 * np.arange(20, 25, 1)print(x_arange.size) #5print(x_arange.shape) #(5,)x = np.arange(5)print(x) [0 1 2 3 4]

2020-10-22 20:51:44 3022

原创 numpy.mat的功能matrix

>>> m= np.mat([1,2,3]) #创建矩阵>>> mmatrix([[1, 2, 3]])>>> m[0] #取一行matrix([[1, 2, 3]])>>> m[0,1] #第一行，第2个数据2>>> m[0][1] #注意不能像数组那样取值了Traceback (most recent call la

2020-10-22 20:49:03 453

原创机器学习中train_test_split（）函数的详解

from sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scoreimport numpy as npa数组最少是二维的因为样本属性不能只通过一个属性去描述a = np.array([[1,1.5],[2,2.6],[3,3.4],[4,4.6],[5,5.3],[6,6.8]])#数据

2020-10-21 20:01:43 1967 2

原创 dataframe_转换日期格式

1 pd.to_datetime转成时间格式2 设置格式1 df1[‘付款时间1’] = pd.to_datetime(df1[‘付款时间’])2 df1[‘year_month’] = df1[‘付款时间1’].apply(lambda x : x.strftime(’%Y-%m-%d’))3 print(df1[‘year_month’])万水千山总是情，点个关注行不行加微信 yyf1752432501 领取python免费资料（python基础语法，js,html,vue,flask，

2020-10-21 17:12:26 6020

原创如何用pandas将daraframe中的某一列的空值取出来

万水千山总是情，点个关注行不行加微信 yyf1752432501 领取python免费资料

2020-10-21 13:12:54 1067

原创 python如何操作excel文件

Excel文件处理在爬虫开发中，我们主要关注Excel文件的读写，不会过多关心Excel中的一些样式。如果想要读写Excel文件，需要借助到两个库xlrd和xlwt，其中xlrd是用于读的，xlwt是用于写的，安装命令如下：pip install xlrdpip install xlwt读取Excel文件：import xlrdworkbook = xlrd.open_workbook("成绩表.xlsx")sheet_names = workbook.sheet_names()prin

2020-10-20 22:00:58 206

原创 csv文件如何操作

csv文件处理读取csv文件：import csvwith open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x)这样操作，以后获取数据的时候，就要通过下表来获取数据。如果想要在获取数据的时候通过标题来获取。那么可以使用DictReader。示例代码如下：import csvwith open('stock

2020-10-20 21:56:58 403

原创 json字符串和python对象的相互转化以及保存读取

json文件处理：什么是json：JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。更多解释请见：https://baike.baidu.com/item/JSON/2462549?fr=aladd

2020-10-20 21:54:20 513

原创生产者消费者模式多线程爬取京东手机相关信息

完整代码如下：'''selenium爬虫京东商品详情,评论爬虫爬取自营5G手机起始页:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA%E8%87%AA%E8%90%A55g&enc=utf-8&suggest=7.his.0.0&wq=&pvid=1af7b1d6b37d4807a2fad131c9bcfe69'''from selenium import webdriverfrom selen

2020-10-16 21:08:53 254

原创 jupyter基础知识详解

jupyter基本使用方法pandas基础增：df[‘sum’] = 100删：改：df[‘sum’] = df[‘sum’].apply(lambda x : x+2)df.loc[查询条件，需要修改的列] = 100查：df[‘列名'] 或df.列名df['列名'][’行名']df.loc[起始行：结束行，起始列：结束列]df.loc[[需要选的行（1，3，5，7]，[需要选的列(语文，数学)]]df.groupby('列名').聚合函数(mean,std,median,ma

2020-09-27 15:34:17 9684

空空如也

空空如也