续写童话-CSDN博客

原创 .idea文件冲突导致git checkout分支失败

由于没有忽略本地的.idea文件导致分支切换的时候出现冲突失败解决方案如下：（1）首先删除本地的.idea文件git rm -r --cached .idea/*(2)将.idea文件加入到.gitignore中vim .gitignore#加入.idea/经过上述两个步骤，即可处理掉冲突如果不慎在创建.gitignore文件之前就push了项目，那么即使你在.gitignore文件中写入新的过滤规则，这些规则也不会起作用，Git仍然会对所有文件进行版本管理。简单来说，出现这种问题.

2021-11-10 19:14:22 1879

原创常用Linux命令的基本使用

1.学习Linux终端命令的原因Linux刚面世时并没有图形界面，所有操作全靠命令完成，如瓷盘操作、文件存取、目录操作、进程管理、文件权限设定等在职场中，大量的服务器维护工作都是在远程通过SSH客户端来完成的，并没有图形界面Linux发行版本的命令大概有200多个，但是常用的命令只有10多个而已2.常用Linux命令的基本使用小技巧（1）ctrl + shift + =放大终端窗口的字体显示（2）ctrl + -缩小终端窗口的字体显示（3）在敲出文件/目录/命令的前几个字母之后，按

2021-10-28 23:35:59 219

转载 sklearn中的coef_和intercept_

对于线性回归和逻辑回归，其目标函数为：g(x) = w1 * x1 +w2 * x2 +w3x3 + w4 x4 +w0如果有激活函数sigmoid，增加非线形变化，则为分类，即逻辑回归如果没有激活函数，则为回归对于这样的线型函数，都会有coef_和intercept，如：lr=LogisticRegression()lr.coef_lr.intercept_coef_和intercept_都是模型参数，即为wcoef_为w1到w4intercept_为w0...

2021-08-18 16:20:29 4346 1

原创 Linux：使进程在后台运行的应用场景及多种方法

来思考几种场景：1.某个脚本需要执行时间比较长，无人值守，可能执行过成因ssh会话超时而中断？2.某次测试一段代码，需要临时被放入后台运行？3.已经调起作业后，发现没有将作业放入到后台执行，如何补救？4.需要在后台运行大量脚本，如何管理？解决思路：当终端关闭或网络断开后，当前终端中运行的进程就会收到SIGHUP（终止信号），终端关闭，终端进程下的所有子进程也会关闭。为此，我们可以考虑：（1）有没有方法让运行中的进程不再收到SIGHUP信号（2）有没有方法让运行中的进程独立存在，不属于当前终端

2021-08-15 22:27:44 283

转载 Linux：ps -ef 和ps aux的区别

他们都是用来显示当前运行的进程但是：ps -ef是用标准的格式显示java进程显示的项目有：USER，PID，%CPU，%MEM，VSZ，RSS，TTY，STAT，START，TIME，COMMANDps aux是用BSD的格式显示java进程显示的项目有：UID，PID，PPTD，C，STIME，TTY，TIME，CMDps -ef的格式如下：其中，各列的内容如下：UID：用户IDPID：进程IDPPID：父进程IDC：进程占用CPU的百分比STIME：进程启动到现在的时间TT

2021-08-15 21:00:11 377

原创通俗易懂hadoop fs、hadoop dfs、hdfs fs、hdfs dfs区别

对于hadoop小白看到这几个命令时真的晕头转向，仔细研究了一番决定自己写歌笔记记下来～～～如有不对的地方欢迎指教fs与dfs有什么区别呢？(1) fs是一个通用的文件系统可以指向任何的文件系统如local，HDFS等，而dfs是分布式文件系统，是针对hdfs的。(2) fs > dfs。(3) 分布式环境情况下，fs与dfs无区别。(4) 本地环境中，fs就是本地文件，dfs就不能用了。总结起来，这四个命令的区别与联系如下：...

2021-08-11 14:55:11 6244

原创 Linux上传本地文件到hadoop的hdfs文件系统的3种方法

1.在linux文件系统中创建一个test.csv文件：（1）用touch命令创建一个名为test.csv的文件（2）ll命令显示文件信息2.将本地的test.csv文件上传至hdfs文件系统中方法一：-put命令，其中/user/tmp/为hdfs中的路径hdfs dfs -put test.csv /user/tmp/方法二：-moveFromLocal命令hdfs dfs -moveFromLocal test.csv /user/tmp/...

2021-08-11 14:40:00 26489 1

原创 hive常见的对表操作语句-修改表/字段名、增字段、删分区、复制表等

现有分区表table1表，表结构如下：+--------------------------+-----------------------+-----------------------+--+| col_name | data_type | comment |+--------------------------+-----------------------+-----------------------+--+

2021-01-18 20:57:29 1842

原创 hive中最全order by 详解

这里写自定义目录标题欢迎使用Markdown编辑器1. 升序asc2. 降序desc3. 多字段混合排序4. 当order by 遇到null 时，将如何排序？欢迎使用Markdown编辑器语法：order by 字段名 asc/desc（升序/降序）1. 升序ascselect * from table order by a1 asc或者select * from table order by a1order by默认是升序排序，所以asc可以省略2. 降序descselect *

2021-01-17 22:49:56 2905

原创 Hive常用函数汇总

1.split(分割字符串)语法：split（string str, string pat）返回值：array说明：按照pat字符串分割str,会返回分割后的字符串数组举例：hive>select split('qazwsxedc','s'); >["qazw","xedc"]2.size3.collect系列函数功能：实现多行合并（1）collect_set语法：collect_set(字段名)返回值：array说明：只接受基本数据类型，主要作用是将某

2020-09-01 18:31:41 208

原创超全！！hive时间戳函数unix_timestamp，from_unixtime

时间戳是数据库常用的存放日期的形式之一，表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数，与常规时间格式如 ‘2020-09-01 00:00:00’可以相互转换。时间戳分为10位的时间戳和13位的时间戳,10位就是存放的秒数，13位就是存放的毫秒数。（1）unix_timestampa. 语法：unix_timestamp() 返回值：返回当前时间戳举例：hive>select unix_timestamp(); >15989

2020-09-01 18:31:19 5375 1

原创 HIVE文件存储格式（texfile,sequencefile, rcfile,orcfile,parquet)

**存储格式：**指在hive建表的时候指定的将表中的数据按照什么样子的存储格式，如果制定了A方式，那么在向表中插入数据的时候，将会使用该方式向HDFS中添加相应的数据类型。hive的文件存储格式包括以下几类：textfilesequencefilercfileorcfileparquet自定义格式textfile和sequencefile是行式存储，orcfile和parquet是列式存储（1）textfile默认的存储格式存储方式：行存储不压缩磁盘开销大，数

2020-08-19 20:32:08 1632

原创 Kettle安装下载与应用

Kettle安装下载与应用持续更新中1.简介kettle是一款开源的ETL工具，允许我们管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么。注：ETL是指EXTRACT(抽取)、TRANSFORM（转换）、LOAD（加载）（1）两种脚本文件transformation和job,transfromation完成针对数据的基础转换，job则完成整个工作流的控制。（2）五个组件Spoon：图形用户界面，允许通过图形界面设计ETL转换过程Pan：转换（transform）执行器

2020-08-18 09:11:46 406

原创推荐算法中的嵌入技术

1.tensorflow中embedding_lookup( )的用法tf.nn.embedding_lookup( params,ids, partition_strategy='mod', name=None,validate_indices=True,max_norm=None)'''参数说明：1.params表示已经训练好的嵌入向量，一般都是用word2vec训练2.ids: 一...

2020-04-30 14:12:14 547

转载 python中数组（numpy.array）的基本操作

为什么要用numpyPython中提供了list容器，可以当作数组使用。但列表中的元素可以是任何对象，因此列表中保存的是对象的指针，这样一来，为了保存一个简单的列表[1,2,3]。就需要三个指针和三个整数对象。对于数值运算来说，这种结构显然不够高效。Python虽然也提供了array模块，但其只支持一维数组，不支持多维数组(在TensorFlow里面偏向于矩阵理解)，也没有各种运算函数。因而不...

2020-04-11 10:41:24 283

原创用python计算相似度

numpy.corrcoef(x,y=无，rowvar=True,偏差=<无值>，ddof=<无值>)返回Pearson乘积矩相关系数，取值范围[-1,1]例子import numpy as np Array1 = [[1, 2, 3], [4, 5, 6]]Array2 = [[11, 25, 346], [734, 48, 49]]Mat1 = np.ar...

2020-04-11 10:03:53 508

原创 Python的range()函数

python range()函数可创建一个整数列表，一般用在for循环中。range(start, stop[, step])#参数说明start: 计数从 start 开始。默认是从 0 开始。例如range（5）等价于range（0， 5）;stop: 计数到 stop 结束，但不包括 stop。例如：range（0， 5）是[0, 1, 2, 3, 4]没有5step：步长，默认...

2020-04-11 09:39:29 141

原创 python读取文件read()、readline()、readlines()对比

在python中读取文件常用的三种方法：read(),readline(),readlines()。看似很简单，但用的时候经常忘记原理。俗话说好记性不如烂笔头，所以今天特地整理一下：1.read()特点：读取整个文件，将文件内容放到一个字符串变量中。缺点：如果文件非常大，尤其是大于内存时，无法使用read()方法。file = open('个人信息.txt', 'r') # 创建的这个文...

2020-04-02 21:47:13 188

原创 python中的try...except使用

通常情况下，在python中运行程序，多多少少会出现程序异常的问题。Python中包含错误和异常两种情况：（1）常见的语法错误SyntaxError（2）异常；指在语法和表达式上并没有错误，运行时会发生错误的情况。try……except能很好的解决程序中的异常。以下是其用法，在不同位置时进行什么样的工作和起到什么样的作用。try: 可能出现异常的语句except: 将出现异常...

2020-04-02 21:28:01 290

原创 JSON常见用法:json.load()、json.loads()、json.dump()、json.dumps()

JOSN的定义JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation）JSON 是轻量级的文本数据交换格式JSON 独立于语言JSON 具有自我描述性，更易理解常用的方法json.load()从json文件中读取数据json.loads()将str类型的数据转换为dict类型json.dumps()将...

2020-04-01 20:18:48 76992 1

原创 python中loc、iloc和ix函数区别和作用详解（附示例）

1.loc意义：通过行标签索引行数据loc[n]表示索引的是第n行（index是整数）loc[‘n’]表示索引的是第‘n’行（index是字符）2.iloc意义：通过行号获取行数据3.ix：结合前两种的混合索引三者区别ix / loc 可以通过行号和行标签进行索引，比如 df.loc[‘a’] , df.loc[1], df.ix[‘a’] , df.ix[1]iloc只能通过行...

2020-04-01 09:27:48 7148

原创深度学习中训练集验证集测试集的区别以及常见的数据集划分原则

在介绍常见的数据集划分原则前，我们先看一下为什么要对数据集进行划分。首先，我们进行模型验证的一个重要目的是要选出一个最合适的模型，对于监督学习而言，我们希望模型对于未知数据的泛化能力强，所以就需要模型验证这一过程来体现不同的模型对于未知数的表现效果。最先我们用训练准确度（用全部的数据进行训练和测试）来衡量模型的表现，这种方式会导致模型过拟合；为了解决这一问题，需要将所有数据划分成训练集和测试集...

2020-03-29 18:54:27 8170

原创 Python常用的读取文件的方式（read_csv，read_table）

1.python读取文件的几种方式read_csv：从文件，url，文件型对象中加载带分隔符的数据，默认分隔符为逗号read_table：从文件，url，文件型对象中加载带分隔符的数据，默认分隔符为制表符("\t")实质上是通用的，在实际使用中可以通过对sep参数的控制来对任何文本文件读取举例说明用以下代码来演示csv文件的读取操作：import pandas as pddata1 ...

2020-03-27 13:37:39 3096

原创 tensorflow的特征构造函数

tf.feature_column.embedding_column参数说明tf.feature_column.embedding_column( categorical_column, dimension, combiner='mean', initializer=None, ckpt_to_load_from=None, tensor_name...

2020-03-26 11:45:17 294

原创 hive的数据倾斜问题

hive的数据倾斜问题1.什么是数据倾斜数据倾斜是我们在进行分布式计算的时候，某些节点的计算能力较强或需要计算的数据量很少，早早的执行完了；而某些节点的计算能力较差或此节点需要计算的数据较多，导致出现其他节点的reduce阶段任务执行完成，但是这种节点的数据处理任务还没有执行完成2.数据倾斜产生的现象如果遇到一直卡在map100%，reduce99%一般就是遇到了数据倾斜的问题。3.产生...

2019-11-29 21:26:38 265

原创 Netflix Prize大赛数据集下载

这是netflix数据集下载的网盘链接: https://pan.baidu.com/s/1bJjvmvMouoMBZE7ZVRHAbg 提取码: spie

2019-05-15 20:14:24 1590 4

原创 window系统中，解决Pycharm 文件更改目录后,执行路径未更新问题

有时候，当我们更改Pycharm文件目录后，运行文件时其执行路径并未更新，导致文件运行出错。本文以Python编程从入门到事件中的aline_invasion.py文件为例，展示如何在pycharm中更改文件的执行路径。如图1所示，aline_invasion.py原本在scratches文件夹中，我将aline_invasion.py文件从scratches文件夹中移入到scratches文...

2019-01-31 21:09:19 13448

原创 Netflix Prize数据集详解及数据集下载链接

Netflix数据集包含了1999.12.31-2005.12.31期间匿名客户提供的超过一亿部电影平级。这个数据集大约给出了480189个用户和17770部电影评级。数据集中的详细信息如下图所示：该数据集包含电影信息、training set（训练集）、probe set（探测集）和qualifying set(评估集)组成。qualifying set(评估集)又被分为Quiz（测验集）和...

2019-01-17 18:36:19 10805 21

翻译协同过滤——受限制玻尔兹曼机

基于模型的协同过滤主要包括矩阵因子分解、受限制玻尔兹曼机、贝叶斯网络等。今天主要梳理一下受限制玻尔兹曼机的知识。

2019-01-17 13:17:16 585

翻译基于邻域的模型

基于邻域的模型的优点：（1）提供了推荐背后的直观解释，这种解释不仅提高了准确性，同时增强了用户体验。（2）基于邻域的模型能够根据一个新进入系统的用户反馈立即提供推荐1.相似性度量基于物品的方法的核心是物品之间的相似性度量。一般情况下相似度的度量是基于皮尔逊相关系数ρij\rho_{ij}ρij,该相关系数度量了用户对物品i和物品j进行评分的相似性趋势。...

2019-01-15 12:21:34 1229 4

翻译 Netflix的推荐的推荐模型包含了特定天的参数，那么netflix是如何使用这些天数来预测未来的评分呢？

Netflix prize大赛获奖者的模型中包含了特定天的参数，那么一个明显的问题就是如何使用这些模型来预测未来的评分呢？一个简单的处理方式就是对于未来（未训练）的日期，特定日期的参数应该取默认值。也就是对于式：bui=μ+bu+αu⋅devu(tui)+bu,tui+（bi+bi,Bin(tui)）⋅cu(t)b_{ui}=\mu+b_u+\alpha_u\cdot dev_u(t_{ui})...

2019-01-13 12:23:32 294

翻译 Netflix的基准预测

1. 基准预测CF模型试图捕捉用户和物品之间的交互作用，正是这些交互作用产生了不同的评分值。然而大部分观察到的评分值要么与用户相关，要么与物品相关，而与用户和物品之间的交互作用无关。比如典型的CF数据显示了用户和物品中存在的偏置，也就是说，数据中某些用户评分比其他用户高和某些物品得到的评分比其他物品高的明显倾向。我们将这些与用户—物品交互作用无关的因子（这些因子也叫偏置）封装到基准预测中。由于...

2019-01-12 13:30:46 1320

翻译因子分解模型——SVD、SVD++、timeSVD++

用隐语义模型来进行协同过滤的目标是揭示隐藏的特征。这些隐藏的特征能够解释观测到的评分，该模型的一些实例包括pLSA模型、神经网络模型、隐式Dirichlet分配模型，以及由用户-物品评分矩阵的因子分解推导出的模型（也叫做基于SVD的模型）。

2019-01-11 21:52:12 4506 1

weixin_43631296的博客