自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 详解TF-IDF

目录什么是TF-IDF怎么计算举例例1例2再看代码什么是TF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件...

2019-12-22 12:36:25 972

原创 机器学习中的一些Boosting

目录什么是Boosting?Boosting的种类AdaBoost (Adaptive Boosting)Gradient BoostingXGBoost什么是Boosting?The term ‘Boosting’ refers to a family of algorithms which converts weak learner to strong learners. Boosting...

2019-12-21 22:33:01 475

原创 Git常用设置

目录设置姓名和邮箱设置代理取消代理设置姓名和邮箱git config --global user.name “”git config --global user.email “@163.com”设置代理国内Git虽然没有屏蔽,但用 git clone 时,网速大部分都在20KiB/s以下,可以设置代理方式加速命令行执行:git config --global http.proxy s...

2019-12-15 13:14:08 254

原创 Linux下载命令wget用法

r

2019-12-07 19:03:44 788

原创 Encoder and Decoder with Attention Model

#!/bin/bash# 定义变量方便修改APP=gmallhive=/opt/module/hive/bin/hive# 如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if [ -n "$1" ] ;then do_date=$1else do_date=`date -d "-1 day" +%F`fi echo "===日志日期为 $do_...

2019-12-01 13:06:56 989

原创 Shell中单引号和双引号区别

vim test.sh#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`test.sh 2019-02-10结果:$do_date2019-02-10'2019-02-10'"$do_date"2019年 05月 02日...

2019-11-29 17:12:15 140

原创 Linux环境变量

1)修改/etc/profile文件:用来设置系统环境参数,比如$PATH. 这里面的环境变量是对系统内所有用户生效。使用bash命令,需要source /etc/profile一下。2)修改~/.bashrc文件:针对某一个特定的用户,环境变量的设置只对该用户自己有效。使用bash命令,只要以该用户身份运行命令行就会读取该文件。3)把/etc/profile里面的环境变量追加到~/.bas...

2019-11-29 11:00:46 117

原创 大数据集群操作脚本

#! /bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do ssh $i "/opt/module/zookeeper-3.4.10/bin/zkServer.sh start" done};;"stop"){ for i in hadoop102 hadoop103 hadoop104...

2019-11-29 10:57:49 259

原创 激活函数总结

激活函数的作用首先,激活函数不是真的要去激活什么,而是用来加入非线性因素的,因为线性模型的表达能力不够。在神经网络中,激活函数的作用是能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题。如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层节点的输入都是上层输出的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层...

2019-11-22 11:45:52 380

翻译 怎么用Git上传上G的超大文件

Download and install the Git command line extension. Once downloaded and installed, set up Git LFS and its respective hooks by running:git lfs installYou’ll need to run this in your repository di...

2019-11-21 20:45:59 1188

原创 怎么将多个文件的内容进行合并(Talk is cheap, show me the code)

import osdef readfile(path): # 读取文件夹下所有的文件 files = os.listdir(path) file_list = [] for file in files: # 遍历文件夹 if not os.path.isdir(file): file_list.append(path + '/'...

2019-11-11 14:58:47 351

原创 亲手实践安装Ubuntu系统(傻瓜式、超详细)

准备U盘一个下载ISO文件下载rufus-3.8.exe链接:https://pan.baidu.com/s/1b8-btvBjtQLUd8ro4L3Lug提取码:0jji先插入U盘,rufus软件免安装,双击打开rufus-3.8.exe文件即可运行,点击选择按键选择下载好的ISO文件,如下图点击开始,如果出现如下提示选择是继续选择是选择是,然后可以制作镜像了制作完...

2019-11-08 10:35:15 3886

原创 Centos7 普通用户配置sudo免密

在Linux里当我们需要执行一条root权限的命令时,每次都要用sudo命令然后再确认密码,非常不方便。那么我们修改配置sudo免密。默认新建的用户不在sudo组,但可以编辑/etc/sudoers文件将普通用户加入sudo组。要注意的是修改该文件需要切换到root用户使用命令 vi /etc/sudoers修改配置文件,将下列第三或第四行添加到文件中youuser ALL=(ALL) AL...

2019-11-04 23:16:28 5868

原创 解决ModuleNotFoundError: No module named 'sklearn.cross_validation'

新版本的sklearn已经废弃cross_validation,将其中的内容整合到model_selection中,将sklearn.cross_validation 替换为 sklearn.model_selection 即可from sklearn.model_selection import KFold...

2019-11-04 22:58:19 3332

原创 二八定律 VS 长尾效应

二八定律二八定律又名80/20定律、帕累托法则(Pareto‘s principle)、朱伦法则(Juran’s Principle)、关键少数法则(Vital Few Rule)、不重要多数法则(Trivial Many Rule)、最省力的法则、不平衡原则等。二八定律是19世纪末20世纪初意大利经济学家帕累托发现的。他认为,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管...

2019-11-03 16:11:14 7146

原创 Centos 7配置Anaconda3国内镜像源

Anaconda的配置文件叫.condarc,一般会放在用户的家目录,因为前面带有’.’,因此是隐藏文件。我们可以用vi ~/.condarc直接编辑将以下代码添加到配置中就可以使用清华的镜像源了channels: - defaultsshow_channel_urls: truedefault_channels: - https://mirrors.tuna.tsinghua.e...

2019-11-02 08:31:09 3932

原创 什么是混淆矩阵(Confusion Matrix)

在分类任务下,预测结果与正确标记之间存在四种不同的组合,就构成了混淆矩阵(适用于多分类)正例假例正例真正例TP伪反例FN假例伪正例FP真反例TN作用用于观察模型在各个类别上的表现,可以计算模型对应各个类别的准确率,召回率;精确率(Precision):预测结果为正例样本中真实为正例的比例(查得准)召回率(Recall):真实为正例的样本中预测结...

2019-10-27 07:52:43 1567

原创 解决Windows环境下Microsoft Visual C++ 14.0 is required问题

错误重现error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": https://visualstudio.microsoft.com/downloads/解决方案下载Microsoft visual c++ 14.0,并安装(以下资源选其一)链接:http...

2019-10-27 06:57:00 750

原创 一文解决烦人的Impala日期问题

获取当前日期now()select now()rst:2019-10-24 10:58:47.128771000current_timestamp()select current_timestamp()rst:2019-10-24 11:29:43.718155000now()和current_timestamp()等价,都是获取当前系统时间unix_timestamp(...

2019-10-25 10:17:56 2707

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除