自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

海阔天空

算法,机器学习,nlp

原创 nlp_关键词提取总结

关键词提取:从文本中提取出与这篇文章意义最相关的词语。 关键词的作用: 1、文献检索初期,关键词作为搜索这篇论文的词语。 2、在文本聚类、分类、摘要等领域中有着重要的作用。 ——比如聚类时把关键词相似的几篇文章看成一个类团可以大大K-means聚类的收敛速度。 关键词提取大致有两种: ...

2016-07-11 16:10:21

阅读数 8098

评论数 1

转载 Linux下查看系统版本号信息的方法

一、查看Linux内核版本命令(两种方法):1、cat /proc/version[root@localhost ~]# cat /proc/version Linux version 2.6.18-194.8.1.el5.centos.plus (mockbuild@builder17.cent...

2017-02-10 13:03:26

阅读数 213

评论数 0

原创 丑数

我们把只包含因子2、3和5的数称作丑数(Ugly Number)。 #include <iostream> using namespace std; int Min(int a, int b, int c) { int temp = (a < b ?...

2016-09-16 12:14:55

阅读数 260

评论数 0

原创 Google 2016面试题

1、数组补丁 给出一个从小到大排好序的整数数组nums和一个整数n,在数组中添加若干个补丁(元素)使得[1,n]的区间内的所有数都可以表示成nums中若干个数的和。返回最少需要添加的补丁个数。 Example 1: nums = [1, 3], n = 6 返回1,表示至少需要添加1个数{2...

2016-09-16 11:26:46

阅读数 468

评论数 1

原创 C++ 读取文件/输入的方式总结

1,getline(istream &in,string &s)从输入流读入一行到string s功能: -从输入流中读取字符,存到string 变量中-一直到出现以下情况为止: 读入了文件结束标志读到了一个新行达到字符串的最大长度 -如果getline没有读入字符,将返回fals...

2016-09-12 15:21:37

阅读数 352

评论数 0

原创 二叉树的深度

三种方法:递归,深搜,宽搜;/* struct TreeNode { int val; struct TreeNode *left; struct TreeNode *right; TreeNode(int x) : val(x), left...

2016-08-16 22:07:40

阅读数 232

评论数 0

原创 Python 遍历文件夹的方法:

遍历文件夹是一个常用的功能.- 第一种方法:使用os.walk:# -*- coding: utf-8 -*- import os def Test1(rootDir): list_dirs = os.walk(rootDir) for root, dirs, files ...

2016-08-08 12:03:18

阅读数 392

评论数 0

原创 利用SSH传输文件

如题:Linux scp命令 *1、从服务器上下载文件 –scp username@servername:/path/filename /var/www/local_dir(本地目录) *2、上传文件到服务器 –scp /path/filename username@servername:/...

2016-08-08 11:39:46

阅读数 227

评论数 0

转载 GBDT

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加...

2016-08-07 17:37:31

阅读数 571

评论数 5

原创 LDA主题模型学习笔记

LDA:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA) 定义: -它是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的...

2016-08-07 17:01:35

阅读数 1403

评论数 0

原创 机器学习中的规则化之L0、L1和L2范数

监督机器学习问题无非就是再规则化参数的同时最小化误差。 *最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。 规则化参数的作用: *使得模型简单,且具有好的泛化性能(也就是测试误差小) *将人对这个模型的先验知识融入到模型的学习当中...

2016-08-07 11:23:27

阅读数 924

评论数 0

原创 LR与SVM的异同

LR与SVM的相同点: *LR和SVM都是分类算法 *如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。 *LR和SVM都是监督学习算法 *LR和SVM都是判别模型 –判别模型会生成一个表示p(y|x)的判别函数(或预测模型), –生成模型先计算联合p(y...

2016-08-06 20:35:59

阅读数 3077

评论数 0

原创 jieba分词算法总结

jieba分词算法总结特点: 支持三种分词模式 –精确模式,试图将句子最精确地切开,适合文本分析; –全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; –搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 -支持繁体分词 -支...

2016-08-05 14:36:45

阅读数 14758

评论数 1

原创 排序算法总结

1.快速排序: 快速排序使用分治法(Divide and conquer)策略来把一个序列(list)分为两个子序列(sub-lists)。 步骤为: 从数列中挑出一个元素,称为"基准"(pivot),重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素...

2016-07-23 17:21:37

阅读数 617

评论数 0

原创 文章提取关键词_jieba(IF-IDF/TextRank)

#!usr/bin/env python #-*- coding:utf-8-*- import jieba import jieba.analyse import codecs file_path='./data/000000_0' result_file_path=&quo...

2016-07-20 17:11:56

阅读数 4417

评论数 0

原创 排序算法总结实现

1排序算法之直接插入排序 #include #include using namespace std; int main(){ int n=0,value=0; cin>>n; int *val=new int[n]; int num=0; int size=n; whi...

2016-07-19 14:06:36

阅读数 218

评论数 0

原创 决策树—学习心得

1、先来个正式的定义:决策树是一个树结构(可以是二叉树或非二叉树)。其每个飞叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,知道到达叶子节点,将叶子...

2016-07-15 15:15:34

阅读数 3986

评论数 0

原创 wiki_word2vec_python实验

1.linux安装python版本 gensim word2vec : 依赖库:Numpy和SciPy: 首先进行安装以上两个库: ubuntu: sudo apt-get install python-numpy python-scipy python-matplotlib ip...

2016-07-14 20:29:48

阅读数 3163

评论数 1

原创 nlp_关键词库(mysql数据库)去噪_python

1.频率归一化词库 #!/usr/bin/python #-*- coding:UTF-8 -*- from __future__ import division import MySQLdb as mdb #import chardet con = mdb.connect('loca...

2016-07-14 15:05:17

阅读数 973

评论数 0

原创 文本关键词算法原理总结

TF-IDF:term frequency-inverse document frequency) 概念:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比。...

2016-07-11 18:40:49

阅读数 2059

评论数 0

原创 欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富...

2016-07-11 15:26:59

阅读数 181

评论数 0

原创 从尾到头打印链表

#include #include #include using namespace std; struct ListNode{ int m_nKey; ListNode* m_pNext; }; void print_list(ListNode* head){ if(head==NULL...

2016-07-10 16:14:33

阅读数 244

评论数 0

原创 o(n)指针法替换空格

#include #include #include using namespace std; int main(){ const int length=100; char s[length]; cin.getline(s,length); int n=strlen(s); int nu...

2016-07-10 15:42:43

阅读数 194

评论数 0

原创 空间换时间-替换空格

#include<stdio.h> #include<iostream> #include<string.h> #include<stdlib.h> using namespace std; int main(){ const int len...

2016-07-10 15:18:04

阅读数 247

评论数 0

原创 二维数组中的查找

#include<stdio.h> #include<iostream> using namespace std; int main(){ int x=0,y=0; cin>>x>>y; int** matrix=new in...

2016-07-10 14:36:53

阅读数 183

评论数 0

原创 虚函数举例

#include#includeusing namespace std;class Base{public:virtual void Print(){coutPrint();return 0;}

2016-07-09 22:17:05

阅读数 214

评论数 0

提示
确定要删除当前文章?
取消 删除