走天涯_1-CSDN博客

原创 nlp_关键词提取总结

关键词提取：从文本中提取出与这篇文章意义最相关的词语。关键词的作用： 1、文献检索初期，关键词作为搜索这篇论文的词语。 2、在文本聚类、分类、摘要等领域中有着重要的作用。 ——比如聚类时把关键词相似的几篇文章看成一个类团可以大大K-means聚类的收敛速度。关键词提取大致有两种： 1、关键词分配——从给定的关键词库里面找到几个词作为这篇文章的关键词。 2、关键词抽取——从文章中抽取

2016-07-11 16:10:21 10019

一、查看Linux内核版本命令（两种方法）：1、cat /proc/version[root@localhost ~]# cat /proc/versionLinux version 2.6.18-194.8.1.el5.centos.plus (mockbuild@builder17.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-4

2017-02-10 13:03:26 599

原创丑数

我们把只包含因子2、3和5的数称作丑数（Ugly Number）。#include <iostream> using namespace std; int Min(int a, int b, int c) { int temp = (a < b ? a : b); return (temp < c ? temp : c); } int Fin

2016-09-16 12:14:55 528

原创 Google 2016面试题

1、数组补丁给出一个从小到大排好序的整数数组nums和一个整数n，在数组中添加若干个补丁（元素）使得[1,n]的区间内的所有数都可以表示成nums中若干个数的和。返回最少需要添加的补丁个数。 Example 1： nums = [1, 3], n = 6 返回1，表示至少需要添加1个数｛2｝，才可以表示1到6之间所有数。 Example 2: nums = [1, 5, 10], n =

2016-09-16 11:26:46 700 1

原创 C++ 读取文件/输入的方式总结

1,getline(istream &in,string &s)从输入流读入一行到string s功能：-从输入流中读取字符，存到string 变量中-一直到出现以下情况为止：读入了文件结束标志读到了一个新行达到字符串的最大长度-如果getline没有读入字符，将返回false,可用于判断文件是否结束#include<iostream>#include<fstream>#include<s

2016-09-12 15:21:37 1123

原创二叉树的深度

三种方法：递归，深搜，宽搜；/*struct TreeNode { int val; struct TreeNode *left; struct TreeNode *right; TreeNode(int x) : val(x), left(NULL), right(NULL) { }};*/class Solution {pu

2016-08-16 22:07:40 367

原创 Python 遍历文件夹的方法：

遍历文件夹是一个常用的功能.- 第一种方法：使用os.walk:# -*- coding: utf-8 -*- import os def Test1(rootDir): list_dirs = os.walk(rootDir) for root, dirs, files in list_dirs: for d in dirs: p

2016-08-08 12:03:18 586

原创利用SSH传输文件

如题：Linux scp命令*1、从服务器上下载文件 –scp username@servername:/path/filename /var/www/local_dir(本地目录）*2、上传文件到服务器 –scp /path/filename username@servername:/path*3、从服务器下载整个目录 –scp -r username@servername:/var

2016-08-08 11:39:46 392

转载 GBDT

在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。

2016-08-07 17:37:31 761 5

原创 LDA主题模型学习笔记

LDA：隐含狄利克雷分布（Latent Dirichlet Allocation，简称LDA）定义: -它是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。而当我们看到一篇文章后，往往喜欢推测这

2016-08-07 17:01:35 1883

原创机器学习中的规则化之L0、L1和L2范数

监督机器学习问题无非就是再规则化参数的同时最小化误差。*最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。规则化参数的作用：*使得模型简单，且具有好的泛化性能（也就是测试误差小）*将人对这个模型的先验知识融入到模型的学习当中，使得模型具有稀疏、低秩、平滑等等特性。规则化符合奥卡姆剃刀原理*思想：在所有可能选择的模

2016-08-07 11:23:27 1319

原创 LR与SVM的异同

LR与SVM的相同点：*LR和SVM都是分类算法*如果不考虑核函数，LR和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的。*LR和SVM都是监督学习算法*LR和SVM都是判别模型 –判别模型会生成一个表示p(y|x)的判别函数（或预测模型）， –生成模型先计算联合p(y,x)然后通过贝叶斯公式转化为条件概率。 –常见的判别模式：KNN、SVM、LR，常见的生成模型有：

2016-08-06 20:35:59 3504

原创 jieba分词算法总结

jieba分词算法总结特点：支持三种分词模式 –精确模式，试图将句子最精确地切开，适合文本分析; –全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但不能解决歧义; –搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典使用：-安装或者将jieba目录放在当前目录或者site-packages目录算法：-基于

2016-08-05 14:36:45 19954

原创排序算法总结

1.快速排序：快速排序使用分治法（Divide and conquer）策略来把一个序列（list）分为两个子序列（sub-lists）。步骤为：从数列中挑出一个元素，称为"基准"（pivot），重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以到任一边）。在这个分区结束之后，该基准就处于数列的中间位置。这个称为分区（part

2016-07-23 17:21:37 847

原创文章提取关键词_jieba(IF-IDF/TextRank)

#!usr/bin/env python#-*- coding:utf-8-*-import jiebaimport jieba.analyseimport codecsfile_path='./data/000000_0'result_file_path="./data/000000_0_result_textrank"f=open(file_path,'r')f_result=

2016-07-20 17:11:56 5599

原创排序算法总结实现

１排序算法之直接插入排序#include#includeusing namespace std;int main(){ int n=0,value=0; cin>>n; int *val=new int[n]; int num=0; int size=n; while(size--){ cin>>value; val[num]=value; num++; }

2016-07-19 14:06:36 327

原创决策树—学习心得

1、先来个正式的定义：决策树是一个树结构（可以是二叉树或非二叉树）。其每个飞叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，知道到达叶子节点，将叶子节点存放的类别作为决策结果。2、决策数分为分类树和回归树。分别针对应于离散变量和连续变量。3、

2016-07-15 15:15:34 10932

原创 wiki_word2vec_python实验

1.linux安装python版本 gensim word2vec :依赖库：Numpy和SciPy:首先进行安装以上两个库：ubuntu：sudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-notebook python-pandas python-sympy p

2016-07-14 20:29:48 3704 1

原创 nlp_关键词库(mysql数据库）去噪_python

1.频率归一化词库#!/usr/bin/python#-*- coding:UTF-8 -*-from __future__ import divisionimport MySQLdb as mdb#import chardetcon = mdb.connect('localhost','root','zxwxwz','mysql_test',charset='utf8')cur

2016-07-14 15:05:17 1488

原创文本关键词算法原理总结

TF-IDF:term frequency-inverse document frequency) 概念：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比。词频（term frequency,TF)：某一个给定的词语在该文件中出现的次数。这个数字通常会被归

2016-07-11 18:40:49 2748

原创欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2016-07-11 15:26:59 298

原创从尾到头打印链表

#include#include#includeusing namespace std;struct ListNode{ int m_nKey; ListNode* m_pNext;};void print_list(ListNode* head){ if(head==NULL) return; print_list(head->m_pNext); coutm_nKey

2016-07-10 16:14:33 346

原创 o(n)指针法替换空格

#include#include#includeusing namespace std;int main(){ const int length=100; char s[length]; cin.getline(s,length); int n=strlen(s); int num_blank=0; for(int i=0;i<n;i++){ if(s[i]==' ')

2016-07-10 15:42:43 441

原创空间换时间-替换空格

#include<stdio.h>#include<iostream>#include<string.h>#include<stdlib.h>using namespace std;int main(){ const int length=100; char s[length]; cin.getline(s,length); int n=strlen(s);

2016-07-10 15:18:04 427

原创二维数组中的查找

#include<stdio.h>#include<iostream>using namespace std;int main(){ int x=0,y=0; cin>>x>>y; int** matrix=new int*[x]; for(int i=0;i<x;i++){ matrix[i]=new int[y]; } int

2016-07-10 14:36:53 305

原创虚函数举例

#include#includeusing namespace std;class Base{public:virtual void Print(){coutPrint();return 0;}

2016-07-09 22:17:05 522

海阔天空