走天涯_1
码龄9年
关注
提问 私信
  • 博客:68,531
    68,531
    总访问量
  • 24
    原创
  • 613,134
    排名
  • 10
    粉丝
  • 0
    铁粉

个人简介:努力学习各种算法

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-12-16
博客简介:

海阔天空

博客描述:
算法,机器学习,nlp
查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得9次评论
  • 获得36次收藏
创作历程
  • 1篇
    2017年
  • 25篇
    2016年
成就勋章
TA的专栏
  • 刷题
    8篇
  • 手册
  • nlp
    7篇
  • 算法
    4篇
  • linux
    2篇
  • c++基本知识
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Linux下查看系统版本号信息的方法

一、查看Linux内核版本命令(两种方法):1、cat /proc/version[root@localhost ~]# cat /proc/versionLinux version 2.6.18-194.8.1.el5.centos.plus (mockbuild@builder17.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-4
转载
发布博客 2017.02.10 ·
551 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

丑数

我们把只包含因子2、3和5的数称作丑数(Ugly Number)。#include <iostream> using namespace std; int Min(int a, int b, int c) { int temp = (a < b ? a : b); return (temp < c ? temp : c); } int Fin
原创
发布博客 2016.09.16 ·
495 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Google 2016面试题

1、数组补丁给出一个从小到大排好序的整数数组nums和一个整数n,在数组中添加若干个补丁(元素)使得[1,n]的区间内的所有数都可以表示成nums中若干个数的和。返回最少需要添加的补丁个数。 Example 1: nums = [1, 3], n = 6 返回1,表示至少需要添加1个数{2},才可以表示1到6之间所有数。 Example 2: nums = [1, 5, 10], n =
原创
发布博客 2016.09.16 ·
670 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

C++ 读取文件/输入的方式总结

1,getline(istream &in,string &s)从输入流读入一行到string s功能:-从输入流中读取字符,存到string 变量中-一直到出现以下情况为止:读入了文件结束标志读到了一个新行达到字符串的最大长度-如果getline没有读入字符,将返回false,可用于判断文件是否结束#include<iostream>#include<fstream>#include<s
原创
发布博客 2016.09.12 ·
1088 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

二叉树的深度

三种方法:递归,深搜,宽搜;/*struct TreeNode { int val; struct TreeNode *left; struct TreeNode *right; TreeNode(int x) : val(x), left(NULL), right(NULL) { }};*/class Solution {pu
原创
发布博客 2016.08.16 ·
353 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python 遍历文件夹的方法:

遍历文件夹是一个常用的功能.- 第一种方法:使用os.walk:# -*- coding: utf-8 -*- import os def Test1(rootDir): list_dirs = os.walk(rootDir) for root, dirs, files in list_dirs: for d in dirs: p
原创
发布博客 2016.08.08 ·
555 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用SSH传输文件

如题:Linux scp命令*1、从服务器上下载文件 –scp username@servername:/path/filename /var/www/local_dir(本地目录)*2、上传文件到服务器 –scp /path/filename username@servername:/path*3、从服务器下载整个目录 –scp -r username@servername:/var
原创
发布博客 2016.08.08 ·
375 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GBDT

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。
转载
发布博客 2016.08.07 ·
730 阅读 ·
1 点赞 ·
5 评论 ·
2 收藏

LDA主题模型学习笔记

LDA:隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA) 定义: -它是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。而当我们看到一篇文章后,往往喜欢推测这
原创
发布博客 2016.08.07 ·
1824 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习中的规则化之L0、L1和L2范数

监督机器学习问题无非就是再规则化参数的同时最小化误差。*最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。规则化参数的作用:*使得模型简单,且具有好的泛化性能(也就是测试误差小)*将人对这个模型的先验知识融入到模型的学习当中,使得模型具有稀疏、低秩、平滑等等特性。规则化符合奥卡姆剃刀原理*思想:在所有可能选择的模
原创
发布博客 2016.08.07 ·
1229 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LR与SVM的异同

LR与SVM的相同点:*LR和SVM都是分类算法*如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的。*LR和SVM都是监督学习算法*LR和SVM都是判别模型 –判别模型会生成一个表示p(y|x)的判别函数(或预测模型), –生成模型先计算联合p(y,x)然后通过贝叶斯公式转化为条件概率。 –常见的判别模式:KNN、SVM、LR,常见的生成模型有:
原创
发布博客 2016.08.06 ·
3442 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

word2vec.tar.gz

发布资源 2016.08.05 ·
gz

jieba分词算法总结

jieba分词算法总结特点:支持三种分词模式 –精确模式,试图将句子最精确地切开,适合文本分析; –全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; –搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典使用:-安装或者将jieba目录放在当前目录或者site-packages目录算法:-基于
原创
发布博客 2016.08.05 ·
19847 阅读 ·
4 点赞 ·
1 评论 ·
20 收藏

排序算法总结

1.快速排序:快速排序使用分治法(Divide and conquer)策略来把一个序列(list)分为两个子序列(sub-lists)。步骤为:从数列中挑出一个元素,称为"基准"(pivot),重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区结束之后,该基准就处于数列的中间位置。这个称为分区(part
原创
发布博客 2016.07.23 ·
821 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

文章提取关键词_jieba(IF-IDF/TextRank)

#!usr/bin/env python#-*- coding:utf-8-*-import jiebaimport jieba.analyseimport codecsfile_path='./data/000000_0'result_file_path="./data/000000_0_result_textrank"f=open(file_path,'r')f_result=
原创
发布博客 2016.07.20 ·
5509 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

排序算法总结实现

1排序算法之直接插入排序#include#includeusing namespace std;int main(){ int n=0,value=0; cin>>n; int *val=new int[n]; int num=0; int size=n; while(size--){ cin>>value; val[num]=value; num++; }
原创
发布博客 2016.07.19 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

决策树—学习心得

1、先来个正式的定义:决策树是一个树结构(可以是二叉树或非二叉树)。其每个飞叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,知道到达叶子节点,将叶子节点存放的类别作为决策结果。2、决策数分为分类树和回归树。分别针对应于离散变量和连续变量。3、
原创
发布博客 2016.07.15 ·
10861 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

wiki_word2vec_python实验

1.linux安装python版本 gensim word2vec :依赖库:Numpy和SciPy:首先进行安装以上两个库:ubuntu:sudo apt-get install python-numpy python-scipy python-matplotlib ipython ipython-notebook python-pandas python-sympy p
原创
发布博客 2016.07.14 ·
3656 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

nlp_关键词库(mysql数据库)去噪_python

1.频率归一化词库#!/usr/bin/python#-*- coding:UTF-8 -*-from __future__ import divisionimport MySQLdb as mdb#import chardetcon = mdb.connect('localhost','root','zxwxwz','mysql_test',charset='utf8')cur
原创
发布博客 2016.07.14 ·
1458 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

文本关键词算法原理总结

TF-IDF:term frequency-inverse document frequency) 概念:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比。 词频(term frequency,TF):某一个给定的词语在该文件中出现的次数。这个数字通常会被归
原创
发布博客 2016.07.11 ·
2650 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多