2017年03月_listwebit

09月 08月 07月 06月 05月 03月 02月 01月

转载 python list 汉字乱码

在python2.X下的的中文处理有不少问题，>>>listnine = ['梨', '橘子', '苹果', '香蕉']>>>print 'listnine list: %s' % listnine结果会是：['\xe6\xa2\xa8', '\xe6\xa9\x98\xe5\xad\x90', '\xe8\x8b\xb9\xe6\x9e\x9c', '\xe9

2017-03-29 17:25:50 7014

原创 linux 查找大文件

linux 查找大文件http://www.cnblogs.com/kerrycode/p/4391859.html

2017-03-28 10:13:52 487

转载 hive参数

$HIVE_HOME/bin/Hive是一个shell工具，它可以用来运行于交互或者批处理方式配置单元查询，语法如下：1. -i filename 执行脚本文件filename，会在终端上显示mapreduce的进度，执行完毕后，最后把查询结果输出到终端上，然后进入交互模式 eg：hive -i script.sql 1 jim

2017-03-21 09:59:24 440

原创 Elasticsearch 安装

Elasticsearch 是一个搜索服务器，特点：分布式、易于扩展、全文检索、索引速度快。本篇文章主要介绍 Elasticsearch 的安装和基本使用，假定你有一定的Linux基础（所有命令均在命令行中执行）。Elasticsearch 版本：2.2.0服务器：CentOS 6.4 （Win7 下的虚拟机）一、安装因为 Elasticsearch 是 Java

2017-03-06 10:09:48 640 1

原创递归算法-汉诺塔

一．起源：　　汉诺塔（又称河内塔）问题是源于印度一个古老传说的益智玩具。大梵天创造世界的时候做了三根金刚石柱子，在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆罗门把圆盘从下面开始按大小顺序重新摆放在另一根柱子上。并且规定，在小圆盘上不能放大圆盘，在三根柱子之间一次只能移动一个圆盘。二．抽象为数学问题：　　如下图所示，从左到右有A、B、C三根柱子，其中A柱子

2017-03-05 14:30:45 343

原创基本的数据结构和算法

一、排序八大排序算法插入排序：直接插入排序，希尔排序选择排序：简单选择排序，堆排序交换排序：冒泡排序，快速排序归并排序基数排序二、二叉树

2017-03-05 13:13:54 315

转载 word2vec 构建中文词向量

词向量作为文本的基本结构——词的模型，以其优越的性能，受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起，这对后续的文本分类，文本聚类等等操作提供了便利，本文将详细介绍如何使用word2vec构建中文词向量。一、中文语料库本文采用的是搜狗实验室的搜狗新闻语料库，数据链接 http://www.sogou.com/labs/resource/

2017-03-03 18:52:44 1418

转载 Python简单实现基于VSM的余弦相似度计算

在知识图谱构建阶段的实体对齐和属性值决策、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等实例中，都涉及到了向量空间模型（Vector Space Model，简称VSM）和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识，然后引用阮一峰大神的例子进行解释，最后通过Python简单实现百度百科和互动百科Infobox的余弦相似度计算。

2017-03-03 18:52:02 762