Mr_Hagrid-CSDN博客

原创 Hadoop单机安装测试

1 设置为普通用户安装hadoop最好在普通用户下，不要用超级用户。（第一步：useradd -d /home/john john，第二部：passwd john 123456）2 配置本机的hosts方便后续使用，这个hosts，root用户才可以改。增加： 127.0.0.1 hagrid013 一定要安装好了jdk4 下载解压编译好的hadoop查看本机的位数，下载对应的hadoop的版本

2016-03-30 19:11:10 2921

原创 Linux 重点补充

/var/log – 先看看/etc/rsyslog.conf（ http://my.oschina.net/0757/blog/198329） – /var/log/messages：系统启动以来的信息 – /var/log/dmesg：kernel ring buffer信息，dmesg信息基于这个文件显示 – /var/log/boot.log：系统启动时信息 – /var/l

2016-03-30 12:32:45 597

原创 july算法课笔记

# coding=utf-8# 第一题'''给定某字符串S，该字符串中有若干空格，删除这些空格，并返回修改后的字符串；要求时间复杂度O(N)，空间复杂度O(1)。如：“I_have_a___dream!”，返回“Ihaveadream”注：有可能两个单词间存在若干空格。'''import copyimport pprintimport randomimport reimp

2016-03-27 21:31:52 2568 1

原创 Maven入门

Maven 的安装和环境变量配置1 下载 apache-maven-bin.tar.gz 安装包，解压下载地址：http://115.28.73.167/software/apache-maven-3.3.3-bin.tar.gz 2 .1 对于字符终端需要配置环境变量，就行了注意！要是使用maven必须先安装jdk 配置JAVA环境变量：export JAVA_HOME=/usr/s

2016-03-26 16:45:23 561

原创 java GC

编写一个Java应用，在while(true)循环中每隔5秒new一个长度为1024的byte数组。1. 用jstat gcutil观察java进程执行时各代的变化情况（答案中贴出过程图片）。2. 用jmap导出java进程的heap，并用jhat观察内存占用排序（用web访问jhat服务，贴出排序图）。3. 分别使用parallelOldGC及CMS执行程序，打印gc log。（贴出两种不同的

2016-03-24 19:00:43 937

原创 java 远程调试

开始：在本地创建一个分支使用ssh方式连接git服务器，首先生成公钥id_rsa.pub，并把公钥中的内容在github上做相应的添加。这样就不用每次都输入账号密码了！“` cd existing_folder // 初始化git git init // 添加远端仓库和分支地址，origin是别名，任意取 git remote add origin git@xxx/testproject

2016-03-24 15:28:49 1153

原创 git 使用

开始：在本地创建一个分支使用ssh方式连接git服务器，首先生成公钥id_rsa.pub，并把公钥中的内容在github上做相应的添加。这样就不用每次都输入账号密码了！“` cd existing_folder // 初始化git git init // 添加远端仓库和分支地址，origin是别名，任意取 git remote add origin git@xxx/testproject

2016-03-22 16:59:14 298

转载 Java 常见面试题整理

JAVA相关基础知识 1、面向对象的特征有哪些方面 1.抽象：抽象就是忽略一个主题中与当前目标无关的那些方面，以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题，而只是选择其中的一部分，暂时不用部分细节。抽象包括两个方面，一是过程抽象，二是数据抽象。 2.继承：继承是一种联结类的层次模型，并且允许和鼓励类的重用，它提供了一种明确表述共性的方法。对象的一个新类可以从现有的类

2016-02-25 21:07:54 743

1 spark官网 http://spark.apache.org/ 2 学习版本为1.5.0Spark架构，官方文档解读Spark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called t

2015-11-01 15:21:21 499

原创兄弟连Linux学习笔记之权限管理

文件权限标识符号：r – 4 , w – 2 , x – 1 用户标识符号 u ：所有者 g ：所属组 o ：其他人file r: cat/more/head/tail/less # 对文件来说，r代表可读 w: vim # w代表可写

2015-10-22 20:19:20 730

原创兄弟连Linux学习笔记之文件处理命令

1 目录处理命令：ls -a #显示所有文件 -l #长格式显示 -h #人性化显示 -i #查看i节点mkdir # 创新新目录 -p # 递归创建子目录cd # 切换目录pwd # 查看当前工作目录rmdir # 删除空目录cp # 复制文件，两个参数，源文件、目的文件 -

2015-10-22 19:30:25 799

原创 MYSQL语法速查之行操作

经常不用，忘得一干二净啊….插入一行或多行1 指定列名插入记录，可以多行插入INSERT [INTO] tbl_name [(col_name,...)] VALUES ({expr | DEFAULT},...),(...),...2 设置某列的值为一个特定值INSERT [INTO] tbl_name SET col_name={expr | DEFAULT}, ...3 根据

2015-10-22 14:14:43 362

原创 MYSQL语法速查之表更改

表更改要掌握与列相关的操作ALTER [IGNORE] TABLE tbl_name alter_specification [, alter_specification] ...alter_specification: ADD [COLUMN] column_definition [FIRST | AFTER col_name ] # 插入一列，可以指定插入位置 | AD

2015-10-22 14:01:34 448

原创 MYSQL语法速查之表创建

校招笔试数据库，发现忘得差不多了，发篇博文纪念一下……!数据库无非就是各种二维表的操作，先看列定义。定义一个列最主要的还是指定了列中元素的数据类型，和相关的操作。列定义column_definition: col_name type [NOT NULL | NULL] [DEFAULT default_value][AUTO_INCREMENT] [UNIQUE | PRIMARY KE

2015-10-22 13:50:35 689

原创 Python自带日志模块

请直接看这篇文章： http://python.jobbole.com/82221/默认情况下(logging.basicConfig配置时没指定filename)，logging将日志打印到屏幕，日志级别为WARNING；日志级别大小关系为：CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET，当然也可以自己定义日志级别 filemode:

2015-10-13 18:32:48 2031

原创 Python标准库之collections.Counter

collections模块Counter 统计关键字计数初始化方式In [3]: collections.Counter(['a','b','b','c','c','c'])Out[3]: Counter({'c': 3, 'b': 2, 'a': 1})In [4]: collections.Counter('abbccc')Out[4]: Counter({'c': 3, 'b': 2, '

2015-10-10 17:28:56 2898

原创 Python中的时间和日期

time模块由底层C库提供与时间相关的函数import time#从纪元开始的秒数time.time()#15秒之后的秒数later=time.time()+15#格式化输出当前时间time.ctime()#格式化输出15秒之后的时间time.ctime(later)将time对象转换为struct_time对象time.gmtime()#返回结果：time.struct_tim

2015-10-09 14:53:45 703

原创 Redis学习笔记

CentOS上安装参考教程： http://www.111cn.net/sys/CentOS/85292.htm 使用参考教程： http://www.jb51.net/article/56448.htm

2015-10-08 15:13:36 357

原创 PyCharm使用相关

http://blog.csdn.net/tantexian/article/details/45058021 1 将pycharm设置为Eclipse快捷键 2 常用Eclipse快捷键： Ctrl + O 根据name模糊查找当前文件中类、方法 Alt + (向左箭头或者向右箭头) ，回退or前进到到之前查看或者编辑处 Alt + (向上箭头或者向下箭头) ，将当前方法整体往下或者往

2015-09-30 10:50:09 537

原创 SQLAlchemy操作MariaDB笔记之五

多表查询手动连接for uname,email_address in session.query(User.fullname,Address.email_address).filter(User.id==Address.user_id,User.name=="jack"): print uname print email_address 自然连接>>> session.query

2015-09-29 11:34:27 626

原创 SQLAlchemy操作MariaDB笔记之四

统计函数计数session.query(User).filter(User.name.like('%ed')).count()分组计数from sqlalchemy import funcsession.query(func.count(User.name), User.name).group_by(User.name).all()全部计数session.query(func.count('*')

2015-09-29 10:51:58 955

原创 SQLAlchemy操作MariaDB笔记之三

查询语法练习query方法返回的是一个可迭代输出的对象，可以索引和切片。参数可以为表对象，表的字段对象。>>> for instance in session.query(User).order_by(User.id): ... print instance.name, instance.fullname>>> for name, fullname in session.query(Use

2015-09-29 10:39:48 1318

原创 SQLAlchemy操作MariaDB笔记之二

回顾创建表格的代码：from sqlalchemy import create_enginefrom sqlalchemy import String, Integer, Columnfrom sqlalchemy.ext.declarative import declarative_base#声明Maria引擎engine = create_engine("mysql://root:myp

2015-09-28 14:39:06 2620

原创 centOS7 下安装测试mariadb，SQLAlchemy第一次使用

mariadb 安装： yum -y install mariadb 测试：启动服务 systemctl start mariadb.service systemctl enable mariadb.service 默认密码为空 mysql -u root -p SQLAlchemy 参考文档： http://docs.sqlalchemy.org/en/rel_1_0/orm

2015-09-28 10:14:44 2699

原创 gevent学习笔记

gevent概念和使用例子： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001407503089986d175822da68d4d6685fbe849a0e0ca35000gevent 安装安装环境为 centOS7.0 获取软件包wget http://pypi.pyt

2015-09-25 10:31:30 1025

原创 CentOS7下Python开发环境搭建

CentOS7自带Python2.7 但是没有pip工具要安装pip，首先要了解yum 他相当于对Linux来说的pip工具。命令指南 http://blog.chinaunix.net/uid-346158-id-2131252.htmlpython-pip 首先安装epel扩展源：（centOS7自带的软件源不全）必须检查你的CentOS是否能上网 ping www.baidu.com

2015-09-24 18:15:30 9071

原创 solr 5.2.1学习笔记-4-python客户端

solr官方给出的python客户端wiki： http://wiki.apache.org/solr/SolPython针对solr 5.2.1，可以使用 pysolarized https://github.com/izacus/pysolarized

2015-09-11 14:47:58 1028

原创 sklearn、nltk、gensim语料输入对比之nltk

nltk的数据集中每条记录的特征是通过自定义的特征提取方法获得的。每条记录的特征是一个字典对象，每个字典对象元由特征名称和对应的值组成。例如def gender_features(word): return {'last_letter':word[-1]}nltk的数据集是元素为元组的列表，或者可迭代对象，每一元组的第一元素是特征字典可由gender_features生成，第二元素是一个类

2015-08-24 19:20:08 3444

原创 sklearn、nltk、gensim语料输入对比之sklearn

sklearn 语料处理：sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签，一个为“net”，一个为“pos”，每个目录下面有6个文本文件。目录如下所示： neg 1.txt 2.txt ……pos 1.txt

2015-08-24 13:21:50 3475

原创大论文实验参考资料笔记

matplot http://liam0205.me/2014/09/11/matplotlib-tutorial-zh-cn/ Ipython http://kochiya.me/www/posts/Ipython!.html numpy http://blog.csdn.net/ikerpeng/article/details/20077439 python3.0 http://w

2015-08-21 17:59:25 606

原创 Gensim学习笔记-3--理解Topics和Transformation

经过前两次笔记的学习，我们掌握了如何由 raw strings 到 sparse vectors

2015-08-21 10:26:36 781

原创 scikit-learn 学习笔记-1-加载文本语料库

先上官方文档： http://scikit-learn.org/stable/user_guide.html API： http://scikit-learn.org/stable/modules/classes.html加载文本语料的方法doc文档为 http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load

2015-08-19 18:18:19 879

原创决战2016校招

网易 http://www.dajie.com/corp/1001989/applyanalysis/apply/56557 岗位描述 1.面向互联网的用户行为应用的调研和研究； 2.面向具体挖掘方向的算法的研究和设计； 3.海量数据处理的优化算法的研究和设计； 4.自然语言处理，分类，聚类和关联关系挖掘，语义关系挖掘。岗位要求 1.诚信、正直、

2015-08-19 09:38:06 555

原创分词器之NLPIR加密文件在哪

官方网站 http://ictclas.nlpir.org/newsdownloads?DocId=389 既然官方承诺对个人用户永久免费，那拿来做科研还是可以的。只不过每次过期失效之后都要下载最新版本，找到其中的Data/NLPIR.user文件, 这是一个加密文件, 相当于软件可以用的证书。替换旧版本的Data/NLPIR.user文件，其他不变即可继续使用很长时间了。python包装之后

2015-08-18 20:10:28 948

原创 Solr5.2.1学习笔记-3-分词配置

先上官方文档：http://www.solr-start.com/info/analyzers/ 为啥要自定义分词器？ Index建立时是按分词器的分词结果得到的词进行索引的。Solr默认无中文分词器，因此要自定义分词器。在server\solr-webapp\webapp\WEB-INF\lib下存放了运行时Lib包，分词器中引用的jar包应放在此目录下。以配置smart分词器为例： 1 将

2015-08-18 13:36:37 1128

原创 Solr5.2.1学习笔记-2-深入理解schema.xml

solr 5.2.1的schema.xml在哪？怎么配置solr 5.2.1的schema.xml？

2015-08-18 10:45:20 1488

原创 Python解析XML的minidom

官方文档： https://wiki.python.org/moin/MiniDom注意事项：在解析或生成Dom结构的过程中，其对象的内部编码是Unicode类型的，当要写入文件时，需要先编码为 utf-8示例代码，filmlist是一个字典列表，本函数的结果可作为Solr的入库XMLdef gen_xml(filmlist): root = ET.Element("add") f

2015-08-17 22:17:54 779

原创 Gensim学习笔记-2-理解Gensim中的Corpus对象

所有corpora.xxxcorpus中的对象均继承接口 gensim.interfaces.CorpusABC一个语料库对象（corpus）是一个可迭代的对象，每次迭代得到一篇文档（document）一个document对象又是一个2元组的（fieldId,fueldValue）序列不同的corpus有不同的格式和相应的处理方法，但都有继承于CorpusABC的 1 classme

2015-08-17 14:27:58 6161

原创 Gensim学习笔记-1--理解corpora.Dictionary

gensim使用python标准的logging包，引入方式为： import logging logging.basicConfig(format=’%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)学习任何开源项目首先都要理解其中的专业术语。 gensim中的必须理解的概念有： 1 raw strings

2015-08-17 09:10:30 22196

原创 Solr5.2.1学习笔记-1-入门

2015年8月16日10:02:46 今天开始学习Solr，学习任何一个开源软件都要先了解其基本概念和用途。 Solr简介： Solr是Apache Lucene的一个子项目。Lucene为全文搜索功能提供了完备的API，但它只作为一个API库存在，而不能直接用于搜索。因此，Solr基于Lucene构建了一个完整的搜索引擎，它可以为搜索引擎添加文档，对文档内容进行分析，并为用户提供搜索功能，在

2015-08-16 10:29:21 1191

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包

maya2008 32位 virtools插件 maya导出nmo格式用

空空如也