自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 资源 (3)
  • 收藏
  • 关注

原创 Hadoop单机安装测试

1 设置为普通用户安装hadoop最好在普通用户下,不要用超级用户。(第一步:useradd -d /home/john john,第二部:passwd john 123456)2 配置本机的hosts方便后续使用,这个hosts,root用户才可以改。 增加: 127.0.0.1 hagrid013 一定要安装好了jdk4 下载解压编译好的hadoop查看本机的位数,下载对应的hadoop的版本

2016-03-30 19:11:10 2921

原创 Linux 重点补充

/var/log – 先看看/etc/rsyslog.conf( http://my.oschina.net/0757/blog/198329) – /var/log/messages:系统启动以来的信息 – /var/log/dmesg:kernel ring buffer信息,dmesg信息基于这 个文件显示 – /var/log/boot.log:系统启动时信息 – /var/l

2016-03-30 12:32:45 597

原创 july算法课笔记

# coding=utf-8# 第一题'''给定某字符串S,该字符串中有若干空格,删除这些空格,并返回修改后的字符串;要求时间复杂度O(N),空间复杂度O(1)。如:“I_have_a___dream!”,返回“Ihaveadream”注:有可能两个单词间存在若干空格。'''import copyimport pprintimport randomimport reimp

2016-03-27 21:31:52 2568 1

原创 Maven入门

Maven 的安装和环境变量配置1 下载 apache-maven-bin.tar.gz 安装包,解压 下载地址:http://115.28.73.167/software/apache-maven-3.3.3-bin.tar.gz 2 .1 对于字符终端需要配置环境变量,就行了 注意! 要是使用maven必须先安装jdk 配置JAVA环境变量:export JAVA_HOME=/usr/s

2016-03-26 16:45:23 561

原创 java GC

编写一个Java应用,在while(true)循环中每隔5秒new一个长度为1024的byte数组。1. 用jstat gcutil观察java进程执行时各代的变化情况(答案中贴出过程图片)。2. 用jmap导出java进程的heap,并用jhat观察内存占用排序(用web访问jhat服务,贴出排序图)。3. 分别使用parallelOldGC及CMS执行程序,打印gc log。(贴出两种不同的

2016-03-24 19:00:43 937

原创 java 远程调试

开始: 在本地创建一个分支使用ssh方式连接git服务器,首先生成公钥id_rsa.pub,并把公钥中的内容在github上做相应的添加。这样就不用每次都输入账号密码了!“` cd existing_folder // 初始化git git init // 添加远端仓库和分支地址,origin是别名,任意取 git remote add origin git@xxx/testproject

2016-03-24 15:28:49 1153

原创 git 使用

开始: 在本地创建一个分支使用ssh方式连接git服务器,首先生成公钥id_rsa.pub,并把公钥中的内容在github上做相应的添加。这样就不用每次都输入账号密码了!“` cd existing_folder // 初始化git git init // 添加远端仓库和分支地址,origin是别名,任意取 git remote add origin git@xxx/testproject

2016-03-22 16:59:14 298

转载 Java 常见面试题整理

JAVA相关基础知识 1、面向对象的特征有哪些方面 1.抽象: 抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题,而只是选择其中的一部分,暂时不用部分细节。抽象包括两个方面,一是过程抽象,二是数据抽象。 2.继承: 继承是一种联结类的层次模型,并且允许和鼓励类的重用,它提供了一种明确表述共性的方法。对象的一个新类可以从现有的类

2016-02-25 21:07:54 743

原创 Spark学习笔记之初识

1 spark官网 http://spark.apache.org/ 2 学习版本为1.5.0Spark架构,官方文档解读Spark applications run as independent sets of processes on a cluster, coordinated by the SparkContext object in your main program (called t

2015-11-01 15:21:21 499

原创 兄弟连Linux学习笔记之权限管理

文件权限标识符号:r – 4 , w – 2 , x – 1 用户标识符号 u : 所有者 g :所属组 o :其他人file r: cat/more/head/tail/less # 对文件来说,r代表可读 w: vim # w代表可写

2015-10-22 20:19:20 730

原创 兄弟连Linux学习笔记之文件处理命令

1 目录处理命令:ls -a #显示所有文件 -l #长格式显示 -h #人性化显示 -i #查看i节点mkdir # 创新新目录 -p # 递归创建子目录cd # 切换目录pwd # 查看当前工作目录rmdir # 删除空目录cp # 复制文件 ,两个参数,源文件、目的文件 -

2015-10-22 19:30:25 799

原创 MYSQL语法速查之行操作

经常不用,忘得一干二净啊….插入一行或多行1 指定列名插入记录,可以多行插入INSERT [INTO] tbl_name [(col_name,...)] VALUES ({expr | DEFAULT},...),(...),...2 设置某列的值为一个特定值INSERT [INTO] tbl_name SET col_name={expr | DEFAULT}, ...3 根据

2015-10-22 14:14:43 362

原创 MYSQL语法速查之表更改

表更改要掌握与列相关的操作ALTER [IGNORE] TABLE tbl_name alter_specification [, alter_specification] ...alter_specification: ADD [COLUMN] column_definition [FIRST | AFTER col_name ] # 插入一列,可以指定插入位置 | AD

2015-10-22 14:01:34 448

原创 MYSQL语法速查之表创建

校招笔试数据库,发现忘得差不多了,发篇博文纪念一下……!数据库无非就是各种二维表的操作,先看列定义。 定义一个列最主要的还是指定了列中元素的数据类型,和相关的操作。列定义column_definition: col_name type [NOT NULL | NULL] [DEFAULT default_value][AUTO_INCREMENT] [UNIQUE | PRIMARY KE

2015-10-22 13:50:35 689

原创 Python自带日志模块

请直接看这篇文章: http://python.jobbole.com/82221/默认情况下(logging.basicConfig配置时没指定filename),logging将日志打印到屏幕,日志级别为WARNING; 日志级别大小关系为:CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET,当然也可以自己定义日志级别 filemode:

2015-10-13 18:32:48 2031

原创 Python标准库之collections.Counter

collections模块Counter 统计关键字计数初始化方式In [3]: collections.Counter(['a','b','b','c','c','c'])Out[3]: Counter({'c': 3, 'b': 2, 'a': 1})In [4]: collections.Counter('abbccc')Out[4]: Counter({'c': 3, 'b': 2, '

2015-10-10 17:28:56 2898

原创 Python中的时间和日期

time模块由底层C库提供与时间相关的函数import time#从纪元开始的秒数time.time()#15秒之后的秒数later=time.time()+15#格式化输出当前时间time.ctime()#格式化输出15秒之后的时间time.ctime(later)将time对象转换为struct_time对象time.gmtime()#返回结果:time.struct_tim

2015-10-09 14:53:45 703

原创 Redis学习笔记

CentOS上安装参考教程: http://www.111cn.net/sys/CentOS/85292.htm 使用参考教程: http://www.jb51.net/article/56448.htm

2015-10-08 15:13:36 357

原创 PyCharm使用相关

http://blog.csdn.net/tantexian/article/details/45058021 1 将pycharm设置为Eclipse快捷键 2 常用Eclipse快捷键: Ctrl + O 根据name模糊查找当前文件中类、方法 Alt + (向左箭头或者向右箭头) ,回退or前进到到之前查看或者编辑处 Alt + (向上箭头或者向下箭头) ,将当前方法整体往下或者往

2015-09-30 10:50:09 537

原创 SQLAlchemy操作MariaDB笔记之五

多表查询手动连接for uname,email_address in session.query(User.fullname,Address.email_address).filter(User.id==Address.user_id,User.name=="jack"): print uname print email_address 自然连接>>> session.query

2015-09-29 11:34:27 626

原创 SQLAlchemy操作MariaDB笔记之四

统计函数计数session.query(User).filter(User.name.like('%ed')).count()分组计数from sqlalchemy import funcsession.query(func.count(User.name), User.name).group_by(User.name).all()全部计数session.query(func.count('*')

2015-09-29 10:51:58 955

原创 SQLAlchemy操作MariaDB笔记之三

查询语法练习query方法返回的是一个可迭代输出的对象,可以索引和切片。参数可以为表对象,表的字段对象。>>> for instance in session.query(User).order_by(User.id): ... print instance.name, instance.fullname>>> for name, fullname in session.query(Use

2015-09-29 10:39:48 1318

原创 SQLAlchemy操作MariaDB笔记之二

回顾创建表格的代码:from sqlalchemy import create_enginefrom sqlalchemy import String, Integer, Columnfrom sqlalchemy.ext.declarative import declarative_base#声明Maria引擎engine = create_engine("mysql://root:myp

2015-09-28 14:39:06 2620

原创 centOS7 下安装测试mariadb,SQLAlchemy第一次使用

mariadb 安装 : yum -y install mariadb 测试: 启动服务 systemctl start mariadb.service systemctl enable mariadb.service 默认密码为空 mysql -u root -p SQLAlchemy 参考文档: http://docs.sqlalchemy.org/en/rel_1_0/orm

2015-09-28 10:14:44 2699

原创 gevent学习笔记

gevent概念和使用例子: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001407503089986d175822da68d4d6685fbe849a0e0ca35000gevent 安装 安装环境为 centOS7.0 获取软件包wget http://pypi.pyt

2015-09-25 10:31:30 1025

原创 CentOS7下Python开发环境搭建

CentOS7自带Python2.7 但是没有pip工具 要安装pip,首先要了解yum 他相当于对Linux来说的pip工具。 命令指南 http://blog.chinaunix.net/uid-346158-id-2131252.htmlpython-pip 首先安装epel扩展源:(centOS7自带的软件源不全)必须检查你的CentOS是否能上网 ping www.baidu.com

2015-09-24 18:15:30 9071

原创 solr 5.2.1学习笔记-4-python客户端

solr官方给出的python客户端wiki: http://wiki.apache.org/solr/SolPython针对solr 5.2.1,可以使用 pysolarized https://github.com/izacus/pysolarized

2015-09-11 14:47:58 1028

原创 sklearn、nltk、gensim语料输入对比之nltk

nltk的数据集中每条记录的特征是通过自定义的特征提取方法获得的。每条记录的特征是一个字典对象,每个字典对象元由特征名称和对应的值组成。例如def gender_features(word): return {'last_letter':word[-1]}nltk的数据集是 元素为元组的列表,或者可迭代对象,每一元组的第一元素是特征字典可由gender_features生成,第二元素是一个类

2015-08-24 19:20:08 3444

原创 sklearn、nltk、gensim语料输入对比之sklearn

sklearn 语料处理:sklearn的sklearn.datasets.load_files方法支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签,一个为“net”,一个为“pos”,每个目录下面有6个文本文件。目录如下所示: neg 1.txt 2.txt ……pos 1.txt

2015-08-24 13:21:50 3475

原创 大论文实验参考资料笔记

matplot http://liam0205.me/2014/09/11/matplotlib-tutorial-zh-cn/ Ipython http://kochiya.me/www/posts/Ipython!.html numpy http://blog.csdn.net/ikerpeng/article/details/20077439 python3.0 http://w

2015-08-21 17:59:25 606

原创 Gensim学习笔记-3--理解Topics和Transformation

经过前两次笔记的学习,我们掌握了如何由 raw strings 到 sparse vectors

2015-08-21 10:26:36 781

原创 scikit-learn 学习笔记-1-加载文本语料库

先上官方文档: http://scikit-learn.org/stable/user_guide.html API: http://scikit-learn.org/stable/modules/classes.html加载文本语料的方法doc文档为 http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load

2015-08-19 18:18:19 879

原创 决战2016校招

网易 http://www.dajie.com/corp/1001989/applyanalysis/apply/56557 岗位描述 1.面向互联网的用户行为应用的调研和研究; 2.面向具体挖掘方向的算法的研究和设计; 3.海量数据处理的优化算法的研究和设计; 4.自然语言处理,分类,聚类和关联关系挖掘,语义关系挖掘。 岗位要求 1.诚信、正直、

2015-08-19 09:38:06 555

原创 分词器之NLPIR加密文件在哪

官方网站 http://ictclas.nlpir.org/newsdownloads?DocId=389 既然官方承诺对个人用户永久免费,那拿来做科研还是可以的。只不过每次过期失效之后都要下载最新版本,找到其中的Data/NLPIR.user文件, 这是一个加密文件, 相当于软件可以用的证书。 替换旧版本的Data/NLPIR.user文件,其他不变即可继续使用很长时间了。python包装之后

2015-08-18 20:10:28 948

原创 Solr5.2.1学习笔记-3-分词配置

先上官方文档:http://www.solr-start.com/info/analyzers/ 为啥要自定义分词器? Index建立时是按分词器的分词结果得到的词进行索引的。Solr默认无中文分词器,因此要自定义分词器。在server\solr-webapp\webapp\WEB-INF\lib下存放了运行时Lib包,分词器中引用的jar包应放在此目录下。以配置smart分词器为例: 1 将

2015-08-18 13:36:37 1128

原创 Solr5.2.1学习笔记-2-深入理解schema.xml

solr 5.2.1的schema.xml在哪?怎么配置solr 5.2.1的schema.xml?

2015-08-18 10:45:20 1488

原创 Python解析XML的minidom

官方文档 : https://wiki.python.org/moin/MiniDom注意事项:在解析或生成Dom结构的过程中,其对象的内部编码是Unicode类型的,当要写入文件时,需要先编码为 utf-8示例代码,filmlist是一个字典列表,本函数的结果可作为Solr的入库XMLdef gen_xml(filmlist): root = ET.Element("add") f

2015-08-17 22:17:54 779

原创 Gensim学习笔记-2-理解Gensim中的Corpus对象

所有corpora.xxxcorpus中的对象均继承接口 gensim.interfaces.CorpusABC一个语料库对象(corpus)是一个可迭代的对象,每次迭代得到一篇文档(document) 一个document对象又是一个2元组的(fieldId,fueldValue)序列 不同的corpus有不同的格式和相应的处理方法,但都有继承于CorpusABC的 1 classme

2015-08-17 14:27:58 6161

原创 Gensim学习笔记-1--理解corpora.Dictionary

gensim使用python标准的logging包,引入方式为: import logging logging.basicConfig(format=’%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)学习任何开源项目首先都要理解其中的专业术语。 gensim中的必须理解的概念有: 1 raw strings

2015-08-17 09:10:30 22196

原创 Solr5.2.1学习笔记-1-入门

2015年8月16日10:02:46 今天开始学习Solr,学习任何一个开源软件都要先了解其基本概念和用途。 Solr简介: Solr是Apache Lucene的一个子项目。Lucene为全文搜索功能提供了完备的API,但它只作为一个API库存在,而不能直接用于搜索。因此,Solr基于Lucene构建了一个完整的搜索引擎,它可以为搜索引擎添加文档,对文档内容进行分析,并为用户提供搜索功能,在

2015-08-16 10:29:21 1191

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包

lucene-analyzers-smartcn-5.2.1.jar Smart Jar包,在Solr中的使用参考http://blog.csdn.net/xuxiuning/article/details/47750701

2015-08-18

maya2008 32位 virtools插件 maya导出nmo格式用

maya2008 32位 virtools插件 maya导出nmo格式用

2011-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除