小小小小小飞鸟-CSDN博客

原创微软LUIS语义理解服务介绍

1.LUIS概述LUIS（Language Understanding Intelligent Services）是微软新近推出了的的语义理解服务，可以方便用户进行API调用，创建自己场景的语义理解服务，网址为https://www.luis.ai2.创建自定义的服务2.1创建APP用自己的微软账号登录后，首先创建App，点击New App进行创建输入App名称

2016-10-11 20:45:48 6217 2

原创 Linux下非Root用户解决ImportError: No module named bz2

最近在学习word2vec的内容，并且发现了Python版本的实现代码gensim，在使用gensim进行测试的时候提示ImportError: No module named bz2。需要安装bz2，但是我所使用的Linux服务器没用root权限，并且原有的Python版本是2.6，我自己装过Python2.7.向通常那样通过yum install bzip2-devel无法运行。后经过各种尝试

2016-07-16 21:35:30 6944

原创 Logistic回归的简单推导过程

2016-03-03 14:54:45 1673

原创 Python爬取豆瓣电影

前几天做了一个爬取豆瓣Top250电影的爬虫，在爬取了豆瓣Top250的电影后，想试一试根据电影类别爬取所有的豆瓣电影，基本的原理是想通的。代码采用Python，抠取页面内容采用Beautiful Soup。1.豆瓣电影分析以豆瓣爱情类型电影为例，在浏览区中输入http://www.douban.com/tag/%E7%88%B1%E6%83%85/movie?start=0后显示的内容如

2016-02-01 14:41:02 4579 1

原创 500万条微博数据来源分析

最近项目不是特别忙，想做一些微博方面的分析和处理工作，如果自己现爬取微博数据，积累数据比较慢，恰好看到北理工张华平老师分享的500万条微博数据，直接借用他的数据分析。下载地址是：http://www.nlpir.org/?action-viewnews-itemid-299因为解压之后的文件较大，足有2.1G，并且对格式不是很清楚，直接打开也无法打开，于是先用文件分割工具将真格文件分割成多个较

2016-02-01 10:40:09 3471

原创 Linux下文件解压命令汇总

经常在Linux下进行文件解压和压缩的操作，不同类型的文件老是忘记命令，在此做一下汇总以备不时之需，内容来源于网络资料整理。.tar 解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是压缩！）———————————————.gz解压1：gunzip FileName.gz解压2：g

2015-10-21 16:35:06 865

原创导出Excel时出现错误 java.lang.IllegalStateException: getOutputStream() has already been called

今天在做Excel导出处理，在出现保存对话框选择保存的时候控制台出现了如下的错误：java.lang.IllegalStateException: getOutputStream() has already been called for this response at org.apache.catalina.connector.Response.getWriter(Response.ja

2015-06-25 14:23:57 3192

原创 Spark下实现LDA+SVM的文本分类处理

最新发布的Spark1.3.1版本中已经实现了LDA的算法，并且以前实现过LDA+SVM进行文本分类的处理程序，借此机会想将程序改为Spark的分布式，Spark已经支持SVM和LDA算法。Spark的环境配置和安装可参考我以前的博客http://blog.csdn.net/cuixianpeng/article/details/20715673，不过Spark版本是以前的。关于SVM和LDA请自

2015-06-02 17:51:23 12461 5

原创常用分词方法总结分析

最近对自然语言处理中常见任务的方法做了一下整理总结，并对不同方法做了一些对比分析，资料主要来源于网络以及相关的论文。1.中文分词中文句子是由字组成的连续字符串。为了理解中文语义，首先需要将句子划分为以词为基本单位的词串，这就是中文分词。词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明确的区分标记，因此中文分

2015-01-28 18:19:20 21673

原创一路历程--我的2014年终总结

2014年刚刚过去，2015年翘首而来，回顾2014年有很多感想和收获，总结一下自己的得失，希望新的一年能够做的更好。1. 14年的回顾1.1 工作方面在工程项目方面，自己负责了一个项目，包括前期的需求沟通、中间的切图以及后期的数据库设计、代码编写、测试，对方的需求更改和部署发布整个流程。中间遇到了很多问题，比如最开始页面切图迟迟不定，对方不断修改并且对于我们的Demo不能及时给出反馈

2015-01-02 10:05:35 2150 6

原创基于条件随机场（CRF）的组织机构实体识别

组织机构实体主要指企事业单位、公司、组织、网站等。我的主要是从文本中识别出组织机构实体名称来。鉴于条件随机场在序列标注方面的优势，以及处理词语特征包括上下文环境特征方面，这次工作采用了条件随机场，具体工具为CRF++。1.语料预处理采用的语料是1998年1月份的《人民日报》语料，这个语料资源是公开的，从网上可以下载到。语料的格式如下所示：语料中已经做好标注，其中nt表示组织机构

2014-12-26 15:11:46 8189 2

原创 Linux下CRF++安装工作

在平时工作中经常用到条件随机场（CRF）进行任务处理，比如做一些标注工作和命名实体识别工作。自己比较常用的工具就是CRF++，下载地址为。https://code.google.com/p/crfpp/windows下面直接使用即可，Linux需要做一些编译任务。下载后解压缩进入目录。运行命令./configure 提示如下错误需要先安装gcc。执行命令 sudo ap

2014-12-26 14:31:07 7604

原创问题求助：Java开发Spark Standalone出现MojoExecutionException，InvocationTargetException，OutOfMemoryError错误

最近在学Spark开发，是调用的java

2014-05-30 10:56:51 2571

原创 Ubuntu 12.10下解压文件名称乱码的问题解决

今天在Ubuntu12.10中jiey

2014-05-28 17:25:26 1154

原创 Eclipse Kepler更改注释字体大小

前段时间安装了Eclipse Kepler，安装以后明显感觉daim

2014-05-26 22:41:45 1566

原创 Scala开发环境搭建

Scala的开发环境有两种，一种是Scala IDE，另一种是在Eclipse中增加插件

2014-05-07 17:09:26 2325

原创 Ubuntu12.10部署Spark0.9.0

Spark是由加州大学伯克利分校的AMP实验室开发的类似于Hadoop的开源集群计算环境，Spark将中间数据存放于内存中，比较适合于迭代式计算，应用于机器学习以及数据挖掘中，下面介绍一下我的部署过程，不保证适合于所有人的情况。环境介绍Ubuntu 12.10 JDK1.7.0_45Spark 0.9.0Scala 2.10.3首先确保电脑已经安装JDK，Spark的运行依

2014-03-07 17:32:31 2474 2

原创 Ubuntu 12.10配置SSH无密码登录

在使用Spark进行分布式的应用，每次启动主机上面的服务都需要输入从机上的密码，太费事了，试着做了一下SSH无密码的配置，系统是Ubuntu 12.10.首先需要生成公钥和私钥对，终端中输入命令。ssh-keygen -t rsa之后一直回车默认即可，程序运行结果如下。然后把.ssh文件下的id_dsa.pub文件用“cat id_dsa>>authorized_keys”命令将i

2014-03-04 16:28:03 1580

原创 Ubuntu 12.10 Server VNC文件配置

前面的VNC安装的步骤与Ubuntu Server 12.04安装桌面环境以及配置VNC里介绍的内容相同，区别在于最终的VNC的配置。编辑VNC的配置文件vim xstartup完整的配置信息如下所示：#!/bin/sh# Uncomment the following two lines for normal desktop:unset SESSION_MANAGERunse

2014-02-24 17:36:14 1258

原创 Ubuntu下root帐号使用Chrome

在windows下一直习惯了使用Chrome，最近开始使用了Ubuntu 12.10，在上面安装了Chrome，但却提示root账户无法使用。于是上网查了一下，把问题解决了，在这里记录一下，以做备忘。进入/opt/google/chrome文件夹，找到google-chrome文件，使用vim打开。直接来到最后一行，将#exec -a "$0" "$HERE/chrome"

2014-02-21 15:33:12 1411

原创 JGibbLDA使用总结

最近在做基于LDA（Latent Dirichlet Allocation）的文本分类处理，开始学习和接触了LDA，因为代码采用的是Java，所以我选择的LDA开源工具是JGibbLDA，这个是LDA的Java版本实现，下载地址为：http://jgibblda.sourceforge.net/ ，当前最新版本为v1.0。同时对应的C++版本为GibbsLDA，下载地址为：http://gibbs

2014-02-20 17:02:20 13218 27

原创命名实体识别方法汇总

最近在学习命名实体识别，在查阅资料的同时，对命名实体识别的概念以及常用方法做了一下整理汇总，方便以后学习和查阅。命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出

2014-01-10 15:25:46 27435 1

原创 Ubuntu Server 12.04安装桌面环境以及配置VNC

系统环境：Ubuntu Server 12.04 VNC主控端系统环境：Windows 7 因实际开发需要，采用VNC连接Ubuntu。首先需要在Ubuntu Server上安装桌面的运行环境，首先更新软件源sudo apt-get updatesudo apt-get upgrade 安装标准桌面环境sudo ap

2013-12-25 17:49:02 3877

原创 Java中的基本类型与封装类型以及自动装箱、拆箱

Java中的类型分为原始类型和对应的封装类型（装箱类型），基本类型包括byte字节型（一个字节）、char字符型（两个字节）、short短整型（两个字节）、int整型（四个字节）、long长整型（八个字节）、float浮点型（四个字节）、double 双精度浮点型（八个字节）、boolean型（一个字节）八种类型，对应的封装类型分别是Byte、Character、Short、Integer、Lon

2013-12-21 16:10:05 2621

原创我的2013年年终总结

历时两天的我们部门的年终总结汇报刚结束，趁着余温我也总结一下自己的2013年。13年刚刚毕业开始工作，还是感想挺多的，收获也挺大的，从年初找工作时候的迷茫、彷徨和焦急到现在工作渐渐步入正规，自己融入部门团队。下面开始历数一下我的2013。个人生活方面自从四月份毕业，算是正式离开学校了，带着一些留恋和不舍，在外面租好房子了。从此正式开始了每月高房租的日子了，现在看起来在学校时候的住宿费简直不

2013-12-20 16:01:51 4025 2

原创 Java编译时类型与运行时类型以及重载和覆盖方法选择

首先来看看Java中的编译时类型与运行时类型。编译时类型由声明该变量时使用的类型决定，运行时类型由实际赋给该变量的对象决定。如果编译时类型和运行时类型不一致，会出现所谓的多态。因为子类其实是一种特殊的父类，因此java允许把一个子类对象直接赋值给一个父类引用变量，无须任何类型转换，或者被称为向上转型，由系统自动完成。引用变量在编译阶段只能调用其编译时类型所具有的方法，但运行时则执行它运

2013-12-14 16:21:21 3112 1

原创 Ubuntu Server 12.10下安装以及配置Git

系统环境为Ubuntu12.10.先查看系统是否已经默认安装Git，输入命令 git --version若出现如下图所示，则说明当前系统未安装Git，则进行手动安装。根据提示命令行中手动输入 apt-get install git进行安装，安装过程如下图所示。安装完成后查看是否安装成功以及版本，输入命令git --version之后做一下配置，配置在使用Git进行提交是显示

2013-12-07 00:22:31 1581

原创 Ubuntu Server 12.10下安装配置PyDev

本文是直接在Eclipse中安装PyDev的，Eclipse版本是4.3.0 KEPLER。启动Eclipse，点击Help-->Install New Software，在弹出的Install窗口中点击 Add，Name填PyDev，Location填http://pydev.org/updates。下图所示：点击OK以后，如下图所示，勾选PyDev。然后点击Next

2013-12-02 17:54:55 1643

原创采用Weka中的KNN算法进行文本分类

Weka是新西兰Waikato大学开发的一款开源的基于Java的数据挖掘工具，其官方网址为http://www.cs.waikato.ac.nz/ml/weka/。Weka作为一个公共的数据挖掘的平台，集成了大量的机器学习的算法，包括对数据进行预处理、分类、聚类、回归关联规则等。Weka支持可视化界面操作以及API方式的调用，本文采用API调用方式，基于Weka中集成的KNN算法进行文本分类。

2013-11-30 21:07:05 12374 2

原创基于权值的句子情感分析

主要目的是以句子为基本单位，判断句子的情感状态。主要思路是对于句子中的每个词语，根据一定规则赋予权值，统计句子所包含的所有词语的权值之和，若权值为正，则表示句子的情感状态为积极的，若句子的权值为负，则表示句子的情感状态为负，若为0表示中立的句子。具体的步骤分为：1.语料预处理读入的语料可以是包含单个句子的文本也可以是多个句子的文本，对输入的语料进行分

2013-11-30 00:39:08 2840

原创使用VNC连接Ubuntu Server 12.10无法输入字母D

新装了一台虚拟机，采用VNC在win7环境下使用Ubuntu12.10，后来发现一个问题，在Ubuntu中无法输入字母D，立刻显示桌面，怀疑在输入字母D时被Ubuntu识别为显示桌面的快捷键了，于是查找Ubuntu快捷键的设置地方，解决方法如下。在终端中输入如下内容：sudo apt-get install compizconfig-settings-manager安装成功后再输入：

2013-11-27 19:00:16 3009

原创采用Stanford Parser进行中文语法解析

Stanford Parser是由StanforsNLP Group开发的基于Java的开源NLP工具，支持中文的语法分析，当前最新的版本为3.3.0，下载地址为：http://nlp.stanford.edu/software/lex-parser.shtml。下载后解压。解压文件中lexparser-gui.bat进行可视化页面运行，解析需要的模型文件存放在stanford-parser-3.

2013-11-21 19:26:14 28940 7

原创对<String,Double>类型的Map根据Value数值由大到小排序

在实际中经常用到对类型的Map根据Value数值由大到小排序，可是每次都记不住代码，需要花好长时间去查找，现在放在这里，方便以后查找。 List> wordMap = new ArrayList>(patternScoresMap.entrySet()); Collections.sort(wordMap, new Comparator>() {//根据value排序

2013-11-17 16:47:19 3097

原创自然语言处理（NLP）常用开源工具总结----不定期更新

学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具，在这里做一下汇总方便自己以后学习，其中有自己使用过的也有了解不是很多的，对于不甚了解的工具以后学习熟悉了会做更新的。1.IKAnalyzerIK Analyzer是一个开源的，基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始，IK Analyzer已经推出了多个版本，当前最新版本为20

2013-11-14 20:07:45 31969 2

原创基于Gate的ANNIE插件的中文信息抽取

在上一篇文章《基于Gate的中文信息抽取API调用方式--未成功》中本来想采用Gate中的中文插件进行命名实体识别，但是没有成功，最后只能通过扩展Gate中的ANNIE插件来实现了。 ANNIE是Gate中用于英文信息抽取的插件，可以实现英文中的诸如命名实体识别等任务。要想处理中文信息需要对ANNIE进行扩展，包括扩展词表以及规则。ANNIE的主要词表为主目录是ANNIE\reso

2013-11-07 17:35:59 5045 3

原创基于Gate的中文信息抽取API调用方式--未成功

学习Gate快一周了，一直在看官方的英文文档，却一直收获不到，想在自己的程序中通过API的方式实现调用Gate完成信息抽取。Gate中的ANNIE可以实现英文的命名实体识别，但是却不支持中文，后来发现Gate提供了中文的插件即放于目录plugins下的Lang_Chinese文件夹中的内容，并且提供了分词的功能，然后尝试了一下，具体思路如下。1.设置Gate的home等系统变量。2.调

2013-11-05 17:59:46 4542 6

原创 amCharts使用过程中出现的Invalid negative value for <rect> attribute width错误

采用amCharts做的图形界面今天突然发现图形显示有问题，图形横坐标没法显示，

2013-10-25 20:13:00 5570

原创采用Stanford CoreNLP实现英文单词词形还原

最近有个小的任务，根据英文单词的过去分词或现在分词或复数形式获取词语的原形，本来我的思路是：对于不规则变化的词语，建立不规则词表，直接从词表中查询；对于规则的词形变化，自己写规则进行还原。后来发现有些变化涉及到单词的发音，如重读闭音节要双写最后一个单词再变化，这样逆推的话就不好处理，从网上查询获取单词音标也没有实现好的结果。于是从网上搜索资料发现了Stanford CoreNLP这个工具。此工

2013-10-24 15:47:01 11375 4

转载 javascript中的数据类型、Object与Function

转自http://blog.csdn.net/baiduforum/article/details/5381869 格式略有改动1. 数据类型 javascript中包含6种数据类型：undefined、null、string、number、boolean和object。其中，前5 种是原始数据类型，object是对象类型。object类型中包括Objec

2013-01-25 16:53:30 1458

转载 java编译原理

转自http://blog.csdn.net/oyto12o/article/details/5274967Java 虚拟机(JVM)是可运行Java 代码的假想计算机。只要根据JVM规格描述将解释器移植到特定的计算机上，就能保证经过编译的任何Java代码能够在该系统上运行。本文首先简要介绍从Java文件的编译到最终执行的过程，随后对JVM规格描述作一说明。　　　　一.Java源文件的

2012-07-27 20:24:58 997