2012年03月_LarryNLPIR

12月 11月 10月 09月 06月 05月 04月 03月 02月 01月

转载 C中static的用法

这篇文章讲C中static的用法，感觉很经典，转自http://www.cnblogs.com/dc10101/archive/2007/08/22/865556.html在C语言中，static的字面意思很容易把我们导入歧途，其实它的作用有三条。（1）先来介绍它的第一条也是最重要的一条：隐藏。当我们同时编译多个文件时，所有未加static前缀的全局变量和函数都具有全局可见性。为理解这

2012-03-30 20:51:11 1822

原创数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现（下）

本文接数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上） (update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现，下面我们来看看如何

2012-03-27 23:47:32 20641 46

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（下）

本文接数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上）本分类器的完整工程可以到点击打开链接下载，详细说明的运行方法，用eclipse可以运行，学习数据挖掘的朋友可以跑一下，有问题可以联系我，欢迎交流：）上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现，下面我们来看看如何实现基于KNN算法的newsgroup文本分类...

2012-03-27 23:47:00 521

原创数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAVA实现（上）

(update 2012.12.28 关于本项目下载及运行的常见问题 FAQ见 newsgroup18828文本分类器、文本聚类器、关联分析频繁模式挖掘算法的Java实现工程下载及运行FAQ )本文主要内容如下：对newsgroup文档集进行预处理，提取出30095 个特征词计算每篇文档中的特征词的TF*IDF值，实现文档向量化，在KNN算法中使用用JAVA实现了KNN算法及朴素贝叶斯算法的new

2012-03-27 23:06:30 38037 47

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现（上）

本文主要描述基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现，包括数据预处理、贝叶斯算法及KNN算法实现。本分类器的完整工程可以到点击打开链接下载，详细说明的运行方法，用eclipse可以运行，学习数据挖掘的朋友可以跑一下，有问题可以联系我，欢迎交流：）。本文主要内容如下：对newsgroup文档集进行预处理，提取出30095 个特征词计算每篇文档中的特征词的...

2012-03-27 23:06:00 584

原创面试题-在一本书的乱序页码中找缺失的页码

这是我面试A公司时碰到的算法题，题目大意是一本书缺了一页，然后书页顺序被打乱，问如何迅速找到缺失的那一页？思路：其实就是在乱序数组里面找缺失的一个数，有以下方法1、直接排序，然后遍历一次时间复杂度O(NlogN),不需要额外空间2、用bitmap思想，开一个大数组，可以用bitset以节省空间，遍历一遍该数组，出现的数字置位为1，遍历完毕后，没有置位的那一位对应的数就是缺失的数字，

2012-03-17 23:16:48 4186 6

面试题-在一本书的乱序页码中找缺失的页码

2012-03-17 23:16:00 658

转载 awk学习笔记

Table of Contents 原文链接 http://man.lupaworld.com/content/manage/ringkee/awk.htm1. awk简介2. awk命令格式和选项2.1. awk的语法有两种形式2.2. 命令选项3. 模式和操作3.1. 模式3.2. 操作4. awk的环境变量5. awk运算符6. 记录和域6.1. 记录6.2. 域

2012-03-07 11:57:44 2202

awk学习笔记

2012-03-07 11:57:00 435

原创数据挖掘-决策树ID3分类算法的C++实现

数据挖掘课上面老师介绍了下决策树ID3算法，我抽空余时间把这个算法用C++实现了一遍。决策树算法是非常常用的分类算法，是逼近离散目标函数的方法，学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性来划分样例集和，构造决策树。信息增益定义为结点与其子结点的信息熵之差。信息熵是香农提出的，用于描述信息不纯度(不稳定性)，其计算公式是Pi为子集合中不同性(而二元分类即正样例和负样

2012-03-05 19:04:10 62663 94

数据挖掘—决策树ID3分类算法的C++实现

2012-03-05 19:04:00 1229

转载 SVM算法入门

课程文本分类project SVM算法入门转自：http://www.blogjava.net/zhenandaci/category/31868.html（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。

2012-03-04 02:13:36 33469 26

SVM算法入门

课程文本分类project SVM算法入门转自：http://www.blogjava.net/zhenandaci/category/31868.htmlSVM入门（一）至（三）Refresh按:之前的文章重新汇编一下,修改了一些错误和不当的说法，一起复习,然后继续SVM之旅.（一）SVM的简介支持向量机(Support Vector Machine)是Cortes和Va...

2012-03-04 02:13:00 605

转载文本分类入门

最近要做文本分类相关的课程project，因此上网找了一下文本分类的资料，下面这个感觉比较通俗易懂，收录在这里。来源 http://www.blogjava.net/zhenandaci/category/31868.html?Show=All文本分类入门(一)文本分类问题的定义文本分类系列文章，从文本分类问题的定义开始，主要讲解文本分类系统的构成，主流的统计学习方法以及较为优秀的

2012-03-04 02:08:57 9494 13

文本分类入门

2012-03-04 02:08:00 686

原创数据挖掘—概念空间挖掘FindS算法的C++实现

该算法是概念空间挖掘最简单的算法，只考虑了正实例，不断做泛化，实际上求得了一个最特化边界概念挖掘需求C++实现#include #include using namespace std;#define MAXTRAIN 4#define MAXLEN 7int main(){ int i, j; string state[MAXTRAIN][MAXLEN];

2012-03-03 11:08:39 3028

数据挖掘—概念空间挖掘FindS算法的C++实现

该算法是概念空间挖掘最简单的算法，只考虑了正实例，不断做泛化，实际上求得了一个最特化边界概念挖掘需求C++实现#include <iostream>#include <string>using namespace std;#define MAXTRAIN 4#define MAXLEN 7int main(){ int i, j; str...

2012-03-03 11:08:00 686

LibSVM Java API调用示例程序

LibSVM Java API调用示例程序 Eclipse 完整工程可以运行相关详情见http://blog.csdn.net/yangliuy/article/details/8041343#comments 3行程序搞定SVM分类-用JAVA程序调用LibSVM API 最简单的示例欢迎关注我的博客blog.csdn.net/yangliuy

2012-12-16

基于机器学习SNS隐私向导分类器的C++及WEKA实现源码

本文接《基于机器学习的SNS隐私保护策略推荐向导的设计与实现》（详见http://blog.csdn.net/yangliuy/article/details/7628976），详细解析基于机器学习的SNS隐私策略推荐向导分类器的C++及WEKA实现与评估结果，本文完整C++程序及JAVA工程下载链接见，对数据挖掘和SNS感兴趣的朋友可以下载跑一下，有任何问题欢迎交流：）

2012-06-03

基于机器学习的SNS隐私保护策略推荐向导的设计与实现

设计一个SNS隐私保护策略推荐向导，利用机器学习方法自动计算出SNS用户的隐私保护偏好，只需要用户进行比现行SNS隐私保护机制下少得多的输入，就可以构建描述用户特定隐私偏好的机器学习模型，然后使用这个模型来自动设置用户SNS隐私保护策略。具体的实现方法是，以用户SNS资料数据项为行，以朋友为列构建访问控制矩阵，填入allow/deny标签。对于每一个朋友抽取出若干属性特征，例如所属的“圈子”，性别，生日，城市等信息，可实现对朋友的向量化表示。基于已有的部分朋友和用户打上的访问许可的标签生成训练样本，其他朋友以及用户新添加的朋友作为测试样本。对于每一项用户资料，例如用户生日信息，系统让用户对少量朋友按照自己的意愿打上allow/deny标签，然后系统基于这些输入形成的训练样本，利用机器学习算法构建分类器，就可以使用该分类器来自动对剩余朋友及用户新添加的朋友设置对该资料的allow/deny访问权限。现有研究表明[CCS10’ WWW10’]，真实的SNS用户会更多基于不同的“圈子”来考虑他们的隐私偏好，而“圈子”信息很容易利用现有技术从社交网络图谱中抽取出来。使用朋友所属的“圈子”信息，可以自动计算出很高准确度的用户隐私保护推荐策略，而需要的用户输入比照当前的SNS隐私保护机制少很多。

2012-06-03

基于Apriori、FP-Growth及Eclat算法的频繁模式挖掘源程序

基于Apriori、FP-Growth及Eclat算法的频繁模式挖掘源程序一、DataMiningApriori程序用eclipse打开，把三个测试数据mushroom、accidents和T10I4D100K放置在F:\DataMiningSample\FPmining文件夹下面，即可运行二、FP-growth程序 1、包括程序源文件和编译生成的可执行原件 2、程序运行方法把FP_Growth.exe可执行文件与三个测试数据mushroom、accidents 和T10I4D100K放置在同一个文件夹下面，双击FP_Growth.exe，即可顺序挖掘mushroom、accidents和T10I4D100K事物数据集中的频繁模式，阈值设定见testfpgrowth.cpp文件中的main函数三、Eclat程序直接用eclipse打开执行四、输出的频繁模式及支持度文件示例给出了部分输出文件，由于全部输出文件太大，所有没有全部给出，可以由执行程序得出。另外附带详解PPT

2012-04-24

基于Apriori、FP-Growth及Eclat算法的频繁模式挖掘源程序共享版

基于Apriori、FP-Growth及Eclat算法的频繁模式挖掘源程序共享版一、DataMiningApriori程序用eclipse打开，把三个测试数据mushroom、accidents和T10I4D100K放置在F:\DataMiningSample\FPmining文件夹下面，即可运行二、FP-growth程序 1、包括程序源文件和编译生成的可执行原件 2、程序运行方法把FP_Growth.exe可执行文件与三个测试数据mushroom、accidents 和T10I4D100K放置在同一个文件夹下面，双击FP_Growth.exe，即可顺序挖掘mushroom、accidents和T10I4D100K事物数据集中的频繁模式，阈值设定见testfpgrowth.cpp文件中的main函数三、Eclat程序直接用eclipse打开执行四、输出的频繁模式及支持度文件示例给出了部分输出文件，由于全部输出文件太大，所有没有全部给出，可以由执行程序得出。另外附带详解PPT

2012-04-24

基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器

基于Kmeans算法、MBSAS算法及DBSCAN算法的newsgroup18828文本聚类器程序运行方法：用eclipse打开工程，并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下，同时在F:\DataMiningSample\ 下建好如附件“F盘DataMiningSample目录下的数据子目录结构”图中的目录，停用词表也放在"F:/DataMiningSample/目录下，即可运行eclipse工程。本project源代码一共三个工程文件 DataMiningCluster-Kmeans算法及SVD分解降维代码 MBSAS-MBSAS算法代码 DBSCAN-DBSCAN算法代码结果文件：Kmeans_result MBSAS_result

2012-04-17

基于贝叶斯及KNN算法的newsgroup文本分类器免积分下载版

基于贝叶斯及KNN算法的newsgroup文本分类器,eclipse工程，免积分下载版程序运行方法：用eclipse打开工程，并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下，同时在F:\DataMiningSample\ 下建好如附件“F盘DataMiningSample目录下的数据子目录结构”图中的目录，停用词表也放在"F:/DataMiningSample/目录下，即可运行eclipse工程。程序会依次执行数据预处理、贝叶斯分类、KNN分类，输出10次交叉验证实验的分类结果、准确率统计及混淆矩阵。

2012-03-31

基于贝叶斯及KNN算法的newsgroup文本分类器

基于贝叶斯及KNN算法的newsgroup文本分类器,eclipse工程程序运行方法：用eclipse打开工程，并将newsgroup文档集解压到 F:\DataMiningSample\orginSample目录下，同时在F:\DataMiningSample\ 下建好如附件“F盘DataMiningSample目录下的数据子目录结构”图中的目录，停用词表也放在"F:/DataMiningSample/目录下，即可运行eclipse工程。程序会依次执行数据预处理、贝叶斯分类、KNN分类，输出10次交叉验证实验的分类结果、准确率统计及混淆矩阵。

2012-03-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Coding for Dreams