自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mrwang1992

菜鸟要飞翔

  • 博客(88)
  • 资源 (3)
  • 收藏
  • 关注

原创 小技巧

wget 整站下载 wget --restrict-file-name=ascii -m URL 例子 wget --restrict-file-name=ascii -m http://demo.pythoner.com/itt2zh/ch1.html   本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwang.blog.51cto.com/3265935/135

2014-02-10 15:54:17 481

原创 mahout所实现的算法

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms 列出mahout所实现或正在实现的一些算法ClassificationLogistic Regression (SGD)BayesianSupport Vector Machines (SVM) (open: MAHOUT-14, MAHOUT-232 and MAHOUT-

2014-02-10 15:54:15 727

转载 Mahout数据承载

转自: http://blog.csdn.net/zhoubl668/article/details/13508417推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。Preference在Mahout中,用户的喜好被抽象为一个Preference,包含了userId,itemId和偏好值(user对item的偏好)。Preference是

2014-02-10 15:54:13 525

原创 Mahout中相似度计算方法介绍

在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:650) this.width=650;" src="http://img1.51c

2014-02-10 15:54:11 505

转载 Mahout的taste推荐系统里的几种Recommender分析

Taste简介 看自:http://blog.csdn.net/zhoubl668/article/details/13297583Mahout 是apache下的一个java语言的开源大数据机器学习项目,与其他机器学习项目不同的是,它的算法多数是mapreduce方式写的,可以在hadoop上运行,并行化处理大规模数据。协同过滤在mahout里是由一个叫taste的引擎提供的, 它提供两种模式,

2014-02-10 15:54:09 1359

转载 从源代码剖析Mahout推荐引擎

从源代码剖析Mahout推荐引擎Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunc

2014-02-10 15:54:07 612

原创 学习推荐系统概况

推荐系统虽然有很多的技术 但是 总的来说可分为两大类    1. 基于内容的推荐(Content-Based System) 这类系统主要考察时推荐的项(Item)的性质。    2. 协同过滤系统(Collaborative-Filtering System) 这类系统通过计算用户与项之间的相似度来推荐项。基于内容的推荐: 实现的步奏    1. Item Representation:为每个i

2014-02-10 15:54:05 611

转载 学习机器学习 数据处理时 找到的这些链接 可以在上面下载到开源的研究数据数据

美国政府数据 http://www.data.gov/Movies Recommendation:MovieLens - Movie Recommendation Data Sets http://www.grouplens.org/node/73Yahoo! - Movie, Music, and Images Ratings Data Sets http://webscope.sandbox.

2014-02-10 15:54:03 989

原创 mahout0.7 使用 JDBCDataModel

首先创建在mysql中创建库以及对应的表mysql> create database mahout;Query OK, 1 row affected (0.00 sec)mysql> use mahout;Database changedmysql> create table intro( -> uid varchar(20) not null, -> iid varc

2014-02-10 15:54:00 2890 1

转载 在windows xp下利用Eclipse构建Mahout

转自:http://www.cnblogs.com/dlts26/archive/2011/09/13/2174889.html1. Mahout构建的先决条件1) JDK,使用1.6版本。需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量。2) Maven,使用2.0.11版本或以上。在eclipse上安装maven插件—m2eclipse。2.

2014-02-10 15:53:58 441

原创 python安装MySQLdb出错解决方案

_mysql.c:2422: 错误:初始值设定元素不是常量_mysql.c:2422: 错误:(在 ‘_mysql_ResultObject_memberlist[0].offset’ 的初始化附近)_mysql.c: In function ‘_mysql_ConnectionObject_getattr’:_mysql.c:2444: 错误:‘_mysql_ConnectionObject’

2014-02-10 15:53:56 815

转载 常用的正则表达式

"^\d+$"  //非负整数(正整数 + 0)"^[0-9]*[1-9][0-9]*$"  //正整数"^((-\d+)|(0+))$"  //非正整数(负整数 + 0)"^-[0-9]*[1-9][0-9]*$"  //负整数"^-?\d+$"    //整数"^\d+(\.\d+)?$"  //非负浮点数(正浮点数 + 0)"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0

2014-02-10 15:53:54 372

原创 shell 操作 sftp例子

#!/bin/shcd /data/ftproot/aic/SY_P1000_Zeal/inbound/testsftp lf119195@sftp2.geps.ge.com << EOF-cd QA/SY_P1000_Zeal/in-mget *quitEOFfind /data/ftproot/aic/SY_P1000_Zeal/inbound/test/ -nam

2014-02-10 15:53:52 3529

原创 php连接oracle数据库

Download: instantclient-basiclite-linux.x64-11.2.0.3.0.zip http://www.oracle.com/technetwork/topics/linuxx86-64soft-092277.htmlinstantclient-sdk-linux.x64-11.2.0.3.0.ziphttp://www.oracle.com/technetwo

2014-02-10 15:53:50 540

原创 linux磁盘配额使用

/web 777权限 允许每个用户操作 但是仅允许 用户有50m的使用空间1 首先开启/web 的磁盘配额功能 在/etc/fstab userquota 用户配额 grpquota 用户组配额mount -o remount,usrquota /test #临时开启用户磁盘配额在/etc/fstab里面可以这么写LABEL=/test       /test     ext3  defaults

2014-02-10 15:53:48 604

原创 samba 搭建小记

samba-3.5.6.tar.gztar -zxvg samba-3.5.6.tar.gzcd ./source3/make && make installcp samba-3.5.6/examples/smb.conf.default /usr/share/smaba/lib/ln -s /usr/local/samba/lib/libwbclient.so.0 /usr/lib64/libw

2014-02-10 15:53:45 430

原创 linux使用文件来实现swap的功能:SWAPFILE实现

如果安装机子交换分区没有分好不够大创建swap文件mkdir /var/swap #创建一个文件夹用于存放交换分区文件,自行决定chmod 700 /var/swap #修改交换分区文件夹权限介绍一下dd命令的一些使用技巧dd命令硬盘对拷:dd if=/dev/sda of=/dev/sdb # sda与sdb对拷创建指定大小的文件: dd if=/dev/zero of=/var/

2014-02-10 15:53:43 1278

原创 linux添加硬盘

主要涉及到的步骤    划分分区 fdisk    创建文件系统 mkfs    挂载 moount    写入配置文件 vim /etc/fstab首先是硬件或者虚拟机添加硬盘,查看硬盘是否被系统认识到dmesg | grep sdb #这里的sdb 主要是看你加载的硬盘类型以及 插槽所决定,如果插槽在第一个 他就会提示sda 所以请确定哈#会有大小提示 请注意查看#会提示 unk

2014-02-10 15:53:41 446

转载 ip 与 整数间 的相互转换 python实现

http://www.cnblogs.com/vovlie/archive/2012/10/17/2727029.html我们有时会将一个整数与IP地址进行互换,用python代码实现很简单将一个整数如2000000,变为一个IP地址的方式>>> import socket>>> import struct>>> int_ip = 123456789>>> ip = socket.inet_nto

2014-02-10 15:53:39 456

转载 oracle dba 常用sql語句

http://blog.csdn.net/cheungjustin/article/details/5631298常用SQL查询:1、查看表空间的名称及大小select t.tablespace_name, round(sum(bytes/(1024*1024)),0) ts_sizefrom dba_tablespaces t, dba_data_files dwhere t.tablespac

2014-02-10 15:53:37 464

原创 64位linux环境下编译安装cacti

首先安装apache# tar zxvf httpd-2.2.6.tar.gz# cd httpd-2.2.6# ./configure --prefix=/usr/local/apache22 --enable-module=so--with-mpm=worker --enable-module=rewrite# make && make install启动apache:#

2014-02-10 15:53:35 751

原创 Linux服务器ssh暴力破解-denyhosts解决详解

DenyHosts官方网站为:http://denyhosts.sourceforge.net/本文已附上附件,是从该网站下载的,版本为较新的2.6版。一、检查安装要求首选检查Sshd是否支持 Tcpwrap,只有支持Tcpwrap才可以安装Denyhost# ldd /usr/sbin/sshd |grep wraplibwrap.so.0 => /usr/lib/libwrap.so.0 (0

2014-02-10 15:53:32 870

原创 SCP传输数据

#远程到本地scp -r faic-sap-gewater@域名:/ftproot/* /ftproot/# 传输到远程scp -r /data/ftproot/aic/WATER_SAP/inbound/* faic-sap-gewater@域名:/ftproot/aic/WATER_SAP/inbound/如果是要传目录的话就要加上-r 不然就会出现 not a regular fil

2014-02-10 15:53:30 2161

转载 Linux查看进程的内存占用情况

原文 http://blog.csdn.net/xiyuan1999/article/details/8027386 1、top650) this.width=650;" src="http://www.51testing.com/attachments/2012/09/346836_201209131013341kY9H.jpg" border="0" height="130" width="6

2014-02-10 15:53:28 561

原创 MySql常用操作收集

/* 查看表大小 */SELECT CONCAT( TRUNCATE( SUM( data_length ) /1024 /1024, 2 ) , 'MB' ) AS data_size,CONCAT( TRUNCATE( SUM( max_data_length ) /1024 /1024, 2 ) , 'MB' )AS max_data_size,CONCAT( TRUNCAT

2014-02-10 15:53:26 622

原创 vsftpd搭建小记录

# vsftpd-3.0.2.tar.gzuseradd -s /sbin/nolog nobodymkdir /usr/share/empty/mkdir /var/ftpuseradd -d /var/ftp ftpchown root:root /var/ftpchmod og-w /var/ftp# 1)解压tar -zxvf vsftpd-3.0.2.ta

2014-02-10 15:53:24 410

原创 JBOSS简单三两步

jboss-as-7.1.1.Final.zipunzip jboss-as-7.1.1.Final.zipmv jboss-as-7.1.1.Final /usr/jboss/cd /usr/jboss/vim standalone/configuration/standalone.xml# 改为#为了能够在局域网中也能够访问jboss 以及jboss管理

2014-02-10 15:53:22 364

转载 mysql二进制日志文件清理以及 管理

原文:http://blog.csdn.net/cdefg198/article/details/70635241:二进制日志二进制日志记录了所有的DDL(数据定义语言)语句和DML(数据操作语言)语句,但是不记录包括数据查询的语句。语句以“事件”的形式保存,它描述了数据的更改过程,此日志对于灾难时的数据恢复起着极其重要的作用2:日志的位置和格式当用—log-bin[=file_name]选项启动

2014-02-10 15:53:20 822

原创 servlet 实现通过流数据传输下载

import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.ByteArrayOutputStream;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStre

2014-02-10 15:53:17 521

原创 servlet上传文件的实现

下载两样东西 都来自于apache的commons 项目 commons-fileupload-1.3-bin.zip:http://commons.apache.org/proper/commons-fileupload/上面那个依赖于 commons-io-2.4-bin.zipcommons-io-2.4-bin.zip: http://commons.apache.org/proper/c

2014-02-10 15:53:15 479

转载 linux sort/uniq 使用

来自:http://www.linuxde.net/2013/06/13941.html通过sort/uniq获取文件内容的交集、合集和不同之处:假设有a、b两个文本文件,文件本身已经去除了重复内容。下面是效率最高的方法,可以处理任何体积的文件,甚至几个G的文件。(Sort对内存没有要求,但也许你需要用 -T 参数。)可以试着比较一下,你可以看看如果用JAVA来处理磁盘上文件的合并,需要用多少行代

2014-02-10 15:53:13 604

转载 Yet another MongoDB Map Reduce tutorial [一篇英文的mongodbMopreduce 文章 推荐一下]

http://blog.mongovue.com/2010/11/03/yet-another-mongodb-map-reduce-tutorial/BackgroundAs the title says, this is yet-another-tutorial on Map Reduce using MongoDB. But two things that are different her

2014-02-10 15:53:11 526

原创 Oracle 学习记录

SQL> --创建一个过程块SQL> CREATE OR REPLACE PROCEDURE hello_procedure 2 ( pv_whom VARCHAR2 ) IS 3 BEGIN 4 dbms_output.put_line('Hello ' || pv_whom || '.'); 5 END; 6 /过程已创建。SQL> --调

2014-02-10 15:53:09 421

原创 ubuntu python 安装 Matplotlib 不出图

apt-get  install python-wxtools修改/usr/local/lib/python2.7/dist-packages/matplotlib/mpl-data目录下的matplotlibrc这个文件内容中的:# ‘module://my_backend’backend      : WXAgg本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwa

2014-02-10 15:53:07 852

原创 一些资料收集以及补充

雅虎股票api介绍http://0411.iteye.com/blog/1068239本文出自 “某人说我技术宅” 博客,请务必保留此出处http://1992mrwang.blog.51cto.com/3265935/1214893

2014-02-10 15:53:04 430

原创 R语言学习遇到的一些错误以及解决方案

1.WIN764 调用Snowball的时候 rJava出错提示包括 Snowball loadNamespace()里算'rJava'时.onLoad失败了解决方法 Path= ...;C:\Program Files\Java\jre6\bin\server\;C:\Program Files\R\R-2.12.1\bin\x64\解决方案连接:http://stackoverflow.com

2014-02-10 15:53:02 1487

原创 nutch的抓取流程 以及 手动实践

inject -> generate -> fetch -> parse -> updatedb第一个流程为把链接地址注入数据库    其对应的java 类为 org.apache.nutch.crawl.Injector实践 ./bin/nutch inject data3/crawldb urls/第二  生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,

2014-02-10 15:53:00 429

转载 Linux上最优秀的数据恢复工具

也许以后会用上 转自 http://www.geekfan.net/1300/不管是不是由于自己的失误,总有些时候我们存储的数据会出点问题。硬盘、固态硬盘以及移动媒介都有可能因为各种不同的原因而“丢失”掉文件。此外,有时候你可能想删除某个文件——不管是有意的还是无意的——稍后你突然意识到自己正好需要那个文件。与其因为文件丢失而抓狂,不如先试试文件恢复工具,看能不能挽回自己的损失。本文着重介绍Lin

2014-02-10 15:52:58 811

转载 如何在安装双启动后卸载 Windows 或者 Linux

关于如何在同一台电脑上运行多个操作系统的文章数不胜数,比如有的文章介绍了如何同时安装Windows和Linux,有的文章介绍了如何同时安装Windows和OS X,还有一些其他的文章。但是,当你想卸载其中的某个操作系统,你应该怎么办呢?下面,我们就介绍一下你安装了“Windows+Linux”双系统后,如何卸载Windows或Linux。 这个过程其实非常简单,但很多人安装双系统后第一次遇到这类

2014-02-10 15:52:56 466

原创 centos nutch 安装

先安装svn yum install svn通过svn 构建构建源代码结构svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/下载好后进入文件夹目录进行编译在这里 需要安装 ant 所以在下载的同时 可以再开一个窗口去下载ant++++++++++++++++++++++++++ 注意 +++++++++++++++++++

2014-02-10 15:52:54 717

git 速查表

自己做的速查表,网上的排版都不是很好,自己排了下喜欢的拿走吧

2017-08-13

Mahout0.8_API

Mahout0.8_API 喜欢的人就请下载吧

2013-12-07

能找到的最全的 mahout in action中文版

mahout in action 第一章 第二章 第三章第四章 第六章第七章 第九章

2013-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除