自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据饕餮

资深数据产品专家,人工智能前沿探索者

  • 博客(8)
  • 资源 (20)
  • 问答 (1)
  • 收藏
  • 关注

原创 Heritrix3.x自定义扩展Extractor

Heritrix3.x与Heritrix1.x版本差异比较大,全新配置模式的引入+扩展接口的变化,同时由于说明文档的匮乏,给Heritrix的开发者带来困惑,前面的文章已经就Heritrix的配置部署和运行做了说明,本文就Heritrix3.x版本就Extractor扩展做出实例说明。

2013-12-27 07:33:57 1515

原创 NoSQL非结构化数据库高级培训课程-大纲

一、课程概述  本课程面向No-SQL开发人员、系统分析和系统架构师,目的在于帮助他们建立起完整的No-SQL数据库的概念,应用场景、相关开源技术框架和优缺点。二、课程大纲主题时间主题No-SQL概述(第1天)上午No-SQL的前世今生-业务才是王道;RDBMS与No-SQL数据

2013-12-24 12:40:44 2006

原创 Hadoop高级培训课程大纲-开发者版

一、课程概述本次培训课程主要面向大数据系统管理人员和开发设计人员,基于开源社区大数据应用最活跃的Hadoop和HBase技术框架,围绕分布式文件存储(HDFS)、分布式并行计算(Map/Recue)和非关系型数据库(NoSql)三个大数据核心应用展开,旨在帮助培训对象建立起完整的大数据理论基础框架和实践操作能力。主要课程内容包括:1.大数据应用发展史;2.分布式文件系统HDFS原理与架

2013-12-24 10:28:23 1408

原创 Hadoop高级培训课程大纲-管理员版

一、课程概述本次培训课程主要面向大数据系统管理人员和开发设计人员,基于开源社区大数据应用最活跃的Hadoop和HBase技术框架。围绕分布式文件存储(HDFS)、分布式并行计算(Map/Recue)和非关系型数据库(NoSql)三个大数据核心应用展开,旨在帮助培训对象建立起完整的大数据理论基础框架和实践操作能力。主要课程内容包括:1.大数据应用发展史;2.分布式文件系统HDFS原理与架

2013-12-24 10:27:36 1103

原创 大数据挖掘算法篇之K-Means实例

一、引言  K-Means算法是聚类算法中,应用最为广泛的一种。本文基于欧几里得距离公式:d = sqrt((x1-x2)^+(y1-y2)^)计算二维向量间的距离,作为聚类划分的依据,输入数据为二维数据两列数据,输出结果为聚类中心和元素划分结果。输入数据格式如下: 1 18 2 2 3 2 4 0.0 0.0 5 1.0 0.0 6 0.0 1.0 7 2.0

2013-12-19 12:00:23 2962

原创 网络爬虫之Windows环境Heritrix3.0配置指南

一、引言:  最近在忙某个商业银行的项目,需要引入外部互联网数据作为参考,作为技术选型阶段的工作,之前已经确定了中文分词工具,下一个话题就是网络爬虫的选择,目标很明确,需要下载一些财经网站的新闻信息,然后进行文本计算。记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫的世界里是否有了新的崛起。比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制的了。二、版本选择 

2013-12-17 07:45:03 1367

原创 断篇-大数据金融行业企业应用几点思考

一、数据挖掘的价值体现  任何数据分析或者挖掘的项目都不会直接产生经济价值和意义,分析出的数据结果既不能给企业直接带来一个客户,也不能帮助企业卖出一件产品。数据分析的价值体现在于业务部门根据分析结果制定相关的经营策略并贯彻执行。二、大数据之困-通道  大数据之困-如何打通底层数据存储到上层数据服务的通道问题,讲成为制约大数据发展的关键因素。当越来越多的人意识到大数据的未来在应用的时候,

2013-12-17 07:43:42 1046

原创 开源中文分词框架分词效果对比smartcn与IKanalyzer

中文分词一直是自然语言处理的一个痛处,早在08年的时候,就曾经有项目涉及到相关的应用(Lunce构建全文搜索引擎),那时的痛,没想到5年后的今天依然存在,切分效果、扩展支持、业务应用等方面依然不甚理想。收费的版本不提了,原因自不必言表,开源版本中,发现之前曾经活跃的版本,大多已经没落(好几年没更新了),存活下来的寥寥无几。我是一个守旧的人,评估版本的选择有些保守,至少目前为止,只看1.0正式版本之后的版本,0.XX的不在考虑范围之内,用了一个周末的时间,对比了十多款的样子,个人感觉源于中科院ICTCLAS的

2013-12-09 15:55:25 2695

Windows11InstallationAssistant.exe

windows 11 安装助手 官方原版

2021-10-05

2012年版自考00012英语一单词解析完整版.txt

2012年版自考00012英语一单词解析完整版.txt

2021-06-09

2012年版自考00012英语一单词解析完整版.pdf

自考英语一课文和翻译

2021-06-09

194点人脸特征点训练语料5

194点人脸特征点训练语料5

2019-02-27

194点人脸特征点训练语料4

194点人脸特征点训练语料4

2019-02-27

194点人脸特征点训练语料3

194点人脸特征点检测训练数据样本3,内含500张人脸照片。

2019-02-27

194点人脸特征点训练语料2

194点人脸特征点检测训练数据样本2,内含500张人脸照片。

2019-02-27

194点人脸特征点训练语料1

194点人脸特征点检测训练数据样本1,内含500张人脸照片。

2019-02-27

中文情感词典合计

中文情感词汇本体库+知网程度级别词语词典+清华大学李军中文褒贬义词典 +台湾中文大学-NTUSD情感词典

2019-01-03

Python Essentials高清电子书

Python Essentials高清电子书,

2018-09-06

Python Data Analysis

学习如何使用Python强大的数据分析技术和工具的最佳实践。

2018-09-06

Hadoop Eclipse插件2.2.0版本

hadoop Eclipse插件Linux版本,编译环境hadoop2.2.0

2014-08-23

hadoop-eclipse-plugin-1.1.0.jar

hadoop eclipse-plugin-1.1.0.jar hadoop eclipse插件

2012-12-10

磁盘空间自动清理工具

磁盘空间文件清理。支持空闲空间监控、自动任务设置、过期文件清理。

2012-09-22

WebSphere MQv7 实例源码

WebSphere MQv7 实例源码,包含完整的VS2010工程及C语言源码,演示了消息队列的存取。共三个实例:C语言2个和C++一个。

2012-03-23

SCO+OpenServer+网络指南

SCO+OpenServer+网络指南 pdf版,很好的电子书奥。

2012-03-21

FlvPlayer Flv播放器

Flv本地文件播放器,安装时需要:Adobe AIR run-time支持,请到Adobe官方网站下载。

2012-02-14

cutycapt 网页缩略图抓图工具

windows平台网页缩略图抓图工具,使用--help查看参数设置。

2012-02-13

UML实战指南

九种UML常用模型介绍,适用场景,包含的元素、典型应用实例、分类。

2012-02-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除