- 博客(7)
- 资源 (12)
- 收藏
- 关注
转载 HBase学习与开发经验总结
问题导读:1. NOSQL是如何产生的以及Hbase 在NOSQL中的地位如何?2. Hbase框架是如何架构出来的 ?3. Hbase 是如何检索一条数据以及检索时间复杂度是多少?4. 如何设计 Hbase 数据库?5. 还有哪些HBase调优小技巧?解决方案:大数据技术如火如荼,在大数据挖掘及分析平台技术中,作为海量数据操作及高客户端并发解决方案的
2016-10-20 11:17:45 2119
转载 Spark在Windows环境下搭载
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出”From Scratch”的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。 一.JDK的安装
2016-10-20 11:13:57 541
转载 大数据之” Hadoop,Spark和Storm
大数据(Big Data)大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包
2016-10-20 10:58:37 2730
转载 网络爬虫开发技术——快速线程池爬虫
0×00 简介0×01 功能定义0×02 总体流程0×03 线程池任务迭代0×04 具体实现0×05 测试使用0×06 结语0×00 简介本文算是填前面的一个坑,有朋友和我将我前面写了这么多,真正没看到什么特别突出的实战,给了应对各种情况的方案。多线程那里讲的也是坑。忽然想想,说的也对,为读者考虑我确实应该把多线程这里的坑补完。然后决定再以一篇文
2016-04-06 13:44:18 1926
转载 网络爬虫开发技术——数据存储以及多线程
0×00 介绍本文我们就两个方面来讨论如何改进我们的爬虫:数据存储和多线程,当然我承认这是为我们以后要讨论的一些东西做铺垫。目的:通常我们需要对爬虫捕捉的数据进行分析,处理,再次利用或者格式化,显然我们不能只是把爬虫捕捉到的数据在内存中处理,然后打印在屏幕上。在本章,我将介绍几种主流的数据存储方法。爬虫处理数据的能力往往是决定爬虫价值的决定性因素,同时一个稳定的存储数据的方法也绝对
2016-04-06 13:41:39 3205
转载 网络爬虫开发技术——整站爬虫与Web挖掘
0×00 介绍0×01 协议0×02 原则0×03 确立目标与分析过程0×04 动手0×05 sitemap爬虫0×06 web元素处理0×07 总结与预告0×00 介绍在互联网这个复杂的环境中,搜索引擎本身的爬虫,出于个人目的的爬虫,商业爬虫肆意横行,肆意掠夺网上的或者公共或者私人的资源。显然数据的收集并不是为所欲为,有一些协议或者原则还是需要
2016-04-06 13:36:54 3354
转载 网络爬虫开发技术——入门
0×00 介绍0×01 要求0×02 你能学到什么?0×03 知识补充0×04 最简单的开始0×05 更优雅的解决方案0×06 url合法性判断0×07 总结与预告0×00 介绍爬虫技术是数据挖掘,测试技术的重要的组成部分,是搜索引擎技术的核心。但是作为一项普通的技术,普通人同样可以用爬虫技术做很多很多的事情,比如:你想了解一下FreeBuf
2016-04-06 13:31:11 7068
gbda_aut.dll
2021-12-07
PCA主成分分析在工艺故障诊断中的应用算法文档.doc
2020-03-30
PCA主成分分析算法技术.doc
2020-03-30
FDC故障诊断与分类算法总结.doc
2020-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人