技术没有止境_2015-CSDN博客

转载 HBase学习与开发经验总结

问题导读：1. NOSQL是如何产生的以及Hbase 在NOSQL中的地位如何？2. Hbase框架是如何架构出来的？3. Hbase 是如何检索一条数据以及检索时间复杂度是多少？4. 如何设计 Hbase 数据库？5. 还有哪些HBase调优小技巧？解决方案：大数据技术如火如荼，在大数据挖掘及分析平台技术中，作为海量数据操作及高客户端并发解决方案的

2016-10-20 11:17:45 2119

转载 Spark在Windows环境下搭载

由于Spark是用Scala来写的，所以Spark对Scala肯定是原生态支持的，因此这里以Scala为主来介绍Spark环境的搭建，主要包括四个步骤，分别是：JDK的安装，Scala的安装，Spark的安装，Hadoop的下载和配置。为了突出”From Scratch”的特点（都是标题没选好的缘故），所以下面的步骤稍显有些啰嗦，老司机大可不必阅读，直接跳过就好。　　一．JDK的安装

2016-10-20 11:13:57 541

转载大数据之” Hadoop，Spark和Storm

大数据（Big Data）大数据，官方定义是指那些数据量特别大、数据类别特别复杂的数据集，这种数据集无法用传统的数据库进行存储，管理和处理。大数据的主要特点为数据量大（Volume），数据类别复杂（Variety），数据处理速度快（Velocity）和数据真实性高（Veracity），合起来被称为4V。大数据中的数据量非常巨大，达到了PB级别。而且这庞大的数据之中，不仅仅包

2016-10-20 10:58:37 2730

转载网络爬虫开发技术——快速线程池爬虫

0×00 简介0×01 功能定义0×02 总体流程0×03 线程池任务迭代0×04 具体实现0×05 测试使用0×06 结语0×00 简介本文算是填前面的一个坑，有朋友和我将我前面写了这么多，真正没看到什么特别突出的实战，给了应对各种情况的方案。多线程那里讲的也是坑。忽然想想，说的也对，为读者考虑我确实应该把多线程这里的坑补完。然后决定再以一篇文

2016-04-06 13:44:18 1926

转载网络爬虫开发技术——数据存储以及多线程

0×00 介绍本文我们就两个方面来讨论如何改进我们的爬虫：数据存储和多线程，当然我承认这是为我们以后要讨论的一些东西做铺垫。目的：通常我们需要对爬虫捕捉的数据进行分析，处理，再次利用或者格式化，显然我们不能只是把爬虫捕捉到的数据在内存中处理，然后打印在屏幕上。在本章，我将介绍几种主流的数据存储方法。爬虫处理数据的能力往往是决定爬虫价值的决定性因素，同时一个稳定的存储数据的方法也绝对

2016-04-06 13:41:39 3205

转载网络爬虫开发技术——整站爬虫与Web挖掘

0×00 介绍0×01 协议0×02 原则0×03 确立目标与分析过程0×04 动手0×05 sitemap爬虫0×06 web元素处理0×07 总结与预告0×00 介绍在互联网这个复杂的环境中，搜索引擎本身的爬虫，出于个人目的的爬虫，商业爬虫肆意横行，肆意掠夺网上的或者公共或者私人的资源。显然数据的收集并不是为所欲为，有一些协议或者原则还是需要

2016-04-06 13:36:54 3354

转载网络爬虫开发技术——入门

0×00 介绍0×01 要求0×02 你能学到什么？0×03 知识补充0×04 最简单的开始0×05 更优雅的解决方案0×06 url合法性判断0×07 总结与预告0×00 介绍爬虫技术是数据挖掘，测试技术的重要的组成部分，是搜索引擎技术的核心。但是作为一项普通的技术，普通人同样可以用爬虫技术做很多很多的事情，比如：你想了解一下FreeBuf

2016-04-06 13:31:11 7068

gbda_aut.dll

目前国内网上能够找到的OPC DA Com组件基本都是32位，64的COM组件很难找到，这个组件是在国外学习期间用过的64位com组件，类方法与32位的组件OPCDAAutomation.dll 基本一样，除了命名空间不一致，非常好用，解决了在C#开发OPC Client过程中，只能用32位的com组件问题。

2021-12-07