「雪球」新闻feed流爬虫!

原创文章,转载请注明出处 雪球是一个什么样的网站? 雪球股票,聪明的投资者都在这里 - 雪球提供沪深港美股票实时行情、实战交流、实盘交易。 雪球的Feed流样式 如上图所示为用户为从雪球首页截取出来的信息流,从图中可以看出雪球的信息流包含如下几个模块: 头条 直播 沪深 房产 港股 基金 ...

2018-11-08 21:54:24

阅读数 92

评论数 1

Spark的Shuffle机制(讲得很好哦)

MapReduce中的Shuffle 转载于: http://www.jianshu.com/p/60bab35bc01e 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直...

2017-09-28 19:16:48

阅读数 1588

评论数 0

C++中虚函数与纯虚函数的区别

虚函数和纯虚函数可以定义在同一个类(class)中,含有纯虚函数的类被称为抽象类(abstract class),而只含有虚函数的类(class)不能被称为抽象类(abstract class)。 虚函数可以被直接使用,也可以被子类(sub class)重载以后以多态的形式调用,而纯虚函数必须在子...

2017-09-11 15:54:26

阅读数 128

评论数 0

Bloom Filter

哈希 hash 原理 Hash (哈希,或者散列)函数在计算机领域,尤其是数据快速查找领域,加密领域用的极广。其作用是将一个大的数据集映射到一个小的数据集上面(这些小的数据集叫做哈希值,或者散列值)。 一个应用是Hash table(散列表,也叫哈希表),是根据哈希值 (Key value)...

2017-09-11 11:24:19

阅读数 154

评论数 0

线程的几种可用状态

1. 新建( new ):新创建了一个线程对象。 2. 可运行( runnable ):线程对象创建后,其他线程(比如 main 线程)调用了该对象 的 start ()方法。该状态的线程位于可运行线程池中,等待被线程调度选中,获 取 cpu 的使用权 。 3. 运行( running )...

2017-09-04 21:34:07

阅读数 464

评论数 0

页面置换算法

1. 总述   为提高内存利用率,解决内存供不应求的问题,更加合理的使用内存,人们创造了分页式内存抽象。同时有一个虚拟内存的概念,是指将内存中暂时不需要的部分写入硬盘,看上去硬盘扩展了内存的容量,所以叫做“虚拟”内存。使用虚拟内存,应用程序可以使用比实际物理内存更大的内存空间。可以认为这个更...

2017-09-04 20:00:08

阅读数 784

评论数 0

HTTP Keep-Alive是什么?如何工作?(理解TCP生命周期)

Chapter: 关于HTTP Keep-Alive 1. HTTP Keep-Alive是什么?如何工作? 2. 了解HTTP Keep-Alive的基本情况 3. Apache中Keep-Alive配置建议 4. HTTP协议中的长连接与短连接 5. TCP ke...

2017-08-29 09:18:45

阅读数 1915

评论数 0

操作系统之处理机调度

1.为什么要调度? 在多道程序系统中,进程的数量往往多于处理机的个数,进程会竞争处理机资源。 2.调度目标? 提高系统吞吐量,降低响应时间,确保每个进程都能公平的获得处理机的机会。 3.进程调度时机? a.正在运行的进程运行完毕或发生某事件而不能再继续运行 b.运行中的进程因提出I/O请求而暂停...

2017-08-28 18:44:25

阅读数 220

评论数 0

C++ 局部静态变量,全局变量,全局静态变量,局部变量的区别和联系

C++ 局部静态变量,全局变量,全局静态变量,局部变量的区别和联系C++变量根据定义位置的不同,具有不同的作用域,作用域可分为6种:全局作用域,局部作用域,语句作用域,类作用域,命名作用域和文件作用域。从作用域看:全局变量具有全局作用域。全局变量只需在一个源文件中定义,就可以作用于所有的源文件。当...

2017-08-26 11:58:53

阅读数 83

评论数 0

Java多线程之BlockingQueue

前言:      在新增的Concurrent包中,BlockingQueue很好的解决了多线程中,如何高效安全“传输”数据的问题。通过这些高效并且线程安全的队列类,为我们快速搭建高质量的多线程程序带来极大的便利。本文详细介绍了BlockingQueue家庭中的所有成员,包括他们各自的功能以...

2017-08-24 15:13:37

阅读数 86

评论数 0

MapReduce模型中的Shuffle

Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图: 这张是官方对Shuffle过程的描述。但我可...

2017-08-15 08:56:13

阅读数 118

评论数 0

MapReduce编程模型概述

mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapreduce编程,但是内部的原理还是不明白。下面在回帖中,给大家解决部分问题。更多问题有待挖掘。 1.Shuffle的定义是什么? ...

2017-08-15 08:51:08

阅读数 260

评论数 0

MySQL索引背后的数据结构及算法原理

转载于: http://blog.codinglabs.org/articles/theory-of-mysql-index.html 这篇文章真是很赞,后面会对该偏文章中尚未涉及的索引覆盖等知识开一篇新的博文。 摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明...

2017-08-14 17:15:04

阅读数 110

评论数 0

线程相关

如果说在操作系统中引入进程的目的,是为了使多个程序能并发执行,以提高资源的利用率和系统吞吐量,那么,在操作系统中再引入线程,则是为了减少程序在并发执行时所付出的时空开销,使操作系统具有更好的并发性。 1.线程的基本概念 线程是“进程”中某个单一顺序的控制流,也被称为轻量进程。 2.线程与进程的...

2017-08-14 15:43:52

阅读数 100

评论数 0

互联网架构中的“高并发”

一、什么是高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间(Response Time),吞吐量(Throughput),每秒查询率QPS(Query Per...

2017-08-14 14:31:45

阅读数 248

评论数 0

从RDD的角度来看Spark内部原理

RDD为什么是Spark的核心概念 通过一个wordCount例子来看一看RDD RDD的管理与操作(算子) 常见的RDD操作有哪些(包括RDD的分类) RDD的依赖关系(DAG) RDD依赖关系的划分(stage) RDD为什么是Spark的核心概念 Spark建立在统一抽象的RDD之上,使得...

2017-08-14 10:23:47

阅读数 800

评论数 0

Spark Standalone架构设计要点分析

Apache Spark是一个开源的通用集群计算系统,它提供了High-level编程API,支持Scala、Java和Python三种编程语言。Spark内核使用Scala语言编写,通过基于Scala的函数式编程特性,在不同的计算层面进行抽象,代码设计非常优秀。RDD抽象 RDD(Resili...

2017-08-14 09:48:24

阅读数 610

评论数 0

HTTP协议详解(很经典)

什么是HTTP协议?下面摘自维基百科:超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是互联网上应用最为广泛的一种网络协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。通过HTTP或者HTTPS协议请求的资源由统一资源标识符(Un...

2017-08-13 21:41:22

阅读数 92

评论数 0

一分钟吃透spark 之 TaskScheduler

DagScheduler 和 TaskScheduler 的任务交接spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段),对于划分出来的每个 stage...

2017-08-13 21:26:01

阅读数 891

评论数 0

Spark VS Hadoop

spark 究竟比 mapreduce 好在哪里,为什么备受推崇, 有些人宣称spark 是大数据的未来, spark 宣布了 Hadoop 的死刑, 这种话到底能不能讲, 会不会被打脸?首先,理清一个基本概念, hadoop = hdfs + yarn + mapreducehdfs 现在是大...

2017-08-13 20:59:23

阅读数 105

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭