- 博客(11)
- 收藏
- 关注
原创 Maxwell's daemon mysql binlog
https://github.com/zendesk/maxwell This is Maxwell’s daemon, an application that reads MySQL binlogs and writes row updates as JSON to Kafka, Kinesis, or other streaming platforms. mysql> insert in...
2019-06-27 11:00:56 170
原创 HDFS 原理、架构与特性
https://my.oschina.net/leejun2005/blog/151872 HDFS架构 •NameNode •DataNode •Sencondary NameNode Namenode 的目录结构: ${ dfs.name.dir}/current /VERSION /edits /fsimage /fstime dfs.name.dir 是 hdfs-site.xml 里配...
2019-04-22 12:45:13 172
转载 网络协议
http 请求 客服端连上服务器后,向服务器请求某个web资源 内容:请求行,若干请求头,以及实体内容。 Accept: */* (消息头用于描述客户端请求的哪台主机,以及客服端的一些环境信息) Accept-Language:en-us Connection: Keep-Alive Host: localhost Referer: http://localhost/links.asp Us...
2019-04-18 12:01:46 110
原创 收藏
https://blog.fundebug.com/2018/08/27/code-interview-data-structure/ scala: https://www.cnblogs.com/fxjwind/p/3338829.html java read and save json https://howtodoinjava.com/json/json-simple-read-write-...
2019-04-17 17:03:02 153
转载 HashMap and TreeMap的内部结构
https://mp.weixin.qq.com/s/XimLdUgSz4Bj40yIlRQAgQ HashMap 基于哈希表的Map借口的实现。提供可选的映射操作。并允许使用null和null键。 (除了非同步和允许使用null之外,HashMap和HashTable大致相同)。此类不保证映射的顺序,特别是他不保证顺序保持恒久不变。 HashMap 的实例有两个参数影响其性能:初始容量 和...
2019-04-10 14:03:14 85
原创 海量数据处理之分库分表
海量数据处理之分库分表 查询慢,分库分表副作用,如何解决。 关系型数据库如: Mysql, sqlserver. 为了快速检索,采用B树或者其他索引技术。 表中数据越多,索引树的范围越大,磁盘读取越多,性能越低。 读写分离,主数据库用于写入,读数据库(多个)用于对外提供查询,通过数据复制的方式将主数据库的数据同步到读库。该框架提升了数据库的读写能力,但对于主数据库的写入能力依然没法扩展。 ...
2019-04-10 11:38:10 353
原创 数据结构: Reversing the first K elements of a Queue
Reversing the first K elements of a Queue Given an integer k and a queue of integers, we need to reverse the order of the first k elements of the queue, leaving the other elements in the same relative...
2019-04-10 10:21:44 127
原创 File Format with Spark
CSV: Delimiter Separated Values Pros: Human readable, all tools support it. Cons: IO/Storage inefficent (uncompressed) No richer types - all are strings Linear scanning (projections and predicates)...
2019-04-09 13:52:54 218
原创 Kaggle's "Allstate Purchase Prediction Challenge."
Project paper, code, and presentation slides: https://github.com/justmarkham/kaggle-allstate Goal : Predict which car insurance options a customer will buy. Problem: (1) There are 7 car insurance opti...
2019-04-03 18:06:02 456
原创 线程,进程以及对多线程并发的理解
概念 多线程(threading)和多进程(multiprocessing) 进程是指一个内存中运行的应用程序,比如在Windows系统中,一个运行的exe就是一个进程。 线程是指进程中的一个执行流程。 联系与区别: 一个程序至少有一个进程,而一个进程至少有一个线程。一个应用程序可以同时启动多个进程。而线程则是指进程中的一个执行流程,一个进程可以有多个线程,每个线程分别执行不同的任务,当进...
2019-04-03 14:18:32 880
原创 基本概念
网桥 Thread thread = new Thread(() -> { System.out.println("hello world!"); System.out.println("welcome to Westworld!"); }); thread.start();
2019-04-02 14:40:49 245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人