大数据
文章平均质量分 72
空知_月月鸟
作者很懒,想起密码时就上传一下笔记
展开
-
Kafka->一个好用的IntelliJ IDEA插件: kafkalytic
Kafka->一个好用的IntelliJ IDEA插件: kafkalytic安装kafkalytic如何连接kafka集群kafkalytic简单的使用安装点击File -> Setting1.点击Plugins2.在搜索框输入Kafka3.安装Kafkalytic(安装后需要重新启动Idea)当右侧出现kafkalytic时,说明安装成功kafkalytic如何连接kafka集群点击"+"号根据实际情况编辑kafka集群信息连接成功后会出现kafka集群信息原创 2021-08-17 11:58:02 · 6277 阅读 · 0 评论 -
大数据算法->一致性哈希算法的基本原理
大数据算法->一致性哈希算法的基本原理需求解答需求工程师常使用服务器集群来设计和实现数据缓存,以下是常见的策略.1.无论是添加\查询还是删除数据,都先将数据的id通过哈希函数转换成一个哈希值,记为key.2.如果目前机器有N台,则计算key % N的值,这个值就是该数据所属的机器编号,无论是添加\删除还是查询操作,都只在这台机器上进行.请分析这种缓存策略可能带来的问题,并提出改进的方案.解答需求中描述的缓存策略的潜在问题是如果增加或删除机器(N变化),代价会很高,所有数据都不得不根据id原创 2021-08-16 22:16:37 · 310 阅读 · 0 评论 -
大数据算法->布隆过滤器
大数据算法->布隆过滤器需求要求解答篇需求不安全网页的黑名单包含100亿个黑名单的网页,每个网页的URL最多占用64B.现在想要实现一个网页过滤系统,利用该系统可以根据网页的URL判断该网页是否在黑名单上,请设计该系统.要求1.该系统允许有万分之一以下的判断失误率2.使用的额外空间不要超过30GB解答篇->思路简介:不可以使用传统过滤方法->如果把黑名单中所有的URL通过数据库或哈希表保存下来,就可以对每条URL进行查询,但是每个URL有64B,数量是100亿个,所以至少原创 2021-08-15 22:16:25 · 228 阅读 · 0 评论 -
大数据算法->40亿个非负整数中找到出现两次的数和所有数的中位数
大数据算法->40亿个非负整数中找到出现两次的数和所有数的中位数题目原问题:补充问题解答原问题补充问题题目原问题:32位无符号整数的范围是0 ~ 4 294 967 295 现在有40亿个无符号整数, 可以使用最多1GB的内存,找出所有出现了两次的数.补充问题可以使用最多10MB的内存,怎么找到这40亿个整数的中位数?解答原问题可以用bit map的方式来表示数出现的情况.具体地说,是申请一个长度为4 294 967 295 * 2的bit类型的数组Arr,用2个位置表示一个数出现的词原创 2021-08-15 22:09:54 · 297 阅读 · 0 评论 -
大数据算法->找到100亿个URL中重复的URL及搜索词汇的TopK问题
大数据算法->找到100亿个URL中重复的URL及搜索词汇的TopK问题题目补充题目原题目解答补充问题解答题目有一个包含100亿个URL的大文件,假设每个URL占用64B,请找出其中所有重复的URL.补充题目某搜索公司一天的用户搜索词汇是海量的(百亿数据量),请设计一种求出每天热门Top100词汇的可行办法.原题目解答原问题的揭发使用解决大数据问题的一种常规方法:把大文件通过哈希函数分配到机器,或者通过哈希函数把大文件拆成小文件,一直进行这种划分,直到结果满足资源限制的要求.首先,你要向原创 2021-08-07 16:51:12 · 633 阅读 · 0 评论 -
Flink->如何参与flink开源社区
如何参与flink开源社区参与开源社区的原则1.公开沟通2.保持尊重如何参与Flink社区1.订阅邮件列表开发邮件列表用户邮件列表build邮件列表订阅相关邮件列表2.参与用户邮件列表讨论用户邮件列表提问(user-zh)描述问题应尽可能详细,提供尽可能多的信息反面提问示例正确提问示例回答用户列表里其他用户的问题3.参与开发邮件列表讨论相关网站参与开源社区的原则1.公开沟通·讨论内容可追溯·尽量避免私下讨论,如果由私下讨论,应在邮件列表\JIRA等总结私下讨论的结果2.保持尊重·社区贡献以自愿为原创 2021-08-07 13:18:03 · 787 阅读 · 0 评论 -
大数据算法->只用2GB在20亿个整数中找到出现次数最多的数
大数据算法->只用2GB在20亿个整数中找到出现次数最多的数需求:要求:解答:需求:有一个包含20亿个全是32位整数的大文件,在其中找到出现次数最多的数要求:内存限制为2GB解答:想要在很多整数中出现次数最多的数,通常的做法是使用哈希表对出现的每一个数做词频统计,哈希表的key是某一个整数,value是这个数出现的次数.就本题来说,一共有20亿个数,哪怕只是一个数出现了20亿次,用32位的整数也可以表示其出现的次数而不会产生溢出,所以哈希表的key需要占用4B,value也是4B.那么哈希原创 2021-08-06 13:32:46 · 420 阅读 · 0 评论 -
Hive生产常用函数整理(海哥版)
Hive生产常用函数一.常用日期函数1.unix_timestamp:返回当前或指定时间的时间戳例一:0: jdbc:hive2://hadoop102:10000> select unix_timestamp();+-------------+| _c0 |+-------------+| 1622184676 |+-------------+1 row selected (0.331 seconds)例二:0: jdbc:hive2://hadoop1原创 2021-05-28 16:39:37 · 161 阅读 · 0 评论