数据研发
文章平均质量分 83
三印
专注于大数据、BI、数据挖掘、数据库架构方向,欢迎交流,共同进步~
展开
-
Superset win10环境下安装部署
一、环境依赖Win10操作系统 anaconda python3.6二、开始安装创建虚拟环境,为了不让superset包与原先的包产生依赖关系(为避免出现不必要的错误,建议使用python3.6及以上版本)conda create -n superset python=3.6激活虚拟环境activate superset更新pippython -m pip install --upgrade pip安装superset 分别输入以下:pip install a.原创 2021-04-22 16:04:16 · 846 阅读 · 1 评论 -
高可用Hadoop大数据部署流程
背景随着公司业务飞速发展,数据体量急剧上升、运营指标需求多样化、精细化;为解决上述问题和实现合理化、规范化数据管理,提供稳定、可靠和适配的数据服务能力,大数据平台的建设迫在眉睫。另一方面,在对市场调研之后,由于我司业务处于政务环境网(与公有网进行了全方位隔离),只能通过成熟的云产品进行私有化部署,但价格不菲。例如阿里云大数据敏捷版本(功能相对不够完善:200万以上/年,持续付费/年)阿里云大数据企业版本(功能完善:1000万以上/年,持续付费/年)蚂蚁Oceanbase基础版(仅提供分布原创 2021-03-29 14:59:23 · 757 阅读 · 0 评论 -
Flink 六脉神剑秘诀
Flink是什么?Flink是一款实时计算框架,能够实现ms级别甚至更低的延时计算(流式处理),不少同学肯定会提及spark streaming(可认为是批处理,类似Hive;这几个框架只能做到准实时,ms级别的延时是达不到要求)。当然,如果你对延时容忍度高,那么可以选择这两个框架最具代表性的使用场景:阿里双11大屏交易总金额的实时刷新Flink如何实现流式处理?对于批处理而言,当前提条件限制之后,数据的输入是固定的;并且,在执行一次计算计划的时候,要么全部成功或者失败。对于流处理而言,原创 2020-05-28 16:43:38 · 333 阅读 · 0 评论 -
MySQL事务、索引和SQL优化
为完善MySQL基础博文,另外开一片博文,讲一讲事务机制、索引和一些优化技巧。谈到事务,不免需要揪出MySQL中的引擎,常用的引擎有Myisam和Innodb,后者才具有事务机制(Innodb引擎)。并且,在Mysql5.7版本之后,默认引擎是Innodb,通常情况下选Innodb是正确的(这些概念性的东西,应聘的时候都会有所涉及,深浅略有不同)。关于事务 概念:数据库系统的一个逻辑单元...原创 2020-01-15 19:49:15 · 361 阅读 · 0 评论 -
阿里数据研发/数据挖掘提前批录用
纪念一下今天,第一个OFFER,感谢阿里!秋招开始!大家加油!面经和学习总结在其他博客里面有,欢迎相互讨论和学习!2019-12-11更:又是一年的毕业季,希望师弟师妹们有个好offer,无论去哪里,适合自己才是最好的,最好能去不同的offer公司,实习一段时间,感触一下,毕竟亲身的体验才是最真实的。稳定取决于你自己,环境影响的量很小。...原创 2020-03-01 19:36:56 · 996 阅读 · 3 评论 -
大数据之路--Flink学习
Flink这块学习资料比较少,近期都在学习中,之后完善做一个总结,希望对自己和大家的学习有帮助,错误或者不足支持,恳请批评指正,谢谢!目前在学习大数据这块,随着计算成本的降低,和实际业务开发需求的提升,对流式数据的开发也更加频繁,各大公司比较常用的流式框架有:Spark、Storm、Flink;对于Spark而言:支持Spark Streaming,基于spark core,流式处理过程是...原创 2018-10-12 10:32:16 · 1549 阅读 · 0 评论