Spark
文章平均质量分 96
大树的困惑
这个作者很懒,什么都没留下…
展开
-
大数据反爬日记01
大数据反爬日记01记录自己的反爬日记既然要做反爬,就肯定得有有爬虫来爬取页面,这里前面已经写好了一个简单的爬虫,将爬取的数据通过python+flask+gunicorn+nginx部署到linux上面了,接下来通过采集爬虫对页面的请求日志进行分析1.环境准备hadoop (因为是采用最近比较火的大数据技术,所以需要提前准备好大数据的相关环境)hive(用于分析离线指标)spark(用spark引擎来分析实时请求的日志)Hbase(大数据的数据库)filebeat+logstash(请求原创 2021-05-15 22:54:03 · 343 阅读 · 1 评论 -
某小伙的Antlr4学习笔记
概览作为一款语言识别工具,它可以解析(自定义)规则的语句,生成执行树分有几个阶段1.词法分析阶段 (lexical analysis)根据我们定义的词法解析出我们对应的关键词出来2.解析阶段根据我们定义的语法对解析出来的词进行构建,生成一个语法树应用场景1.定制特定领域语言(DSL)类似hibernate中的HQL,用DSL来定义要执行操作的高层语法,这种语法接近人可理解的语言,由DSL到计算机语言的翻译则通过ANTLR来做,可在ANTLR的结构语言中定义DSL命令具体要执行何种操作原创 2020-12-12 14:46:47 · 2005 阅读 · 1 评论 -
HIVE函数大全及用例
HIVE函数大全及用例关系运算1、等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSEhive> select 1 from iteblog where 1=1; >1 2、不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSEhive> sel原创 2020-10-20 00:29:59 · 326 阅读 · 2 评论 -
某小伙的Spark奇妙之旅-DAG
Spark DAG在学习Spark的过程中,会遇到SparkDag这个概念Dag是一个有向无环图的缩写,他的意思是把Spark中调用各种RDD的过程,转化成一种Dag的形式那么为什么要转化成DAG呢?其实不是为什么要转化成DAG,而是spark的那种调度机制十分的适合DAG,因为spark的rdd调用是lazy的,所以他需要先记录每个rdd之间的依赖关系,防止执行过程中出错了可以根据那个依赖关系取溯源既然每个RDD之间都是有依赖关系了,除了最开始的rdd之外,那么就很符合DAG(有向无环图)这个理原创 2020-10-11 12:19:26 · 430 阅读 · 0 评论 -
某小伙的Spark奇妙之旅-WordCount
Spark WordCount如果说一个刚接触java程序,敲出的是hello,那么刚接触spark,敲出的应该是wordcount从最开始入门hadoop的时候,就接触过由hadoop官方提供的样例jar,里面的wordcount程序,用来mr程序进行的词频统计spark也一样,在其example包中包含了wordcount的样例简单描述:WordCount 是用来统计某个文件,或者某个数据集中,单词的出现次数首先贴上官方源码public final class JavaWordCount {原创 2020-09-26 11:44:44 · 326 阅读 · 0 评论 -
某小伙的Spark奇妙之旅
Spark的算法实现Spark的出现很好的解决了MR程序中间文件落地,造成大量io的问题在入门学习Spark的时候,接触到了一个求Π的算法蒙特卡洛算法作为一个入门级的算法,很好的展示了,多次迭代,得到的结果约等于3.14–简单理解最后的比值是(圆的占比=4/Π)通过超级多次的迭代打点,计算出来圆内的点和员外的点的比值,进而反向求出圆周率,因为是随机打点,所以迭代的次数越多,得到的结果就越准确–在搭建好的集群上,提交我们的样例任务bin/spark-submit \--class org.原创 2020-09-24 22:43:03 · 288 阅读 · 0 评论