大数据
新宿一次狼
瞎写而已......
展开
-
SparkRDD和SparkSQL实现wordcount
import org.apache.spark.{SparkConf, SparkContext}/* sparkrdd单词计数 */object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDWordCount") .setMaster("local[*]") val sc = new SparkContext原创 2020-11-15 00:14:41 · 227 阅读 · 0 评论 -
spark中用yarn client和yarn cluster两种模式提交任务
spark需要设置参数1、spark-env.sh 根据集群设置export SPARK_HOME=/export/servers/spark-2.2.0-bin-hadoop2.7export JAVA_HOME=/export/servers/jdk1.8.0_141export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop2、slaves 根据集群设置node01node02node03yarn cluster 模原创 2020-08-28 00:00:58 · 1080 阅读 · 0 评论 -
spark报错INFO yarn.Client: Application report for application (state: ACCEPTED)解决
在生产环境中,spark的计算任务提交一般是用yarn模式来做提交的。今天在自己搭建的集群测试yarn提交时候遇到以下报错,20/08/27 23:04:15 INFO yarn.Client: Application report for application_1598539765305_0002 (state: ACCEPTED)20/08/27 23:04:16 INFO yarn.Client: Application report for application_15985397653原创 2020-08-27 23:34:41 · 8950 阅读 · 0 评论 -
目前python就业市场方向
目前python在外面公司主要有几种岗位:1.爬虫。爬虫一般根据不同公司业务,还分为电商,工商,内容,征信。a.电商,主要是爬商品价格,做热门的商品,比价等。b.工商,比如爬企业信用信息公示系统,做像天眼查,企查查那样产品。c.内容,像今日头条那种爬内容,现在很少公司做了,因为做不出第二个今日头条app了。d.征信,这个基本被打击全没了,而且也不知道怎么会有这种爬虫,个人信息的接口不知道哪里来的。爬虫目前就电商和工商在做比较多,但是难度越来越大,基本很多都是爬抖音,小红书这些app的原创 2020-08-23 12:24:48 · 1110 阅读 · 0 评论 -
目前大数据就业市场的方向
网上有很多生化环材的劝退帖,加之最近几年的就业形势比较差,各种培训机构和广告在推销各种计算机培训,大数据和python是目前炒的很火的。很多人都是不怎么了解外面大数据公司到底是在做什么的,所以就讲讲自己知道的这个大数据。1.电商公司(1)做报表系统。现在很多公司做数据中台,把整个公司各个部门数据整合一起,做数据的报表系统。比如公司有各种日志,和埋点数据,销售数据,这些数据都是每时每刻产生的,日积月累,数量庞大,普通的数据库计算太慢了,所以一般会放到分布式集群,用数仓工具进行处理。最后再把计算结果展示原创 2020-08-22 10:24:14 · 596 阅读 · 0 评论 -
大数据学习笔记——分布式计算有向无环图和深度学习迭代计算
大数据分布式计算一个很显著的特征是单向性,就像程序流程设计中的顺序执行程序,是按照一个方向前进的,不会有循环往复的计算过程,我们可以仔细想一下,我们用算子,或者sql的时候,只是计算出一个最终结果就完结束了。所以这也是叫有向无环图的原因。但是深度学习神经网络的计算不一样,是一种迭代式计算,像程序流程设计中的循环,会不断往复计算得到结果的误差率,误差率我们设置一个认为合适的值,当计算到在误差率内的时候,认为参数满足要求,进而结束运算。...原创 2020-08-21 23:43:09 · 892 阅读 · 0 评论 -
大数据学习笔记——idea如何打开一个别人maven项目
1、启动idea,选择import project2、选择pom.xml文件打开3、在setting中设置maven,包括maven的安装路径文件夹,setting.xml,和maven在本机上的仓库4、在project structure中设置sdk,还有output文件夹,如果是别人的maven项目,很可能没有需要自己创建一下5、等待maven的jar依赖导入完毕,或者等待下载完,这样别人的项目就可以运行了...原创 2020-08-10 00:27:25 · 7518 阅读 · 0 评论 -
大数据学习笔记——sqoop
导入mysql表数据到HDFS# userdb库表emp导到目标文件夹/sqoopresult212bin/sqoop import \--connect jdbc:mysql://192.168.65.120:3306/userdb \--username root \--password 123456 \--delete-target-dir \--target-dir /sqoopresult212 \ # hdfs路径--table emp --m 1原创 2020-08-08 10:58:43 · 453 阅读 · 0 评论 -
大数据学习笔记——算法时间复杂度简单推导
下图是常用的时间复杂度变化曲线O(n):一个for循环计算public int count(int n){ int sum = 0; for(int i = 1; i <= n; i++) sum += i; return sum;}O(n2):就是两个for循环嵌套O(log2n):int n = 100;int i = 1; while(i <= n){ i *= 2;}1∗2x=100⇒x=log21001*2^{x原创 2020-08-07 15:13:52 · 787 阅读 · 0 评论 -
大数据学习笔记——sql优化实例
1、where语句优化select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt='20200808';可优化为select m.cid,u.id from (select * from order where dt='20200808') m join customer u on( m.cid =u.id);2、union优化尽量不要使用union (union 去掉重复的记录)而是使用 union原创 2020-08-07 11:04:09 · 571 阅读 · 0 评论 -
大数据学习笔记——linux连接工具secureCRT配置
1、仿真linux设置2、字体字符编码设置3、一个命令发送到多台服务器,这个命令很有用,可能很多人还不知道。同一个命令只需要敲一次。原创 2020-08-07 10:09:38 · 469 阅读 · 0 评论 -
大数据学习笔记——windows环境下配置hadoop
在windows中idea直接运行spark代码出现缺少winutils.exe报错情况,需要配置Hadoop运行环境可能出现如下报错:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java cla.原创 2020-08-06 01:11:53 · 533 阅读 · 0 评论 -
大数据学习笔记——用dbeaver6.2.4连接hive1.2
给hive装备上一个可视化工具,那是相当给力的。dbeaver连接hive的时候,需要以下步骤:1、启动MySQL数据库,hive的元数据存储在mysql中2、cd /export/servers/apache-hive-1.2.1-bin/bin 进入hive安装的bin目录3、nohuphive--servicemetastore-p9083>/dev/null& 后台启动metastore4、nohup hive --service hives...原创 2020-08-06 00:51:15 · 693 阅读 · 0 评论 -
大数据学习笔记——数据仓库hive重要的总结
1、外部表和内部表Hive 表分为两类,即内部表和外部表。 所谓内部表,即Hive 管理的表, Hive 内部表的管理既包含逻辑以及语法上的,也包含实际物理意义上的,即创建 Hive 内部表时,数据将真实存在于表所在的目录内,删除内部表时,物理数据和文件也一并删除。 外部表 ( external table)则不然,其管理仅仅是在逻辑和语法意义上的,即新建表仅仅是指向一个外部目录而已。 同样,删除时也并不物理删除外部目录,而仅仅是将引用和定义 删除。外部表,指定 EXTERNAL 关键字后,因而不会把.原创 2020-08-05 15:31:15 · 851 阅读 · 0 评论 -
大数据学习笔记——kafka总结
1.kafka整体架构和术语Broker:kafka集群中包含一个或者多个服务实例,这种服务实例被称为Broker Topic:每条发布到kafka集群的消息都有一个类别,这个类别就叫做Topic Partition:Partition是一个物理上的概念,每个Topic包含一个或者多个Partition Producer:负责发布消息到kafka的Broker中。 Consumer:消息消费者,向kafka的broker中读取消息的客户端 Consumer Group:每一个Consu..原创 2020-08-03 17:59:55 · 546 阅读 · 0 评论 -
大数据学习笔记——zookeeper在hadoop集群中的作用
zookeeper主要是用来搭建高可用的Hadoop集群,即High Availability,简称(HA)测试中集群是可以不需要高可用的,即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性,需要增加一个namenode备用,当active的namenode挂了之后,系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。...原创 2020-08-02 22:29:17 · 2722 阅读 · 0 评论 -
大数据学习笔记——linux常用命令整理
1、常用操作查看当前目录下的所有文件及目录 ls/ll 进入目录 cd 查看当前目录 pwd 结束当前进程 ctrl+c/ctrl+z ctrl + z可以将一个正在前台执行的命令放到后台,并且暂停,进程其实还在的,也可以将其恢复。 新建目录 mkdir dir1[ dir2 dir3 dir4] 新建四个dir 删除目录 rm -rf dir 删除目录下及目录下的所有文件 递归创建目录 mkdir -p /dir1/dir2/dir3/dir4 清屏 clear 或者 ctrl+...原创 2020-08-02 18:29:01 · 569 阅读 · 0 评论 -
大数据学习笔记——大数据学习过程中的重点
目前大数据开发方面,市场上最主要的还是用spark做开发居多。这一点也可以从招聘网站上可以看到。整个大数据体系经过这么多年的发展,相当的繁杂,各种各样的组件,但是其中有一些已经过时了,或者用的少了,其实干脆就不用学了,免得浪费时间。下面介绍自己学习过程中的大数据重点。1.linuxlinux系统肯定是基础了,大数据集群是运行在这上面的。linux在服务器上面一般是用centos系统,还分6.x版本和7.x版本,这两个版本有一些命令是不一样的,比如在启动某个服务的命令是不一样的,写法有区别,有...原创 2020-08-02 18:17:30 · 932 阅读 · 0 评论