通过mongo-hadoop(pymongo_spark)从PySpark保存数据到MongoDB

一、背景 PySpark to connect to MongoDB via mongo-hadoop 二、配置步骤 (注意版本作相应调整,spark-2.4.3,hadoop2.7,Scala2.11) 1. # Get the MongoDB Java Driver #PR...

2019-07-12 17:58:16

阅读数 9

评论数 0

Jupyter Notebook 字体设置& 代码自动提示补全

作者:湫兮 出处:https://www.cnblogs.com/qiuxirufeng/p/9609031.html 1.首先是主题下载,命令行如下所示: pip install --no-dependencies jupyterthemes==0.18.2 2. 安装好了,有的电...

2019-07-12 16:55:14

阅读数 11

评论数 0

Python(pyspark) only supports DataFrames and not RDDs

一、背景 用Mongo Spark Connector 来连接 python(pyspark)和MongoDB: 二、问题 报下面错误: Py4JJavaError: An error occurred while calling z:org.apache.spark.api....

2019-07-12 16:34:16

阅读数 9

评论数 0

Docker Jenkins 连接agent:SSH key presented by the remote host does not match the key saved in the Know

一、背景 物理机A 上安装了Docker, Docker 上有container Jenkins Jenkins 要配置连接物理机A作为agent A(因为要在物理机A上执行一些Job)。 二、问题 在Jenkins->nodes下 配agent, 选的 l...

2019-07-10 18:03:01

阅读数 31

评论数 0

Python in worker has different version 2.7 than that in driver 3.6

一、问题 Exception: Python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check en...

2019-06-05 10:21:12

阅读数 37

评论数 0

shell 下python/PySpark 代码高亮和 自动提示 代码补全

1. 用法 1. pip install "ptpython==0.41" #默认最新版本 ptpython-2.0.4 有bug, 自动提示不起作用。0.41的没问题 #pip版本(pip --version),决定你装的库基于python2 还是3. 2. ex...

2019-06-04 16:56:23

阅读数 62

评论数 0

spark:pyspark shell python tab自动提示

1. home dir 下创建.pythonrc ~> vi .pythonrc import rlcompleter, readline readline.parse_and_bind('tab: complete') 2. 在shell的启动文件添加.python...

2019-06-04 16:23:22

阅读数 30

评论数 0

Alpine pyspark ModuleNotFoundError: No module named 'zlib'

一、问题 (在Alpine 上装好spark, 运行 pyspark) bash-4.4# pyspark Python 3.6.5 (default, May 30 2019, 09:48:14) [GCC 6.4.0] on linux Type "help", &qu...

2019-05-31 16:24:10

阅读数 35

评论数 0

Alpine Linux 安装 python3.6

1: 下载 Code $ wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz 2: 准备环境 //gcc --version 检查是否已经安装 ,若 bash: gcc: command not found 说明没安...

2019-05-31 16:09:28

阅读数 188

评论数 0

docker bash: vi: command not found

1. 问题 vi /tmp/root/hive.log bash: vi: command not found 2. 办法 # cat /etc/issue Debian GNU/Linux 8 # apt-get update # apt-get install vim ...

2019-05-23 17:59:12

阅读数 71

评论数 0

Java 什么是 CAS? 通俗易懂

Java 并发机制实现原子操作有两种: 一种是锁,一种是CAS。 CAS是Compare And Swap(比较并替换)的缩写。 java.util.concurrent.atomic中的很多类,如(AtomicInteger AtomicBoolean AtomicLong等)都使用了C...

2019-05-15 17:25:24

阅读数 15

评论数 0

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask

1. 问题 hive> LOAD DATA LOCAL INPATH '/root/data/cities.csv' OVERWRITE INTO TABLE cities;Loading data to table default.cities Failed with exc...

2019-05-13 18:28:24

阅读数 91

评论数 0

Cannot create directory /tmp/hive/root/xxx. Name node is in safe mode

1. 问题 Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive...

2019-05-13 18:17:55

阅读数 17

评论数 0

hive:command not found in ubuntu /hdfs: command not found /hadoop:command not found

1、问题 hive:command not found in ubuntu hdfs: command not found hadoop:command not found 2、解决方法 # echo $SHELL /bin/bash #添加红色变量到.bashrc v...

2019-05-13 18:12:34

阅读数 31

评论数 0

Caused by: java.util.zip.ZipException: invalid LOC header (bad signature)

1.  错误 Exception in thread "main" java.lang.IllegalStateException: Failed to read Class-Path attribute from manifest of jar file:/...

2019-02-26 01:18:27

阅读数 276

评论数 0

pull access denied for frolvlad/alpine-oraclejdk8, repository does not exist or may require '

一、问题  Step 1/6 : FROM frolvlad/alpine-oraclejdk8:slim ERROR: Service 'config-server' failed to build: pull access denied for frolvlad/alpine-oraclej...

2019-02-23 22:17:22

阅读数 535

评论数 0

二叉排序树相对哈希表的优点 Advantages of Binary Search Tree over Hash Table

1.  Binary Search Trees (reference-based) are memory-efficient. They do not reserve more memory than they need to.      For instance, if a hash func...

2018-12-17 22:46:11

阅读数 95

评论数 0

图解—创建堆

转自: https://blog.csdn.net/u013254061/article/details/52514599   一.堆 堆数据结构是一种数组对象,它可以被视为一棵完全二叉树结构。它的特点是父节点的值大于(小于)两个子节点的值(分别称为大顶堆和小顶堆)。  二.堆的创建...

2018-12-17 12:38:49

阅读数 327

评论数 0

渐进性分析(asymptomatic analysis)& 大O的数学定义&时间复杂度

一、什么是渐进性分析?   假设同一个任务,有2种算法, 如何去找出那个更好? 一个简单的办法——用两个程序实现这两种算法,然后输入不同的数据,在你电脑上运行这两个程序,看看那个需要的时间更少。 用这种方法分析算法,有很多问题。 1. 对一些输入,可能第一个性能更好;对另外一些,可能第二更...

2018-12-16 19:23:23

阅读数 308

评论数 0

图解拓扑排序(Topological sort)

一、什么是拓扑排序   下图就是拓扑排序   拓扑排序其实是一个线性排序。——若图中存在一条有向边从u指向v,则在拓扑排序中u一定出现在v前面。 维基百科拓扑排序的定义: a topological sort or topological ordering of a directed...

2018-12-14 17:16:27

阅读数 349

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭