wqq奋斗的小鸟-CSDN博客

原创 mapPartitions()

leafsRDD = leafsRDD.mapPartitions(reducer, True) \ .coalesce(numPartitions) \ .cache()mapPartitions():Return a new DStream in which each R...

2018-08-29 16:13:28 973

原创 RDD.repartition

leafsRDD = labeledPointRDD.repartition(numPartitions)repartition： Coalesce bag into fewer partitions.合并到更少的部分 Examples： &gt;&gt;&gt; b.repartition(5) # set to have 5 partitions ...

2018-08-29 14:56:13 1702

原创 Spark RDD之Partition

https://blog.csdn.net/u011564172/article/details/53611109

2018-08-29 10:42:02 265

原创 python 数学公式

numPartitions = int(2**(np.ceil(np.log(n / nmax)/np.log(2.0)))) 在python中 log（2.0）意思就是 ln(2.0)**的意思是平方

2018-08-29 10:09:05 6134

原创 np.ceil的用法

np.ceil(ndarray) 计算大于等于改值的最小整数&gt;&gt;&gt; a = np.array([-1.7, -1.5, -0.2, 0.2, 1.5, 1.7, 2.0])&gt;&gt;&gt; np.ceil(a)array([-1., -1., -0., 1., 2., 2., 2.])

2018-08-28 21:49:08 60783 2

Labeled pointA labeled point is a local vector, either dense or sparse, associated with a label/response. In MLlib, labeled points are used in supervised learning algorithms. We use a double to stor...

2018-08-28 20:22:49 2018 1

原创 ubuntu 有线连接不上

首先，确定IP、DNS等等正确可用其次，/etc/NetworkManager/NetworkManager.conf，设置managed=true, 最后，reboot 解决ubuntu有线连接不上的问题

2018-08-23 20:21:56 6692

原创 ValueError: Expected 2D array, got 1D array instead:

18/08/19 22:01:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableParsing dataFitting modeltrainCurrently 8 partitions l...

2018-08-19 23:04:44 1605

原创 value error

ValueError: invalid literal for int() with base 10: '<html>'int()函数只能转化数字组成的字符串

2018-08-18 11:49:58 1566

原创集群IP更换以后

集群IP更换以后hduser@data4:~$ ssh data2Warning: Permanently added the ECDSA host key for IP address '192.168.31.42' to the list of known hosts.hduser@data2's password: packet_write_wait: Connection to ...

2018-08-07 17:25:08 723

原创 Exception in thread "stdout writer for /home/hduser/anaconda2/bin/python" java.lang.AssertionError:

18/08/03 15:39:27 ERROR Utils: Uncaught exception in thread stdout writer for /home/hduser/anaconda2/bin/pythonjava.lang.AssertionError: assertion failed: Block rdd_25_0 is not locked for reading ...

2018-08-03 15:42:29 1047

原创 TypeError: 'JavaPackage' object is not callable

18/08/03 15:14:18 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableRunSVMWithSGDBinarymaster=local[4]Traceback (most recen...

2018-08-03 15:23:02 6212 2

原创 python error

18/07/11 15:43:54 ERROR Utils: Uncaught exception in thread stdout writer for /home/hduser/anaconda2/bin/pythonjava.lang.AssertionError: assertion failed: Block rdd_13_0 is not locked for reading ...

2018-07-11 15:52:43 560

原创 python

python 操作hdfs import pyhdfs你的Hadoop的master的IP地址fs=pyhdfs.HdfsClient(hosts=”192.168.79.130”)打开hdfs中目录的文件，f相当于python打开文件的指针f=fs.open(“/hadoop/Test1/input/result.txt”)输出该文件的第一行print f.r...

2018-07-11 15:48:58 211

原创 spark

hduser@master:~$ spark-submit --driver-memory 512m --master local[4] pythonwork/HelloPyProject/WordCount.py开始运行RunWordCountmaster=local[4]开始读取文本文件...文本文件共103行文字统计共287项数据开始存储到文本文件...hduser@mas...

2018-07-09 15:45:31 247

原创 python 调试学习

hduser@master:~$ spark-submit --driver-memory 512m --master local[4] pythonwork/HelloPyProject/WordCount.py 开始执行 Run WordCount Traceback (most recent call last): File "/home/hduser/anaconda2/bin/ipy...

2018-07-09 10:19:56 1080

原创 failed to launch: nice -n 0 /usr/local/spark/bin/spark-class org.apache.spark.deploy.worker.Worker -

hduser@master:~$ /usr/local/spark/sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark-hduser-org.apache.spark.deploy.master.Master-1-master.outda...

2018-07-03 10:49:36 6179

原创 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure

PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=&quot;notebook&quot; MASTER=spark://master:7077 pyspark --num-executors 1 --total-executor-cores 2 --executor-memory 512m[I 15:51:51.365 NotebookApp] J...

2018-06-26 16:18:14 1358

原创 /usr/local/spark/sbin/start-all.sh

data2: failed to launch: nice -n 0 /usr/local/spark/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077hduser@master:/usr/local/spark/logs$ lsspark-hduser-...

2018-06-26 15:18:20 1025

原创在IPython Notebook使用Spark

PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=&amp;quot;notebook&amp;quot; HAHOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop MASTER=yarn-client pyspark

2018-06-25 21:12:06 758

原创 Py4JJavaError

---------------------------------------------------------------------------Py4JJavaError Traceback (most recent call last)&lt;ipython-input-8-86c1629ebf32&gt; in &lt;modu...

2018-06-25 20:07:18 5338

原创在Spark Standalone 运行pyspark

pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor-memory 436mPython 2.7.14 |Anaconda, Inc.| (default, Dec 7 2017, 17:05:42) [GCC 7.2.0] on linux2Type "help...

2018-06-15 11:27:45 1265

原创在hadoop yarn上运行spark报错

hduser@master:/usr/local/hadoop/etc/hadoopHADOOPCONFDIR=/usr/local/hadoop/etc/hadoop/pyspark–masteryarn–deploy−modeclientPython2.7.14|Anaconda,Inc.|(default,Dec72017,17:05:42)[GCC7.2.0]onlinux2Type“he...

2018-06-15 10:39:39 3270 1

原创单击运行可以正常import pyhdfs 但是在hadoop集群上就报错 importerror

单击运行可以正常导入pyhdfs 但是在hadoop集群上就报错Container: container_1528938271503_0001_01_000004 on data1_43759_1528938463504================================================================================LogTy...

2018-06-14 09:24:53 862 1

原创键盘失灵代码38问题，HID keyboard Device上有三角感叹号

近一段时间内，出现两次这样的问题，第一次，修改注册表、设备管理中的带感叹号的HID keyboard Device进行卸载重启，均无效。最后，采用360安全卫士清理系统，包括日志，系统盘清理，清理Windows更新历史等，重启，键盘可用了！第二次，也是自己手残，怎么就突然给换了个USB插口，就再次失灵！！！这次我也是尝尽各种办法，清理系统Ｎ遍，均无效，最后，在设备管理里面，把带感叹号的HI...

2018-06-06 22:12:21 8935

原创 Log aggregation has not completed or is not enabled.

执行：yarn logs -applicationId application_1439208338231_0002报错18/06/05 09:35:06 INFO client.RMProxy: Connecting to ResourceManager at master/10.200.68.219:8050Unable to get ApplicationState. A...

2018-06-05 15:45:24 5176

原创 Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1

执行：python /home/hduser/Workspace/Ch5_Py_mrjob_PegasosSVM/mrSVM.py -r hadoop &amp;amp;amp;amp;amp;lt; Workspace/Ch5_Py_mrjob_PegasosSVM/kickStart.txt报错：No handlers could be found for logger &amp;amp;amp;amp;quot;mrjob.launch&amp

2018-06-04 21:01:39 6278 2

原创 Error launching job , bad input path

python /home/hduser/Workspace/Ch5_Py_mrjob_PegasosSVM/mrSVM.py -r hadoop &lt; Workspace/Ch5_Py_mrjob_PegasosSVM/kickStart.txt之前顺利执行过一次，也尝试过格式话namenode；重新删除建立data文件夹，问题仍然存在：报错： No handlers could b...

2018-06-04 10:03:23 3613 1

原创 importError No module named multiarry

在terminal输入python后，执行命令报错： import numpy import pickle import numpy.core.multiarray data = pickle.load(open(‘Workspace/Ch5_Py_Mrjob_PegasosSVM/svmDat27’,’rb’)) 报错： Traceback (most...

2018-05-28 17:37:57 1104 1

原创 AttributeError: 'MRmean' object has no attribute 'mr'

执行：python Workspace/Ch5_Py_mrjob_PegasosSVM/mrMean.py –mapper < Workspace/Ch5_Py_mrjob_PegasosSVM/inputFile.txt 报错：Traceback (most recent call last): File “Workspace/Ch5_Py_mrjob_PegasosSVM/mr...

2018-05-25 15:20:50 919

原创 pip install 过程遇到的问题

pip install mrjob Collecting mrjob Exception: Traceback (most recent call last): File “/usr/lib/python2.7/dist-packages/pip/basecommand.py”, line 209, in main status = self.run(options, arg...

2018-05-25 10:58:14 7049

原创 python MapReduce hadoop

hadoop集群运行python的mapper和reducer 错误：/usr/bin/env: ‘python\r’: No such file or directory 解决办法： 1. vim 进入.py文件 2. :set ff 执行后，查看文件格式，我这边显示的doc格式 3. :set ff=unix 设置文件类型为Unix 4. :wq 保存退出此时，再执行...

2018-05-24 20:55:58 331

原创 rel="stylesheet"

rel是relationship的英文缩写 stylesheet中style是样式的意思,sheet是表格之意,总起来是样式表的意思 rel=”stylesheet” 描述了当前页面与href所指定文档的关系.即说明的是,href连接的文档是一个新式表 rel 属性规定当前文档与被链接文档之间的关系。 rel的值极其所代表的意思（参考官网）： alternate: 文档的替代版本（比如打

2017-09-07 15:17:05 1019

原创初学者学习机器学习的资料选择

作为一个机器学习的初学者，该要看的资料书的话，周志华的西瓜书《机器学习》很注重理论，刚开始看可能有一些困难，但可以让你很深入的了解机器学习的相关知识与理论，需要看详细点，这样可以对机器学习的内容以及应用到的算法知识等有一个详细的了解。《机器学习实战》很推荐，是用python写的，可以让你很轻松的就上手相关算法，让你有一些成就感，而不是感觉纯学了很多理论却不知道该怎么使用。我的很多算法都是按照这本书上

2017-07-22 15:16:31 727

原创 BP反向传播算法的具体计算

BP反向传播算法的具体思想和计算方式BP算法采用有监督学习方式，基于梯度下降算法，极小化误差函数主要思想：将学习过程分为信号正向传播过程和误差反向传播过程两个阶段。什么是梯度下降算法？梯度下降算法：如果移动是在误差曲面上沿着梯度下降的方向进行，称作最速梯度下降法。BP算法基于梯度下降算法。在梯度下降算法中，权值的修正量正比于误差函数E(W)对W的负梯度，即它的算法描述如下在jiawei

2017-07-22 10:25:34 1460

原创 tensorflow学习笔记

tensorflow学习笔记按照《TensorFlow：实战Google深度学习框架》一书学习的tensorflow，书中使用的是0.9.0版本，而我安装的是1.2.1，出现了一些问题：1、使用pip安装时出现问题注意windows系统下安装tensorflow只能使用python3，而我习惯使用python2.7，所以改用了虚拟机Ubuntu系统，并且安装的是仅支持CPU的。如果你使用的wh

2017-07-21 21:59:51 6835

原创挖掘频繁模式、关联和相关性：基本概念和方法

基本概念频繁模式：频繁模式是频繁地出现在数据集中的模式（如项集、子序列或子结构）。例如：频繁地同时出现在交易数据集中的商品（如香皂和洗衣液）的集合是频繁项集。序号交易号香皂（a）洗发露（b）洗衣液（c）牙膏（d）简化表示 1 081201 香皂洗发露洗衣夜 a, b, c 2 081202 香皂洗衣

2017-04-05 20:51:19 801

原创 jquery对象和DOM对象

jQuery对象和DOM对象的区别DOM对象是Document Object Model的简称，中文翻译为文档对象模型。DOM是HTML与XML的应用编程接口API,DOM对象将整个页面映射为一个由层次节点组成的文件。 jQuery对象是通过jQuery框架包装DOM对象之后产生的一个新对象，从本质分析它仅是DOM对象的集合，因此，我们把DOM对象看成一个独立的个体，而jQuery对象是多个DO

2017-03-25 10:15:43 533

翻译初识版本控制 git

初识版本控制 git什么是版本控制？版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统。详情参考：关于版本控制什么是git?Git is a free and open source distributed version control system designed to handle everything from small to very large p

2017-03-19 16:03:28 430

空空如也

空空如也