- 博客(79)
- 收藏
- 关注
原创 mapPartitions()
leafsRDD = leafsRDD.mapPartitions(reducer, True) \ .coalesce(numPartitions) \ .cache()mapPartitions():Return a new DStream in which each R...
2018-08-29 16:13:28
973
原创 RDD.repartition
leafsRDD = labeledPointRDD.repartition(numPartitions)repartition: Coalesce bag into fewer partitions.合并到更少的部分 Examples: >>> b.repartition(5) # set to have 5 partitions ...
2018-08-29 14:56:13
1702
原创 Spark RDD之Partition
https://blog.csdn.net/u011564172/article/details/53611109
2018-08-29 10:42:02
265
原创 python 数学公式
numPartitions = int(2**(np.ceil(np.log(n / nmax)/np.log(2.0)))) 在python中 log(2.0) 意思就是 ln(2.0)**的意思是平方
2018-08-29 10:09:05
6134
原创 np.ceil的用法
np.ceil(ndarray) 计算大于等于改值的最小整数>>> a = np.array([-1.7, -1.5, -0.2, 0.2, 1.5, 1.7, 2.0])>>> np.ceil(a)array([-1., -1., -0., 1., 2., 2., 2.])
2018-08-28 21:49:08
60783
2
翻译 LabeledPoint
Labeled pointA labeled point is a local vector, either dense or sparse, associated with a label/response. In MLlib, labeled points are used in supervised learning algorithms. We use a double to stor...
2018-08-28 20:22:49
2018
1
原创 ubuntu 有线连接不上
首先,确定IP、DNS等等正确可用 其次,/etc/NetworkManager/NetworkManager.conf,设置managed=true, 最后,reboot 解决ubuntu有线连接不上的问题
2018-08-23 20:21:56
6692
原创 ValueError: Expected 2D array, got 1D array instead:
18/08/19 22:01:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableParsing dataFitting modeltrainCurrently 8 partitions l...
2018-08-19 23:04:44
1605
原创 value error
ValueError: invalid literal for int() with base 10: '<html>'int()函数只能转化数字组成的字符串
2018-08-18 11:49:58
1566
原创 集群IP更换以后
集群IP更换以后hduser@data4:~$ ssh data2Warning: Permanently added the ECDSA host key for IP address '192.168.31.42' to the list of known hosts.hduser@data2's password: packet_write_wait: Connection to ...
2018-08-07 17:25:08
723
原创 Exception in thread "stdout writer for /home/hduser/anaconda2/bin/python" java.lang.AssertionError:
18/08/03 15:39:27 ERROR Utils: Uncaught exception in thread stdout writer for /home/hduser/anaconda2/bin/pythonjava.lang.AssertionError: assertion failed: Block rdd_25_0 is not locked for reading ...
2018-08-03 15:42:29
1047
原创 TypeError: 'JavaPackage' object is not callable
18/08/03 15:14:18 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableRunSVMWithSGDBinarymaster=local[4]Traceback (most recen...
2018-08-03 15:23:02
6212
2
原创 python error
18/07/11 15:43:54 ERROR Utils: Uncaught exception in thread stdout writer for /home/hduser/anaconda2/bin/pythonjava.lang.AssertionError: assertion failed: Block rdd_13_0 is not locked for reading ...
2018-07-11 15:52:43
560
原创 python
python 操作hdfs import pyhdfs你的Hadoop的master的IP地址fs=pyhdfs.HdfsClient(hosts=”192.168.79.130”)打开hdfs中目录的文件,f相当于python打开文件的指针f=fs.open(“/hadoop/Test1/input/result.txt”)输出该文件的 第一行print f.r...
2018-07-11 15:48:58
211
原创 spark
hduser@master:~$ spark-submit --driver-memory 512m --master local[4] pythonwork/HelloPyProject/WordCount.py开始运行RunWordCountmaster=local[4]开始读取文本文件...文本文件共103行文字统计共287项数据开始存储到文本文件...hduser@mas...
2018-07-09 15:45:31
247
原创 python 调试学习
hduser@master:~$ spark-submit --driver-memory 512m --master local[4] pythonwork/HelloPyProject/WordCount.py 开始执行 Run WordCount Traceback (most recent call last): File "/home/hduser/anaconda2/bin/ipy...
2018-07-09 10:19:56
1080
原创 failed to launch: nice -n 0 /usr/local/spark/bin/spark-class org.apache.spark.deploy.worker.Worker -
hduser@master:~$ /usr/local/spark/sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark-hduser-org.apache.spark.deploy.master.Master-1-master.outda...
2018-07-03 10:49:36
6179
原创 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=&quot;notebook&quot; MASTER=spark://master:7077 pyspark --num-executors 1 --total-executor-cores 2 --executor-memory 512m[I 15:51:51.365 NotebookApp] J...
2018-06-26 16:18:14
1358
原创 /usr/local/spark/sbin/start-all.sh
data2: failed to launch: nice -n 0 /usr/local/spark/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://master:7077hduser@master:/usr/local/spark/logs$ lsspark-hduser-...
2018-06-26 15:18:20
1025
原创 在IPython Notebook使用Spark
PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=&amp;quot;notebook&amp;quot; HAHOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop MASTER=yarn-client pyspark
2018-06-25 21:12:06
758
原创 Py4JJavaError
---------------------------------------------------------------------------Py4JJavaError Traceback (most recent call last)&lt;ipython-input-8-86c1629ebf32&gt; in &lt;modu...
2018-06-25 20:07:18
5338
原创 在Spark Standalone 运行pyspark
pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor-memory 436mPython 2.7.14 |Anaconda, Inc.| (default, Dec 7 2017, 17:05:42) [GCC 7.2.0] on linux2Type "help...
2018-06-15 11:27:45
1265
原创 在hadoop yarn上运行spark报错
hduser@master:/usr/local/hadoop/etc/hadoopHADOOPCONFDIR=/usr/local/hadoop/etc/hadoop/pyspark–masteryarn–deploy−modeclientPython2.7.14|Anaconda,Inc.|(default,Dec72017,17:05:42)[GCC7.2.0]onlinux2Type“he...
2018-06-15 10:39:39
3270
1
原创 单击运行可以正常import pyhdfs 但是在hadoop集群上就报错 importerror
单击运行可以正常导入pyhdfs 但是在hadoop集群上就报错Container: container_1528938271503_0001_01_000004 on data1_43759_1528938463504================================================================================LogTy...
2018-06-14 09:24:53
862
1
原创 键盘失灵 代码38问题,HID keyboard Device上有三角感叹号
近一段时间内,出现两次这样的问题,第一次,修改注册表、设备管理中的带感叹号的HID keyboard Device进行卸载重启,均无效。最后,采用360安全卫士清理系统,包括日志,系统盘清理,清理Windows更新历史等,重启,键盘可用了!第二次,也是自己手残,怎么就突然给换了个USB插口,就再次失灵!!!这次我也是尝尽各种办法,清理系统N遍,均无效,最后,在设备管理里面,把带感叹号的HI...
2018-06-06 22:12:21
8935
原创 Log aggregation has not completed or is not enabled.
执行:yarn logs -applicationId application_1439208338231_0002报错18/06/05 09:35:06 INFO client.RMProxy: Connecting to ResourceManager at master/10.200.68.219:8050Unable to get ApplicationState. A...
2018-06-05 15:45:24
5176
原创 Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
执行:python /home/hduser/Workspace/Ch5_Py_mrjob_PegasosSVM/mrSVM.py -r hadoop &amp;amp;amp;amp;amp;lt; Workspace/Ch5_Py_mrjob_PegasosSVM/kickStart.txt报错:No handlers could be found for logger &amp;amp;amp;amp;quot;mrjob.launch&
2018-06-04 21:01:39
6278
2
原创 Error launching job , bad input path
python /home/hduser/Workspace/Ch5_Py_mrjob_PegasosSVM/mrSVM.py -r hadoop &lt; Workspace/Ch5_Py_mrjob_PegasosSVM/kickStart.txt之前顺利执行过一次,也尝试过格式话namenode;重新删除建立data文件夹,问题仍然存在: 报错: No handlers could b...
2018-06-04 10:03:23
3613
1
原创 importError No module named multiarry
在terminal输入python后,执行命令报错: import numpy import pickle import numpy.core.multiarray data = pickle.load(open(‘Workspace/Ch5_Py_Mrjob_PegasosSVM/svmDat27’,’rb’)) 报错: Traceback (most...
2018-05-28 17:37:57
1104
1
原创 AttributeError: 'MRmean' object has no attribute 'mr'
执行:python Workspace/Ch5_Py_mrjob_PegasosSVM/mrMean.py –mapper < Workspace/Ch5_Py_mrjob_PegasosSVM/inputFile.txt 报错:Traceback (most recent call last): File “Workspace/Ch5_Py_mrjob_PegasosSVM/mr...
2018-05-25 15:20:50
919
原创 pip install 过程遇到的问题
pip install mrjob Collecting mrjob Exception: Traceback (most recent call last): File “/usr/lib/python2.7/dist-packages/pip/basecommand.py”, line 209, in main status = self.run(options, arg...
2018-05-25 10:58:14
7049
原创 python MapReduce hadoop
hadoop集群运行python的mapper和reducer 错误:/usr/bin/env: ‘python\r’: No such file or directory 解决办法: 1. vim 进入.py文件 2. :set ff 执行后,查看文件格式,我这边显示的doc格式 3. :set ff=unix 设置文件类型为Unix 4. :wq 保存退出 此时,再执行...
2018-05-24 20:55:58
331
原创 rel="stylesheet"
rel是relationship的英文缩写 stylesheet中style是样式的意思,sheet是表格之意,总起来是样式表的意思 rel=”stylesheet” 描述了当前页面与href所指定文档的关系.即说明的是,href连接的文档是一个新式表 rel 属性规定当前文档与被链接文档之间的关系。 rel的值极其所代表的意思(参考官网): alternate: 文档的替代版本(比如打
2017-09-07 15:17:05
1019
原创 初学者学习机器学习的资料选择
作为一个机器学习的初学者,该要看的资料书的话,周志华的西瓜书《机器学习》很注重理论,刚开始看可能有一些困难,但可以让你很深入的了解机器学习的相关知识与理论,需要看详细点,这样可以对机器学习的内容以及应用到的算法知识等有一个详细的了解。《机器学习实战》很推荐,是用python写的,可以让你很轻松的就上手相关算法,让你有一些成就感,而不是感觉纯学了很多理论却不知道该怎么使用。我的很多算法都是按照这本书上
2017-07-22 15:16:31
727
原创 BP反向传播算法的具体计算
BP反向传播算法的具体思想和计算方式BP算法采用有监督学习方式,基于梯度下降算法,极小化误差函数主要思想:将学习过程分为信号正向传播过程和误差反向传播过程两个阶段。什么是梯度下降算法?梯度下降算法:如果移动是在误差曲面上沿着梯度下降的方向进行,称作最速梯度下降法。BP算法基于梯度下降算法。在梯度下降算法中,权值的修正量正比于误差函数E(W)对W的负梯度,即 它的算法描述如下 在jiawei
2017-07-22 10:25:34
1460
原创 tensorflow学习笔记
tensorflow学习笔记按照《TensorFlow:实战Google深度学习框架》一书学习的tensorflow,书中使用的是0.9.0版本,而我安装的是1.2.1,出现了一些问题:1、使用pip安装时出现问题 注意windows系统下安装tensorflow只能使用python3,而我习惯使用python2.7,所以改用了虚拟机Ubuntu系统,并且安装的是仅支持CPU的。如果你使用的wh
2017-07-21 21:59:51
6835
原创 挖掘频繁模式、关联和相关性:基本概念和方法
基本概念频繁模式:频繁模式是频繁地出现在数据集中的模式(如项集、子序列或子结构)。 例如:频繁地同时出现在交易数据集中的商品(如香皂和洗衣液)的集合是频繁项集。 序号 交易号 香皂(a) 洗发露(b) 洗衣液(c) 牙膏(d) 简化表示 1 081201 香皂 洗发露 洗衣夜 a, b, c 2 081202 香皂 洗衣
2017-04-05 20:51:19
801
原创 jquery对象和DOM对象
jQuery对象和DOM对象的区别DOM对象是Document Object Model的简称,中文翻译为文档对象模型。DOM是HTML与XML的应用编程接口API,DOM对象将整个页面映射为一个由层次节点组成的文件。 jQuery对象是通过jQuery框架包装DOM对象之后产生的一个新对象,从本质分析它仅是DOM对象的集合,因此,我们把DOM对象看成一个独立的个体,而jQuery对象是多个DO
2017-03-25 10:15:43
533
翻译 初识 版本控制 git
初识 版本控制 git什么是版本控制?版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 详情参考:关于版本控制什么是git?Git is a free and open source distributed version control system designed to handle everything from small to very large p
2017-03-19 16:03:28
430
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅