- 博客(32)
- 收藏
- 关注
原创 利用Spark Streaming和 Structured Streaming实时分析
参考《Spark与Hadoop大数据分析》Venkat Ankam。 spark streaming 采用微量批处理, 延迟相对较高,约为0.5秒。通过将数据流拆分为所谓离散流(Discretized Stream, DStream)的微量批处理,从而处理连续的数据流。DStream 是一个在Spark的核心执行引擎上处理的RDD序列,像其他RDD序列一样。DStream 可以从任何流数据源创建...
2018-03-30 11:20:31 2314
原创 spark中的Dataset和DataFrame
参考《Spark与Hadoop大数据分析》Venkat Ankam和官方文档。利用DataFrame进行分析创建DataFrame从spark2.0及更高版本开始,SparkSession成为了关系型功能的入口点。当使用Hive时,SparkSession必须使用enableHiveSupport方法创建。从结构化数据文件中读取#pysparkdf = spa...
2018-03-30 10:34:37 2575
转载 mysql中的字符串函数
汇总:函数 功能 concat(s1, s2, … , sn) 连接s1, s2, …, sn 为一个字符串 insert(str, x, y, instr) 将字符串str从第x位置开始, y个字符长度的子字符串替换为字符串instr lower(str) 将字符串str中所有的字符转换为小写 upper(str) 将字符串str中所有的字符转换为大写 l...
2018-03-29 18:26:17 893
原创 mysql中的case语句和if()
当逻辑结构比较繁琐时,用if()嵌套结构比较麻烦,可以使用case语句。--格式CASE WHEN <求值表达式> THEN <表达式> WHEN <求值表达式> THEN <表达式> WHEN <求值表达式> THEN <表达式> . . . ...
2018-03-29 18:08:58 431
原创 mysql中的性能优化问题
count(*)当需要统计结果的行数时,尽量用count(*),而不是使用count(某一列)。当存在where条件时,需要先扫描条件中指定的数据,如果子条件中的数据过多,在统计行数时,可以使用相反的where条件,再用总数减去相反条件下的行数即可。优化limit分页如果要使用limit 1000, 20, 需要查询1020条记录,最后只返回后20条记录,前面查询到的1000条记录...
2018-03-28 10:39:07 266
原创 在mysql中处理时间问题
MySql有很多函数可以处理日期和时间,提高工作效率。 注意,尽量使用标准格式的日期,如‘2018-01-01’, 或者‘2018-01-01 00:00:00’TIMESTAMPDIFF函数第一种:TIMESTAMPDIFF函数,需要传入三个参数,第一个是比较的类型,可以比较FRAC_SECOND、SECOND、 MINUTE、 HOUR、 DAY、 WEEK、 MONTH、 QU...
2018-03-27 18:05:10 878
原创 selenium基本的操作
简介Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,但已经不再支持 PhantomJS了,一般使用chrome和firefox无界面浏览器。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者...
2018-03-23 18:11:20 1701
原创 mysql中的注意事项
between and首先看一下w3cschool对该操作符的解释: SQL BETWEEN 操作符 其中: 不同的数据库对 BETWEEN…AND 操作符的处理方式是有差异的。某些数据库会列出介于 “Adams” 和 “Carter” 之间的人,但不包括 “Adams” 和 “Carter” ;某些数据库会列出介于 “Adams” 和 “Carter” 之间并包括 “Adams” 和 ...
2018-03-23 16:08:41 902
原创 使用tesseract-ocr,pytesseract中遇到的问题
修改库中的pytesseract.py文件,#tesseract_cmd = 'tesseract'tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe', 另外在那个文件中的第101行左右,增加一句转码的命令,类似下面这句,忘了怎么写的。 content = content.decode()...
2018-03-23 11:57:11 663 1
转载 hadoop 命令
hadoop hdfs常用命令hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 (如果没有写路径,我的默认是访问/user/hadoop)hadoop fs –lsr 循环列出目录、子目录及文件信息 (hadoop fs -ls -R)hadoop fs –put test....
2018-03-23 09:56:11 508
转载 在Windows安装chromedriver
在Windows安装chromedriver(更新了mac版教程)1 安装selenium启动cmd命令行(同时按住windows键和R键,在对话框内输入cmd,然后回车)安装selenium,在弹出的窗口内输入 pip install selenium2 下载chromedrive前往 chromedriver 下载页面(如果官网下载网页无法访问,你可以访问U...
2018-03-22 18:08:06 3743 1
原创 查看浏览器的user-Agent
如何查询浏览器的user-agent?1.在浏览器的地址栏输入:javascript:alert(navigator.userAgent)
2018-03-14 14:25:00 14023
原创 python3 中正则表达式中遇到的问题
分组命名我们知道在python正则中,使用小括号可以对内容进行分组,还可以用以下方式进行分组命名。(?P<name>正则表达式)#name是一个合法的标识符当然,我们可以在后续的表达式中使用命名的分组,如以下示例所示:import res1='a2c.a2c's2='a2c.d2d'a = re.search(r'(?P<name>\w\d\w)\...
2018-03-13 17:19:56 1234
原创 python3 中的urllib
urllib在python2和python3中的区别Py2.x:Urllib库Urllin2库Py3.x:Urllib库变化:在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.request,urllib.error。在Pytho2.x中使用import urllib——-对应的,在Python...
2018-03-13 14:45:20 209
原创 sql中的distinct
distinct必须放在开头select id, distinct name from A; –会提示错误,因为distinct必须放在开头distinct是对行起作用,而不是列当结果中含有多列时,distinct可以去掉重复项,这里的重复项是指所有字段都相等的行,并不能去年某列中相同的字段。 name age0 yang 221 yan...
2018-03-13 09:51:37 519
原创 pandas中的concat, merge, join,笛卡尔积
在pandas中,concat, merge, join的使用方法可以参考以下资料: http://blog.csdn.net/stevenkwong/article/details/52528616 主要讲下笛卡尔积:import pandas as pdfrom pandas import DataFramedf1=DataFrame({'a':[1,2,3], 'b':[4,...
2018-03-12 16:40:18 7743
原创 pandas 中的面元cut
函数cutcut函数可以给序列分组,比如把年龄,成绩进行分组,统计不同分组内的人数有多少,等等。 函数结构如下:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)x:要分箱的输入数组。它必须是一维的。bin:int或标量序列 如果bins是一...
2018-03-12 09:56:52 1001
原创 pandas 提高效率,降低内存的方法
将数值型列降级到更高效的类型我们可以用函数pd.to_numeric()来对数值型进行向下类型转换。我们用DataFrame.select_dtypes来只选择整型列,然后我们优化这种类型,并比较内存使用量。 先找到要转化的类型,可用以下语句:DataFrame.select_dtypes(include=None, exclude=None)#include, exclude : s...
2018-03-09 11:14:09 4056
原创 hadoop 启动后slave1中的datanode没有启动
问题问题:hadoop 启动后slave1中的datanode没有启动,但slave2中的datanode启动,而且查看slave1下的tmp文件夹(~/hadoop-2.8.3/tmp)并没有dfs文件夹。方法方法一在网上找了一些方法,都说要删掉上面的tmp文件夹,使clusterID保持一致,但我的slave1中压根没有这样的文件夹啊。 (hadoop 常见错误)...
2018-03-09 10:20:02 8997
原创 python 库的安装
windows下python库的安装pip安装(需要pip)pip在C:\PythonXX\Scripts下,使用pip install XXX通过下载whl文件安装(需要pip)python毕竟不是windows的原生语言,所以很多库还是不支持python,但是很多伟大的具有奉献精神的大牛将库编译成了whl文件供我们使用,这里表示感谢。 步骤:1.下...
2018-03-07 15:51:55 583
原创 用python发送带附件的邮件
概述用python程序自动发送邮件,是我们工作中经常用到的技能。主要使用smtplib和email模块.代码通过参考网上的资料, 写出以下程序。import smtplibimport email.mime.multipartimport email.mime.textfrom email.mime.text import MIMETextfrom email.mi...
2018-03-04 11:33:21 6130
转载 错误提示:“put: Cannot create directory . Name node is in safe mode.”
错误提示将本地文件复制到hdfs上去或者在hafs上新建文件时会出现“Cannot … directory … Name node is in safe mode”的错误。 例如hadoop@master:~$ hadoop fs -put ~/data_test_spark yj_testput: Cannot create directory /user/hadoop/yj_tes...
2018-03-02 18:08:00 3230
原创 python正则表达式的零宽断言
零宽断言零宽断言一共分为正向和反向两类,每类又分为预测先行和回顾后发两种: ####零宽度正预测先行断言 简称正向先行断言,语法是(?=exp),它断言此位置的后面能匹配表达式exp。 ####零宽度正回顾后发断言 简称正向后发断言,语法是(?<=exp),它断言此位置的前面能匹配表达式exp。 ####零宽度负预测先行断言 简称反向先行断言,语法是(...
2018-03-02 10:03:39 7503
原创 sql中的if语句
IF()使用if条件语句可以在查询结果中增加新的字段,也就是对表中多列的结果进行处理后形成新列。IF(condition, expr1 , expr2 )condition的值为 TRUE,则返回值为 expr1 condition的值为FALSE,则返回值为 expr2IFNULL()还可以用ifnull来对含有空值的列进行处理。IFNULL( expr1 , ...
2018-03-01 15:43:41 7257
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人