自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hello world!

加油

  • 博客(32)
  • 收藏
  • 关注

原创 利用Spark Streaming和 Structured Streaming实时分析

参考《Spark与Hadoop大数据分析》Venkat Ankam。 spark streaming 采用微量批处理, 延迟相对较高,约为0.5秒。通过将数据流拆分为所谓离散流(Discretized Stream, DStream)的微量批处理,从而处理连续的数据流。DStream 是一个在Spark的核心执行引擎上处理的RDD序列,像其他RDD序列一样。DStream 可以从任何流数据源创建...

2018-03-30 11:20:31 2314

原创 spark中的Dataset和DataFrame

参考《Spark与Hadoop大数据分析》Venkat Ankam和官方文档。利用DataFrame进行分析创建DataFrame从spark2.0及更高版本开始,SparkSession成为了关系型功能的入口点。当使用Hive时,SparkSession必须使用enableHiveSupport方法创建。从结构化数据文件中读取#pysparkdf = spa...

2018-03-30 10:34:37 2575

转载 mysql中的字符串函数

汇总:函数 功能 concat(s1, s2, … , sn) 连接s1, s2, …, sn 为一个字符串 insert(str, x, y, instr) 将字符串str从第x位置开始, y个字符长度的子字符串替换为字符串instr lower(str) 将字符串str中所有的字符转换为小写 upper(str) 将字符串str中所有的字符转换为大写 l...

2018-03-29 18:26:17 893

原创 mysql中的case语句和if()

当逻辑结构比较繁琐时,用if()嵌套结构比较麻烦,可以使用case语句。--格式CASE WHEN <求值表达式> THEN <表达式> WHEN <求值表达式> THEN <表达式> WHEN <求值表达式> THEN <表达式> . . . ...

2018-03-29 18:08:58 431

原创 mysql中的性能优化问题

count(*)当需要统计结果的行数时,尽量用count(*),而不是使用count(某一列)。当存在where条件时,需要先扫描条件中指定的数据,如果子条件中的数据过多,在统计行数时,可以使用相反的where条件,再用总数减去相反条件下的行数即可。优化limit分页如果要使用limit 1000, 20, 需要查询1020条记录,最后只返回后20条记录,前面查询到的1000条记录...

2018-03-28 10:39:07 266

原创 在mysql中处理时间问题

MySql有很多函数可以处理日期和时间,提高工作效率。 注意,尽量使用标准格式的日期,如‘2018-01-01’, 或者‘2018-01-01 00:00:00’TIMESTAMPDIFF函数第一种:TIMESTAMPDIFF函数,需要传入三个参数,第一个是比较的类型,可以比较FRAC_SECOND、SECOND、 MINUTE、 HOUR、 DAY、 WEEK、 MONTH、 QU...

2018-03-27 18:05:10 878

原创 selenium基本的操作

简介Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,但已经不再支持 PhantomJS了,一般使用chrome和firefox无界面浏览器。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者...

2018-03-23 18:11:20 1701

原创 mysql中的注意事项

between and首先看一下w3cschool对该操作符的解释: SQL BETWEEN 操作符 其中: 不同的数据库对 BETWEEN…AND 操作符的处理方式是有差异的。某些数据库会列出介于 “Adams” 和 “Carter” 之间的人,但不包括 “Adams” 和 “Carter” ;某些数据库会列出介于 “Adams” 和 “Carter” 之间并包括 “Adams” 和 ...

2018-03-23 16:08:41 902

原创 使用tesseract-ocr,pytesseract中遇到的问题

修改库中的pytesseract.py文件,#tesseract_cmd = 'tesseract'tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe', 另外在那个文件中的第101行左右,增加一句转码的命令,类似下面这句,忘了怎么写的。 content = content.decode()...

2018-03-23 11:57:11 663 1

转载 hadoop 命令

hadoop hdfs常用命令hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 (如果没有写路径,我的默认是访问/user/hadoop)hadoop fs –lsr 循环列出目录、子目录及文件信息 (hadoop fs -ls -R)hadoop fs –put test....

2018-03-23 09:56:11 508

转载 在Windows安装chromedriver

在Windows安装chromedriver(更新了mac版教程)1 安装selenium启动cmd命令行(同时按住windows键和R键,在对话框内输入cmd,然后回车)安装selenium,在弹出的窗口内输入 pip install selenium2 下载chromedrive前往 chromedriver 下载页面(如果官网下载网页无法访问,你可以访问U...

2018-03-22 18:08:06 3743 1

转载 Python3导入自定义模块的3种方式

Python3导入自定义模块的3种方式

2018-03-15 11:48:12 1710

原创 查看浏览器的user-Agent

如何查询浏览器的user-agent?1.在浏览器的地址栏输入:javascript:alert(navigator.userAgent)

2018-03-14 14:25:00 14023

原创 python3 中正则表达式中遇到的问题

分组命名我们知道在python正则中,使用小括号可以对内容进行分组,还可以用以下方式进行分组命名。(?P<name>正则表达式)#name是一个合法的标识符当然,我们可以在后续的表达式中使用命名的分组,如以下示例所示:import res1='a2c.a2c's2='a2c.d2d'a = re.search(r'(?P<name>\w\d\w)\...

2018-03-13 17:19:56 1234

原创 python3 中的urllib

urllib在python2和python3中的区别Py2.x:Urllib库Urllin2库Py3.x:Urllib库变化:在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.request,urllib.error。在Pytho2.x中使用import urllib——-对应的,在Python...

2018-03-13 14:45:20 209

原创 python3中bytes和str,encode和decode的区别

Python 3中bytes/string的区别

2018-03-13 11:41:40 5133

原创 sql中的distinct

distinct必须放在开头select id, distinct name from A; –会提示错误,因为distinct必须放在开头distinct是对行起作用,而不是列当结果中含有多列时,distinct可以去掉重复项,这里的重复项是指所有字段都相等的行,并不能去年某列中相同的字段。 name age0 yang 221 yan...

2018-03-13 09:51:37 519

原创 风控基础内容

风控基础

2018-03-12 17:30:31 1443

原创 pandas中的concat, merge, join,笛卡尔积

在pandas中,concat, merge, join的使用方法可以参考以下资料: http://blog.csdn.net/stevenkwong/article/details/52528616 主要讲下笛卡尔积:import pandas as pdfrom pandas import DataFramedf1=DataFrame({'a':[1,2,3], 'b':[4,...

2018-03-12 16:40:18 7743

原创 pandas 中的面元cut

函数cutcut函数可以给序列分组,比如把年龄,成绩进行分组,统计不同分组内的人数有多少,等等。 函数结构如下:pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)x:要分箱的输入数组。它必须是一维的。bin:int或标量序列 如果bins是一...

2018-03-12 09:56:52 1001

原创 其他

MySQL 字符串截取函数 MySQL 数据类型转换

2018-03-09 18:30:33 149

原创 pandas 提高效率,降低内存的方法

将数值型列降级到更高效的类型我们可以用函数pd.to_numeric()来对数值型进行向下类型转换。我们用DataFrame.select_dtypes来只选择整型列,然后我们优化这种类型,并比较内存使用量。 先找到要转化的类型,可用以下语句:DataFrame.select_dtypes(include=None, exclude=None)#include, exclude : s...

2018-03-09 11:14:09 4056

原创 hadoop 启动后slave1中的datanode没有启动

问题问题:hadoop 启动后slave1中的datanode没有启动,但slave2中的datanode启动,而且查看slave1下的tmp文件夹(~/hadoop-2.8.3/tmp)并没有dfs文件夹。方法方法一在网上找了一些方法,都说要删掉上面的tmp文件夹,使clusterID保持一致,但我的slave1中压根没有这样的文件夹啊。 (hadoop 常见错误)...

2018-03-09 10:20:02 8997

原创 pillow

不能写成import pillow,没有pillow这个模块,只有PIL这个模块可以导入。 更多内容, 请参考官网

2018-03-08 16:34:39 499

原创 matplotlib 官网

官网上的内容丰富,有详细的教程和代码,如果英语不好,也可以用google浏览器自动翻译。

2018-03-08 15:58:05 1834

转载 Pandas 中map, applymap and apply的区别

Pandas 中map, applymap and apply的区别

2018-03-07 17:53:00 492

原创 pyautogui

Al Sweigart 的github 中文文档

2018-03-07 16:09:42 459

原创 python 库的安装

windows下python库的安装pip安装(需要pip)pip在C:\PythonXX\Scripts下,使用pip install XXX通过下载whl文件安装(需要pip)python毕竟不是windows的原生语言,所以很多库还是不支持python,但是很多伟大的具有奉献精神的大牛将库编译成了whl文件供我们使用,这里表示感谢。 步骤:1.下...

2018-03-07 15:51:55 583

原创 用python发送带附件的邮件

概述用python程序自动发送邮件,是我们工作中经常用到的技能。主要使用smtplib和email模块.代码通过参考网上的资料, 写出以下程序。import smtplibimport email.mime.multipartimport email.mime.textfrom email.mime.text import MIMETextfrom email.mi...

2018-03-04 11:33:21 6130

转载 错误提示:“put: Cannot create directory . Name node is in safe mode.”

错误提示将本地文件复制到hdfs上去或者在hafs上新建文件时会出现“Cannot … directory … Name node is in safe mode”的错误。 例如hadoop@master:~$ hadoop fs -put ~/data_test_spark yj_testput: Cannot create directory /user/hadoop/yj_tes...

2018-03-02 18:08:00 3230

原创 python正则表达式的零宽断言

零宽断言零宽断言一共分为正向和反向两类,每类又分为预测先行和回顾后发两种:  ####零宽度正预测先行断言   简称正向先行断言,语法是(?=exp),它断言此位置的后面能匹配表达式exp。  ####零宽度正回顾后发断言   简称正向后发断言,语法是(?<=exp),它断言此位置的前面能匹配表达式exp。  ####零宽度负预测先行断言   简称反向先行断言,语法是(...

2018-03-02 10:03:39 7503

原创 sql中的if语句

IF()使用if条件语句可以在查询结果中增加新的字段,也就是对表中多列的结果进行处理后形成新列。IF(condition, expr1 , expr2 )condition的值为 TRUE,则返回值为 expr1 condition的值为FALSE,则返回值为 expr2IFNULL()还可以用ifnull来对含有空值的列进行处理。IFNULL( expr1 , ...

2018-03-01 15:43:41 7257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除