2018年03月_杨健yj

原创利用Spark Streaming和 Structured Streaming实时分析

参考《Spark与Hadoop大数据分析》Venkat Ankam。 spark streaming 采用微量批处理，延迟相对较高，约为0.5秒。通过将数据流拆分为所谓离散流（Discretized Stream, DStream）的微量批处理，从而处理连续的数据流。DStream 是一个在Spark的核心执行引擎上处理的RDD序列，像其他RDD序列一样。DStream 可以从任何流数据源创建...

2018-03-30 11:20:31 2314

原创 spark中的Dataset和DataFrame

参考《Spark与Hadoop大数据分析》Venkat Ankam和官方文档。利用DataFrame进行分析创建DataFrame从spark2.0及更高版本开始，SparkSession成为了关系型功能的入口点。当使用Hive时，SparkSession必须使用enableHiveSupport方法创建。从结构化数据文件中读取#pysparkdf = spa...

2018-03-30 10:34:37 2575

转载 mysql中的字符串函数

汇总：函数功能 concat(s1, s2, … , sn) 连接s1, s2, …, sn 为一个字符串 insert(str, x, y, instr) 将字符串str从第x位置开始， y个字符长度的子字符串替换为字符串instr lower(str) 将字符串str中所有的字符转换为小写 upper(str) 将字符串str中所有的字符转换为大写 l...

2018-03-29 18:26:17 893

原创 mysql中的case语句和if()

当逻辑结构比较繁琐时，用if()嵌套结构比较麻烦，可以使用case语句。--格式CASE WHEN <求值表达式> THEN <表达式> WHEN <求值表达式> THEN <表达式> WHEN <求值表达式> THEN <表达式> . . . ...

2018-03-29 18:08:58 431

原创 mysql中的性能优化问题

count(*)当需要统计结果的行数时，尽量用count(*)，而不是使用count(某一列）。当存在where条件时，需要先扫描条件中指定的数据，如果子条件中的数据过多，在统计行数时，可以使用相反的where条件，再用总数减去相反条件下的行数即可。优化limit分页如果要使用limit 1000, 20，需要查询1020条记录，最后只返回后20条记录，前面查询到的1000条记录...

2018-03-28 10:39:07 266

原创在mysql中处理时间问题

MySql有很多函数可以处理日期和时间，提高工作效率。注意，尽量使用标准格式的日期，如‘2018-01-01’，或者‘2018-01-01 00:00:00’TIMESTAMPDIFF函数第一种：TIMESTAMPDIFF函数，需要传入三个参数，第一个是比较的类型，可以比较FRAC_SECOND、SECOND、 MINUTE、 HOUR、 DAY、 WEEK、 MONTH、 QU...

2018-03-27 18:05:10 878

原创 selenium基本的操作

简介Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器，但已经不再支持 PhantomJS了，一般使用chrome和firefox无界面浏览器。 Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者...

2018-03-23 18:11:20 1701

原创 mysql中的注意事项

between and首先看一下w3cschool对该操作符的解释： SQL BETWEEN 操作符其中：不同的数据库对 BETWEEN…AND 操作符的处理方式是有差异的。某些数据库会列出介于 “Adams” 和 “Carter” 之间的人，但不包括 “Adams” 和 “Carter” ；某些数据库会列出介于 “Adams” 和 “Carter” 之间并包括 “Adams” 和 ...

2018-03-23 16:08:41 902

原创使用tesseract-ocr,pytesseract中遇到的问题

修改库中的pytesseract.py文件，#tesseract_cmd = 'tesseract'tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'，另外在那个文件中的第101行左右，增加一句转码的命令，类似下面这句，忘了怎么写的。 content = content.decode()...

2018-03-23 11:57:11 663 1

转载 hadoop 命令

hadoop hdfs常用命令hadoop常用命令： hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息（如果没有写路径，我的默认是访问/user/hadoop）hadoop fs –lsr 循环列出目录、子目录及文件信息（hadoop fs -ls -R)hadoop fs –put test....

2018-03-23 09:56:11 508

转载在Windows安装chromedriver

在Windows安装chromedriver(更新了mac版教程)1 安装selenium启动cmd命令行（同时按住windows键和R键，在对话框内输入cmd，然后回车）安装selenium，在弹出的窗口内输入 pip install selenium2 下载chromedrive前往 chromedriver 下载页面（如果官网下载网页无法访问，你可以访问U...

2018-03-22 18:08:06 3743 1

转载 Python3导入自定义模块的3种方式

Python3导入自定义模块的3种方式

2018-03-15 11:48:12 1710

原创查看浏览器的user-Agent

如何查询浏览器的user-agent?1.在浏览器的地址栏输入：javascript:alert(navigator.userAgent)

2018-03-14 14:25:00 14023

原创 python3 中正则表达式中遇到的问题

分组命名我们知道在python正则中，使用小括号可以对内容进行分组，还可以用以下方式进行分组命名。(?P<name>正则表达式)#name是一个合法的标识符当然，我们可以在后续的表达式中使用命名的分组，如以下示例所示：import res1='a2c.a2c's2='a2c.d2d'a = re.search(r'(?P<name>\w\d\w)\...

2018-03-13 17:19:56 1234

原创 python3 中的urllib

urllib在python2和python3中的区别Py2.x：Urllib库Urllin2库Py3.x：Urllib库变化：在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error。在Pytho2.x中使用import urllib——-对应的，在Python...

2018-03-13 14:45:20 209

原创 python3中bytes和str，encode和decode的区别

Python 3中bytes/string的区别

2018-03-13 11:41:40 5133

原创 sql中的distinct

distinct必须放在开头select id, distinct name from A; –会提示错误，因为distinct必须放在开头distinct是对行起作用，而不是列当结果中含有多列时，distinct可以去掉重复项，这里的重复项是指所有字段都相等的行，并不能去年某列中相同的字段。 name age0 yang 221 yan...

2018-03-13 09:51:37 519

原创风控基础内容

风控基础

2018-03-12 17:30:31 1443

原创 pandas中的concat, merge, join,笛卡尔积

在pandas中，concat, merge, join的使用方法可以参考以下资料： http://blog.csdn.net/stevenkwong/article/details/52528616 主要讲下笛卡尔积：import pandas as pdfrom pandas import DataFramedf1=DataFrame({'a':[1,2,3], 'b':[4,...

2018-03-12 16:40:18 7743

原创 pandas 中的面元cut

函数cutcut函数可以给序列分组，比如把年龄，成绩进行分组，统计不同分组内的人数有多少，等等。函数结构如下：pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False)x：要分箱的输入数组。它必须是一维的。bin：int或标量序列如果bins是一...

2018-03-12 09:56:52 1001

原创其他

MySQL 字符串截取函数 MySQL 数据类型转换

2018-03-09 18:30:33 149

原创 pandas 提高效率，降低内存的方法

将数值型列降级到更高效的类型我们可以用函数pd.to_numeric()来对数值型进行向下类型转换。我们用DataFrame.select_dtypes来只选择整型列，然后我们优化这种类型，并比较内存使用量。先找到要转化的类型，可用以下语句：DataFrame.select_dtypes(include=None, exclude=None)#include, exclude : s...

2018-03-09 11:14:09 4056

原创 hadoop 启动后slave1中的datanode没有启动

问题问题：hadoop 启动后slave1中的datanode没有启动，但slave2中的datanode启动，而且查看slave1下的tmp文件夹(~/hadoop-2.8.3/tmp)并没有dfs文件夹。方法方法一在网上找了一些方法，都说要删掉上面的tmp文件夹，使clusterID保持一致，但我的slave1中压根没有这样的文件夹啊。（hadoop 常见错误）...

2018-03-09 10:20:02 8997

原创 pillow

不能写成import pillow,没有pillow这个模块，只有PIL这个模块可以导入。更多内容，请参考官网

2018-03-08 16:34:39 499

原创 matplotlib 官网

官网上的内容丰富，有详细的教程和代码，如果英语不好，也可以用google浏览器自动翻译。

2018-03-08 15:58:05 1834

转载 Pandas 中map, applymap and apply的区别

Pandas 中map, applymap and apply的区别

2018-03-07 17:53:00 492

原创 pyautogui

Al Sweigart 的github 中文文档

2018-03-07 16:09:42 459

原创 python 库的安装

windows下python库的安装pip安装（需要pip）pip在C:\PythonXX\Scripts下，使用pip install XXX通过下载whl文件安装(需要pip)python毕竟不是windows的原生语言，所以很多库还是不支持python，但是很多伟大的具有奉献精神的大牛将库编译成了whl文件供我们使用，这里表示感谢。步骤：1.下...

2018-03-07 15:51:55 583

原创用python发送带附件的邮件

概述用python程序自动发送邮件，是我们工作中经常用到的技能。主要使用smtplib和email模块.代码通过参考网上的资料，写出以下程序。import smtplibimport email.mime.multipartimport email.mime.textfrom email.mime.text import MIMETextfrom email.mi...

2018-03-04 11:33:21 6130

转载错误提示：“put: Cannot create directory . Name node is in safe mode.”

错误提示将本地文件复制到hdfs上去或者在hafs上新建文件时会出现“Cannot … directory … Name node is in safe mode”的错误。例如hadoop@master:~$ hadoop fs -put ~/data_test_spark yj_testput: Cannot create directory /user/hadoop/yj_tes...

2018-03-02 18:08:00 3230

原创 python正则表达式的零宽断言

零宽断言零宽断言一共分为正向和反向两类，每类又分为预测先行和回顾后发两种：　　####零宽度正预测先行断言　　简称正向先行断言，语法是(?=exp)，它断言此位置的后面能匹配表达式exp。　　####零宽度正回顾后发断言　　简称正向后发断言，语法是(?<=exp)，它断言此位置的前面能匹配表达式exp。　　####零宽度负预测先行断言　　简称反向先行断言，语法是(...

2018-03-02 10:03:39 7503

原创 sql中的if语句

IF（）使用if条件语句可以在查询结果中增加新的字段，也就是对表中多列的结果进行处理后形成新列。IF(condition, expr1 , expr2 )condition的值为 TRUE，则返回值为 expr1 condition的值为FALSE，则返回值为 expr2IFNULL（）还可以用ifnull来对含有空值的列进行处理。IFNULL( expr1 , ...

2018-03-01 15:43:41 7257

hello world!