www_sg_com-CSDN博客

转载 mysql 日期操作增减天数、时间转换、时间戳

MySQL datediff(date1,date2)：两个日期相减 date1 - date2，返回天数。select datediff(‘2008-08-08’, ‘2008-08-01’); – 7select datediff(‘2008-08-01’, ‘2008-08-08’); – -7一、MySQL 获得当前日期时间函数1.1 获得当前日期+时间（date + time）函数：no

2017-10-27 13:52:33 414

转载 Python--脚本自动发送邮件

自动发送邮件功能是我们经常要用到的，比如每天定时统计报表信息，然后自动发送给运营人员，协助运营人员进行业务数据分析。本文是用Python写的一个自动发送邮件的脚本，调用函数时，直接把发件人邮箱地址、密码、收件人邮箱地址、邮件标题、内容等信息传递给函数，即可实现自动发送邮件功能。脚本代码如下：[python] view plain copy print?# -*- coding: UTF-8 -*-

2017-09-12 11:50:22 1662

转载如何提高深度学习（和机器学习）的性能

目录(?)[+]20个你可以用来避免过拟合和得到更好的泛化的技巧提升算法性能的思路通过数据提升性能1 获取更多数据2 创造更多数据3 重缩放rescale你的数据4 数据变换5 特征选择6 重架构你的问题通过算法提升性能1 对算法进行抽样调查2 借鉴已有文献3 重采样方法通过算法调参提升性能1 诊断2 权重初始化3 学习率4 激活函数5 网络拓扑6 Batche size和周期7 正则化8 优化

2017-09-11 16:34:04 1288

转载用户画像-聚类分析

step1 我们还是要说一下数据源的事情虽然我从来都秉承着能百度到的东西基本不废话，但是这张图我觉得还是有必要贴出来的。这个图不是我的，原文作者：郭志金。知识产权还是要保护的，大家可以百度一下郭老师关于如何构建用户画像的文章找到更加详细的论述。不多说了。上图。这里能就是郭老师说的需要准备好的所有的相关用户数据。好的，我觉得这些数据对于大家来说并不那么困难吧。所以收集到了之后呢，就开始真正的处理

2017-08-10 15:46:07 3143 2

转载轻松看懂机器学习十大常用算法

通过本篇文章可以对ML的常用算法有个常识性的认识，没有代码，没有复杂的理论推导，就是图解一下，知道这些算法是什么，它们是怎么应用的，例子主要是分类问题。每个算法都看了好几个视频，挑出讲的最清晰明了有趣的，便于科普。以后有时间再对单个算法做深入地解析。今天的算法如下：决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值算法Adaboost 算法神经网络马尔可夫1. 决策树

2017-07-17 15:22:04 350

转载关于HIVE优化的四种方法总结

问题导读：1、Hive整体架构优化点有哪些？2、如何在MR阶段进行优化？3、Hive在SQL中如何优化？4、Hive框架平台中如何优化？一、整体架构优化现在hive的整体框架如下，计算引擎不仅仅支持Map/Reduce，并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。整体架构优化点：1、根据不同业务需求进行日期分区，并执行类型动态分区。相关参数设

2017-07-17 15:08:22 553

转载如何快速转载CSDN博客

前言对于喜欢逛CSDN的人来说，看别人的博客确实能够对自己有不小的提高，有时候看到特别好的博客想转载下载，但是不能一个字一个字的敲了，这时候我们就想快速转载别人的博客，把别人的博客移到自己的空间里面，当然有人会说我们可以收藏博客啊，就不需要转载，(⊙o⊙)… 也对。。实现因为我自己当初想转载的时候却不知道该怎么转载，所以学会了之后就把方法写出来，帮助那些想转载却不知道该怎么转载的人（大神勿笑

2017-07-17 15:04:31 296

原创 HiveSQL查询优化

1.优化之分区对数据进行分区，可以将数据以一种符合逻辑的方式进行组织（比如分层存储），同时极大提高查询性能。在创建表的时候，根据后续查询需求用'PARTITIOED BY( )'对数据进行合理的分区，下面我们根据‘province’和‘city’进行对数据进行分区分区：CREATE TABLE IF NOT EXICTS tbl_per_info (no INT, name STRING,

2017-07-10 10:53:40 638

原创将本地文本文件直接导入hive（impala好像不支持）表中

跟之前一样需要对文件进行准备（可以尝试别的格式）和对应表的建立，然后在Hive CLI 上运行下面的代码：LOAD DATA LOCAL INPATH '/home/sjz/dataclean/data/tbl_adrs_code.txt' INTO TABLE tbl_adrs_code这里跟之前不一样的是使用了"LOCAL"这个关键字，表明接下来引用的这个路径'/home/sjz/data

2017-07-08 14:56:49 1337

原创 Python数据分析包——NumPy(Numerical Python)

整个NumPy最核心的部分就是ndarray，它是“一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组”。1.ndarray创建函数（1）array(),asarray(),arange()array可以将输入数据转换为ndarray，输入的数据可以是列表，元组，数组或者其他序列类型，asarray功能和array一样。arange输入一个N(int类型)值，返回由0~N

2017-07-08 10:40:50 680

原创将本地文本文件上传到HDFS上，然后导入hive/impala对应表中

1.本地文本文件上传前的准备将文本保存为"uft-8"格式，并用"|"进行字段间的分割（个人习惯，可以选用其它符号，但要避免和编程语言产生冲突）。2.将文本文件通过Xshell上传到HDFS上（1）首先要新建（Alt+N）一个连接，主要填写主机IP，其他根据自己的需要填写。确定之后，打开（Alt+O）刚刚建立的连接，输入用户名和密码，这样就连上了你的服务器了。（2）新建文件传输（C

2017-07-07 14:05:11 14280