谢彦的技术博客

静心格物致知

排序:
默认
按更新时间
按访问量

数据迁移工具Kettle

1. 背景知识 (1) 什么是ETL  ETL是Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。 (2) Kettle简介  Kettle是一款国外开源的ETL工具,纯j...

2018-11-10 11:15:20

阅读数:23

评论数:0

几种常见的数学分布

1. 什么是数学期望  举个例子:某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个 (0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11  数...

2018-11-03 21:48:20

阅读数:23

评论数:0

调度工具Airflow

1. 什么是Airflow  Airflow是Airbnb开源的data pipeline调度和监控工作流的平台,用于用来创建、监控和调整data pipeline(ETL)。 2. 简单的定时任务cron  假设我们想要定时调用一个程序,比如说:每天定时从Web抓数据,我们可以使用cron...

2018-10-27 13:46:51

阅读数:47

评论数:0

机器学习之_逻辑回归

逻辑回归又称logistic回归,逻辑斯谛回归,是一种广义的线性回归分析模型。 1. Sigmod函数  Sigmoid函数也是神经网络中常用的函数,用于把x从负无穷到正无穷压缩到y从0到1之间。画出来就是一条S型曲线,如下图中的蓝色曲线:  它以0点为中心对称,公式如下:  当x...

2018-10-13 13:09:53

阅读数:52

评论数:0

Xgboost之增量学习

1. 说明  当我们的训练数据非常多,并且还在不断增加时,每次都用全量训练,数据过多,时间过长,此时就可以使用增量训练:用新增的数据微调校正模型。 2. 全量与增量的差异  在使用增量训练时,最关心的问题是:全量和增量的差别,从而确定增量训练的使用场景。  假设有200条数据,第一次训练1...

2018-10-06 10:02:08

阅读数:818

评论数:1

Xgboost调试方法

1. 调试test目录下的测试用例  在测试程序后面加入以下代码,即可启动调试程序 if __name__ == "__main__": unittest.main() 2. 显示树结构 import matplotlib.pyplot a...

2018-10-06 10:01:07

阅读数:77

评论数:0

Python的Debug工具

1. 命令行使用pdb (1) 我们先写个简单的python程序a.py如下: for i in range(0,3): print(i) print("@@@@") print("###") ...

2018-10-04 16:10:52

阅读数:57

评论数:0

XGBoost_原理

1. 说明:  难了不会,会了不难,你明白了,觉得这还用说?不明白,跳步之后,似懂非懂。本篇是我对论文《XGBoost: A Scalable Tree Boosting System》的阅读笔记,用大白话解释xgboost原理,学霸请跳过,懒得看公式的也请跳过。 2. 第一步:整体误差(重点...

2018-09-22 11:22:04

阅读数:49

评论数:0

XGBoost_源码初探

1. 说明  本篇来读读Xgboost源码。其核心代码基本在src目录下,由C++实现,40几个cc文件,代码11000多行,虽然不算太多,但想把核心代码都读明白,也需要很长时间。 我觉得阅读的目的主要是:了解基本原理,流程,核心代码的位置,修改从哪儿入手,而得以快速入门。因此,需要跟踪代码执行...

2018-09-09 22:21:07

阅读数:138

评论数:0

知识图谱之WordNet

1. 说明  今天讨论的是自然语言中的知识抽取和知识表示,换言之,就是如何从大量的书籍文献中剥离出我们关心的所谓“知识”,并将起组织保存成简单可用的描述。  不同的知识类型需要采用不同的知识表示方式,温有奎教授总结了10种知识类型 (具体见参考部分) 。对于静态概念及概念之间关系用面向对象形式...

2018-09-02 11:32:05

阅读数:197

评论数:0

特征工程之_筛选

1. 说明  本文并非介绍某个成熟算法或者工具,只是个人的一点感悟,写得可能不正确,不全面,希望能给大家带来一些启发,也欢迎各位回复讨论。 2. 特征工程  大数据相关的工作可简要地归纳为:模型部分和数据部分,在模型部分,目前大家的做法主要是拿现成的模型来用,对其做内部修改或重写的很少,主要...

2018-08-19 22:39:21

阅读数:76

评论数:0

Swagger和Python配合使用

1. 说明  先来看一个应用场景:  我写了一段功能性的程序(可能是Java的,也可能是Python的),供他人调用(调我程序可能是其它编程语言,或者直接运行,如果调用者对我使用的工具不熟悉,直接调用可能很麻烦),这个程序需要传入多个参数,需要结构化的输出,我以什么方式提供给比较好呢?  我们可...

2018-08-12 17:51:36

阅读数:1325

评论数:0

SOAP协议及Python调用

1. 什么是SOAP协议  SOAP 是一种简单的基于 XML 的协议,它底层通过 HTTP 来交换信息。SOAP的优点是可以传递结构化的数据。  客户生成的SOAP请求会被嵌入在一个HTTP POST请求中,发送到Web服务器。Web服务器再把这些请求转发给Web service请求处理器,它...

2018-08-05 20:46:02

阅读数:315

评论数:0

全文搜索引擎ElasticSearch

1. 介绍  ElasticSearch简称ES。  先来看它的用途:如果只是在多个机器同步,存储和检索大量数据,它与数据库的差别在哪儿,为什么非要使用ES呢?  ES是目前全文搜索引擎的首选。全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数...

2018-07-29 15:56:03

阅读数:87

评论数:0

实战A股上市公司季度营收预测

1. 说明 FDDC2018金融算法挑战赛01-A股上市公司季度营收预测,是天池最近的一个算法比赛,7月15是初赛提交的deadline,就最后两天了,也没法做得太细,看看怎么用最短的时间,抓住最关键的值,搭个简单的架子。2. 数据分析1) ...

2018-07-14 20:47:53

阅读数:307

评论数:0

Docker集群

1. 说明 一般情况下,我们用Docker run命令将docker启成普通进程。有时候我们有多台运行docker的机器,希望Docker以集群方式运行。与手动启动不同Docker,集群涉及统一管理,各服务的状态监控,负载均衡,日志文件,重启,统一...

2018-07-01 15:35:15

阅读数:411

评论数:0

Docker进阶

说明 之前,基本是在单机上用Docker,在不影响当前环境的前提下,创建和使用一些特殊环境。最近,涉及到多Docker的协作,比如:在同一服务器上启动和管理多个容器;在一台服务器上使用类似的镜像版本,在不同的机器之间复制镜像等等,积累了一些docker使...

2018-06-24 19:26:08

阅读数:186

评论数:0

Python爬虫

1. 说明 做数据挖掘常常需要抓取网页内容,有些工具能通过分析url中的链接,把整个网站抓下来,也就是我们常说的爬虫工具。 有时候需要把交互网页的内容抓下来,比如:在input框中输入想查的内容,服务器端实时计算结果,或者从数据库中查询后返回结果。...

2018-06-10 21:19:50

阅读数:126

评论数:0

数据挖掘之_后处理

 常常听说数据预处理,后处理相对少见,本篇来说说何时需要后处理,以及后处理的一些简单方法。 数据挖掘的流程一般是:输入数据->特征工程->模型训练/预测->导出结果。后处理是将模型预测的结...

2018-06-02 16:17:56

阅读数:207

评论数:0

自然语言处理之_SentencePiece分词

1、 说明 SentencePiece是一个google开源的自然语言处理工具包。网上是这么描述它的:数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具。 那么它究竟是干什么的呢?先举个例子:假设在数据挖掘时,有一列...

2018-05-26 16:52:43

阅读数:360

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭