自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一个菜鸟

学习、工作中的一些技术问题~~~

  • 博客(183)
  • 资源 (10)
  • 收藏
  • 关注

转载 xgboost公式推导

转自:https://blog.csdn.net/guoxinian/article/details/79243307#commentBox基本构成boosted tree作为有监督学习算法有几个重要部分:模型、参数、目标函数、优化算法 模型 模型指给定输入x如何去预测输出y 参数 参数指我们需要学习的东西,在线性模型中,参数指我们的线性系数w 目标函数 目标函数:损失 + 正则,教...

2018-11-10 18:20:50 1069

转载 C++11 enable_if

C++11 enable_if最清晰的讲解https://eli.thegreenplace.net/2014/sfinae-and-enable_if/

2018-10-16 10:45:21 1385

转载 梯度提升树(GBDT)原理小结

在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), G

2017-10-30 15:09:49 972

转载 Understanding Convolutional Neural Networks for NLP

When we hear about Convolutional Neural Network (CNNs), we typically think of Computer Vision. CNNs were responsible for major breakthroughs in Image Classification and are the core of most Computer V

2017-07-28 17:06:33 547

转载 Redis源码解析——字典遍历

之前两篇博文讲解了字典库的基础,本文将讲解其遍历操作。之所以将遍历操作独立成一文来讲,是因为其中的内容和之前的基本操作还是有区别的。特别是高级遍历一节介绍的内容,充满了精妙设计的算法智慧。(转载请指明出于breaksoftware的csdn博客)迭代器遍历        由于Redis字典库有rehash机制,而且是渐进式的,所以迭代器操作可能会通过其他特殊方式来实现,以保证能遍历到所有数

2017-02-09 19:33:18 545

原创 redis sds学习

redis中sdshdr结构的内存总是整体进行分配和扩充,因此在进行free的时候只需要直接以sdshdr指针为参数调用free即可释放内存struct sdshdr {        // buf 中已占用空间的长度    int len;    // buf 中剩余可用空间的长度    int free;

2017-02-09 11:49:56 481

转载 va_list使用方法

转载自:http://blog.csdn.net/ID314846818/article/details/51074283VA_LIST 是在C语言中解决变参问题的一组宏,变参问题是指参数的个数不定,可以是传入一个参数也可以是多个;可变参数中的每个参数的类型可以不同,也可以相同;可变参数的每个参数并没有实际的名称与之相对应,用起来是很灵活。va_list 用法示例#includ

2017-02-09 10:44:17 61204 3

转载 Learning To Rank之LambdaMART的前世今生

1.       前言         我们知道排序在很多应用场景中属于一个非常核心的模块,最直接的应用就是搜索引擎。当用户提交一个query,搜索引擎会召回很多文档,然后根据文档与query以及用户的相关程度对文档进行排序,这些文档如何排序直接决定了搜索引擎的用户体验。其他重要的应用场景还有在线广告、协同过滤、多媒体检索等的排序。         LambdaMART是Learning

2016-12-16 08:30:38 834

转载 如何解决机器学习中数据不平衡问题

这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不

2016-10-18 22:27:43 6060

转载 XPath 与 lxml

XPath 术语什么是XPath  XPath 是一门在 XML 文档中查找信息的语言,对 XPath 的理解是很多高级 XML 应用的基础,XPath 在 XML 中通过元素和属性进行导航。什么是lxml  lxml 是一个用来处理 XML 的第三方 Python 库,它在底层封装了用 C 语言编写的 libxml2 和 libxslt,并以简单强大的 Python API,兼容并加强了著名的 E

2016-07-05 09:10:26 7283

转载 python反射机制深入分析

转自python反射机制深入分析  对编程语言比较熟悉的朋友,应该知道“反射”这个机制。Python作为一门动态语言,当然不会缺少这一重要功能。然而,在网络上却很少见到有详细或者深刻的剖析论文。下面结合一个web路由的实例来阐述python的反射机制的使用场景和核心本质。前言def f1(): print("f1是这个函数的名字!")s = "f1"print("%s是个字符串" % s)

2016-07-01 15:47:51 622

原创 Thrift+Haproxy负载均衡

应用需求项目时间使用中,后台存在4个使用thrift创建的A、B、C、D四个相同的Rpc服务,另外两个相同的服务E、F需要请求Rpc服务获取服务结果,在实际应用中E、F两个服务的请求需要随机的发送到四台Rpc服务,实现负载均衡。由于thrift使用的是tcp传输协议,也就是说我们需要使用第四层负责均衡技术来实现thrift Rpc服务的负载均衡。常用的负责均衡软件有Nginx、Haproxy等,但是

2016-06-21 20:17:35 7405

转载 负载均衡

负载均衡是什么负载平衡(Load balancing)是一种计算机网络技术,用来在多个计算机(计算机集群)、网络连接、CPU、磁盘驱动器或其他资源中分配负载,以达到最佳化资源使用、最大化吞吐率、最小化响应时间、同时避免过载的目的。负载均衡(Load Balance)建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可

2016-06-21 19:34:08 1167

原创 Thrift学习(2)-安装

thrift安装

2016-06-21 18:39:41 1334

原创 Thrift学习(1)-Thrift简介

Thrift简介

2016-06-21 16:58:55 1141

原创 Google protocol buffer多线程锁问题

最近项目中使用到了google protocol buffer作为数据传输格式,google protocol buffer(PB)相对于json来说序列化和反序列化速度都比较快。google protocol buffer的介绍详见:点击打开链接。项目中的使用场景是存在一批数量比较多的数据pair,key为string,value为一个结构体,使用protocol buffer进行存储。使用

2015-08-10 17:03:59 1876

原创 python多线程、多进程

最近在项目中有一个需求是没五分钟爬虫抓取一批网上数据,然后实时的将数据更新到mysql和redis中存储,在存储数据时,需要对数据做一些标准化的操作,甚至还需要根据历史数据对新数据某些缺失字段进行融合操作,往往在数据量比较大时,会出现五分钟内无法处理完parser产生的数据,导致数据的堆积。数据处理逻辑中,其实是可以根据某些特性将全量数据划分为独立的规模较小的数据子集合,每个子集互相独立,可独

2015-06-16 09:35:16 1182

转载 Protocol Buffers Developer Guide-API Reference --C++ Generated Code

Compiler InvocationPackagesMessagesFieldsOneofEnumerationsExtensionsArena AllocationServicesPlugin Insertion PointsThis page describes exactly what C++ code the protocol bu

2015-04-02 14:27:24 1043

转载 Protocol Buffers Developer Guide-Tutorials -C++ Tutorial

This tutorial provides a basic C++ programmer's introduction to working with protocol buffers. By walking through creating a simple example application, it shows you how toDefine message formats

2015-04-01 19:40:58 812

转载 Protocol Buffers Developer Guide-Style Guide

This document provides a style guide for .proto files. By following these conventions, you'll make your protocol buffer message definitions and their corresponding classes consistent and easy to read.

2015-04-01 19:38:46 537

转载 protocol buffer Developer Guide-Language Guide

Defining A Message TypeScalar Value TypesOptional And Default ValuesEnumerationsUsing Other Message TypesNested TypesUpdating A Message TypeExtensionsOneofMapsPackages

2015-04-01 17:51:06 992

转载 protocol buffer Developer Guide-overvie

Developer GuideWelcome to the developer documentation for protocol buffers – a language-neutral, platform-neutral, extensible way of serializing structured data for use in communications protoco

2015-04-01 17:09:10 651

转载 Google Protocol Buffer 的使用和原理

转载自:http://www.ibm.com/developerworks/cn/linux/l-cn-gpb/#major1简介什么是 Google Protocol Buffer? 假如您在网上搜索,应该会得到类似这样的文字介绍:Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准,目前已经正在使用的有超

2015-03-31 19:50:26 583

转载 python字符串编码判断

def is_chinese(uchar): """判断一个unicode是否是汉字""" if uchar >= u'\u4e00' and uchar<=u'\u9fa5': return True else: return False def is_number(uchar)

2014-11-08 17:57:08 1370

原创 mysql常用命令

一、数据库编码设置db编码,最好在创建数据库时设置编码,否则可能一直显示乱码  create database db_name character set utf8;查看数据库编码show variables like 'character_set_%';修改默认字符集(1) 最简单的修改方法,就是修改mysql的my.ini文件中的字符集键值,     如  

2014-09-11 19:43:35 540

转载 MySQLdb使用

转载自:#-*- encoding: gb2312 -*-import os, sys, stringimport MySQLdb # 连接数据库 try: conn = MySQLdb.connect(host='localhost',user='root',passwd='xxxx',db='test1')except Exception, e: print e

2014-09-01 18:09:09 1286

原创 svn 只输入一次密码

svn从版本库co代码时,一般每一个版本库都需要shu

2014-06-13 10:03:22 1514

转载 【Linux学习笔记】Linux C中内联汇编的语法格式及使用方法(Inline Assembly in Linux C)

原文转载自:http://blog.csdn.net/slvher/article/details/8864996

2014-05-30 10:18:22 843

原创 python半角全角转换

在工作中遇到了query分词和文本分词banquanjiao

2014-05-08 10:21:40 4208

原创 linux rsync同步文件

1、经常需要将一个服务器的文件拷贝到另外一个服务器,运行响应脚本,然后将结果拷贝回当前的服务器。说明:18行将文件拷贝到目标服务器19行运行目标服务器的脚本,得到结果21行将结果拷贝回当前服务器23行删除目标服务器上的无用文件

2013-09-16 10:25:01 832

转载 C语言中printf格式化输出函数

用 法:  int printf(const char *format,[argument]);  format 参数输出的格式,定义格式为:  %[flags][width][.perc] [F|N|h|l]type  规定数据输出方式,具体如下:  1.type 含义如下:  d 有符号10进制整数  i 有符号10进制整数 

2013-09-11 16:37:39 1565

原创 AWK学习笔记

1、AWK命令格式:awk 'pattern'fileawk '{actions}'fileawk 'pattern {action}'file其中,pattern由两个正斜杠之间的正则表达、一个或多个awk操作符组成的表达式组成。比如pattern可以使'/Tom/ && $2 > 10'之类的。2、模式范围使用两个模式时,先匹配从第一个模式的首次出现到第

2013-06-06 15:34:46 1009

原创 grep 学习笔记

一、grepgrep用于匹配文件。用来显示匹配一个或者多个模式的问本行。默认是打印匹配的所有行。grep语法:grep [option...] patten-spec [file....]主要选项:-b   在搜索到的行的前面打印该行所在的块号码。-c   只显示有多少行匹配 ,而不具体显示匹配的行-h   不显示文件名-i    在字符串比较的时候忽略

2013-04-24 17:54:57 822

原创 python 文件操作总结

python中打开一个文件python打开一个文件可以使用open和file。推荐使用open。一般推荐open的使用方式为:file=opne("file_name","r",encoding="utf-8")第二个参数文件的读取模型,主要使用读(r),写(w)、追加(a),第三个参数是可选参数,指定文件读取采用的编码,强烈建议使用该参数。不指定则使用系统默认编码,可能造成程序跨平台出现

2013-04-16 21:26:15 1494

转载 linux下使用javac java编译运行java工程

本文转载自:http://blog.csdn.net/huagong_adu/article/details/6929817前言:本文教你怎么用javac和java命令,以及如何利用脚本(shell或bat)方便处理,并用简单的实例展示这些用法。        IDE是把双刃剑,它可以什么都帮你做了,你只要敲几行代码,点几下鼠标,程序就跑起来了,用起来相当方便。你不用去关心它后面做了些

2013-04-14 20:14:01 3821

原创 jsp部署无法找到类错误

把jsp项目移到服务器上,发现出错了,但是该项目在eclipse中没有问题。报的错误就是:Only a type can be imported. xxx.XXX resolves to a package,意思就是说你jsp页面上引用的那个类不存在,可是eclipse测试的时候却正常,其实这样JSP已经是访问到的了,只是找不到类。       因为放在服务器中,为了方便管理,服务器管理员

2013-03-26 21:59:28 1972

原创 log4j配置示例

在分词、词性标注系统中用到的log4j的配置文件:# config root logger #all log information is stored in run.loglog4j.rootLogger = ERROR, rootlog4j.rootLogger = OFFlog4j.appender.root = org.apache.log4j.DailyRollingFile

2013-03-17 16:30:47 877

原创 java中对线程的实现 等待多个子线程结束 多个子线程运行中进行同步

一、线程无返回值在Java SE5之前,Java的对线程实现有两种方式,一种是继承Thread类,一种是实现Runnable接口。两者其实都相差不多,都是在在自己的类中根据需要实现run方法。这两类方法启动线程都是调用start方法。这两类方法的一个特点就是线程运行不能得到返回值。例如我要实现一个支持多线程的类MultiThreads,假设使用竭诚Thread类的方式,代码应该如下:

2013-03-16 17:20:12 5567 5

原创 python 面向对象笔记

一、类属性VS实例属性类属性和实例属性都可以动态的创建!1、访问类属性类属性可以通过类或者实例来进行访问,但是类属性不能通过实例来进行更新。当通过实例对类属性进行更新时,会在实例中创建一个实例属性。class MyClass(object): version = 1.0c = MyClass()print(MyClass.version)print(c.versi

2013-02-26 17:03:21 831

原创 python 序列笔记

一、字符串1、python字符格式化操作符 (%)Python字符格式化操作符只适用于字符串类型,使用百分号(%)。目前Python支持两种格式的输入参数,一种是元组,第二种是字典格式的输入参数。(1)元组格式输入参数>>> "%d" % 15'15'>>> "we are in %s and have %d cars" % ('haerbin', 5)'we are

2013-02-25 14:49:37 710

Support Vector Machines vs Logistic Regression

Support Vector Machines vs Logistic Regression

2016-10-23

VIM中文手册

vim中文手册,使用vim用户必须,可以随时查询你需要的用法

2012-10-22

常用算法手册

常用算法C语言描述,适合于计算机人士,手头必备资料

2012-10-22

Machine Learning in Action 完整高清版本 英文版本教程

Machine Learning in Action是一本介绍常用机器学习算法,同时使用具体数据和实例讲述算法具体应用的书,非常的适合于机器学习学习人员

2012-10-22

Mastering Algorithms with C

C语言讲述常用算法,讲的非常的详细,对学习算法的同学很有帮助

2012-09-24

think in python

很有用的python资料,希望对学习python的同学有用

2012-08-23

effective STL中文版(带笔记)

effective STL,学习C++ stl必备的资料,绝对让你对STL有一个新的认识!

2011-12-24

隐马尔科夫模型资料

隐马尔科夫模型是很多模型的基础,具有广泛的应用

2011-12-24

隐马尔科夫模型

HMM是非常重要的模型,在自然语言处理中具有显著的应用

2011-12-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除