sklearn中逻辑回归(logistic regression)的损失函数推导

最近无意阅读sklearn中关于logistic regression的文档时,发现其损失函数和意识中长的不一样,有必要简单梳理下。 绝大部分的文章或者资料都习惯于将label y的空间定义为0和1,因此我们使用极大似然估计(maximum likelihood estimate)可以很轻松写出...

2019-04-12 15:33:57

阅读数 148

评论数 0

资讯信息流场景的学习排序实践探讨

0. 序言 达观数据是一家基于文本语义理解为企业提供文本抽取审核、推荐、搜索等服务的人工智能企业,其中在推荐场景上我们也服务了很多客户企业,客户在要求推荐服务稳定、需求响应及时的基础上,对系统的效果也提出了越来越高的期望,这对算法团队也是一个挑战。本文将从资讯信息流这个场景入手,先简单介绍达观推...

2019-03-26 17:09:56

阅读数 8904

评论数 1

推荐系统中的冷启动和探索利用问题探讨 (下)

LinUCB算法回到推荐列表的场景,推荐系统为用户推荐物品。user和item都可以用一系列特征表示。用户特征包括用户的统计历史行为、人口学属性信息;物品特征包括描述信息、类别信息等等。在这种场景下,探索和利用也必须是个体用户级别上实施,因为不同用户看到相同的物品的反馈差异较大。LinUCB算法是...

2017-08-22 16:54:23

阅读数 692

评论数 0

推荐系统中的冷启动和探索利用问题探讨 (上)

推荐系统中的冷启动和探索利用问题探讨 (上)前言互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活,视频网站、资讯app、电商网站对于推荐系统而言,每天都有大量的活跃用户在不断的产生海量的用户行为,同时,每天又都产生大量的新增PGC或者UGC内容(如小说、资讯文章、短视频等)。从推荐系统的角度...

2017-08-22 10:07:02

阅读数 708

评论数 0

如何利用trie树加快关键词查找

项目中有如下需求,给定一个关键词库(规模不定,从几百到几千不等),需要在一句话或者一段内容中快速找出关键词,如果有任何一个关键词命中就可以直接返回。 1. 简单的方法就是依次判断每个词是否存在于给定内容中: def filter(content): for filter_word...

2017-08-08 19:33:07

阅读数 2089

评论数 1

hive之数据类型初探

前段时间在做一个将oralce代码转hive代码开发时,遇到了一个问题,问题描述如下: (A) Hive: Select concat(round(1/3,4)*100,'%') from v_book_all_info_ft limit1; Output:33.33% Oracle:...

2014-06-19 22:06:43

阅读数 483

评论数 0

如何解决sklearn加载libsvm格式数据数组越界?

在使用sklearn加载大数据量的libsvm文件函数load_svmlight_file发生了内存越界错误,样本数超过1千万。 具体报错: OverflowError: signed integer is greater than maximum. 这个问题比较奇怪,之前一直没有问题,只...

2018-12-14 18:32:05

阅读数 487

评论数 0

利用python的heapq实现prim算法以及优先级队列

1. python heapq是一个最小堆,堆顶元素为最小值,最小(大)堆的逻辑结构是一颗二叉树,其中父节点的小(大于)于左右子节点,物理结构为一个数组。    heapq模块支持heappush(入堆)、heappop(出堆)、heapify(创建堆)等操作,详细请参考python官方文档(ht...

2016-10-09 23:01:23

阅读数 1947

评论数 4

布隆滤波器基本原理和pybloomfilter使用

1. 布隆滤波器原理 在日常开发过程中,会经常遇到元素是否存在集合判断和去重问题,例如我们会判断一个email地址是否在黑名单中,网络爬虫会判断一个url是否已经存在于待抓取列表或者已抓取,视频库的去重等等。不幸的是通常情况下这类问题面临的数据规模都较大,比如网络爬虫系统的抓取url通常达到数亿...

2016-08-12 16:41:17

阅读数 4956

评论数 2

文本指纹算法和内容指纹系统介绍

1.       文本指纹介绍 Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。 最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相...

2016-08-10 23:22:10

阅读数 11520

评论数 0

利用Hive进行数据分析

近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。达观数据团队长期致力于研究和积累Hadoop系统的技术和经验,并构建起了分...

2016-07-06 21:30:20

阅读数 18157

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭