![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
xianyuxiaoqiang
这个作者很懒,什么都没留下…
展开
-
自研半监督学习算法在短信分类中的实践
1. 背景本文仅探讨自然语言分类算法。1)有监督机器学习所谓有监督,是指给定一组人工标注好的样本(打好分类标签的文本),通过机器学习算法训练模型(比如朴素贝叶斯分类器),然后用训练好的模型对未知的文本进行分类。有监督机器学习的准确率受人工标注样本的数量和质量影响很大。在待分类实体总量较少(比如百万以下),且边界较为清晰(不同分类的实体间相似特征较少)时,可以达到很好的效果(90%+...原创 2019-11-29 16:27:49 · 414 阅读 · 0 评论 -
SparkStreaming集合增量更新方法
1.背景描述我们有一个数据集合,需要定期进行大数据处理。从Kafka会不定期获取新的数据,需要补充到该集合中;每一条数据都有过期时间,过期后需要从集合中删除。2.思路1)整个数据集合采用RDD保存在Spark集群的内存中。2)在服务启动时从MongoDB获取初始数据集合。3)通过Kafka拉取的数据,生成小的RDD,与大的数据集合进行Union操作4)Union完成后根...原创 2019-02-14 11:28:58 · 882 阅读 · 0 评论 -
SparkStreaming踩坑之各种异常的处理方法
1.运行时异常:找不到类,例如org.antlr.v4.runtime.xxx【原因】antlr是Spark依赖的开源语法解析器,其jar默认情况下并未加入classpath,因此运行时刻会找不到对应的类;另外还有janino,开源java编译器。【对策】方法1:将antlr等组件的jar加入系统classpath方法2:POM文件引入对应jar依赖,随微服务一起打包发布...原创 2019-02-14 11:29:43 · 2722 阅读 · 0 评论 -
SparkStreaming整合Redis
需求:希望在Spark RDD算子中访问Redis。思路:通过Broadcast变量将Redis配置信息广播到所有计算节点;通过lazy关键字实现Redis连接的延迟创建。具体步骤:1.定义Redis客户端包装类 packagexxx importredis.clients.jedis.{Jedis, JedisPool, JedisPoolConfi...原创 2019-03-21 16:01:34 · 2603 阅读 · 0 评论 -
SparkStreaming踩坑之Kafka偏移超出范围
1.问题描述由于程序宕机、误操作等原因,SparkStreaming保存的Kafka offset可能过期,超出有效范围,会导致连接Kafka失败,无法正常消费数据。2.对策通过Kafka低阶API获取最新的分区信息。3.具体步骤1)定义Kafka工具类 packagexxx.util; importjava.util.ArrayList;...原创 2019-03-21 16:52:15 · 1769 阅读 · 0 评论 -
SpringBoot + Spark on Yan踩坑记
终极目标 采用SpringBoot集成SparkStreaming+Kafka+Redis+HDFS等组件,打包成jar(下文将之简称为“应用”),运行在Spark on Yan环境,实现离线+实时分布式计算。 本文中采用Spark on Yan Client模式发布应用。 参考文献:https://www.cnblogs.com/langfanyun/p/8040136.html ...原创 2019-05-31 13:53:09 · 4387 阅读 · 13 评论 -
基于朴素贝叶斯的问题分类模型实战小结
1. 背景智能客服系统通过分析用户的自然语言,识别出问题分类,以及问题中的关键信息,自动对接后台的业务系统寻找答案,然后将答案反馈给用户。问题分类模型是其中至关重要的部分,问题分类的准确率直接影响到用户体验。2. 算法逻辑3. 关键技术点3.1 样本数据采集与格式化我们选择JSON作为样本数据的载体,一方面具备较好的可读性,另一方面相关的解析框架较为成熟。另外JS...原创 2019-06-06 16:04:52 · 724 阅读 · 0 评论 -
海量数据去重神器——布隆过滤器
1.前言大数据处理过程中,常常遇到去重的需求。例如,头条推荐系统要求对每个用户都不会出现重复推荐。传统的做法是,将所有的记录都采用类似HashSet的结构缓存起来,当需要判断新的数据是否重复时,通过集合的contains方法判断。当数据量达到亿级时,这种方法消耗的内存,以及计算的速度都是不可接受的。比如,对于头条推荐系统,假设注册用户为100万,平均每个用户每月推荐1000篇文...原创 2019-06-27 18:29:12 · 3363 阅读 · 0 评论 -
Apache Kylin踩坑记
1.Apache Kylin简介Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。这款软件目前广泛用于ebay、思科、雅虎、三星、百度、京东、网易、腾讯等大厂。其核心能力在于通过预先计算维表、事实表的各种组合...原创 2019-09-27 17:17:49 · 1647 阅读 · 0 评论