seagle01-CSDN博客

原创 spark graphx 连通图子图顶点数量计算

spark graphx 各个连通子图顶点大小计算

2022-05-26 20:18:06 826

Supervised Learning deal with two problems: continuous & discreteregression deal with continuous problemclassification deal with discrete problemregression: given a picture of a person,we have to predict their age on the basis of the given pic.

2021-03-15 20:20:09 163

原创机器学习笔记

machine learnning note:What is Machine Learnoing:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E..

2021-03-14 11:29:48 105

原创 spark部署模式

spark部署模式常见的部署方式：本地部署：本地集群部署：Standalone部署：other部署：部署模式设计的组件：Application：用户使用Spark API开发的应用程序Driver：应用驱动程序。有了Driver，APplication才会被提交到Spark集群运行。Master：Spark的主控节点。Worker：Spark的工作节点，向Master汇报自身资源、Executor执行状态的改变，并接受Master的命令启动Executor或者Driver。Ex

2020-05-26 11:17:05 280

原创 spark心跳接收器HeartbeatReceiver

HeartbeatReceiver运行在Driver上，用于接收各个Executor的心跳消息，对各个Executor的生死进行监控。

2020-05-26 10:53:16 1072

转载字符串匹配的KMP算法

字符串匹配是计算机的基本任务之一。举例来说，有一个字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一个字符串"ABCDABD"？许多算法可以完成这个任务，Knuth-Morris-Pratt算法（简称KMP）是最常用的之一。它以三个发明者命名，起头的那个K就是著名科学家Donald Knuth。这种算法不太容易理解，网上有很多解释，但读起来都很费劲。直到读到...

2020-04-14 18:05:32 168

原创 centos 6下通过rpm安装mysql5.7

1、下载安装包wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-community-common-5.7.28-1.el6.x86_64.rpmwget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-community-libs-5.7.28-1.el6.x86_64.rpmwg...

2019-11-01 19:07:40 387

转载 Spark调优 | Spark SQL参数调优

前言Spark SQL里面有很多的参数，而且这些参数在Spark官网中没有明确的解释，可能是太多了吧，可以通过在spark-sql中使用set -v 命令显示当前spark-sql版本支持的参数。本文讲解最近关于在参与hive往spark迁移过程中遇到的一些参数相关问题的调优。内容分为两部分，第一部分讲遇到异常，从而需要通过设置参数来解决的调优；第二部分讲用于提升性能而进行的调优。异常调优...

2019-07-26 09:45:29 28543

原创 python将json数据转化为dataframe

原始数据下{"data":[{"小明": {"中国合伙人2": 5.0, "太平轮": 3.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 3.0, "肖洛特烦恼": 4.5, "海王": 5.0}},{"小红":{"小时代4": 4.0, "荒野猎人": 3.0, "我的少女时代": 5.0, "肖洛特烦恼": 5.0, "海王": 3.0, "后会无期": 3....

2019-07-01 16:27:43 12768

原创 ambari 安装及使用过程中，遇见的问题及解决方案

yarn的rest api 提交时出现的错误及解决方案环境配置通过yarn rest方式，提交application环境配置基于ambari 2.7 安装的hdp集群hadoop 3.1.1yarn 3.1.1spark2 2.3.2通过yarn rest方式，提交applicationcurl -X POST http://localhost:8088/ws...

2019-01-23 10:15:04 1423 4

原创 spark2.0 升级至spark2.3时代码问题

将 spark 从 2.0升级到2.3 过程中，出现无法识别找到表问题，后经过排查，是由于代码中出现了 new sparkContext（）原因导致错误如下I0828 18:05:25.272563 134 sched.cpp:743] Framework registered with 33c370c3-d41c-43aa-92b2-d43280ae9a32-1687-driv...

2018-08-29 10:14:58 1100

原创 hbase 测试注意事项

开发过程中，数次遇见hbase连接问题，通常情况下就是无任何异常，程序却被阻塞掉。表面上看好像程序挂掉，不再运行，就是没有异常信息。通常情况下原因是创建hbase连接时，几乎完全使用hbase默认配置信息。 hbase默认超时时间都非常长，其中rpc的超时默认为60秒，默认连接次数为35+1次。也就意味着每次测试，大概需要40分钟。我们往往没有耐心用这么长时间测试，就已经认为程序出...

2018-07-31 11:02:44 495

转载 hive on spark 遇到的坑

装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔，免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。先看官网的资源Hive on Spark: Getting Started要想在Hive中使

2017-07-06 10:53:00 9110

原创 ISO 8601中周数的处理及 Joda-Time 的使用

ISO 8601 标准的使用，处理周数

2017-05-15 12:34:32 6344

原创基于mesos集群中spark是如何提交任务的

基于mesos的spark集群中，spark是如何提交任务的

2017-05-01 09:35:39 1476

原创 spark 读取hbase数据并转化为dataFrame

spark 的应用原来越广泛，而且hbase的最新代码也开始加入了hbase-spark模块，但是发行版本并未提供spark api。为了方面程序处理，故写了一个demo。用于处理spark中获取hbase的数据，并将获取到的数据转化为dataframe

2016-07-12 18:02:06 9975

原创 HBase 最新版本（1.0以上）测试案例

最近写HBase，使用最近的1.0版本，发现很多功能都不建议使用，依据官方的文档写了份关于增删改查的测试案例，供学习交流。import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apache

2015-12-29 13:23:21 1150

原创 Intellij 如何在新窗口中打开项目

好多程序员都使用intelliJ idea开发项目，由于不小心设置了不在提示打开项目项目方式，所以只能打开一个窗口，而且只能同时打开一个项目，特别郁闷，分享下设置后的效果1、打开IntelliJ IDEA2、选择 file--setting. 打开setting窗口3、在新打开的窗口中选择 Appearance & Behavior--System Sett

2015-09-17 21:24:16 22739 1

转载加速你的Hibernate引擎（下）

4.6 HQL调优4.6.1 索引调优<br />HQL看起来和SQL很相似。从HQL的WHERE子句中通常可以猜到相应的SQL WHERE子句。WHERE子句中的字段决定了数据库将选择的索引。<br />大多数Hibernate开发者所常犯的一个错误是无论何时，当需要新WHERE子句的时候都会创建一个新的索引。因为索引会带来额外的数据更新开销，所以应该争取创建少量索引来覆盖尽可能多的查询。<br />4.1节让你使用一个集合来处理所有可能的数据搜索条件。如果这不太实际，那么你可以使用后端剖析工具来创建

2010-11-07 13:12:00 694

转载高效程序员的10个习惯之二跟踪变化

“软件技术的变化如此之快，势不可挡，这是它的本性。继续用你熟悉的语言做你的老本行吧，你不可能跟上技术变化的脚步。” 赫拉克利特说过：“唯有变化是永恒的。”历史已经证明了这句真理，在当今快速发展的IT时代尤其如此。你从事的是一项充满激情且不停变化的工作。如果你毕业于计算机相关的专业，并觉得自己已经学完了所有知识，那你就大错特错了。假设你是10多年前的1995

2010-04-15 21:21:00 826

转载高效程序员的10个习惯之一对事不对人

你在这个设计上投入了很多精力，为它付出很多心血。你坚信它比其他任何人的设计都棒。别听他们的，他们只会把问题变得更糟糕。” 你很可能见过，对方案设计的讨论失控变成了情绪化的指责——做决定是基于谁提出了这个观点，而不是权衡观点本身的利弊。我们曾经参与过那样的会议，最后闹得大家都很不愉快。但是，这也很正常。当Lee先生在做一个新方案介绍的时候，下面有人会说

2010-04-14 14:06:00 917

转载深入 Lucene 索引机制

Lucene 是一个基于 Java 的全文检索工具包，你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目，下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中，我们首先演示如何使用 Lucene 来索引文档，接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。

2009-11-01 13:59:00 624

转载第 1 部分: 初识 Lucene

本文首先介绍了Lucene的一些基本概念，然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源

2009-11-01 13:58:00 582

转载比较传统网格与高性能计算

并行计算是一种将应用程序设计为能够在大型并行计算环境中工作的方法。在网格系统中，某一操作或等式的执行是为了给并行执行任务提供一种结构，工作单元的执行和接收顺序不是连续的，并且不依赖于前面的代码迭代。尽管从总体上说，这两种系统（并行计算和网格）的模型是趋同的，但这两个系统的传统编程模型仍然是不同的。在这篇文章中，我们将查看并行计算、网格和它们的趋同性。高性能计算概述

2009-10-16 09:42:00 1505

转载第3部分: 应用反射\\\\\

命令行参数处理是一项令人厌烦的零碎工作，不管您过去已经处理过多少次了，它好像总能重新摆在您的面前。与其一遍又一遍地编写同一块代码的不同变种，为什么不利用反射来简化参数处理的工作呢？Java 顾问 Dennis Sosnoski 向您展示了如何做到这一点。在本文中，Dennis 简明扼要地介绍了一个开源库，这个库可以使得命令行参数实际上自己处理自己。上篇文章中，我介绍了Java Refl

2009-10-10 22:57:00 895 1

转载第2部分: 引入反射

反射使您的程序代码能够接入装载到JVM中的类的内部信息，允许您编写与执行时，而不是源代码中选定的类协作的代码。这使反射成为构建灵活的应用的主要工具。但需注意的是 --如果使用不当，反射的成本很高。在Java平台系列的第2部分中，软件顾问Dennis Sosnoski介绍了如何使用反射，以及某些相关的成本。您还将找到JavaReflection API如何使您能够在运行时关联对象。在“ Ja

2009-10-10 22:11:00 727

转载第 1 部分: 类和类装入

这一有关 Java 编程动态方面的新的系列文章研究了执行 Java 应用程序时幕后所发生的事情。企业 Java专家 Dennis Sosnoski 提供了 Java 二进制类格式以及在 JVM 内部类所发生的情况的内幕。接着，他将讨论类装入问题，其范围涉及从运行简单的 Java 应用程序所需的类的数量到可能造成 J2EE 及类似的复杂体系结构出现问题的类装入器冲突。本文是这个新系列文章的第

2009-10-10 22:04:00 834

转载使用 Apache Lucene 搜索文本

本文将探讨 Apache Lucene —— 性能卓越、功能全面的文本搜索引擎库。我们将学习 Lucene 架构及其核心 API。学习如何使用 Lucene 进行跨平台全文本搜索、建立索引、显示结果，以及如何扩展搜索。简介Lucene是一个开源、高度可扩展的搜索引擎库，可以从 Apache Software Foundation 获取。您可以将 Lucene

2009-10-08 23:52:00 795

转载事务策略: 高并发策略

我在本系列的前几篇文章中所介绍的API 层和客户端编排策略事务策略是应用于大多数标准业务应用程序的核心策略。它们简单、可靠、相对易于实现，并且提供了最高水平的数据完整性和一致性。但有时，您可能需要减小事务的作用域以获取吞吐量、改善性能并提高数据库的并发性。您如何才能实现这些目的，同时仍然维持高水平的数据完整性和一致性呢？答案是使用 High Concurrency 事务策略。High C

2009-10-08 23:07:00 1386

转载事务策略: 客户端编排策略

有时，应用程序的表示层必须处理多个 API 层方法调用之间的协调，以完成单个事务工作单元。在本文中，事务策略系列作者 Mark Richards 将讨论客户端编排（Client Orchestration）事务策略，并阐述如何在 Java™ 平台中实现它。如果您一直在阅读本系列，那么应该知道现在需要一个有效且可靠的事务策略来确保数据的高度一致性和高度完整性，而与您所使用的语言、环境、框

2009-10-08 22:47:00 745

转载事务策略: 模型和策略概述

混淆事务模型与事务策略是一个常见的错误。本系列关于事务策略的第二篇文章将概述 Java™ 平台支持的三种事务模型，并介绍使用这些模型的四种主要事务策略。通过使用 Spring Framework 和 Enterprise JavaBeans (EJB) 3.0 规范中的示例，Mark Richards 将解释事务模型的运行原理以及它们如何形成开发各种事务策略（从基本的事务处理到高速事务处理系统

2009-10-08 22:41:00 841

转载事务策略: API 层策略

对于维护数据的一致性和完整性而言，有效并且健壮的事务策略至关重要。API Layer 事务策略易于实现，并且非常适合用于大部分业务应用程序。事务策略系列文章的作者 Mark Richards 借助 Enterprise JavaBeans (EJB) 3.0 规范的示例，解释了事务策略的含义，以及如何在 Java™ 平台上实现它。不论您是在 EJB 2.1

2009-10-08 22:38:00 747

转载事务策略: 了解事务陷阱

事务处理的目标应该是实现数据的高度完整性和一致性。本文是为 Java 平台开发有效事务策略系列文章的第一篇，介绍了一些妨碍您实现此目标的常见事务陷阱。本系列作者 Mark Richards 通过使用 Spring Framework 和企业JavaBeans（Enterprise JavaBeans，EJB）3.0 规范中的代码示例解释了这些极其常见的错误。在应用程序中使用事

2009-10-08 22:32:00 881

转载事务策略: 高性能策略

事务需要确保高度的数据完整性和一致性。但是事务的开销也很大；它们会消耗宝贵的资源并且会减慢应用程序的速度。当正在使用一个以毫秒计的高速应用程序时，可以通过实现高性能事务策略在某种程度上维护ACID（原子性、一致性、隔离和持久性）属性。如将在本文中看到的，高性能策略并不像其他事务策略一样健壮，并且它不是所有涉及到高性能应用程序的用例的最佳选择。但是确实有的时候这个策略可以帮助您维持最快速

2009-10-08 22:24:00 752

转载如何设计一个简单的ORM

那就是“映射”，如果我们知道如何实现这种映射那么我们也能够开发出自己的一款ORM框架。会使用Hibernate的开发人员都知道，在使用它实现ORM功能的时候，主要的文件有：映射类（*.java）、映射文件（*.hbm.xml）以及数据库配置文件（*.properties或*.cfg.xml），它们各自的作用如下。 ⑴映射类：它的作用是描述数据库表的结构，表中的字段在类中被描述成属性，将来

2009-10-06 22:27:00 1338

转载基于Java的全文索引/检索引擎——Lucene

http://www.chedong.com/tech/lucene.html

2009-10-04 19:24:00 593

转载 Java序列化的机制和原理

有关Java对象的序列化和反序列化也算是Java基础的一部分，下面对Java序列化的机制和原理进行一些介绍。Java序列化算法透析Serialization（序列化）是一种将对象以一连串的字节描述的过程；反序列化deserialization是一种将这些字节重建成一个对象的过程。Java序列化API提供一种处理对象序列化的标准机制。在这里你能学到如何序列化一个对象，什么时候需要序列化以

2009-10-02 21:55:00 813

转载如何解决Form表单的重复提交

以前在做居民信息管理系统时出现过一个非常严重的问题，在添加居民信息，每刷新一次就会数据库中就会重复提交一次。这个问题很让人头疼，正好最近有一次面试，也被提问到此问题了，故在网上搜了一些这方面的文章。供交流学习之用。三种方案javascript ，设置一个变量，只允许提交一次。　 var checkSubmitFlg = false; funct

2009-10-01 17:02:00 3889

Java语言程序设计课后习题及答案（基础篇）（原书第五版）

spark sql 查询hive中的数据，查询结果全部为null

jdbc 插入mysql导致int类型数据越界

hadoop 运行异常，ReplicaNotFoundException

spark streaming如何更好的计算关系型数据库中数据？

Hive 空间沾满导致的问题

sqoop 中的 --outdir 参数