笔记
武念
从事互联网工作,对数据采集、人工智能、大数据、金融资本等信息感兴趣,欢迎沟通交流!致力于提高生产力,与君共勉!
展开
-
python 私有属性使用案例
简单的python 私有属性使用原创 2022-11-28 15:45:27 · 290 阅读 · 1 评论 -
Jackson 的JAR包冲突问题
后台查阅资料与查看报错发现,是由于Jackson这个工具库的版本不一致导致的。随后手动添加相同版本Jackon库的依赖项,重新import即可。转载 2022-07-26 00:22:14 · 708 阅读 · 0 评论 -
antyi code life java.lang.BootstrapMethodError: java.lang.NoClassDefFoundError: scala/runtime/java8/
把本地的Scala改成2.11.8重新打包,记住要把原来的Scala2.12SDK换成Scala2.11.8SDK。集群Spark2.11Scala2.11.8。本地Scala2.12。转载 2022-07-26 00:19:34 · 279 阅读 · 0 评论 -
java gc 总结
比如先标记垃圾对象,标记完后,发现暂停时间已经比较长了,那就先暂停执行GC,让工作线程先工作,等一段时间后,在执行下一阶段的GC流程。追求停顿时间,吞吐量就小;这个GC兼顾了停顿时间和吞吐量,是未来GC的方向,目前这个GC稳定性据说还有待验证,如果将来稳定了,大伙都用这个GC就好了。g1收集器,多线程执行,追求低停顿时间,也追求高吞吐量,有点实时、高吞吐量的意思,既用于新生代收集,也用于老生代收集。从gcroot(栈、静态变量、JNI变量)遍历,能访问的对象,不用被收集,其他的,可以被收集。...转载 2022-07-26 00:18:00 · 91 阅读 · 0 评论 -
使用 ES-Hadoop 将 Spark Streaming 流数据写入 ES
ES-Hadoop实现了Hadoop生态(Hive、Spark、Pig、Storm等)与ElasticSearch之间的数据交互,借助该组件可以将Hadoop生态的数据写入到ES中,然后借助ES对数据快速进行搜索、过滤、聚合等分析,进一步可以通过Kibana来实现数据的可视化。同时,也可以借助ES作为数据存储层(类似数仓的Stage层或者ODS层),然后借助Hadoop生态的数据处理工具(Hive、MR、Spark等)将处理后的数据写入到HDFS中。...转载 2022-07-26 00:13:45 · 824 阅读 · 0 评论 -
These critical programs are missing or too old: ma
compiler转载 2022-07-25 23:37:45 · 3810 阅读 · 0 评论 -
Anaconda\Scripts\pip-script.py is not present ? 解决方案
Anaconda\Scripts\pip-script.pyisnotpresent?解决方案。转载 2022-07-26 22:40:00 · 388 阅读 · 0 评论 -
Elasticsearch趟坑记——后台数据篇
但_id设计到ES的底层存储,需要足够离散,尽量不要用有规律的数字(类比HBase的Rowkey设计),以保证ES的性能,推荐用MD5之后的值作为_id,或用ES自己生成UUID。b、索引字段类型hive外部表写入ES时,如果不指定索引字段的类型,hive中int会自动转成long,double会转成float,最好按需要先建索引,然后再建外部表。由于ES的研发思路就是开箱即用,默认配置以满足绝大多数场景,如果不是对ES有一定了解,尽量减少对参数的修改,有时会获得更好的性能。...转载 2022-07-25 23:23:06 · 389 阅读 · 0 评论 -
在 Scala 中读取整个文件
Scala提供了一个类来读取名为Source的文件。我们调用Source类的fromFile()方法来读取文件的内容,包括文件名作为参数来读取文件的内容。方法逐行读取数据,然后进行相应的打印或处理。在Scala中方法1一次读取整个文件。在Scala中方法2逐行读取文件。首先,我们指定文件名及其完整路径。首先,我们指定文件名及其完整路径。方法将整个数据变成一个字符串。上面的代码读取了桌面文件夹中的。创建文件将被加载的源。创建文件将被加载的源。...转载 2022-07-25 23:17:34 · 3741 阅读 · 0 评论 -
grep时排除指定的文件和目录
由于工作要求在linux环境下进行C++开发,接触linux时间尚浅,没有遇到一款功能较为齐全且较为顺手的IDE,因此查看源代码时很多功能需要手动在bash下完成,比如常常需要。在当前目录下查找所有“abcdefg”的字符串,但不在以“build_”开头的目录、“kernel”和“dirvers”中查找,同时忽略所有以“out”为后缀的文件。所以,要排除目录,还得用“–exclude-dir”的确,通过简单的选项设置,我们达到了过滤.svn目录的功能,但是每次都要输入。指定排除目录**,注意svn前的。..转载 2022-07-25 23:11:06 · 5495 阅读 · 0 评论 -
第42讲:Scala中泛型类、泛型函数、泛型在Spark中的广泛应用
泛型通俗的讲,比如需要定义一个函数,函数的参数可以接受任意类型。我们不可能一一列举所有的参数类型重载(overload)函数。例如List,在创建List时,可以传入×××、字符串、浮点数等等任意类型。那是因为List在类定义时引用了泛型。那么程序引入了一个称之为泛型的东西,这个类型可以代表任意的数据类型。其中A就是类型,当然A你可以写成任意的标识符。......转载 2022-07-26 22:40:14 · 133 阅读 · 0 评论 -
每天学一点Scala之 伴生类和伴生对象
如果有一个class,还有一个与class同名的object,那么就称这个object是class的伴生对象,class是object的伴生类。伴生对象的使用场景,也就是说,伴生对象是干什么用的,这样的话,对于理解marathon源码,spark源码是有帮助的,不至于一头雾水。1、object相当于class的单个实例,因此,在object里声明的变量都是静态变量,静态方法。2、在object里声明的变量,都是全局变量,也就是类的公共属性,或者类似于java中父类的属性。伴生对象与伴生类?......转载 2022-07-26 22:40:28 · 1446 阅读 · 0 评论 -
Java 使用AES/CBC/PKCS7Padding 加解密字符串
下载地址http//central.maven.org/maven2/org/bouncycastle/bcprov-jdk16/1.46/bcprov-jdk16-1.46.jar。介于java不支持PKCS7Padding,只支持PKCS5Padding但是PKCS7Padding和PKCS5Padding没有什么区别。要实现在java端用PKCS7Padding填充,需要用到bouncycastle组件来实现。Java使用AES/CBC/PKCS7Padding加解密字符串。...转载 2022-07-26 22:41:00 · 2065 阅读 · 0 评论 -
Scala基础:数组(Array)、映射(Map)、元组(Tuple)、集合(List)
Scala基础数组(Array)、映射(Map)、元组(Tuple)、集合(List)转载 2022-07-26 22:41:17 · 458 阅读 · 0 评论 -
Xms Xmx PermSize MaxPermSize 区别
其中–launcher.XXMaxPermSize(注意最前面是两个连接线)跟-XXMaxPermSize参数的含义基本是一样的,我觉得唯一的区别就是前者是eclipse.exe启动的时候设置的参数,首先JVM内存限制于实际的最大物理内存,假设物理内存无限大的话,JVM内存的最大值跟操作系统有很大的关系。(1)这一部分内存用于存放Class和Meta的信息,Class在被Load的时候被放入PermGenspace区域,它和存放Instance的Heap区域不同。非堆就是JVM留给自己用的,......转载 2022-07-26 22:41:31 · 252 阅读 · 0 评论 -
Hive调优及优化的12种方式
针对于Hive内部调优的一些方式。转载 2022-07-22 00:24:36 · 1411 阅读 · 0 评论 -
文件上传,服务器文件名中文乱码文件上传,服务器文件名中文乱码
有些镜像进去以后,可以先执行locale-a,查看当前容器是否有zh_CN.utf8,如果没有,好像C.UTF-8也可以,如果不想用,可以安装一下zh_CN.utf8,在Dockerfile中添加一行。问题,在windows本地调用文件上传接口时,中文名显示没问题,但是一旦文件上传到Linux服务器之后,就会出现中文乱码问题,如中文名变成?.docker镜像中编码,进入镜像命令kubectlexec-it容器名bash-npod名,查看编码locale。重新部署后还是没有效果。...转载 2022-07-22 00:22:21 · 2873 阅读 · 1 评论 -
Linux升级gcc到最新版本gcc-11.2.0
可在该地址寻找自己需要的版本。转载 2022-07-22 00:21:16 · 705 阅读 · 0 评论 -
FastAPI学习(二)——FastAPI+Jinjia2模板渲染网页(跳转返回渲染页面)
官方文档位置: https://fastapi.tiangolo.com/advanced/templates/ (B站学习网址https://www.bilibili.com/video/av93282315)首先,必须注意的是,FastAPI这个Python Web框架并没有带渲染的网页模板引擎,但是也正因为如此,它可以使用任何网页模板。 官方例子是jinjia2 。 aiofiles是静态网页需要的包特别说明的是,Starlette 是一个轻量级 ASGI 框架/工具包,FastAPI一大特色。然后转载 2022-07-22 00:18:06 · 4741 阅读 · 0 评论 -
java flink 读取ES
/也可以选择setScrollIds()将多个scrollId一起使用。"*********************查询es结果""*********************查询es结果"*分页查询应设备应用安装列表-使用游标。2运行环境flinkstandalone模式。//查询数据searchResponse。*阿里云服务器搭建的ES服务。2、游标方式读取es。...转载 2022-07-22 00:15:16 · 596 阅读 · 0 评论 -
自定义flink es source
这个问题我是这样想的的首先我是5分钟采集一次。然后记录好每五分钟采集的的条数,es的index,采集的时间段。采集成功了就写入到mysql表中做记录。然后如果是因为异常采集失败了。重新启动先去mysql读取上一次采集的位置。然后从下一次记录开始采集。1)思路es中的数据有一个sendTime。也就是发送到es的时间。我们就根据这个时间来增量采集数据。//判断是否是第一次采集。假如我们的程序挂掉了怎么办。//將这一页的数据和scrollId返回。//定义一个标志位,标志这是第一次采集。...转载 2022-07-22 00:13:39 · 428 阅读 · 0 评论 -
Flink写入数据到ElasticSearch (ElasticSearch详细使用指南及采坑记录)
在使用Flink进行数据的处理的时候,一个必要步骤就是需要将计算的结果进行存储或导出,Flink中这个过程称为Sink,官方我们提供了常用的几种Sink Connector,例如:这篇就选取其中一个常用的ElasticsearchSink来进行介绍,并讲解一下生产环境中使用时的一些注意点,以及其内部实现机制。 根据自己所用的filnk版本以及es版本对上面的版本号进行调整 c、扩展配置 经过上面的代码已经实现了一个基础版的EsSink,但是上述代码当ES集群出现波动的时候,由于不具备重试机制则有可能出转载 2022-07-22 00:10:21 · 1267 阅读 · 0 评论 -
flink批量读取es
Flink实时消费kafka数据,数据经过处理,富化、清洗等操作,写入ES。在流式计算中,此场景十分常见。本文采用ES的批量操作BulkProcessor方式,此方式使用的是TransportClient,基于Tcp协议;而rest方式采用的是restClient,基于http协议,并不能保证结果的准确性。...转载 2022-07-22 00:07:19 · 788 阅读 · 1 评论 -
Flink处理kafka中复杂json数据、自定义get_json_object函数实现打印数据
闲话少续,直接上代码,参考官方和咨询钉钉实现转载 2022-07-22 00:05:41 · 1410 阅读 · 0 评论 -
二十三种设计模式及其python实现
本文为博客转载:https://www.cnblogs.com/Liqiongyu/p/5916710.html设计模式是什么?创建型1.Factory Method(工厂方法)2. Abstract Factory(抽象工厂)3. Builder(建造者)4. Prototype(原型)5. Singleton(单例) 结构型6. Adapter Class/Object(适配器)7. Bridge(桥接)8. Composite(组合)9. Decorator(装饰)10. Facade转载 2022-07-22 00:00:12 · 270 阅读 · 0 评论 -
Scala 获取指定目录下的所有文件
想要获取指定目录下的所有文件名,但是Scala中有没有相应的库函数,由于本人是新手,所以弄了半天,好不容易才将网上的一段Scala递归获取指定目录下所有目录的代码改成获取文件名,特在此备忘,也希望高手指点。...转载 2022-07-21 23:32:08 · 727 阅读 · 0 评论 -
Scala Generic 泛型类详解 - T
这里使用了两种定义方法,第一种利用了柯里化添加了隐式参数,可以看到柯里化频繁应用在泛型类,泛型方法的定义中,第二种并没有在参数中显示的表明需要隐式的参数,而是通过implicitly关键字拿到上下文的对象M[T],然后就是上面说的,该隐式值可以应用到内部方法。下面定义了工具类,工具类的子类车辆类,以及车辆的子类轿车类以及乘坐车辆类的方法,这里要求调用driver方法的类必须是Vehicle的子类或同类。当然也可以更泛型一些,这里结合了高阶函数与柯里化,除了元素的泛型外,函数的形式也只做了笼统的要求。...转载 2022-07-21 23:31:04 · 126 阅读 · 0 评论 -
毕业设计-----基于STM32的物联网环境检测系统
代码】毕业设计-----基于STM32的物联网环境检测系统。转载 2022-07-21 23:21:56 · 376 阅读 · 0 评论 -
用Stanford Parse(智能语言处理)去实现分词器
重新定义一个新的分词器,实现Analyzer类,重写其TokenStreamComponentscreateComponents方法。lucene版本lucene4.10.3,引入jar包stanford-parser-3.3.0-models.jar,stanford-parser.jar。TokenStreamComponents以组件的形式包含的lucene3.x版本的filter和tokenizer。//位置增量的属性,存储词之间的距离。//记录最后一个词元的结束位置。...转载 2022-07-21 00:36:19 · 286 阅读 · 0 评论 -
Scala学习——泛型[T]的6种使用
TClassTag的例子。转载 2022-07-21 00:34:32 · 220 阅读 · 0 评论 -
scala 主构造器_Scala主构造器深度
)众所周知,构造函数用于创建类的实例。Scala以与Java不同的方式支持构造函数。在Scala语言中,一个类可以具有两种类型的构造函数主要建设者辅助构造器Scala类只能包含主构造函数,也可以包含主构造函数和辅助构造函数。一个Scala类可以包含一个并且只能包含一个Primary构造函数,但是可以包含任意数量的Auxiliary构造函数。我们将在这篇文章中详细讨论主要构造函数,而在我的后续文章中将讨论辅助构造函数的细节。在进入下一部分之前,我们需要了解类定义和类主体,如下图所示。...转载 2022-07-21 00:30:36 · 241 阅读 · 0 评论 -
scala idea提示函数参数
即()=>{},这个函数的参数是元组,即(string,int),返回类型为B(这个B我没搞懂)转载 2022-07-21 00:24:32 · 73 阅读 · 0 评论 -
Scala 当用到.contains() .exists()的性能问题
的2.5x(通常是1.5x,但是Vector有一个基本的树形结构,快速遍历起来不是那么快?(默认由Hash表实现)用contains查找是最快的,因为它们计算hash值然后立即跳到正确的位置。例如,如果你想从一个1000项的list中找一个任意。是特别差的,如在List上使用exists比Set上快大约8倍,如果都是1000个元素的话。直觉上,我认为向量应该是最快的随机检查,如果有一个知道数值应该是在开头检查的话,列表是最快的。()”或”.exists()”时,哪种数据结构的性能是最好的?...转载 2022-07-21 00:22:28 · 263 阅读 · 0 评论 -
squid代理服务+ip代理池
启动服务出现Failedtomakeswapdirectory/var/spool/squid,就修改权限chownsquidsquid/var/spool/squid。实测做的是,直接拿redis里ip配置到squid,使用的是这个项目https//github.com/AaronJny/open_proxy_pool。请求获取代理,然后直接写入squid配置https//github.com/xNathan/squid_proxy_pool。来提供代理ip转发切换功能。...转载 2022-07-21 00:04:33 · 895 阅读 · 0 评论 -
shell生成连续天数日期
shell生成连续天数日期。转载 2022-07-19 00:49:49 · 221 阅读 · 0 评论 -
Linux用netstat查看服务及监听端口详解
netstat-t/-u/-l/-r/-n【显示网络相关信息,-tTCP协议,-uUDP协议,-l监听,-r路由,-n显示IP地址和端口号】-A或–列出该网络类型连线中的相关地址。-l或–listening显示监控中的服务器的Socket。-N或–netlink或–symbolic显示网络硬件外围设备的符号连接名称。...转载 2022-07-19 00:44:25 · 8714 阅读 · 0 评论 -
cpu核数和逻辑个数的区别_CPU逻辑核心数和物理核心数是什么意思?
linux的cpu核心总数也可以在/proc/cpuinfo里面通过指令cat/proc/cpuinfo查看的到,其中的coreid指的是每个物理CPU下的cpu核的id,能找到几个coreid就代表计算机有几个核心。实际上逻辑CPU的数量就是平时称呼的几核几线程中的线程数量,在linux的cpuinfo中逻辑CPU数就是processor的数量。这样一来,操作系统可使用的执行资源扩大了一倍,大幅提高了系统的整体性能,此时逻辑cpu=物理CPU个数×每颗核数x2。...转载 2022-07-19 00:41:57 · 2794 阅读 · 0 评论 -
vi/vim 中如何在每行行首或行尾插入指定字符串
删除先按v,进入visual模式,横向选中列的个数(如”#"注释符号,需要选中两列),再按Esc,再按ctrl+v进入列编辑模式,向下或向上移动光标,选中注释部分,然后按d,就会删除注释符号(#)。注释ctrl+v进入列编辑模式,向下或向上移动光标,把需要注释的行的开头标记起来,然后按大写的I,再插入注释符,比如"#“,再按Esc,就会全部注释了。PS当然不一定是shell的注释符"#“,也可以是”//",或者其他任意的字符;在全部内容的行首添加//号注释。在2~50行首添加//号注释。...转载 2022-07-19 00:40:13 · 5266 阅读 · 0 评论 -
Linux统计文件夹下的文件数目
Linux下有三个命令ls、grep、wc。通过这三个命令的组合可以统计目录下文件及文件夹的个数。转载 2022-07-19 00:38:47 · 3123 阅读 · 0 评论 -
nginx配置:server_name的作用
servername为虚拟服务器的识别路径。因此不同的域名会通过请求头中的HOST字段,匹配到特定的server块,转发到对应的应用服务器中去。转载 2022-07-18 20:38:22 · 967 阅读 · 0 评论