小夕Coding
大厂程序员,阿里P9
展开
-
python使用 spark 计算tfidf
首先,将文档转换为DataFrame,然后使用HashingTF将文本转换为词频向量,接着使用IDF将词频向量转换为TF-IDF向量。在Spark中,你可以使用RDD(Resilient Distributed Dataset)和Spark的MLlib(Machine Learning Library)来计算词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。原创 2024-02-17 08:42:30 · 399 阅读 · 0 评论 -
Spark广播变量的探究
第一种原因其实就是涉及到闭包的概念,闭包简单来说就是屏蔽方法外部变量,而进入方法内部的变量只是作为外部变量的一个副本,因为Spark是分布式框架,传给Task的方法是一个天然的闭包,所以方法使用到的属性都会被复制。如果广播变量使用不恰当的话这个大对象还是会被复制到所有的Task中,正确的使用应该是:在call(){}方法体也就是lambda方法体内才将广播变量展开把里面的对象拿出来,不能在call(){}方法体外部展开,不能在包含call(){}方法体的对象构造函数中展开拿出里面的values值。原创 2024-02-17 08:40:05 · 358 阅读 · 0 评论 -
Java中使用Spark广播变量
Apache Spark的广播变量用于将一个大型变量广播到所有工作节点上,以便于这些节点可以在执行任务时访问这个变量,而不是在网络中传输这个变量,从而减少通信成本。在Java中使用Spark广播变量的一个常见用途是在分布式算法中共享一个大的只读查找表或者数据集。以下是一个简单的教程,说明如何在Java中使用Spark广播变量。原创 2024-02-17 08:33:42 · 311 阅读 · 0 评论 -
HDFS数据的写入原理
我再描述一下问题哈,warm策略的时候,写文件第一个block块写入本节点的disk,另外两个block异步写入archive,hot策略的时候,第一个block块写入本节点disk,另外两个异步写入其他节点disk,所以无论是warm还是hot写数据的耗时都是第一个block块写入本地disk的时间,应该性能是一样的,但实际warm耗时远多于hot,想知道原因和解决方法。第二个问题不应该关心才对啊,因为是挂载的NAS盘到所有DN,真的在有数据写入的时候,会有IO争用的问题,所以会慢。原创 2023-10-31 08:36:26 · 369 阅读 · 0 评论 -
Java SE教程一
所有的Java语句必须以;结尾!无论是()[]还是{},所有的括号必须一一匹配!主方法的代码只能写在{}中!转载 2023-01-13 21:43:25 · 333 阅读 · 0 评论 -
毕业设计:使用朴素贝叶斯及softmax回归方法进行文本分类(有数据集提供)
毕业设计:使用朴素贝叶斯及softmax回归方法进行文本分类(有数据集提供)原创 2021-04-24 14:45:16 · 823 阅读 · 0 评论 -
一个简单的金融计算器,用tkinter实现GUI的交互。
需求: 一个简单的金融计算器,用tkinter实现GUI的交互。 计算所有金融要计算的值, 预算500。tvm、npv、现金流、简单计算器、房贷摊销计算器等,利率转换SMPL,单利计算,主要功用是做现金规划;CMPD,复利计算,主要功用是做房产规划、教育规划、养老规划;CASH,现金流量,主要功用是做现金规划、房产规划;AMRT,年线摊销,主要功用是做房产规划。具体成品如下所示具体代码如下所示文章目录**calculate.py****options.py**fc_show.py原创 2021-01-29 21:37:10 · 453 阅读 · 0 评论 -
三年Java开发经验的项目负责人, 吐血整理Java基础知识点:注解和反射,限Java开发者阅读
2017年从Java,三年负责了已落地九个Java项目, 我将三年对Java的了解,吐血整理Java基础知识点:注解和反射,限Java开发者阅读文章目录`Java注解和Java反射`注解是什么一句话概括内置注解在`java.lang`中的注解在`java.lang.annotation`中的注解自定义注解定义注解不带参数的注解带参数的注解元注解含义解释`@Retention(RetentionPolicy.RUNTIME)``@Documented``@Target(ElementType.TYPE)``原创 2021-01-31 16:11:07 · 519 阅读 · 0 评论 -
Java程序是怎样在Linux系统上跑起来的
系统基础知识首先我们得知道系统运行程序是依靠CPU的,我们先来分析CPU的工作原理。现代 CPU 芯片中大都集成了:控制单元、运算单元、存储单元。控制单元是 CPU 的控制中心, CPU 需要通过它才知道下一步做什么,也就是执行什么指令,控制单元又包含:指令寄存器(IR ),指令译码器( ID )和操作控制器( OC )。当程序被加载进内存后,指令就在内存中了,这个时候说的内存是独立于 CPU 外的主存设备,也就是 PC 机中的内存条。指令指针寄存器 IP 指向内存中下一条待执行指令的地址,控制单元根据原创 2022-02-19 15:47:52 · 343 阅读 · 0 评论 -
【JanusGraph系列】JanusGraph的搭建
【JanusGraph系列】JanusGraph的搭建原创 2021-04-15 10:45:49 · 550 阅读 · 0 评论 -
Java day07-综合练习
需求: 机票价格按照淡季旺季、头等舱和经济舱收费、输入机票原价、月份和头等舱或经济舱。 按照如下规则计算机票价格:旺季(5-10月)头等舱9折,经济舱8.5折,淡季(11月到来年4月)头等舱7折,经济舱6.5折。转载 2023-01-07 16:45:53 · 240 阅读 · 0 评论 -
Spring Boot + MySQL 开发的博客系统
Spring Boot + MySQL 开发的博客系统原创 2021-04-24 14:01:26 · 303 阅读 · 0 评论 -
拉钩作业:Bikeshare数据集 预测共享单车骑行量
原始数据集地址:http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset文件说明day.csv: 按天计的单车共享次数(作业只需使用该文件)hour.csv: 按小时计的单车共享次数(无需理会)readme:数据说明文件字段说明 Instant记录号 Dteday:日期 Season:季节(1=春天、2=夏天、3=秋天、4=冬天) yr:年份,(0: 2011, 1:2012) mnth:月份( 1 to 12) hr:小时 (0原创 2021-02-07 17:30:14 · 1282 阅读 · 0 评论 -
链家武汉租房信息爬取并可视化数据分析
爬取的信息内容:`区域,标题,二级区域,小区名字,大小,朝向,户型,租金`原创 2021-04-23 14:24:21 · 1685 阅读 · 2 评论 -
Java web服务器使用
bin:可以执行文件。conf:tomcat服务器的配置文件lib:tomcat启动后需要依赖的jar包logs:tomcat工作之后的日志文件webapps:是tomcat部署工程的目录。work:jsp文件在被翻译之后,保存在当前这个目录下,session对象被序列化之后保存的位置tomcat下载:双击启动:startup.bat 访问:http://127.0.0.1:8080/原创 2023-01-14 20:28:47 · 157 阅读 · 0 评论 -
利用SpringBoot + Python 爬虫进行小说网站数据分析
利用爬虫进行小说网站数据分析介绍利用爬虫、数据分析和挖掘相关方法进行小说网站的“小说分类”数据分析软件架构Javaweb前端负责显示Javaweb后端负责处理请求,访问数据库controller层 负责处理请求service层 负责业务逻辑处理与数据分析dao层 负责数据库访问bean层 数据库数据模型数据爬取和数据清洗使用python脚本完成安装教程项目主体用SpringBoot(eclipse)完成,按照相应方式部署主体即可;python脚本依赖包爬虫:原创 2021-04-15 09:10:56 · 1156 阅读 · 0 评论 -
【IDEA系列】详述 IntelliJ IDEA 远程调试 Tomcat 的方法
【IDEA系列】详述 IntelliJ IDEA 远程调试 Tomcat 的方法原创 2021-04-13 00:03:44 · 313 阅读 · 0 评论 -
【Mysql系列】Mysql数据库使用指南
【Mysql系列】Mysql数据库使用指南原创 2021-04-13 10:47:18 · 375 阅读 · 0 评论 -
微博热搜爬取生成词云
微博热搜爬取生成词云原创 2021-05-13 13:42:34 · 999 阅读 · 0 评论 -
【Java系列】Spring常见知识点
【Java系列】Spring常见知识点原创 2021-04-21 07:48:24 · 251 阅读 · 0 评论 -
【Java基础】Java基础之 Scanner 扫描器详解
【Java基础】Java基础之 Scanner 扫描器详解原创 2021-02-27 00:06:52 · 876 阅读 · 0 评论 -
Java封神之路:Java面试备战(十一)
Java封神之路:Java面试备战(十一)原创 2021-02-23 10:55:00 · 235 阅读 · 0 评论 -
睿慕课三维点云处理课程作业代码 --- -
睿慕课三维点云处理课程作业代码 --- -原创 2021-05-26 22:05:44 · 651 阅读 · 0 评论 -
基于Python + Flask + PyEcharts + Bootstrap实现疫情可视化平台
基于Python + Flask + PyEcharts + Bootstrap实现疫情可视化平台原创 2021-04-14 00:20:35 · 1685 阅读 · 2 评论 -
Python数据分析报告:北京市每月PM2.5的值和分析影响PM2.5
根据北京市2010-2014年的PM2.5数据,预测北京市每月PM2.5的值和分析影响PM2.5的主要因素。具体的数据如下数据处理环境:Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。我们选择anaconda环境,在jupyter notebook进行代码编写。我们导入模块,使用pandas读取数据集import pandas as pdimport matpl原创 2021-01-22 15:08:57 · 2553 阅读 · 3 评论 -
JavaSE笔记(二)
返回值类型 ] 方法名称([ 参数 ]) {//方法体 return 结果;返回值类型:可以是引用类型和基本类型,还可以是void,表示没有返回值方法名称:和标识符的规则一致,和变量一样,规范小写字母开头!参数:例如方法需要计算两个数的和,那么我们就要把两个数到底是什么告诉方法,那么它们就可以作为参数传入方法方法体:方法具体要干的事情结果:方法执行的结果通过return返回(如果返回类型为void,可以省略return)非void方法中,return。转载 2023-01-13 21:44:17 · 173 阅读 · 0 评论 -
FLask企业登记信息数据管理系统
FLask企业登记信息数据管理系统原创 2021-04-22 08:28:20 · 580 阅读 · 0 评论 -
本科毕业设计:肖申克的救赎影评爬取分析
本科毕业设计:肖申克的救赎影评爬取分析原创 2021-04-25 15:05:41 · 1180 阅读 · 2 评论 -
JavaSE笔记(三)
/直接继承即可 } public static void main(String [ ] args) throws MyException {//直接使用 }throw new MyException("出现了自定义的错误");try {throw new MyException("出现了自定义的错误");//捕获父异常类型 System . out . println("捕获到异常");转载 2023-01-13 21:44:50 · 77 阅读 · 0 评论 -
Flask 在线外卖订餐系统
本项目为数据库原理及应用大作业,在线外卖订餐系统《西柚の外卖屋》, 基于Flask框架+MySQL数据库开发,轻量简洁。项目模块及功能介绍本系统包括登录模块、注册模块、商家用户模块、买家用户模块、系统管理员模块。具体功能介绍如下:登录模块 选择管理员、商家用户、用户三种身份登录 将输入的用户名与密码与数据库中的数据进行对比验证注册模块 选择商家用户、用户两种身份注册 将注册信息(用户名、密码、电话、地址)存入数据库商家用户模块 维护商家个人信息(店名、地址、联系.原创 2021-06-09 00:03:47 · 705 阅读 · 2 评论 -
Java常见工具类:Date类与Calender类
java.util包提供了Date类来封装当前的日期和时间。另一个是接收一个long型参数date的构造方法Date(long date),用于创建指定时间的Date对象,其中date参数表示1970年1月1日0时0分0(称为历元)以来的毫秒数,即时间戳。DateFormat是抽象类,不能被直接实例化,该类提供了一个SimpleDateFormat类,可以使用new关键字创建实例对象,它的构造方法接收一个格式字符串参数,表示日期格式模板,使用format()方法对日期进行格式化。原创 2023-01-26 11:27:16 · 573 阅读 · 0 评论 -
【Django系列】Django模板所有知识点总结
【Django系列】Django模板所有知识点总结原创 2021-04-20 09:51:55 · 388 阅读 · 0 评论 -
【Java系列】Spring MVC常见知识点
【Java系列】Spring MVC常见知识点原创 2021-04-21 07:49:37 · 217 阅读 · 0 评论 -
Java 常见工具类: 包装类
包装类型和基本数据类型的名字基本相同,首字母变成了大写,但是int和char的包装类型为Integer和Character。基本数据类型不是对象层次结构的组成部分。有时需要像处理对象一样处理这些基本数据类型,可通过相应的“包装类”来将其“包装”。表 基本数据类型及其包装类型基本类型包装类booleanBooleanbyteBytecharCharacterdoubleDoublefloatFloatintIntegerlongLongshortShort。原创 2023-01-25 15:27:43 · 141 阅读 · 0 评论 -
【Java进阶学习】 Servlet接口规范和7种请求方式的处理
【Java进阶学习】 Servlet接口规范和7种请求方式的处理原创 2021-02-25 08:53:30 · 359 阅读 · 1 评论 -
java面向对象 和类
1.java面向对象概述面向对象简称 OO(Object Oriented),20 世纪 80 年代以后,有了面向对象分析(OOA)、 面向对象设计(OOD)、面向对象程序设计(OOP)等新的系统开发方式模型的研究。面向对象是一种思想,能让复杂问题简单化,程序员不需要了解具体的实现过程,只需要指挥对象去实现功能。对 Java 语言来说,一切皆是对象。把现实世界中的对象抽象地体现在编程世界中,一个对象代表了某个具体的操作。一个个对象最终组成了完整的程序设计,这些对象可以是独立存在的,也可以是从别的原创 2022-02-09 17:49:23 · 515 阅读 · 0 评论 -
某高校的机器学习与数据挖掘大作业
作业选题实验一:《多源数据集成、清洗和统计》实验二:《数据统计和可视化》实验三:《k-means聚类算法》实验一实验二成绩1和体测成绩的散点图x轴:成绩1y轴:体测成绩链接:https://pan.baidu.com/s/1zCOLdy0x52XOKOkTOWRWnQ提取码:viui复制这段内容后打开百度网盘手机App,操作更方便哦...原创 2021-05-28 14:09:19 · 1526 阅读 · 0 评论 -
【Java进阶学习】JSP介绍和使用、语法和指令
【Java进阶学习】JSP介绍和使用原创 2021-02-25 09:01:13 · 268 阅读 · 0 评论 -
[Java核心基础】Java多线程编程详细入门教程
[Java核心基础】Java多线程编程详细入门教程原创 2021-02-27 00:06:32 · 618 阅读 · 2 评论 -
【IDEA系列】详述 IntelliJ IDEA 中自动生成 serialVersionUID 的方法
【IDEA系列】详述 IntelliJ IDEA 中自动生成 serialVersionUID 的方法原创 2021-04-13 00:03:14 · 531 阅读 · 0 评论