- 博客(6)
- 收藏
- 关注
原创 SparkStreaming
参考大数据技术之Spark(三) SparkStreaming在讲sparkStreaming是什么之前首先讲一下为什么要有SparkStreaming。Hadoop 的 MapReduce 及 Spark SQL 等只能进行离线计算,无法满足实时性要求较高的业务 需求,例如实时推荐、实时网站性能分析等,流式计算可以解决这些问题。目前有三种比较 常用的流式计算框架,它们分别是 Storm,Spark Streaming 和 fink。它们三个的区别如下:1、SparkStreaming绝对谈不上比Stor
2023-11-10 11:11:54 249 1
原创 O2O优惠券预测
训练数据集和测试数据集的目的是为了验证模型在未知数据上的表现,以评估其泛化能力。一般而言,训练数据集占总数据集的大部分(例如 70-80%),而测试数据集占总数据集的一小部分(例如 20-30%),具体比例取决于具体问题和数据集规模。在O2O优惠卷预测案例中,我们会把所有的数据分为训练数据集和测试数据集,训练数据集和测试数据集是用于训练和验证模型性能的两个不同数据集。,将数据集分割为多个训练和测试子集,多次训练和测试模型,并综合评估结果。需要注意的是,为了更好地评估模型的性能,还可以使用。
2023-11-04 16:58:11 1206 1
原创 xshell中常见的命令
mkdir -p this/that/theother 在当前目录下建立指定的嵌套子目录。ls -la 给出当前目录下所有文件的一个长列表,包括以句点开头的“隐藏”文件。cd ~ 切换到用户目录,比如是root用户,则切换到/root下。ls -l *.doc 给出当前目录下以.doc结尾的所有文件。cd dir 切换到当前目录下的dir目录。cd /tmp 切换到目录/tmp。cd ~ 切换到主目录。cd / 切换到根目录。cp 源路径 目标路径。mv 源路径 目标路径。
2023-11-03 11:12:02 646
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人