实战项目讲解
文章平均质量分 51
hadoop&web&java等实战项目
帅气多汁你天哥
喜欢孤独的猿,热爱篮球,Java,LOL,创业,电影,睡觉,硬科幻,CNN,钢铁侠,军迷
展开
-
Attention 普通注意力机制详解 (二)
注意力入门普通注意力机制的了深入理解因为GRU每次输入都是一个词一个词的输入,那么普通的Seq2seq框架 就需要每个词算一遍 注意力权重并对解码器输出进行bmm计算,得到加权的解码器词向量输出 这样解码器的GRU每次解码的时候不是仅仅只考虑当前的一个词,而是考虑前后3个词甚至更多个词才会将这个词翻译前向传播的结构就是这样,那么反向传播就是整个学习过程的精华,解码器GRU通过logsoftmax计算概率损失, 这样会知道每个词翻译错误的误差 然后向下传播知道每个词翻译的误差后 , GRU的权原创 2021-10-29 17:05:00 · 698 阅读 · 1 评论 -
Seq2Seq attention 英译法 代码实现+ 注意力机制详解 (一)
话不多说上代码数据加载类from io import openimport unicodedataimport reimport randomimport torchimport torch.nn as nnimport torch.nn.functional as Ffrom torch import optim# 注册驱动device = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 起始标志SO.原创 2021-10-28 01:15:03 · 609 阅读 · 0 评论 -
英雄联盟大乱斗一个队出现两个杰斯-多线程死锁
我们都知道上方的筛子,自己选择重新摇或者选择上方英雄池中的英雄时,会有10秒的cd进入不可选择状态,而这样设计就是为了避免两个线程竞争一个相同资源的设计.用人话说就是两个人如果同时选择一个英雄怎么办,如果有重复英雄像杰斯这样的poke就严重影响游戏平衡所以必须使用线程保护机制,更换英雄后的10秒,本地线程进入sleep不可更改如图,java程序员基本功?当然了,谁不想研究下这个bug怎么复现.从网上看了看这个bug是21年3月份出现的目前再出现这种情况游戏应该不会开始,个人猜测类似java的全局.原创 2021-06-15 16:54:38 · 1512 阅读 · 4 评论 -
新闻推荐系统数据处理
所有内容均在视频内,源码以及框架在2021年6月开源敬请期待 新闻推荐系统原创 2021-05-21 00:12:48 · 246 阅读 · 0 评论 -
新闻推荐系统-项目介绍(PRD)
环境介绍语言环境:1.java1.82.scala2.1.1IDE:eclipse2015(java)myeclipse2017(scala)依赖环境:maven3.6.3sbt1.2.1技术栈:Java 1.8springboot(web服务)webmagic(爬虫)seleinum(爬虫)mysql(8.0)linux shell(算法部署环境)scala 2.1.1(使用jvm1.8) spark2.0(计算框架)spark mlib(机器学习库)maven(j原创 2021-05-13 00:33:38 · 5324 阅读 · 11 评论 -
scala机器学习-保险预测(二) LR线性回归预测保险回归严重性
处理完需要用的数据集后需要使用spark-ml框架中的lr模型进行训练并使用10折交叉验证预测保险索赔严重性package com.wtx.job014import org.apache.spark.ml.regression.{ LinearRegression, LinearRegressionModel }import org.apache.spark.ml.{ Pipeline, PipelineModel }import org.apache.spark.ml.evaluation.Reg原创 2021-04-05 19:56:52 · 592 阅读 · 2 评论 -
scala机器学习-保险预测-第一节
spark好久不用先熟悉一下sql的apipackage com.wtx.job014import org.apache.spark.sql.SparkSessionobject demo2 { def main(args: Array[String]): Unit = { val train = "file:\\C:\\Users\\86183\\Desktop\\scala_machine_leraning_projects\\ScalaMachineLearningData\\原创 2021-03-30 23:03:46 · 404 阅读 · 2 评论 -
Java-POI大数据分析 -实体店选址POI数据分析-5天,多网站爬虫数据融合处理
实体店选址大数据分析-保定地区-POI数据-powermap-爬虫获取真实数据 讲一下项目的思路预期通过获得poi数据进行分析,以为实体店选址进行决策数据源58同城店铺转让数据安居客小区详细信息数据安居客小区平均房价数据上爬虫代码package wubaSpider;import java.io.FileOutputStream;import java.io.IOEx...原创 2021-03-25 18:06:18 · 651 阅读 · 0 评论 -
Java-openCV 数据增强4小时实现小样本数据集扩大
java opencv的环境搭建就不在赘婿了~直接上代码io递归读取文件代码package imgPorjectDataManager;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.util.ArrayList;import原创 2021-03-03 20:56:27 · 507 阅读 · 1 评论 -
Java IO实现文件管理,改名,删除,移动,复制粘贴等
import java.io.File;import java.io.FileNotFoundException;import java.util.ArrayList;import java.util.Collection;import java.util.Collections;import java.util.Date;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;原创 2021-01-29 22:36:23 · 233 阅读 · 0 评论 -
Boss爬虫&数据分析ETL&BI数据可视化展示&Echarts
项目网址:http://47.242.82.87:8089/项目效果图:全国的岗位供需项目说明首先着眼于当下严峻的就业形势,我们需要知道各个行业的供需关系以及薪酬范围.大到全国薪酬,小到城市平均薪酬,细致到每个公司历史招聘数据都要保留并加以分析技术栈爬虫:webmagic框架+selenium爬取动态页面Springboos数据交互Dom4j解析数据IO流递归读取文件Linux shell命令Html.css.js流程3.1首先使用爬虫实现动态页面的原创 2021-01-09 23:17:33 · 451 阅读 · 0 评论 -
SpringBoot整合mybatise-看着篇就对了,其他的都是骗人的!初学爬坑指南
步骤1.导入依赖<!-- mysql --> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> </dependency> <dependency> <groupId>org.springframework.bo原创 2020-12-02 01:06:12 · 111 阅读 · 0 评论 -
菜鸟初探ETL全流程-Jar源码+shell自动化脚本实现Hadoop分布式自动化部署到Hive中
ETL流程ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。数据源:微博评论数据数据格式Contont数据格式颈椎肩周保健操 http://t.cn/a96LQZ (分享自 @56网)2012-4-5 21:53:5430颈椎保健操完整演示 http://t.cn/hbDyeB (分享自 @56网)2012-4-5 21:51:5131htt原创 2020-12-03 15:11:51 · 751 阅读 · 0 评论 -
生干六个小时 TVT 微博舆情ETL数据分析详解,手把手教你HSQL分析数据
接上一篇ETL流程化处理数据,本篇基于ETL生成的数据进行清洗和分析…清洗不太会,没有洗衣粉,将就看HSQL吧,主要是开窗函数和优先级之间的关系,剩下的就是语法,就是干…MD数据格式请看上一篇两个表 一个是use用户信息表,一个是content评论表,两个维度表Table格式在这里这个是Content表,words字段是评论区的内容,大部分都是以@分割的评论或转发内容,lotime字段是时间,其他字段不重要,city和location一个是评论数一个是转发数,这里是谁不重要,只是映射关键是技术的掌原创 2020-12-05 00:44:26 · 554 阅读 · 0 评论 -
Linux常用命令总结
cd 移动mkdir 创建文件夹rm -r 删除指定/递归删除,不带/是相对定位touch 创建文件echo “xxx” >>xxxx 插入文件find 当前目录下找文件cp 复制 cp xxx /xxx/xx/xmv 移动 mv xxx.text /sad/adcat 查看文件 cat sss.textvim 编辑文件 wq退出head 查看文件从头开始第几行tail 查看文件从尾开始第几行cp 本地传输scp 远程传输scp 文件名[] 机器名:原创 2020-12-08 12:34:06 · 94 阅读 · 0 评论 -
OLAP常用命令总结
分析函数、窗口函数、Over从句分析函数:ntile() :数据分片,100条数据,切成10片,自动平均配平序列数量row_number: 先查询排列在前的进行排序,依次进行,列相同比较下一位,可以用作分页,数据有规律rank():排序1,2,2,4,4,6dense_rank():1,2,3,3,4窗口函数lag(col,n,default):第一个参数是列名,第二个参数是往上第几行,默认为1,第三个参数为默认值,往上第n行为null时,取默认值,不指定,为nulllead(col,n,原创 2020-12-09 10:10:32 · 205 阅读 · 0 评论 -
Hive数据分析常用命令总结
用chmod 755命令解决./运行shell脚本问题show partitions weibo_origin;alter table weibo_origin drop partition(day_seq=‘20120103’);删除分区,展示分区,创建分区,create表数据构成元数据:metadata,描述数据的数,表结构.实体数据:entity dataHive内表和外表的区别和联系联系:元数据归Hive管理区别:内标的实体数据也归hive管理,只要删除表,则实体数据跟随一起删除原创 2020-12-09 10:11:12 · 217 阅读 · 0 评论 -
GitHub&GitLab常用命令总结
git add 提交本间到缓存区git commit -m “备注”提交文件到本地库git status 查看版本库状态git diff 查看工作区与暂存区的区别,也就是当前未提交的改动和缓存区之间的区别git diff --catched 查看缓存区与版本库区别git diff HEAD 查看工作区改动与版本库(本地仓库)中的区别和改动git diff 版本号 版本号 比较两个版本之间的差异git log 查看全部日志git reflog 查看抽象日志,提供简洁版本号git原创 2020-12-21 11:58:57 · 285 阅读 · 0 评论 -
Linux遇到一些难以解决的问题的时候的解决方式
command & : 后台运行,你关掉终端会停止运行nohup command & : 后台运行,你关掉终端也会继续运行ps -ef | grep procedure_name | grep -v grep | awk ‘{print $2}’ | xargs kill -9kill -9杀进程nodpad++解决换行符’\r’不识别问题当你用shell写hive的脚本的时候,千万别用nodpad++,哪怕它自带shell模式,但是他还是有各种不可知错误,比如字符模式复制过去后v原创 2020-12-21 12:02:52 · 143 阅读 · 0 评论 -
UBANTU修改休眠模式
设置不休眠这里需要一个组合刍,Ctrl – Alt – T 组合键用来打开终端;然后运行下面的命令打开 logind.conf 文件,你的所有修改都在这个文件内。sudo gedit /etc/systemd/logind.conf打开文件后修改下面这行:#HandleLidSwitch=suspend改成这样:HandleLidSwitch=ignore保存文件,重启 Login Manager 服务:sudo restart systemd-logindUbuntu系统不睡眠设置完成,配置文原创 2020-12-21 12:05:11 · 227 阅读 · 0 评论 -
HIVE中ORC和RC两种文件格式的大小比较
首先,ORC和RC基本一致,是使用行列式存储有数据结构的数据因为每列按照字段属性存储,那么按列储存时存在相同内容的概率是是在正态分布中趋于最大值,而按照行存储,每行出现相同内容的概率是趋于离散的那么按行压缩,就会极大提高效率,口说无凭,来看实例INFO : OK±---------------------------------------------------+| createtab_stmt |±---------原创 2020-12-21 12:22:31 · 878 阅读 · 0 评论 -
伪分布式Ubuntu系统搭建Hadoop-hive 2.7.4
系统环境Ubuntu 16.04Hadoop 2.7.4Java 1.8.0_111hadoop集群master:192.168.19.128MySQL安装在master机器上,hive服务器也安装在master上hive版本: https://mirrors.cnnic.cn/apache/hive/hive-2.3.0/apache-hive-2.3.0-bin.tar.gz2.mysql安装本文使用MySQL作为远程元数据库,部署在master节点上2.1安装mysql安装m.原创 2020-12-28 00:29:17 · 228 阅读 · 0 评论 -
宝塔部署java项目建站最全爬坑博客-为啥叫最全,因为我爬的坑最多
1.首先你要有阿里云+域名,然后在阿里云上解析A类你的域名,这就不多说了2.进入宝塔面板后,你要先安装环境,最好是编译安装,因为求稳,急速安装不稳定,但是像tomcat这类app程序没有编译安装哦环境如果都安装好了,那么我们就开始配置项目了首先,要看我们需要运行的项目是什么,我装配的是ssm项目,这个只是看个人兴趣爱好,对springboot的thymelf不太感冒,还是用jsp用的习惯,当然springboot部署起来比ssm简单多了,java -jar 你的jar包.jar (如果有分离打包原创 2020-12-28 17:00:52 · 339 阅读 · 0 评论 -
boss爬虫连淦6小时-webmagic+selenium实现
说一下自己的需求,该找工作了,那么就要做好充足的准备,先把市面上能找到的工作都收集好,看看那个适合自己把.爬了很多坑,首先webmagic框架的爬虫监控不是特别友好,如果想实时监管,需要改源码之类的,这种扩展太麻烦了,毕竟不是爬虫工程师…其次,动态页面的数据,解密起来挺费劲,需要使用postman来查找api,想想还是太麻烦,我们还是先实现在优化把1.最好用maven的springboot来搞,因为他自带sljf,是这么叫吗?我自己单独配了半天它的依赖还是看不了状态,放到springboot上一跑,果原创 2020-12-29 23:34:37 · 883 阅读 · 0 评论 -
Boss爬虫prd文档
Boss数据分析项目说明首先着眼于当下严峻的就业形势,我们需要知道各个行业的供需关系以及薪酬范围.大到全国薪酬,小到城市平均薪酬,细致到每个公司历史招聘数据都要保留并加以分析技术栈爬虫:webmagic框架+selenium爬取动态页面Springboos数据交互Dom4j解析数据IO流递归读取文件Linux shell命令Html.css.js流程3.1首先使用爬虫实现动态页面的数据捕获3.2 输出流将元数据保存成文件3.3读取数据文件3.4 数据结构化3.5 数据持久化原创 2021-01-02 02:13:53 · 226 阅读 · 0 评论 -
搭建实时数据仓库-微博博文实时数据分析项目说明书PRD以及问题疑难问题解决思路
项目说明根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求具体需求说明构建实时数据流仓库以小时为单位,构架小时级的实时数流数据仓库数据监控工作以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示Product Requirement D.原创 2021-01-02 15:30:25 · 424 阅读 · 0 评论 -
Spring排错总结-找了两个小时的大坑!!!!!!!!!tm的-sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
org.springframework.web.util.NestedServletException: Request processing failed; nested exception is org.thymeleaf.exceptions.TemplateProcessingException: Exception evaluating SpringEL expression: "exception.message" (error) at org.springframework.web.se..原创 2021-01-03 16:28:07 · 1851 阅读 · 0 评论 -
SparkStreaming消费kafka时遇到消费元数据时报错的问题
[2021-01-08 00:21:25,094] WARN [Producer clientId=console-producer] Error while fetching metadatawith correlation id 1 : {wtxKafkaTestls=LEADER_NOT_AVAILABLE} (org.apache.kafka.clients.NetworkClient)之前的topic已经创建过多次,不知道是什么原因,现在正在排错...原创 2021-01-08 00:26:43 · 448 阅读 · 0 评论 -
搭建Spark实时数据流爬坑指南
为什么要搭建实时数据流?首先不管什么公司,只要是hadoop搭建实时数据项目,那么就要实现第一步,搭建实时数据流,那么不挂你是谁,都不可能直接访问后端组的kafka或者说,集群是公司最核心的东西,需要解耦给你访问那么一般解决方式就是使用springboot搭建实时数据流,让公司其他业务部门,或者采集工程师的数据通过给定的api发送过来springboot就不多说了,来说说实践中遇到的坑技术问题1.Linux curl :简易无头浏览器,使用curl + url地址直接请求2.http get和原创 2021-01-09 21:56:22 · 194 阅读 · 0 评论 -
sparkStreaming消费到数据后,Redis的key设计问题
首先,需要确保监控的实时性,stream滑动窗口5秒滑动一次,当stream获取到数据后,需要存到redis的hll数据结构中,那么k-v形式的数据库,k的设计就很关键,如何设计?2012-01-02 00:23:03数据流中存在这样格式的时间,那么按照每5分钟一次的间隔存储数据,可以保证监控的时效以及对集群的负载的一个平衡,那么key的原则每5分钟一次,第5分钟算作前一个,例如 05:00算作00分钟的数据,而05:01算作05的数据这样显而易见的清晰那么同步数据的窗口一定要大于5分钟才可以,我们可原创 2021-01-09 22:12:25 · 100 阅读 · 0 评论 -
key算法问题
2012-01-02 00:23:03首先我们需要两个算法算法1:输入: 2012-01-02 00:23:03输出: 201201020023算法2:输入: 2012 ,1 ,2输出:当天全部2012010200xx key的集合算法1的实现:Scala streaming RDD代码: messages.foreachRDD(x => { x.foreach(part => { val colArray = UrlBase64Util.de原创 2021-01-09 22:13:23 · 495 阅读 · 0 评论 -
task not Serializable 集群分布式环境下RDD对jedis对象序列化的要求
首先复习一下知识点:Java 如何序列化对象类要实现Serializable接口,类内外部依赖同样需要实现如果一个属性或者对象不想被序列化,那么就是用transient关键字修饰那么在Java中,什么类型对象不能被序列化线程对象不能被序列化:独立线程外部无法访问,并且线程是为了进行任务的执行,而不是储存链接对象不能被序列化(jdbc):端口用来传输数据,这种链接对象是没有办法序列化的RDD的概念是什么RDD (Resilient Distributed DataSet)弹性分布式数据集,是对原创 2021-01-09 22:14:44 · 237 阅读 · 1 评论 -
Echarts&Ajax动态传递数据
控制类@Controllerpublic class HbaseControllor { HbaseReadeTable hbaseReadeTable=new HbaseReadeTable() ; @RequestMapping("getData4Hbase2Echarts") public String getData4Hbase2Echarts(Model model) throws Exception{ JSONArray arr=new JSONArray(); JSON原创 2021-01-09 22:16:58 · 407 阅读 · 0 评论 -
Sbt打包出现依赖异常问题
依赖冲突管理ThisBuild / scalaVersion := "2.11.11"ThisBuild / organization := "com.wtx.job014"libraryDependencies ++= Seq( "org.apache.spark" %% "spark-sql" % "2.3.2" % "provided", "org.apache.spark" %% "spark-core" % "2.3.2" % "provided", "or原创 2021-01-09 22:17:50 · 637 阅读 · 0 评论 -
Sprak搭建微博实时流数据UA监控-PRD
效果图:1. 项目说明根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求具体需求说明构建实时数据流仓库以小时为单位,构架小时级的实时数流数据仓库数据监控工作以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示Product Requir原创 2021-01-09 22:22:56 · 318 阅读 · 0 评论