帅气多汁你天哥-CSDN博客

原创 Sprak搭建微博实时流数据UA监控-PRD

效果图:1. 项目说明根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求具体需求说明构建实时数据流仓库以小时为单位,构架小时级的实时数流数据仓库数据监控工作以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示Product Requir

2021-01-09 22:22:56 391

原创 RWKV 语言模型：具有 Transformer 优点的 RNN

由于ChatGPT和大型语言模型最近受到了很多关注，我认为现在是写RWKV的好时机

2023-03-31 00:28:05 9761 1

原创 RWKV LM 语言模型 ffn层浅谈可视化

# 前言首先为了对新手友好简单讲一下什么是 RWKV LM, 这是一个开源LLM语言模型项目 .其性能与生态支持很好例如:cuda重写了python代码效率更高,有web 项目匹配,有chatrwkv,也可以运行在移动设备上良好的跨平台能力,以及节省资源的特点 . 是目前唯一一个使用CNN也能达到同等transformer 类模型性能的模型 ## 最近研发群里面看到大家在讨论脑电图大伙中有人想看RWKV fnn层响应可视化, 然后作者就发了一个效果图

2023-03-30 19:53:49 1357

原创 error: (-5) When the input arrays in add/subtract/multiply/divide functions have different types

error: (-5) When the input arrays in add/subtract/multiply/divide functions have different types, the output array type must be explicitly specified in function arithm_op利用OpenCV函数void addWeighted(InputArray src1, double alpha, InputArray src2,double be

2022-03-05 12:14:01 2060

原创 Attention 普通注意力机制详解 (二)

注意力入门普通注意力机制的了深入理解因为GRU每次输入都是一个词一个词的输入,那么普通的Seq2seq框架就需要每个词算一遍注意力权重并对解码器输出进行bmm计算,得到加权的解码器词向量输出这样解码器的GRU每次解码的时候不是仅仅只考虑当前的一个词,而是考虑前后3个词甚至更多个词才会将这个词翻译前向传播的结构就是这样,那么反向传播就是整个学习过程的精华,解码器GRU通过logsoftmax计算概率损失, 这样会知道每个词翻译错误的误差然后向下传播知道每个词翻译的误差后 , GRU的权

2021-10-29 17:05:00 900 1

原创 Seq2Seq attention 英译法代码实现+ 注意力机制详解 (一)

话不多说上代码数据加载类from io import openimport unicodedataimport reimport randomimport torchimport torch.nn as nnimport torch.nn.functional as Ffrom torch import optim# 注册驱动device = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 起始标志SO.

2021-10-28 01:15:03 740

原创手写神经网络学习CIFAR10训练集

前言如果直接将图片的像素点输入进全连接层,会损失空间的特征,这一点已经被验证过了.那么自己还想试试怎么办?首先CNN 中经典的ALEXnet中将数据处理成77的高纬特征在使用全连接层学习,此方法说明全连接层对小尺寸高纬特征还有效,那么如何验证?1.24x24x3 数据集输入神经网络中,验证准确率2.2828 手写数字识别验证集输入神经网络中验证准确率CIFIA 24243 数据集训练上代码import numpyclass neuralNetwork: # init net

2021-10-18 14:13:15 541

原创 pytorch 实现VGG16 解决VGG误差不更新问题

话不多说先上代码import timeimport torchimport torchvisionimport torchvision.transforms as transforms# import matplotlib.pyplot as pltimport numpy as npimport torch.optim as optimimport torch.nn as nnimport torch.nn.functional as Fimport vggclass Net

2021-10-16 17:37:14 2810 4

原创人话解释线性回归和梯度下降

from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import mean_squared_errorfrom sklearn.li.

2021-09-21 20:55:41 218

原创快速排序以及优化详解

为什么要用快速排序场景IP地址查询,例如1000w条IP,你的业务场景需要高频的进行数据查询,返回IP地址这里防止杠精说用线性回归预测IP地址比二分法更高效 ,你你最牛批用不着学快排这垃圾算法赶紧走一般查询的话思路都是用二分法, 那么二分法的前提有三个, 1.数据是有序的 2. 数据中元素不能全部一样 3.长度不能为0 附加一个,如果数据中有重复元素,那么即使查询到也不能确保是第几个相同元素具体实现思路为1.将 IP地址的4个0-255 十进制数数转为十进制或者2进制 x1.x2.

2021-09-04 18:22:20 294 4

原创 C指针简单明了的解释

指针变量的结构:- 名称- 地址- 值编译器视角变量的结构:- 地址等价于变量名- 值- 类型1.所以当出现指针变量的时候, 会先找这个变量的内存地址,找到以后根据指针等级去找该值对应的内存地址2.找几次跟等级有关系(的数量),如果只有一个,那就只会找一次指针变量的值对应的内存地址中的值3.大部分是套娃,敲代码理解一下就行代码#if 1#define _CRT_SECURE_NO_WARNINGS#include<stdio.h>#include<s.

2021-09-01 21:44:58 145

原创约瑟夫算法总结

约瑟夫圆环python 实现版list = list(range(1, 30 + 1))print(list)i = 0index = 0while list:arr = list.pop(0)index += 1if index == 3:index = 0continuelist.append(arr)print(list)if len(list) == 2:print(list)breaki += 1print(list)list1 = [1, 23,..

2021-08-25 22:01:55 271

原创 Python 虚拟环境搭建(非 Anaconda)

虚拟环境定义为不同依赖创建一个独立于系统的环境,方便进行版本控制的同时,不影响本机的开发环境安装Virtualenvpip install -i https://pypi.tuna.tsinghua.edu.cn/simple virtualenv安装virtualenvWrapper-winwrapper是对Virtualenv的封装,让操作者更方便进行操作安装命令pip install -i https://pypi.tuna.tsinghua.edu.cn/simple.

2021-08-25 22:01:10 1151

原创 Python Request 数据采集

基础爬虫种类通用爬虫搜索引擎和大型web服务提供的爬虫聚焦爬虫定义 : 针对特定网站的爬虫,定向的获取某方面数据的爬虫累积式爬虫 : 从开始到结束,不断爬取,过程中会进行去重操作增量式爬虫 : 只下载更新变化数据内容的爬虫,提高效率和准确率Deep web爬虫 : 不能通过静态链接获取的,隐藏在搜索表单后的,只有用户提交一下关键词才能获得的web页面搜索引擎原理抓取种子url网页, 数据存储, 预处理 ,提供检索服务和网站排名. 就是提前把所有网页数据都爬到,然后.

2021-08-25 21:59:47 359

原创科学计算库

Numpyndarray与python list的区别ndarray底层内存顺序读写,时间复杂度O(1)list底层内存随机读写,消费非常低特性高效性Numpy直接使用C语言开发,内部解除了GIL(全局解释器锁),操作速度不受限于python解释器并行计算numpy内置并行计算功能,支持多核心多线程计算语法ndarray.shape数组维度元祖ndarray.ndim数组维数ndarray.size数组中元素个数.

2021-08-25 21:58:56 158

原创 Python 高级语法 OOP

创建对象语法class a():obj=a()魔法方法 - OOP内置方法init(self):对象初始化,类似Java中的构造方法,在init初始化方法中完成对对象属性的赋值.self 谁调用那么self就代表哪个对象(指向谁)类似JS中的this和Java中的this 指向对象不需要创建类型变量,直接在init方法中传入,就可生成对象属性str(self):没有实现str方法时,打印对象,会直接打印obj的内存地址实现str后,打印对象会打印str方法的返回值内.

2021-08-25 21:56:47 212

原创 Python 基础语法

变量python是弱类型语言,也就是说在程序真正运行的那一刻前,解释器是不知道变量的类型的,需要先进行类型推断python变量可以随意切换数据类型,因为并未指定,所以切换起来也非常方便与Java不同的是,java是强类型准动态语言,所有变量声明前必须指定数据类型数据类型基本数据类型int 整型float 浮点型:精度为小数点后16位boolean 真假 1 or 0引用数据类型str 字符list 列表tupe 元祖set 集合dict 字典获取数据类.

2021-08-25 21:55:07 256

原创送给去IT培训机构的猿们的一些毒鸡汤

探讨分享技术的意义达成共识首先我觉得我们来接受培训,大部分人都是为了就业拿到高薪那么如果我们有这个共识,我们要讨论的事情就是如何提高我们的投入产出比,如何拿到月薪20k月薪30k这个阶段秀技术没有任何意义初衷老师做这件事的初衷首先是让大家互相熟悉,其次是让大家不要浮躁没有意义但是感觉现在已经脱离初衷了,过多的分享机器学习深度学习的内容并没有什么作用,因为本身每个人擅长的领域都不同,看到别人会的比自己多,懂得比自己深只会让大部分人陷入焦虑这已经跟这件事背道而驰了如何.

2021-08-24 13:30:15 249 1

原创全网最全Ambari环境搭建刨坑指南

版本重要的事情说三遍，ambari是HDP傻瓜式安装管理的服务，所以都已经傻瓜式安装了，就要搞清楚自己装的版本匹不匹配查看版本匹配链接：添加链接描述环境既然都要装ambari管理集群了，那么先把系统搞好嘛。linux系统优先使用centOS，毕竟这个系统目的是做主流服务器的环境，用其他的也行，深度或者乌班图都可以，但是依赖管理一般都不一样，自己要先搞个yum来管理，安装的时候也会出现各种各样的小问题，不嫌麻烦可以试试这里要说明 ambari对centos的支持版本一个是centos6 一个是ce

2021-08-23 22:15:20 1969

原创英雄联盟大乱斗一个队出现两个杰斯-多线程死锁

我们都知道上方的筛子,自己选择重新摇或者选择上方英雄池中的英雄时,会有10秒的cd进入不可选择状态,而这样设计就是为了避免两个线程竞争一个相同资源的设计.用人话说就是两个人如果同时选择一个英雄怎么办,如果有重复英雄像杰斯这样的poke就严重影响游戏平衡所以必须使用线程保护机制,更换英雄后的10秒,本地线程进入sleep不可更改如图,java程序员基本功?当然了,谁不想研究下这个bug怎么复现.从网上看了看这个bug是21年3月份出现的目前再出现这种情况游戏应该不会开始,个人猜测类似java的全局.

2021-06-15 16:54:38 1697 4

原创新闻推荐系统数据处理

所有内容均在视频内,源码以及框架在2021年6月开源敬请期待新闻推荐系统

2021-05-21 00:12:48 323

原创推荐系统知识点总结

推荐系统学习笔记推荐系统的目的更精准的进行推荐推荐系统的应用淘宝商品,广告推荐,信息流推荐,抖音推荐,电影推荐推荐系统的基本思想建立在海量数据挖掘的基础上的一种高级商务智能平台,以及帮助电子商务网站为其顾客提供个性化推荐的决策支持和信息服务推荐系统的分类离线训练最常见的推荐系统架构,这里的离线训练指的是使用历史一段时间的数据进行训练,模型迭代周期较长(一般一小时为单位)模型拟合的是用户的中长期兴趣在线训练对于业务来说,我们希望用户对于上个广告的反馈,很快的.

2021-05-13 00:35:11 344

原创新闻推荐系统-项目介绍(PRD)

环境介绍语言环境:1.java1.82.scala2.1.1IDE:eclipse2015(java)myeclipse2017(scala)依赖环境:maven3.6.3sbt1.2.1技术栈:Java 1.8springboot(web服务)webmagic(爬虫)seleinum(爬虫)mysql(8.0)linux shell(算法部署环境)scala 2.1.1(使用jvm1.8) spark2.0(计算框架)spark mlib(机器学习库)maven(j

2021-05-13 00:33:38 5681 11

原创 scala机器学习-保险预测(二) LR线性回归预测保险回归严重性

处理完需要用的数据集后需要使用spark-ml框架中的lr模型进行训练并使用10折交叉验证预测保险索赔严重性package com.wtx.job014import org.apache.spark.ml.regression.{ LinearRegression, LinearRegressionModel }import org.apache.spark.ml.{ Pipeline, PipelineModel }import org.apache.spark.ml.evaluation.Reg

2021-04-05 19:56:52 704 2

原创 scala机器学习-保险预测-第一节

spark好久不用先熟悉一下sql的apipackage com.wtx.job014import org.apache.spark.sql.SparkSessionobject demo2 { def main(args: Array[String]): Unit = { val train = "file:\\C:\\Users\\86183\\Desktop\\scala_machine_leraning_projects\\ScalaMachineLearningData\\

2021-03-30 23:03:46 510 2

原创 Java-POI大数据分析 -实体店选址POI数据分析-5天,多网站爬虫数据融合处理

实体店选址大数据分析-保定地区-POI数据-powermap-爬虫获取真实数据讲一下项目的思路预期通过获得poi数据进行分析,以为实体店选址进行决策数据源58同城店铺转让数据安居客小区详细信息数据安居客小区平均房价数据上爬虫代码package wubaSpider;import java.io.FileOutputStream;import java.io.IOEx...

2021-03-25 18:06:18 835

原创 Java-openCV 数据增强4小时实现小样本数据集扩大

java opencv的环境搭建就不在赘婿了~直接上代码io递归读取文件代码package imgPorjectDataManager;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.util.ArrayList;import

2021-03-03 20:56:27 619 1

原创 Java IO实现文件管理,改名,删除,移动,复制粘贴等

import java.io.File;import java.io.FileNotFoundException;import java.util.ArrayList;import java.util.Collection;import java.util.Collections;import java.util.Date;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;

2021-01-29 22:36:23 308

原创 Boss爬虫&数据分析ETL&BI数据可视化展示&Echarts

项目网址:http://47.242.82.87:8089/项目效果图:全国的岗位供需项目说明首先着眼于当下严峻的就业形势,我们需要知道各个行业的供需关系以及薪酬范围.大到全国薪酬,小到城市平均薪酬,细致到每个公司历史招聘数据都要保留并加以分析技术栈爬虫:webmagic框架+selenium爬取动态页面Springboos数据交互Dom4j解析数据IO流递归读取文件Linux shell命令Html.css.js流程3.1首先使用爬虫实现动态页面的

2021-01-09 23:17:33 538

原创 Sbt打包出现依赖异常问题

依赖冲突管理ThisBuild / scalaVersion := "2.11.11"ThisBuild / organization := "com.wtx.job014"libraryDependencies ++= Seq( "org.apache.spark" %% "spark-sql" % "2.3.2" % "provided", "org.apache.spark" %% "spark-core" % "2.3.2" % "provided", "or

2021-01-09 22:17:50 766

原创 Echarts&Ajax动态传递数据

控制类@Controllerpublic class HbaseControllor { HbaseReadeTable hbaseReadeTable=new HbaseReadeTable() ; @RequestMapping("getData4Hbase2Echarts") public String getData4Hbase2Echarts(Model model) throws Exception{ JSONArray arr=new JSONArray(); JSON

2021-01-09 22:16:58 489

原创 task not Serializable 集群分布式环境下RDD对jedis对象序列化的要求

首先复习一下知识点:Java 如何序列化对象类要实现Serializable接口,类内外部依赖同样需要实现如果一个属性或者对象不想被序列化,那么就是用transient关键字修饰那么在Java中,什么类型对象不能被序列化线程对象不能被序列化:独立线程外部无法访问,并且线程是为了进行任务的执行,而不是储存链接对象不能被序列化(jdbc):端口用来传输数据,这种链接对象是没有办法序列化的RDD的概念是什么RDD (Resilient Distributed DataSet)弹性分布式数据集，是对

2021-01-09 22:14:44 324 1

原创 key算法问题

2012-01-02 00:23:03首先我们需要两个算法算法1:输入: 2012-01-02 00:23:03输出: 201201020023算法2:输入: 2012 ,1 ,2输出:当天全部2012010200xx key的集合算法1的实现:Scala streaming RDD代码: messages.foreachRDD(x => { x.foreach(part => { val colArray = UrlBase64Util.de

2021-01-09 22:13:23 579

原创 sparkStreaming消费到数据后,Redis的key设计问题

首先,需要确保监控的实时性,stream滑动窗口5秒滑动一次,当stream获取到数据后,需要存到redis的hll数据结构中,那么k-v形式的数据库,k的设计就很关键,如何设计?2012-01-02 00:23:03数据流中存在这样格式的时间,那么按照每5分钟一次的间隔存储数据,可以保证监控的时效以及对集群的负载的一个平衡,那么key的原则每5分钟一次,第5分钟算作前一个,例如 05:00算作00分钟的数据,而05:01算作05的数据这样显而易见的清晰那么同步数据的窗口一定要大于5分钟才可以,我们可

2021-01-09 22:12:25 150

原创搭建Spark实时数据流爬坑指南

为什么要搭建实时数据流?首先不管什么公司,只要是hadoop搭建实时数据项目,那么就要实现第一步,搭建实时数据流,那么不挂你是谁,都不可能直接访问后端组的kafka或者说,集群是公司最核心的东西,需要解耦给你访问那么一般解决方式就是使用springboot搭建实时数据流,让公司其他业务部门,或者采集工程师的数据通过给定的api发送过来springboot就不多说了,来说说实践中遇到的坑技术问题1.Linux curl :简易无头浏览器,使用curl + url地址直接请求2.http get和

2021-01-09 21:56:22 286

原创 Spark-core &Spark-sql &SparkStreaming复习总结

SparkCore架构设计图名词解释1.RDD(Resilient Distributed DataSet)弹性分布式数据集,是对数据集在spark储存和计算过程中的一种抽象是一组只读可分区的分布式数据集合一个RDD包含多个分区Partition(类似mapreduce中的inputSplit,文件大小超过128mb时,默认切分),分区是按照一定规则,将具有相同规则的属性数据放在一起横向上可切分并行计算,以分区partition为切分后的最小储存和计算单元纵向上可以进行内存/外存切换使用,

2021-01-09 21:47:04 323 1

原创 SparkStreaming消费kafka时遇到消费元数据时报错的问题

[2021-01-08 00:21:25,094] WARN [Producer clientId=console-producer] Error while fetching metadatawith correlation id 1 : {wtxKafkaTestls=LEADER_NOT_AVAILABLE} (org.apache.kafka.clients.NetworkClient)之前的topic已经创建过多次,不知道是什么原因,现在正在排错...

2021-01-08 00:26:43 561

原创 sbt-包依赖管理

sbt解决包依赖问题:那个包下的类冲突了就删除就可以,这里删除的spark下的unusedstubclassassemblyMergeStrategy in assembly := {case PathList(“org”,“apache”,“spark”,“unused”,“UnusedStubClass.class”) => MergeStrategy.discardcase x =>val oldStrategy = (assemblyMergeStrategy in assem.

2021-01-07 20:20:50 655

原创 Spring排错总结-找了两个小时的大坑!!!!!!!!!tm的-sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

org.springframework.web.util.NestedServletException: Request processing failed; nested exception is org.thymeleaf.exceptions.TemplateProcessingException: Exception evaluating SpringEL expression: "exception.message" (error) at org.springframework.web.se..

2021-01-03 16:28:07 2015

原创搭建实时数据仓库-微博博文实时数据分析项目说明书PRD以及问题疑难问题解决思路

项目说明根据采集工程师实时爬取到的微博数据,实时传输到数据接收服务平台,形成微博博文数据,构建,基于该微博平台实时数据的相应数据仓库,同时做好相应的数据监控工作,用于及时发现数据潜在问题,例如数据暴增骤减等情况,以及其他潜在数据开发需求具体需求说明构建实时数据流仓库以小时为单位,构架小时级的实时数流数据仓库数据监控工作以天和小时数据为维度,来做数据记录数据维度的分钟级,小时级,天级监控,最后通过echarts进行实时变化的曲线图,进行可视化展示Product Requirement D.

2021-01-02 15:30:25 561

._SUCCESS.crc

空空如也