自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 Word2vec笔记

一、Huffman编码二、CBOW三、Skip-gram以上相关内容引自: peghoty大神的《word2vec中的数学》。

2021-10-17 15:11:06 130

原创 Pyspark使用优化及踩坑点总结

1.coalesce滥用导致saveAsTextFile数据保存很慢rdd.coalesce(1, True).saveAsTextFile(SAVE_PATH)转换成:rdd.coalesce(1, True).saveAsTextFile(SAVE_PATH) 或:rdd.repartition(1).saveAsTextFile(SAVE_PATH) coalesce:分区时没有shuffle操...

2021-10-11 18:02:13 1001

原创 RNN,LSTM,GRU学习笔记

一、RNN1.循环神经网络概述 循环神经网络(Recurrent Neural Network,RNN),简称RNN。它与DNN和CNN的不同是:可处理序列问题(如一段文字,一段语音等)。如给定一个索引从0-T的序列,对于任意的索引号t,它对应的输入是,则模型在t时刻的隐藏状态由和t-1时刻的隐藏状态共同决定。而t时刻的输出则是由通过非线性变换得到。 也就是说,当我们在理解一句话时,不光要理解句子中的字,更要理解字前面或者后面的句子序列信息,以达到理解整个句子序列的目...

2021-10-10 18:22:12 248

原创 CNN知识点

1.关于通道数(深度)的理解CNN输入层的通道数 = CNN卷积核的通道数eg:输入矩阵shape为Height*Width*Channels,则卷积核(滤波器)的通道数也为Channels【和输入一致】。卷积核大小为Kernel_size*Kenel_size*Channels,那么输出的一个feature_map的形状为(Height-Kernel_size+1)*(Width-Kernel_size+1)*1,在步长为1,padding=0的情况。卷积输入层与卷积输出层的计算式:设in

2021-09-21 14:29:39 583

原创 pyspark奇怪问题

一、集群配置文件坑——感觉就是bug~[jaxim@ip-172-20-9-101 jaxim_userprofile_notification]$ ls -R.:finance_app.txt lib run.sh src./lib:GeoLite2-City.mmdb rule.json spend_level.json./src:profile_noti.py profile_tool.py __pycache__文件结构大概如上:finance_app.

2021-09-16 15:56:26 444

原创 python跳出多层循环

# 跳出1层循环# 跳出2层循环# 跳出3层循环# 跳出1层循环print("break one for loop:")for i in range(10): if i == 5: print(i) break# 跳出2层循环print("break two for loop:")for i in range(5): for j in range(5): if i > j: print(

2021-08-17 17:50:23 2979 1

原创 Neo4j

```sqlmatch p = (n:dwt_ent_company{company_name:'浙江投融界科技有限公司'})-[]-() return pMATCH (n) WHERE EXISTS(n.company_id) RETURN DISTINCT "node" as entity, n.company_id AS company_id LIMIT 25 UNION ALL MATCH ()-[r]-() WHERE EXISTS(r.company_id) RETURN DISTI.

2021-05-28 11:01:57 283

原创 linux下载文件

1.wget wget命令用于从指定url下载文件。很稳定。在带宽很窄或者网络不稳时仍然有很强的适应性。 下载单个文件: wget xxx 下载并以不同的文件名保存: wget -O newfile.zip XXX2.git git clone 命令常用于从github上克隆相应的版本库。 git clone XXX (newfile)...

2021-04-18 14:05:38 154

原创 Sublime正则表达式替换

第一步,使用快捷键 Ctrl + H,打开查找替换窗口。然后,按下 Alt + R 快捷键开启正则替换模式。第二步,在查找框输入正则表达式,替换框输入要替换的内容。第三步,点击 Replace All 即可。

2021-04-13 14:05:14 3003

原创 web服务中的get和post请求对比

GET请求 VS POST请求 一、有无长度限制 get请求会附在URL之后,以 ?分割 URL 和传输数据,多个参数用 & 连接,有长度限制(1024字节)。 post请求放在Request body中(content),没有长度限制。 二、是否主动缓存 get请求可以被缓存。 post请求不可以被缓存。 三、回退是否再次请求 get请求用于...

2021-04-08 16:56:37 419

原创 curl命令

curl:(CommandLine Uniform Resource Locator),即在命令行中利用URL进行数据或者文件传输。curl:是一个工具,用于传输来自服务器或者到服务器的数据。curl -h 获取到所有curl的命令以及其用法描述:shaohd@wks00:~$ curl -hUsage: curl [options...] <url> --abstract-unix-socket <path> Connect via abstract Un

2021-03-19 11:41:21 500

原创 SQL

SQL难点集 解决方案 1.部门工资前三高的所有员工 Employee 表包含所有员工信息,每个员工有其对应的工号Id,姓名 Name,工资 Salary 和部门编号 DepartmentId 。 +----+-------+--------+--------------+ | Id | Name| Salary | DepartmentId | +----+-------+--------+----------...

2021-02-21 16:17:23 186

转载 pytorch

2021-02-17 09:46:33 58

原创 linux常用命令

**一、关于vi相关命令**1.vi filename:命令行2.i 键:编辑模式3.

2021-02-02 18:51:12 230

原创 模型参数小结

1.batch_size:喂给模型的小批次数据。2.num_train_steps:训练数据所需的总步数。3.epoch:使用训练集中的全部样本训练的总次数。4.iteration:iteration等于使用batch_size个样本全部跑完一次训练样本数据的次数。5.num_warmup_steps:学习率预热的步数。(先用最初的小学习率训练,然后每训练一步,学习率递增,直到最初设置的比较大的lr;之后学习率继续衰减。)使用Warmup预热学习率的方式,即先用最初的

2021-01-20 16:01:48 643

原创 乱七八糟的small case

>>> re.findall('企业名称:(.+)\\n出资额:(.+)\\n百分比:(.+)\\n法人性质',a.strip())[(' 杭州康普投资有限公司', ' 2137.5', ' 4.75%'), (' 浙江东方集团股份有限公司', ' 2250', ' 5%'), (' 杭州威讯投资管理有限公司', ' 6412.5', ' 14.25%'), (' 中国电子科技集团公司第五十二研究所', ' 21802.5', ' 48.45%')]>>> re.f.

2021-01-17 17:11:15 156

原创 深度学习数据集

https://www.cluebenchmarks.com/introduce.html

2021-01-16 13:23:39 114

原创 知识图谱相关理论

一、定义知识图谱(knowledge graph)是以图的形式表现客观世界中的实体(概念、人、事物)及其之间关系的知识库。本体(ontology)是描述概念与概念间的关系,是大多数知识图谱的模式层, 是知识图谱的概念模型和逻辑基础。二、构成1、模式层模式层对数据层进行规范约束。多采用本体作为知识图谱的模式层, 借助本体定义的规则和公理约束知识图谱的数据层.。也可将知识图谱视为实例化了的本体, 知识图谱的数据层是本体的实例.。如果不需支持推理, 则知识图谱(大多是自底向上构建的)可以只有数

2021-01-11 20:34:53 969

原创 信息抽取

信息抽取:信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,最终以结构化的形式进行描述,使信息可以存入数据库以供进一步处理。知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱本质上是以三元组结构(主语-谓语-宾语)表示实体及实体关系的语义网络。

2021-01-06 16:48:51 1724

原创 Python相关库整理

1.jsonjson.loads():string转换成dict。json.dumps():dict转换成string。注:输出真正的中文需要指定ensure_ascii=False。若无任何配置,或者说使用默认配置,输出的会是ASCII字符,而不是真正的中文。这是因为json.dumps 序列化时对中文默认使用的ascii编码。json.dump():序列化json格式的数据为字符串,并将字符串写入到文件中。eg:import jsonx = {'name':'你猜','a

2021-01-06 15:32:14 89

原创 roc auc总结

一、

2020-12-25 17:19:45 175

原创 SQL知识点

一、说说奇怪的数据类型BLOB类型的字段用于存储二进制数据MySQL中,BLOB类型系列包括:TinyBlob、Blob、MediumBlob、LongBlob,这几个类型之间的唯一区别是在存储文件的最大大小上不同。类型 大小(单位:字节)TinyBlob 最大 255Blob 最大 65KMediumBlob 最大 16MLongBlob 最大 4G...

2020-12-14 16:46:36 47

原创 深度学习库安装填坑

1.tensorflow2.3版本安装用pip 和 conda 都失败,怎么办?——>下载miniconda3.5-3.7版本,然后采用miniconda中的conda 或 pip命令安装即可。亲测成功!cpu版本的tensorflow安装:pip install tensorflow==2.3.0 -i https://pypi.douban.com/simple/gpu版本的tensorflow安装:对于NVIDIA显卡,要求其CUDA Compute Capability 须不低于3.

2020-12-13 18:59:47 1571

原创 那些年使用BERT模型踩的坑~~

**一、多标签多分类 VS 多分类任务**针对多标签多分类任务,微调模型时的最后一层全连接层输出需要使用的是sigmoid转换;而对于多分类任务吗,则只需要进行softmax变换即可。二、如何让BERT模型输出precision、recall、F1-score等指标三、除了直接基于预训练模型的获得词向量,如何基于微调训练获得词向量?四、多标签分类任务中,阈值一般真的是设0.5吗?持续更新中…...

2020-12-06 13:43:35 2860

原创 形散而神不散之——MySQL、SQL Server & Hive SQL

我以四字箴言总结SQL框架:增、删、改、查一、搞数据“容器”——创建数据库和数据表1、MySQL版Create database (if not exists) db1;–if not exists确保没有同名数据库(表),建议自己写的时候要加!Use db1;Create table if not exists table1(Id varchar(12) not null ,...

2019-08-25 12:15:03 798

原创 自己整理的机器学习算法应用指南

**Regression Algorithms**1.Linear Regression:from sklearn.linear_model import LinearRgressionLinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)Parameters:normalize布尔型...

2019-08-14 14:54:50 711

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除