小小叮当同学-CSDN博客

原创 Word2vec笔记

一、Huffman编码二、CBOW三、Skip-gram以上相关内容引自： peghoty大神的《word2vec中的数学》。

2021-10-17 15:11:06 130

1.coalesce滥用导致saveAsTextFile数据保存很慢rdd.coalesce(1, True).saveAsTextFile(SAVE_PATH)转换成：rdd.coalesce(1, True).saveAsTextFile(SAVE_PATH) 或：rdd.repartition(1).saveAsTextFile(SAVE_PATH) coalesce：分区时没有shuffle操...

2021-10-11 18:02:13 1001

原创 RNN，LSTM，GRU学习笔记

一、RNN1.循环神经网络概述循环神经网络（Recurrent Neural Network，RNN），简称RNN。它与DNN和CNN的不同是：可处理序列问题（如一段文字，一段语音等）。如给定一个索引从0-T的序列，对于任意的索引号t，它对应的输入是,则模型在t时刻的隐藏状态由和t-1时刻的隐藏状态共同决定。而t时刻的输出则是由通过非线性变换得到。也就是说，当我们在理解一句话时，不光要理解句子中的字，更要理解字前面或者后面的句子序列信息，以达到理解整个句子序列的目...

2021-10-10 18:22:12 248

原创 CNN知识点

1.关于通道数(深度)的理解CNN输入层的通道数 = CNN卷积核的通道数eg:输入矩阵shape为Height*Width*Channels，则卷积核（滤波器）的通道数也为Channels【和输入一致】。卷积核大小为Kernel_size*Kenel_size*Channels,那么输出的一个feature_map的形状为(Height-Kernel_size+1)*(Width-Kernel_size+1)*1，在步长为1，padding=0的情况。卷积输入层与卷积输出层的计算式：设in

2021-09-21 14:29:39 583

原创 pyspark奇怪问题

一、集群配置文件坑——感觉就是bug~[jaxim@ip-172-20-9-101 jaxim_userprofile_notification]$ ls -R.:finance_app.txt lib run.sh src./lib:GeoLite2-City.mmdb rule.json spend_level.json./src:profile_noti.py profile_tool.py __pycache__文件结构大概如上：finance_app.

2021-09-16 15:56:26 444

原创 python跳出多层循环

# 跳出1层循环# 跳出2层循环# 跳出3层循环# 跳出1层循环print("break one for loop:")for i in range(10): if i == 5: print(i) break# 跳出2层循环print("break two for loop:")for i in range(5): for j in range(5): if i > j: print(

2021-08-17 17:50:23 2979 1

原创 Neo4j

```sqlmatch p = (n:dwt_ent_company{company_name:'浙江投融界科技有限公司'})-[]-() return pMATCH (n) WHERE EXISTS(n.company_id) RETURN DISTINCT "node" as entity, n.company_id AS company_id LIMIT 25 UNION ALL MATCH ()-[r]-() WHERE EXISTS(r.company_id) RETURN DISTI.

2021-05-28 11:01:57 283

原创 linux下载文件

1.wget wget命令用于从指定url下载文件。很稳定。在带宽很窄或者网络不稳时仍然有很强的适应性。下载单个文件: wget xxx 下载并以不同的文件名保存: wget -O newfile.zip XXX2.git git clone 命令常用于从github上克隆相应的版本库。 git clone XXX (newfile)...

2021-04-18 14:05:38 154

原创 Sublime正则表达式替换

第一步，使用快捷键 Ctrl + H，打开查找替换窗口。然后，按下 Alt + R 快捷键开启正则替换模式。第二步，在查找框输入正则表达式，替换框输入要替换的内容。第三步，点击 Replace All 即可。

2021-04-13 14:05:14 3003

原创 web服务中的get和post请求对比

GET请求 VS POST请求一、有无长度限制 get请求会附在URL之后，以 ?分割 URL 和传输数据，多个参数用 & 连接，有长度限制（1024字节）。 post请求放在Request body中（content），没有长度限制。二、是否主动缓存 get请求可以被缓存。 post请求不可以被缓存。三、回退是否再次请求 get请求用于...

2021-04-08 16:56:37 419

原创 curl命令

curl：(CommandLine Uniform Resource Locator)，即在命令行中利用URL进行数据或者文件传输。curl：是一个工具，用于传输来自服务器或者到服务器的数据。curl -h 获取到所有curl的命令以及其用法描述：shaohd@wks00:~$ curl -hUsage: curl [options...] <url> --abstract-unix-socket <path> Connect via abstract Un

2021-03-19 11:41:21 500

原创 SQL

2021-02-21 16:17:23 186

转载 pytorch

2021-02-17 09:46:33 58

原创 linux常用命令

**一、关于vi相关命令**1.vi filename:命令行2.i 键：编辑模式3.

2021-02-02 18:51:12 230

原创模型参数小结

1.batch_size:喂给模型的小批次数据。2.num_train_steps:训练数据所需的总步数。3.epoch:使用训练集中的全部样本训练的总次数。4.iteration:iteration等于使用batch_size个样本全部跑完一次训练样本数据的次数。5.num_warmup_steps:学习率预热的步数。（先用最初的小学习率训练，然后每训练一步，学习率递增，直到最初设置的比较大的lr;之后学习率继续衰减。）使用Warmup预热学习率的方式,即先用最初的

2021-01-20 16:01:48 643

原创乱七八糟的small case

>>> re.findall('企业名称:(.+)\\n出资额:(.+)\\n百分比:(.+)\\n法人性质',a.strip())[(' 杭州康普投资有限公司', ' 2137.5', ' 4.75%'), (' 浙江东方集团股份有限公司', ' 2250', ' 5%'), (' 杭州威讯投资管理有限公司', ' 6412.5', ' 14.25%'), (' 中国电子科技集团公司第五十二研究所', ' 21802.5', ' 48.45%')]>>> re.f.

2021-01-17 17:11:15 156

原创深度学习数据集

https://www.cluebenchmarks.com/introduce.html

2021-01-16 13:23:39 114

原创知识图谱相关理论

一、定义知识图谱(knowledge graph)是以图的形式表现客观世界中的实体(概念、人、事物)及其之间关系的知识库。本体(ontology)是描述概念与概念间的关系，是大多数知识图谱的模式层, 是知识图谱的概念模型和逻辑基础。二、构成1、模式层模式层对数据层进行规范约束。多采用本体作为知识图谱的模式层, 借助本体定义的规则和公理约束知识图谱的数据层.。也可将知识图谱视为实例化了的本体, 知识图谱的数据层是本体的实例.。如果不需支持推理, 则知识图谱(大多是自底向上构建的)可以只有数

2021-01-11 20:34:53 969

原创信息抽取

信息抽取：信息抽取(Information Extraction，IE)作为自然语言处理技术的任务，该任务的重点在于从机器可读取的非结构化或半结构化的文本中抽取信息，最终以结构化的形式进行描述，使信息可以存入数据库以供进一步处理。知识图谱（Knowledge Graph）以结构化的形式描述客观世界中概念、实体及其之间的关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱本质上是以三元组结构（主语-谓语-宾语）表示实体及实体关系的语义网络。

2021-01-06 16:48:51 1724

weixin_43888760的博客

原创 Word2vec笔记

原创 Pyspark使用优化及踩坑点总结