- 博客(58)
- 收藏
- 关注
原创 ChineseBERT使用指北
bert是语义模型,因此无法解决形近字、音近字的问题。ChineseBERT主要引入了文本的拼音编码和字形编码解决上述问题。
2023-06-14 18:39:27 756
原创 GNN图神经网络
图神经网络是一个相对宽泛的概念,本质是每个节点embedding都要融合邻居的特征,根据具体融合方式的不同又衍生出了下面各种具体模型。最简单的GNN消息传递可以看做fc,所有邻居节点以权重w向当前节点加权,最终取一个mean/max/min等激活函数。embedding,W是可训练参数。调整后的邻接矩阵即对原始邻接矩阵做。增加了attention结构,计算。之间的相似度,进行加权。
2023-05-11 10:20:54 728 2
原创 BatchNormalization和LayerNormalization的理解、适用范围、PyTorch代码示例
学习神经网络归一化时,文章形形色色,但没找到适合小白通俗易懂且全面的。学习过后,特此记录。
2023-04-25 19:17:30 610
原创 python爬虫反反爬机制:动态User-Agent+动态ip
ip是计算机在网络中的地址,如果同一个ip同时访问该网站,即使换了user-agent依然会被识破。User-Agent是浏览器的头部信息,不设置时会被识别出Python。因此一般将自己的浏览器User-Agent传入。网络上有很多免费的ip地址,但是对我们的目标网站不一定能用,因此需要先进行测试。这里直接贴代码(来源:置顶连接)代码可以直接用,需要改的只是test_url换成你要爬取的目标网站,因为同一个ip对不同目标网站也不一定能访问。url是我们免费爬取ip地址的网站,这里也可以换成其他免费网站。
2023-03-23 11:32:09 1351
原创 论文笔记(4):Information Asymmetry and Trading in Dark Pools: Evidence from Earnings Announcement and An
探究了定期(earning announcement)和不定期(analyst recommendation revision)公司信息披露事件前后的黑池交易量。发现在这两类事件前后都会发生更多交易。
2023-02-22 15:54:23 202
原创 jupyter使用指北:如何打开.ipynb文件|修改jupyter notebook的默认路径|在jupyter按照包
不需要先进入jupyter再把文件拷贝到默认路径。
2023-02-21 14:20:06 1789
原创 论文笔记(3):Analyst Forecast Revision Consistency and Bias in Earnings Forecast Revisions
analyst forecast revision consistency
2023-02-21 13:32:03 520 1
原创 论文笔记(2):Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
chain-of-thought提示学习,推理任务中间链
2023-02-06 19:45:39 2425 2
原创 论文笔记(1):Large Language Models are few(1)-shot Table Reasoners
2023论文精读:表结构推理;少样本提示学习
2023-02-01 11:18:49 784 1
原创 USCD行人异常数据集使用指南 | 快速下载
数据集介绍UCSD是一个行人异常检测数据集(官网:http://www.svcl.ucsd.edu/projects/anomaly/dataset.htm)。通过安装在高程处的固定摄像头获取,可俯瞰人行道。数据被拆分为 2 个子集,每个子集对应于不同的场景。从每个场景录制的视频片段被分成大约200帧的各种剪辑。Peds1:一群人走向和远离相机的片段,以及一定程度的透视失真。包含 34 个train视频示例和 36 个test视频示例。Peds2:行人平行于摄像机平面移动的场景。包含 16 个tra
2022-03-25 10:01:35 2343 5
原创 inductive learning和transductive learning最最简单易懂的解释 | 算法举例
文章目录概念定义算法举例区别实例网上很多大神对inductive learning和transductive learning进行了原理层面的讲解,并且给出了数学符号进行严谨定义。但机器学习小白理解起来还是有些费劲,本文力求用最最简单易懂的语言介绍二者的定义和区别。概念定义inductive learning:归纳学习,从特殊到一般;transductive learning:转导学习,从特殊到特殊。算法举例文字性的叙述一大堆很难看明白,但先上例子其实就很容易自己get到二者的区别了。indu
2022-03-14 14:59:19 2697 1
原创 Keras保存训练过程中的最好模型
以xDeepFM为例保存模型参数from deepctr.models import xDeepFMmodel = xDeepFM(...)model.compile(...)model.fit(...)# save_weightsmodel.save_weights('... .h5')读取h5模型model = xDeepFM(...)# load_weightsmodel.load_weights('... .h5')由于h5文件保存的是模型参数,因此模型结构需要自己手动构
2022-01-05 16:03:19 3289
原创 大厂面试机器学习算法(0):特征工程 | 数据预处理
文章目录数据分桶(分箱)卡方分桶等距分桶等频分桶聚类分桶数据规范化min-max normalizationz-score数据清洗数据缺失噪音数据数据不一致特征选择与特征提取特征选择特征提取数据分桶(分箱)概念数据分桶是一种数据预处理技术,通过对连续变量离散化,提高模型性能。意义离散后的特征对异常值更有鲁棒性,尤其避免极端异常值的干扰;特征离散后模型更稳定,不会因为特征值的轻微变化而改变结果;稀疏向量内积乘法运算速度快,算法速度更快,也便于存储。分桶方法有监督:best-ks分桶和卡
2021-12-15 15:51:17 1455
转载 机器学习中的矩阵向量求导
文章目录向量对向量求导的链式法则标量对多个向量的链式求导法则标量对多个矩阵的链式求导法则向量对向量求导的链式法则假设多个向量存在依赖关系,比如三个向量????→????→????存在依赖关系,则我们有下面的链式求导法则:∂????∂????=∂????∂????∂????∂????\frac{∂????}{∂????}=\frac{∂????}{∂????}\frac{∂????}{∂????}∂x∂z=∂y∂z∂x∂y 该法则也可以推广到更多的向量依赖关系。但是要注意的是要求所有
2021-12-01 15:53:06 199
原创 cs服务与thrift协议
文章目录RPC服务thrift协议RPC服务thrift协议thrift是接口定义语言和通讯协议(类比http),放在远程的接口,实现跨语言开发。建立thrift服务的步骤:服务端建立IDL文件(.thrift文件),定义接口(不实现函数)。这里可以选择Python、Java等多种语言。以Python为例:namespace py example#consist of 2 parts:struct and service# struct:字段前需要indexstruct Data
2021-10-27 14:01:55 252
原创 HDFS的命令行操作
doas hdfs dfs -命令访问hdfs文件:doas hdfs dfs -ls URI新建hdfs文件:doas hdfs dfs -mkdir URI复制文件到指定位置:hdfs dfs -cp [-f] URI选项:-f选项覆盖已经存在的目标。查看文件内容:doas hdfs dfs -cat URI......
2021-10-26 18:32:01 855
原创 大厂面试机器学习算法(6)时间序列分析
文章目录序列特征构造时间序列分析任务- Indexing/Query by Content- Clustering- Classification- Segmentation/Summarization- Prediction- Anomaly Detection- Motif Discovery时间序列分析算法Autoregression, Moving Average系列- Autoregression (AR)- Moving Average (MA)- Autoregressive Moving A
2021-10-26 17:06:20 3093 1
原创 SQL常见面试题目与答案整理
文章目录海量数据如何优化SQL数据库存储位置MySQL与hive海量数据如何优化SQL根据执行计划(explain)设置合适的索引,选择合适的type(system最好,all最差)数据库存储位置数据库的数据文件和索引都储存在磁盘中;每次查找数据都需要将索引文件读取到内存中MySQL与hiveOLAP:在线分析处理,对应数据仓库hive,数据量大,不追求效率OLTP:在线数据处理,对应数据库,数据量较小,追求效率...
2021-10-25 11:33:37 2015
原创 pyspark学习笔记
文章目录spark dataframespark dataframespark dataframe与pandas的dataframe不同,是两种不同的数据类型,具有不同的函数和使用方法。搭建sc环境:from pyspark.sql import SparkSessionfrom pyspark.sql import Row建立spark dataframe: df=spark_session.sql(‘sql’)将spark dataframe转化为二维列表: df.col
2021-10-22 15:17:55 721
原创 Spark常见面试问题整理
文章目录数据倾斜数据倾斜什么是数据倾斜在并行处理的大数据系统中,某个部分(Partition)的数据量严重大于其他部分,导致该部分的数据处理速度成为数据集处理的瓶颈。为什么会数据倾斜同一Stage中不同task处理的数据量存在显著差异,某个task处理的数据量严重大于其他task。怎样解决数据倾斜的问题① 提高shuffle操作的并行度为了避免task较少导致多个key分配到同一task且分配不均的问题,可以适当提高task的数量(但是并不能解决某一个key数据量严重大于其他key的情况的
2021-10-09 11:09:14 202
原创 Spark SQL/Hive SQL
文章目录Spark SQL/Hive SQL与SQL的关系HSQL与普通SQL的区别数据类型Spark SQL/Hive SQL与SQL的关系SQL:Structured Query Language,用于对关系型数据库进行操作的标准化语言。不同数据库对应不同类型的SQL。Spark SQL/Hive SQL:Spark使用的数据存储是Hive,因此Spark SQL即Hive SQL,具有其自身的一些标准和使用方法。HSQL与普通SQL的区别HSQL不支持等值链接,即不能省略join,如:
2021-10-08 16:48:28 2192
原创 团伙挖掘算法整理
团伙挖掘技术调研文章目录模块度优化LouvainLeiden标号传播DeepWalk经典的DeepwalkGEMSEC频谱聚类经典的频谱聚类Multi-view clustering经典的multi-view clusteringGMCGNNDMoNSDCNO2MACLGNNMatrix Factorization经典的NMF (Nonnegative Matrix Factorization)NSEDMNMFDANMFGenerative ModelCommunityGANSupplementary模
2021-09-23 18:37:08 1628
原创 plsql创建Oracle数据库报错:使用Database Control配置数据库时,要求在当前Oracle主目录中配置监听程序 必须运行Netca以配置监听程序,然后才能继续。或者
百度得到答案:启动OracleListener服务即可进入任务管理器,发现没有Oracle Listener解决:找到Oracle开头,Listener结尾的服务并右键开始即可,如我的机器是这样的:
2021-09-15 11:12:47 509
原创 Oracle创建数据库“监听程序未启动或数据库服务未注册”错误处理
“监听程序未启动或数据库服务未注册”错误处理建立数据库过程中,出现“监听程序未启动或数据库服务未注册到该监听程序”错误。在其他博客找到一种解决方案:https://blog.csdn.net/qq_30725371/article/details/79993206但是我打开Net Manager发现,没有“添加地址”这个按钮。这里提供另一种解决方案:先不要关闭错误提示的窗口找到Oracle安装目录(即上一篇博客中的/product/11.2.0/db_home1.打开./NETWORK/AD
2021-09-15 10:48:54 2851
原创 频谱聚类|拉普拉斯矩阵
文章目录频谱聚类的概念拉普拉斯矩阵频谱聚类的步骤频谱聚类的概念频谱聚类的本质是利用样本间的相似度,降维后使用聚类算法进行节点聚类。其中用到的拉普拉斯矩阵的特征值被成为“谱”。拉普拉斯矩阵① 样本相似度矩阵S:我们有n个样本,利用某种相似度度量方法可以获得两两样本之间的相似度。如使用高斯相似度:Si,j=exp(−∣∣xi−xj∣∣222σ2)S_{i,j}=exp(-\frac{||x_i-x_j||_2^2}{2\sigma^2})Si,j=exp(−2σ2∣∣xi−xj∣∣22)
2021-09-03 16:40:38 1022
原创 机器学习零散笔记:一些概念和注意
文章目录Matrix Factorizationencoder-decoder | auto-encoder在文字上的例子:搜索引擎,用query搜索documentMatrix Factorization以电影为例,电影可能具有一些隐藏因子:演员、题材、主题、年代……,而用户针对这些隐因子有偏好特征属性,为了便于理解,我们假设隐因子数量 k 是 2,分别代表着喜剧片和动作片两种题材,矩阵分解后的两个小矩阵,分布代表着电影对这两种题材的符合程度以及用户对这两种题材的偏好程度,如下图:encoder-
2021-08-27 14:44:55 322
原创 大厂面试机器学习算法(4)提升树模型:GDBT、XGBoost、LightGBM(未完待续)
文章目录Xgboost简介整体介绍计算叶子阶段的权重构建第k棵树的结构常见面试问题如何实现并行?学习率的作用?如何处理缺失值?Xgboost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。整体介绍xgboost是集成了K棵树之后的集成模型,如下图所示。每个样本需要经
2021-08-20 13:25:01 1348
原创 python包安装、搜索路径|anaconda虚拟环境|安装包后仍然no module named解决方案
Python包搜索路径Python中使用import sys sys.prefix我们记输出为<prefix>,即Python路径的前缀,那么:我们的Python解释器就位于<prefix>/ bin/ python;在import包时会搜索:Python标准库位于<prefix>\ lib(标准库)、Python第三方
2021-08-19 12:52:08 5935
原创 Community detection|模块度含义理解|Louvain算法
文章目录Community detection:团伙挖掘/社团发现Modularity:模块度模块度增益Louvain算法Community detection:团伙挖掘/社团发现利用图拓扑结构中蕴藏的信息,从复杂网络中解析出存在密切联系的节点(团伙)。Modularity:模块度度量社区划分优劣的指标,直观上表示某社团划分状态下,社团内部连边数量与该划分下随机连边数量的差值。计算公式如下:Q=12m∑i,j[Aij−kikj2m]δ(ci,cj)=12m∑i,jAijδ(ci,cj)−∑i,j
2021-08-17 17:07:49 1642 3
原创 大厂面试机器学习算法(2)回归算法常考问题
文章目录线性回归、Lasso回归、岭回归损失函数线性回归、Lasso回归、岭回归损失函数线性回归:J(θ)=12m∑i=1m(h(x(i))−y(i))2J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2J(θ)=2m1∑i=1m(h(x(i))−y(i))2Lasso回归:J(θ)=12m∑i=1m(h(x(i))−y(i))2+λ∑j=1n∣θ∣J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i
2021-07-13 18:09:53 163
原创 大厂面试机器学习算法(1)SVM常考问题
网易有道数据挖掘面试题:介绍svm的原理字节跳动机器学习算法面试题:手推svm过程今天整理一下面试常考问题。文章目录1. SVM算法原理2. SVM与感知机(Perceptron)的区别3. 什么是支持向量4. 手推SVM原理1. SVM算法原理SVM的基本原理是求解能够正确划分训练数据集并且几何间隔最大的超平面。如图1, wx+b=1wx+b=1wx+b=1和 wx+b=−1wx+b=-1wx+b=−1 即为所求超平面。2. SVM与感知机(Perceptron)的区别感知机所求超平面为
2021-07-12 12:20:05 528
原创 粒子群算法原理|python实现|参数调优
粒子群算法是比较有名的群体智能算法之一,其他群体智能算法还包括蚁群算法、鱼群算法、人工蜂群算法等。今天为大家介绍粒子群算法。文章目录算法原理优化过程二元函数优化算法原理粒子群算法来源于鸟群的觅食行为,一群鸟随机寻找区域内唯一食物的位置,粒子群算法中的粒子就是鸟群中的小鸟。该算法最重要的三个变量即每只鸟拥有的信息:自己当前位置距离食物的距离(适应度P,是目标函数的映射)、飞行速度(向量V)、当前位置(坐标X)。优化过程与大多数机器学习算法一样,粒子群算法的初始值随机确定。在每次鸟群按照当前速度飞
2021-05-28 10:39:16 9136 5
原创 python中import用法|如何调用不同.py文件|连环import报错
文章目录1 调用函数(未定义在类内)1.1 import 文件名;文件名.函数名()1.2 from 文件名 import 函数名;函数名()2 调用类(包括调用类内的方法等)2.1 import 文件名;文件名.类名()(即init函数)2.2 from 文件名 import 类名;类名()(即init函数)跨文件调用主要分为调用函数(未定义在类内)和调用类(包括类内方法等)两种情况。相应的调用语句有两种格式:1. import 文件名2. from 文件名 import 函数名/类名第一种
2021-05-16 19:54:02 6131
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人