Dr.Petrichor
计算机专业博士研究生,华为云计算专家,CSDN博客专家,CSDN人工智能领域优质创作者,现主要研究Python数据分析、机器学习、NLP相关领域内容。
展开
-
基于Python的文本共现网络构建
目录一、共现分析概念二、共现类型三、代码实现3.1构造分词函数3.2字符串存储3.3构建字典3.4构建共现矩阵3.5主函数3.6Weight 大于 300四、导入Gephi 制作网络图4.1 下载安装Gephi4.2 绘制共现网络图五、如何利用CNKI制作关键词共现网络图一、共现分析概念“共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。 而“共现分析”是对共现现象的定量...原创 2021-12-08 23:54:05 · 8378 阅读 · 14 评论 -
深度学习入门必看-手写数字识别
前言目前深度学习框架paddlepaddle、tensorflow、pytorch比较,结合网上大神的总结,pytorch更好学,社区也大,教程较多,莫名其妙的错误比较少。它基于动态图,可以按照正常人的思路玩,API较稳定。paddlepaddle的话同时支持动态图和静态图,但是社区还在建设中,版本迭代更新快。不过可以嫖百度的云计算服务,值得一试。而且配套的预训练模型和可视化等等开发工具也在上线中,蛮好用的。tensorflow是出了名新手劝退框架,因为文档比较反萌新,版本兼容性较差(我曾在嫉妒转载 2021-11-15 15:29:56 · 15727 阅读 · 12 评论 -
KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现
关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务。当前,由于对文档进行标注需要耗费大量资源且缺乏大规模的关键词提取数据集,无监督的关键词提取在实际应用中更为广泛。无监督关键词抽取的state of the art(SOTA)方法是对候选词和文档标识之间的相似度进行排序来选择关键词。但由于候选词和文档序列长度之间的差异导致了关键短语候选和文档的表征不匹配,导致以往的方法在长文档上的性能不佳,无法充分利用预训练模型原创 2022-05-10 16:36:09 · 9447 阅读 · 1 评论 -
Bert+CNN文本分类(含代码实现)
一、什么是CNN?CNN的特点:(1)特定特征位移不变性(2)特征缩放不变性2. CNN模型构造过程2.1 Convolution(卷积)(1)获取关键特征(减少参数)(2)共享权重(再次减少参数)2.2 Max Pooling(池化)2.3 Flatten向量转换为如图所示可以进入全连接层的向量模式3. TextCNN上图可理解为:通过不同的size(如上图2、3、4等),上图红色代表 size=2,黄色...原创 2022-03-28 00:17:38 · 14488 阅读 · 25 评论 -
Jieba分词并去停用词
百度网盘地址在链接: https://pan.baidu.com/s/1KBkOzYk-wRYaWno6HSOE9g 提取码: 4sm6。停用词表 stopwords.txt,四川大学和哈工大的自己选择。微博原始数据 all_data.txt(示例)处理结果 out.txt(示例)采用Jieba分词并去停用词。原创 2021-11-19 23:04:02 · 11956 阅读 · 11 评论 -
深度学习入门代码详解(附代码)
目录一、数据处理1.1 读入数据1.2 数据形状变换1.3 数据集划分1.4 数据归一化处理1.5 封装成load data函数二、模型设计2.1 训练配置2.2 训练过程2.3 梯度下降法2.4 计算梯度2.5 使用Numpy进行梯度计算2.6 确定损失函数更小的点2.7 代码封装Train函数2.8 训练扩展到全部参数三、随机梯度下降法( Stochastic Gradient Descent)3.1 数据处理代码修改3.2 ...转载 2021-11-28 00:47:35 · 27845 阅读 · 39 评论 -
一文弄懂Word2Vec之skip-gram(含详细代码)
目录前言一、什么是Skip-gram算法二、目标是什么三、定义表示法3.1 one-hot向量3.2 词向量(word vector)3.3 单词矩阵3.4 单词相似度3.5 softmax函数3.6算法过程3.7 求softmax四、skipgram代码实现4.1 如何把词转换为向量4.2 CBOW和Skip-gram的算法实现Skip-gram的理想实现Skip-gram的实际实现4.3 使用Pytorch实现Skip-gram.原创 2021-12-06 17:55:05 · 17654 阅读 · 12 评论 -
TF-IDF算法(原理+python代码实现)
目录前言一、TF-IDF的由来二、什么是TF-IDF?2.1 TF(Term Frequency)2.2 IDF(Inverse Document Frequency)2.3TF-IDF(Term Frequency-Inverse Document Frequency)三、TF-IDF应用四、代码实现4.1 常规Python实现TF-IDF4.2NLTK实现TF-IDF4.3Jieba实现TF-IDF算法五、TF-IDF不足之处六、TF-IDF...原创 2021-12-30 01:16:30 · 18872 阅读 · 5 评论 -
Python 实现一个简单的神经网络(附代码)
目录⭐前言⭐⭐砖块:神经元⭐????一个简单的例子????????编码一个神经元????????把神经元组装成网络????????例子:前馈????????编码神经网络:前馈????????训练神经网络 第一部分????????损失????????损失计算例子????????代码:MSE损失????????训练神经网络 第二部分????????例子:计算偏导数????????代码:一个完整的神经网络????????后话????⭐前言⭐以下内原创 2021-12-29 16:55:11 · 22030 阅读 · 10 评论 -
Bert文本分类实战(附代码讲解)
一、Bert简介BERT全称是Bidirectional Encoder Representations from Transformers,是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统,从名字我们能看出该模型两个核心特质:依赖于Transformer以及双向,同时它也是木偶动画《芝麻街》里面的角色,原创 2022-03-25 23:30:02 · 26573 阅读 · 71 评论 -
F1-score值计算
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种加权平均,它的最大值是1,最小值是0。1. TP、TN、FP、FN解释说明真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例) 行表示预测的label值,列表示真实label值 TP:True Positive, 被判定为正样本,事实上也是原创 2021-06-25 10:47:27 · 32554 阅读 · 5 评论 -
随机森林算法(Random Forest)Python实现
目录前言一、什么是Random Forest ?1.1什么是监督式机器学习?1.2 什么是回归和分类?1.3 什么是决策树?1.4 什么是随机森林?二、Random Forest 的构造过程2.1 算法实现2.2数据的随机选取2.3待选特征的随机选取2.4 相关概念解释三、 Random Forest 优缺点3.1 优点3.2 缺点四、Extra-Trees(极端随机树)五、Random Forest 的Python实现5.1 R.....原创 2022-01-01 19:14:05 · 65038 阅读 · 18 评论