- 博客(14)
- 资源 (9)
- 问答 (7)
- 收藏
- 关注
原创 【NLP】LDA笔记之模型评估
ReferenceNumber of topicsPlexity OR maximum likelihood estimation使用R语言进行主题发现:https://www.cnblogs.com/deeplearningfans/p/4114892.html要在数据集中确定主题的个数,需要事先设定主题个数的搜索范围;然后分别使用LDA计算主题模型在不同主题数目下的...
2019-11-20 16:04:49 4202 5
转载 【NLP】LDA笔记
参考【NLP】LDA主题模型详解【NLP】LDA主题模型的简单应用主题模型简介 主题模型(Topic Model)是用来在一系列文档中发现 抽象主题 的一种统计模型(自动分析每个文档,统计文档中的词语,根据统计的信息判断当前文档包含哪些主题以及各个主题所占比)。直观来讲,如果一篇文章有一个中心思想,那么一定存在一些特定词语会出现的比较频繁。比方说,如果现...
2019-11-15 14:09:04 827 1
原创 【NLP】LDA2Vec笔记(基于Lda2vec-Tensorflow-master 可实现)(实践)
数据源代码所用数据:20_newsgroups.txt,大小几十MB。 文件开头:以texts换行,作为Key源代码所用的20个新闻组数据(据观察,数据无特殊格式)个人尝试之Japan.txt,成功。所用Japan.txt数据个人尝试之China.txt,失败。(load_20newsgroups.py生成的skipgrams.txt为空→run_20newsgro...
2019-11-14 09:34:50 2396 1
原创 【Python】100基础例(1-50)+数据分析例
1:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?#题目:有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?#程序分析:可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去 掉不满足条件的排列。#个人:1、个位/十位/百位的循环;2、用d记录数量(先初始化再append)d=[]for i in range(1,5):...
2019-11-12 11:20:41 4289
原创 【NLP】Word2Vec笔记(代码)
参考word2vec源码详解(非Python)Word2Vec的参数解释word2vector从参数解释到实战参数解释from gensim.models import Word2Vec#下面的参数均是默认值Word2Vec(sentences=None, #sentences可以是分词列表,也可以是大语料 size=100,#特征向量的维...
2019-11-10 15:19:38 676
原创 【Python】菜鸟自编代码之旅
合并不同文件夹的同名.csv文件bb1)懵:舍友求助,我的第一反应是——同不会(不是经常学Python吗?这么简单的问题,你怎么好意思说不会?)。最后达成共识:第二天思考思考,试着实现。2)搜:作为一名伸手党,第一步当然是上网搜,最好有现成的代码啊哈哈哈!然而,并没找到。木得关系,虽然没有完整的现成代码,但可以从每篇博文当中学一两点啊,拼凑拼凑不就完了。3)写:果然,并不难,不就是.csv...
2019-11-10 10:09:55 220
原创 【前端JS】网页折线图数据下载——EChart.js初涉
网站一任务描述下载网页折线图中的数据 注:这并非普通的静态图表,像是传说中的Echart——基于JavaScript语言编写的前端数据可视化插件。网页Echart图表截图思考尝试手动整理:对于我等懒人来说,能动手就不想动脑。第一反应当然是:手动移鼠标,人工整理数据。2000个数据点,预计7~8小时可搞完。然而事实是,整理20个数据点后,弃用此法。 GetD...
2019-11-07 19:49:32 2953
原创 【NLP】spaCy笔记
参考快速掌握spacy在python中进行自然语言处理(附代码&链接)spaCy 第一篇:核心类型spaCy 第二篇:语言模型spaCy 第三篇:依存分析spaCy官方文档简介基本介绍spaCy的架构spaCy 是一个号称工业级的自然语言处理工具包,最核心的数据结构是Doc和Vocab。Doc对象包含Token的...
2019-11-05 15:09:14 2797 12
原创 【Python库】Pandas(部分)
目录参考简介Numpy 和 Pandas 有什么不同详介Pandas数据结构之Series从ndarray创建一个系列Series从字典创建一个系列从标量创建一个系列使用标签检索数据(索引)使用索引标签值列表检索多个元素Pandas数据结构之DataFrame创建一个空的DataFrame从列表创建DataFrame从ndarrays/Lis...
2019-11-04 19:36:07 626 1
原创 【Python库】Numpy(较完整)
目录参考简介详介Ndarray 对象NumPy 数据类型NumPy 数组属性Numpy的数组类ndarray的重要函数NumPy 创建数组numpy.emptynumpy.zerosnumpy.onesNumPy 从已有的数组创建数组numpy.asarraynumpy.frombuffernumpy.fromiterNumPy 从数...
2019-11-03 14:38:28 1661 2
原创 【NLP】LDA2Vec笔记(中)
代码结构分析代码来源:githubexamples-hacker_news执行顺序一级目录examples-hacker_news以examples-hacker_news(新闻)为例。据我观察,首先,应当运行data-preprocess.py(此代码同时包括用于下载数据的代码),进行数据预处理工作,处理完成后保存产物(如下图):examples-hacker...
2019-11-03 12:35:21 609 2
原创 【Python】像计算机科学家一样思考Python_笔记(下)(面向对象编程)
目录(十五)类和对象类实例复制调试术语(十六)类和函数(十七)类和方法打印对象(附:重要例子)Time类 print_time函数Time类 print_time方法__init__方法__str__方法接口和实现(十八)继承类属性/实例属性(十九)进阶小技巧(简化代码)条件表达式使用条件表达式改写if-else使用条件表达式改写阶乘函数的递归版使用条件表达式处理函数的可选参数列表推导式转为大写(字符串方法capit
2019-11-02 21:10:46 415
原创 【Python】像计算机科学家一样思考Python_笔记(上)
目录(一)程序之道(二)变量、表达式和语句(三)函数例:turtle模块,画正方形有返回值的函数重构(四)函数接口文档字符串(五)条件和递归pass嵌套条件递归recursion键盘输入(八)字符串序列(sequence)遍历字符串字符串不可变例:计算字母a在字符串中出现的次数(计数器counter)(九)例:文字游戏(十...
2019-11-02 12:26:24 754
原创 【NLP】spaCy笔记
目录参考spaCy实践语法方面准备工作展示全部词例(token)只对前10个词例(token),输出token的索引值、词元、词性等不再考虑全部词性,只关注文本中出现的实体(entity)词汇把一段文字拆解为语句(按.分隔)搞清其中每一个词例(token)之间的依赖关系语义方面使用spaCy的词嵌入模型查看单词对应的向量查看spacy的语义近似度判...
2019-11-01 11:18:07 3686
Landslide-susceptibility-mapping-main
2023-03-23
ENVI 常用扩展工具.zip
2021-07-12
ALBERT-CRF训练所需向量.zip
2021-05-31
ALBER-CRF训练后的权重文件
2021-05-31
msra(命名实体语料) BIO schema.zip
2021-03-16
文本分类:用pLSA得到了三个概率矩阵,该怎么用呀?
2019-02-28
python:如何用wordnet词干化.txt文档并输出
2017-03-18
python 筛选出指定词并输出
2017-03-16
词文本矩阵 分批输出到多个表格后
2017-03-15
请问各位大神...TEM算法是什么鬼T T
2016-11-29
小白求助T T 关于python构建文本词条矩阵
2016-11-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人