自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 sklearn.decomposition.LatentDirichletAllocation接口详解

1. Latent Dirichlet Allocation(LDA)隐式狄利克雷分布是一个生成概率模型,用于离散的数据集比如文本语料库同时它也是一个主题模型,用来从一堆文件s中发现抽象的主题sLDA 的图形模型是一个三级生成模型在图形模型中显示的关于符号s的说明,可在Hoffman等人(2013年)中找到语料库是 DDD 篇文档s的集合一篇文档是一序列的 NNN 个词s在我们的语料库中有KKK个主题s这些框表示重复采样在图形模型中,每一个节点都是一个随机变量并且在生成过程

2022-01-07 11:24:09 3668

原创 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 32: illegal multibyte sequence

1.这类问题都是文件编码问题,至于文件到底是什么类型的编码,最常用的编码格式一个去试一下。encoding=‘utf-8’encoding=‘gb18030’encoding=‘gbk’3.python 3中只有unicode str,所以把decode方法去掉了。python3环境中,f1已经是unicode str了,不用decode。如果文件内容不是unicode编码的,要先以二进制方式打开,读入比特流,再解码。...

2022-01-07 11:23:06 1077

原创 理论:git和github基础使用及概念辨析

Github是一个代码仓库托管平台Git:分布式的版本控制系统只支持 Git 作为唯一的版本库格式进行托管,故名 GitHub。为一个项目贡献代码非常简单:首先点击项目站点的Fork的按钮,然后将代码检出并将修改加入到刚才分出的代码库中,最后通过内建的pull request机制向项目负责人申请代码合并。在 Git 中并不存在主库这样的概念,每一份复制出的库都可以独立使用,任何两个库之间的不一致之处都可以进行合并。1.push与pull命令:push:把我推给你git push origin

2021-08-07 19:28:27 236

原创 实战:如何通过 Git 将代码提交到 GitHub

一.本地没有git仓库两个概念:本地仓库 和 远程仓库步骤1: 将远程仓库clone到本地注意:通过clone下来的本地仓库自动关联远程仓库,不需init,只需add然后commitgit clone https://github.com/DEMIAN907/EasyNLP-tutorial.git步骤2:本地仓库增删内容(commit),同步至远程仓库2.1 将code目录add并commit到EasyNLP-tutorial仓库git status ;查看untracted

2021-08-07 16:17:56 171

转载 MATLAB卷积conv、conv2、convn详解

1. conv(向量卷积运算)向量的卷积= 多项式乘法使用说明:w=conv(u,v)u,v为向量,其长度可以不相同。实例1:多项式乘法(s^2+2s+2)(s+4)(s+1)w=conv([1,2,2],conv([1,4],[1,1]))w =1 7 16 18 8P=poly2str(w,'s')P =s^4 + 7 s^3 + 16 s^2 + 18 s + 82. conv2(二维矩阵卷积运算)总结出full,same,valid三种卷积后图像大小的计算公式:

2021-06-11 17:46:28 12983 1

原创 Leetcode day6 初级算法-数组-加一-多情况讨论

题目给定一个由** 整数** 组成的 非空 数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。实例输入:digits = [1,2,3]输出:[1,2,4]解释:输入数组表示数字 123。输入:digits = [9,9,9]输出:[1,0,0,0]解释:输入数组表示数字 1000思路末位数加一共三种情况,无进位: 即++后digits[i] != 10末位加一返回该v

2021-05-14 10:38:31 91

原创 Leetcode day6 初级算法-数组-两个数组的交集 II- map/排序+双指针

题目给定两个数组,编写一个函数来计算它们的交集。方法一:排序+双指针思路:先将两个数组进行排序两个指针分别指向数组下标,从左边第一个元素开始1)所指的元素相同,放进vector里,注意vector的插入元素是 push_back(), set的才是insert,注意:此时两个指针同时都要往后移动2)所指的元素不相同,小的往后移,大的不动(它倒要看看后面还有没有我的交集)直至 其中有一个数组遍历完了,即满足a<nums1.size()&&b<nums2.size

2021-05-13 16:05:24 101

原创 Leetcode day5 初级算法-数组-只出现一次的数字-位运算异或+set

题目给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。要求线性复杂度 不使用额外空间方法一:集合set思路set 集合中元素的互异性把数组中的元素放进set,如果相同,也就是说集合中已经有啦,这个元素出现了两次,那就删掉集合中的这个元素否则就插入这个新的元素到set中也就是说,第一次碰到insert,第二次碰到erase会发现只有那个只出现了一个元素还在set中,把它return注意s.find(num)==s.end() // 没

2021-05-13 14:42:29 105

原创 Leetcode day4 初级算法-数组-存在重复元素—哈希表

题目给定一个整数数组,判断是否存在重复元素。如果存在一值在数组中出现至少两次,函数返回 true 。如果数组中每个元素都不相同,则返回 false 。第一种方法:排序后再比较初始代码:暴力求解class Solution {public: bool containsDuplicate(vector<int>& num) { int length = num.size() ; if (length == 0) return false;

2021-05-11 09:13:52 199

原创 Leetcode day3 初级算法-数组-旋转数组——反转/辅助数组

(昨天没打卡一题,故今日补之)题目给定一个数组,将数组中的元素向右移动 k 个位置,其中 k 是非负数。进阶:尽可能想出更多的解决方案,至少有三种不同的方法可以解决这个问题。你可以使用空间复杂度为 O(1) 的 原地 算法解决这个问题吗?代码class Solution {public: void rotate(vector<int>& array,int k) {//向右移动 k 个位置 int length = array.size();

2021-05-10 14:54:22 166

原创 Leetcode day2 初级算法-数组-买卖股票的最佳时机——贪心算法

题目给定一个数组 prices ,其中 prices[i] 是一支给定股票第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易(多次买卖一支股票)。注意:你不能同时参与多笔交易(你必须在再次购买前出售掉之前的股票)。代码class Solution {public: int maxProfit(vector<int>& prices) { if(prices.size()<2) return 0;

2021-05-10 13:59:09 152

原创 Leetcode day1 初级算法-数组-删除排序数组中的重复项——双指针

题目:给你一个有序数组 nums ,请你 原地 删除重复出现的元素,使每个元素 只出现一次 ,返回删除后 **数组的新长度 **。**不要使用额外的数组空间 **,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。代码:class Solution {public: int removeDuplicates(vector<int>& nums) { if (nums.size() == 0) return 0; in

2021-05-08 09:12:51 115

原创 Guidelines For Writing Letters of Recommendation

Letter RequirementsIn accordance with federal laws and university policy, authors of letters of recommendation are asked to refrain from comments regarding candidate’s race, color, gender, religion, age, physical or mental disability, marital status, sex

2021-04-22 20:50:19 107

转载 小白入门猿来如此之结巴jieba关键词提取+词性标注+返回词语在原文的起止位置+ChineseAnalyzer for Whoosh 搜索引擎

关键词提取基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选jieba.analy

2021-03-31 18:01:11 1224

转载 小白入门猿来如此之结巴jieba中文分词+添加自定义词典+我的cheatsheet(写给自己看(*^_^*))

项目github地址https://github.com/fxsjy/jiebaJieba:中文文本分割:构建为最佳的Python中文单词分割模块。支持繁体中文分词、支持用户自定义词典。广泛用于文本分析、词云绘制、关键词提取、自然语言处理等领域jieba常用函数支持四种分词模式:精确模式:把最可能组成词语的词切开,没有冗余单词。全模式:把所有可能组成词语的词切开,有冗余单词。搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。结果和全模式类似。paddle模式:使

2021-03-30 21:36:50 1271

转载 What is generator(Python生成器)+彩蛋 jieba中的generator?

由来列表储存大量数据,很占内存。而generator不怎么占计算机资源。简单的生成器生成一个生成器,注意是 ( )gen = (x for x in range(3))print(gen) 结果:这是一个生成器对象 at 什么地址。<generator object <genexpr> at 0x0000020425156A50>如何调用?法一:for item in gen: print(item)#output:012for循环这说明

2021-03-30 18:00:52 309

转载 中文文本挖掘的分词原理 By 刘建平Pinard + 我的cheatsheet

文本挖掘的分词原理 By 刘建平Pinard 写的真是太好了!!!故转载https://www.cnblogs.com/pinard/p/6677078.html下面是我的Cheatsheet:引入:中文由于没有空格,分词需要专门去解决。本文就对文本挖掘时的中文分词原理做一个总结1. 分词的基本原理现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库关键词: argmax 马尔科夫假设(求联合分布)二元模型细节:1.argmax(f(x))是使得 f(x)取得最大值所对应的

2021-03-30 16:29:21 251

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除