自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (5)
  • 收藏
  • 关注

转载 自然语言处理之LDA主题模型

一、LDA介绍LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA是一种非监督机器学习技术,可以用来识别...

2019-05-19 21:43:32 1117

转载 自然语言处理之SVM

一、SVM原理具体原理可见:https://blog.csdn.net/d__760/article/details/80387432二、SVM文本分类实现文本分类是有监督学习的一个例子,它使用包含文本文档和标签的数据集来训练一个分类器。端到端的文本分类训练主要由三个部分组成:1. 准备数据集:第一步是准备数据集,包括加载数据集和执行基本预处理,然后把数据集分为训练集和验证集。特...

2019-05-19 21:33:47 1906 3

原创 自然语言处理之朴素贝叶斯

一 、朴素贝叶斯基本原理基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。1、基本定义分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即,用x这个向量来代表这个事物,x...

2019-05-19 21:00:22 1845

原创 自然语言处理之word2vec

一、背景语言模型- 在统计自然语言处理中,语言模型指的是计算一个句子的概率模型。 传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同,比如“番茄”和“西红柿”。这给所有NLP任务都带来了挑战——字符串本身无法储存语义信息。该挑战突出表现在模型的平滑问题上:标注语料是有限的,而语言整体是无限的,传统模型无法借力未标注的海量语料,只能靠人工设计平滑...

2019-05-18 15:10:57 1550 1

转载 自然语言处理之TF-IDF原理以及利用其进行特征筛选

一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频 (term frequency, TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止...

2019-05-16 21:36:01 1338

翻译 自然语言处理之结巴分词

自然语言处理之结巴分词一、介绍jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English ...

2019-05-14 20:50:52 566

原创 python中使用pymysql

安装pip install PyMySQL查表import pymysql# 创建connection连接dbconn = pymysql.connect( host="localhost", database="XXX", user="root", password="XXX+", port=6666, charset='utf8')# 执行sql语句data = pd.read_sql('SELECT col1, col2, col3 F

2022-02-15 10:09:20 379

原创 No module named ‘sklearn.utils.linear_assignment_‘解决方案

原因:linear_assignment被弃用,官方将scipy.optimize.linear_sum_assignment代替了sklearn.utils.linear_assignment_。方法一:降低scikit-learn版本pip install -i https://pypi.douban.com/simple scikit-learn==0.19.2方法二:修改代码from scipy.optimize import linear_sum_assignment as linear

2022-01-20 11:07:46 2971

原创 踩坑 gnutls_handshake() failed: The TLS connection was non-properly terminated.

git clone 时遇到 gnutls_handshake() failed: The TLS connection was non-properly terminated.原因:代理设置出错解决方案:重置代理git config --global --unset https.https://github.com.proxy git config --global --unset http.https://github.com.proxy 若需使用代理,http协议和socket协议的配

2022-01-20 10:25:39 4769

原创 OpenCV-Python边缘检测

函数cv2.Canny(image, threshold1, threshold2[, edges[, apertureSize[, L2gradient ]]]) 必要参数:第一个参数是需要处理的原图像,该图像必须为单通道的灰度图;第二个参数是阈值1;第三个参数是阈值2。其中较大的阈值2用于检测图像中明显的边缘,但一般情况下检测的效果不会那么完美,边缘检测出来是断断续续的。所以这时候用较小的第一个阈值用于将这些间断的边缘连接起来。可选参数中apertureSize就是Sobel算子的大

2022-01-11 17:53:56 266

原创 pip报错:AttributeError: ‘_NamespacePath‘ object has no attribute ‘sort‘

使用easy_install更新pipeasy_install pipeasy_install setuptools

2021-12-30 13:41:15 895

原创 目标检测模型YOLOv3之提取特征

图像分类的章节中,我们已经讲解过了通过卷积神经网络提取图像特征。通过连续使用多层卷积和池化等操作,能得到语义含义更加丰富的特征图。在检测问题中,也使用卷积神经网络逐层提取图像特征,通过最终的输出特征图来表征物体位置和类别等信息。YOLOv3算法使用的骨干网络是Darknet53。Darknet53网络的具体结构如下图所示,在ImageNet图像分类任务上取得了很好的成绩。在检测任务中,将图中C0后面的平均池化、全连接层和Softmax去掉,保留从输入到C0部分的网络结构,作为检测模型的基础网络结构,也称为

2021-12-13 11:07:15 5803

原创 目标检测模型YOLOv3之候选区域计算

R-CNN系列算法需要先产生候选区域,再对候选区域做分类和位置坐标的预测,这类算法被称为两阶段目标检测算法。近几年,很多研究人员相继提出一系列单阶段的检测算法,只需要一个网络即可同时产生候选区域并预测出物体的类别和位置坐标。与R-CNN系列算法不同,YOLOv3使用单个网络结构,在产生候选区域的同时即可预测出物体类别和位置,不需要分成两阶段来完成检测任务。另外,YOLOv3算法产生的预测框数目比Faster R-CNN少很多。Faster R-CNN中每个真实框可能对应多个标签为正的候选区域,而YOLOv

2021-12-10 17:23:04 850

原创 Python删除某根目录下的所有空目录&&删除某个文件夹

概述os.walk() 方法可以创建一个生成器,用以生成所要查找的目录及其子目录下的所有文件。os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。PS:在Unix,Windows中有效。参数top – 根目录下的每一个文件夹(包含它自己), 产生3-元组 (dirpath, dirnames,filenames)【文件夹路径, 文件夹名字, 文件名】。to

2021-12-10 13:49:41 823

原创 python时间戳转换

时间格式转换在数据处理过程中经常用到,今天就记录一下python对时间戳转换的一些常用方法将时间戳转换成时间利用localtime()函数将时间戳转化成localtime的格式利用strftime()函数重新格式化时间import timetimestamp = 1462451334#转换成localtimetime_local = time.localtime(timestamp)#转换成新的时间格式(2016-05-05 20:28:54)dt = time.strftime(

2021-12-10 11:44:17 7663

原创 目标检测之数据预处理

一、数据介绍AI识虫数据集结构如下:提供了2183张图片,其中训练集1693张,验证集245,测试集245张。包含7种昆虫,分别是Boerner、Leconte、Linnaeus、acuminatus、armandi、coleoptera和linnaeus。包含了图片和标注(数据获取见文末)。将数据解压之后,可以看到目录下的结构如下所示,包含train、val和test三个文件夹。train/annotations/xmls目录下存放着图片的标注。每个xml文件是对一张图片的说明,包括图片尺寸

2021-12-08 17:29:03 3867 5

原创 图像分类模型简介与搭建(基于Torch&paddlepaddle 含LeNet、AlexNet、VGG、GoogLeNet、ResNet)

一、简介图像分类是根据图像的语义信息对不同类别图像进行区分,是计算机视觉的核心,是物体检测、图像分割、物体跟踪、行为分析、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用,如:安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。上一节主要介绍了卷积神经网络常用的一些基本模块,本节将基于眼疾分类数据集iChallenge-PM,对图像分类领域的经典卷积神经网络进行剖析,介绍如何应用这些基础模块构建卷积神经网络,

2021-12-07 16:26:09 3322

转载 卷积神经网络基础

卷积神经网络卷积神经网络是目前计算机视觉中使用最普遍的模型结构。本章节主要向读者介绍卷积神经网络的一些基础模块,包括:卷积(Convolution)池化(Pooling)ReLU激活函数批归一化(Batch Normalization)丢弃法(Dropout)下图是一个典型的卷积神经网络结构,多层卷积和池化层组合作用在输入图片上,在网络的最后通常会加入一系列全连接层,ReLU激活函数一般加在卷积或者全连接层的输出上,网络中通常还会加入Dropout来防止过拟合。说明:在卷积神经网络中

2021-12-07 10:44:47 288

原创 Python 批量修改文件名并批量裁剪视频文件

批量修改文件名python 对文件进行批量改名用到的是 os 模块中的 listdir 方法和 rename 方法。os.listdir(dir) : 获取指定目录下的所有子目录和文件名os.rename(原文件名,新文件名) : 对文件或目录改名,把混乱的文件名改成有序的文件名:import ospath=input('请输入文件路径(结尾加上/):') #获取该目录下所有文件,存入列表中fileList=os.listdir(path)n=0for i in fil

2021-11-29 11:17:53 1219

转载 用conda创建python虚拟环境

1、首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。2、conda常用的命令。1)conda list 查看安装了哪些包。2)conda env list 或 conda info -e 查看当前存在哪些虚拟环境3)conda update conda 检查更新当前conda3、创建python虚拟环境。 使用 conda create -n your_env_name python=X.X(2.7、3.6等)命令创建pytho

2021-11-24 09:49:42 884

原创 docker安装

Docker使用:安装前言准备工作使用 APT 安装安装 Docker使用脚本自动安装启动 Docker建立 docker 用户组测试 Docker 是否安装正确镜像加速前言Docker 是个划时代的开源项目,它彻底释放了计算虚拟化的威力,极大提高了应用的维护效率,降低了云计算应用开发的成本!使用 Docker,可以让应用的部署、测试和分发都变得前所未有的高效和轻松!无论是应用开发者、运维人员、还是其他信息技术从业人员,都有必要认识和掌握 Docker,节约有限的生命。准备工作系统要求Docke

2021-11-23 15:07:17 98

原创 爬取谷歌图片

python爬虫:爬取谷歌图片前言涉及到的库需要使用的插件实现过程前言由于工作需要,需要从网上获取大量图片。百度图片就是一个动态网页,需要使用动态爬取功能进行爬图片(使用谷歌图片需自备梯子)。涉及到的库pip 安装from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport timeimport urllib.requestfrom bs4 import Beautifu

2021-11-23 10:40:51 2154 2

原创 爬取百度图片

python爬虫:爬取百度图片前言涉及到的库实现过程前言由于工作需要,需要从网上获取大量图片。百度图片就是一个动态网页,需要使用动态爬取功能进行爬图片。涉及到的库import requestsimport jsonimport os实现过程- 下载链接分析首先,打开百度,搜索一个内容然后,打开抓包工具,选择XHR选项,按Ctrl+R,然后你会发现,随着你鼠标的滑动,右侧会出现一个又一个的数据包。这里简单说一下什么是抓包工具:什么是抓包?即抓取我们本地电脑与远端服务器通信时候

2021-11-19 16:29:47 8824 6

转载 Python opencv 截取视频图片并保存

Python opencv 截取视频图片并保存# coding=utf-8import osimport cv2videos_src_path = r".\vedio\\" #视频地址frames_save_path = r".\picture\\" #保存图片地址width = 810height = 985time_interval = 25 #截图间隔def video2frame(video_src_path, frame_save_p

2021-05-19 19:30:50 1250

原创 常见经典排序算法代码实现+演示

常见经典排序算法代码实现+演示一、概述1、算法分类2、算法复杂度3、相关概念二、算法详解1、冒泡排序1.1 算法描述1.2 动图演示1.3 代码实现2、选择排序(Selection Sort)2.1 算法描述2.2 动图演示2.3 代码实现2.4 算法分析3、插入排序(Insertion Sort)3.1 算法描述3.2 动图演示3.2 代码实现3.4 算法分析4、希尔排序(Shell Sort)4.1 算法描述4.2 动图演示4.3 代码实现4.4 算法分析5、归并排序(Merge Sort)5.1 算法

2020-12-05 19:00:09 101

原创 贪心算法

贪心算法(Greedy Algorithm) 简介贪心算法,又名贪婪法,是寻找最优解问题的常用方法,这种方法模式一般将求解过程分成若干个步骤,但每个步骤都应用贪心原则,选取当前状态下最好/最优的选择(局部最有利的选择),并以此希望最后堆叠出的结果也是最好/最优的解。区间的元素选择贪婪法的基本步骤:步骤1:从某个初始解出发;步骤2:采用迭代的过程,当可以向目标前进一步时,就根据局部...

2019-08-12 23:19:37 356

原创 盛最多水的容器

给定 n 个非负整数 a1,a2,...,an,每个数代表坐标中的一个点(i,ai) 。在坐标内画 n 条垂直线,垂直线 i的两个端点分别为(i,ai) 和 (i, 0)。找出其中的两条线,使得它们与x轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器,且n的值至少为 2。 图中垂直线代表输入数...

2019-08-10 22:02:45 140

原创 Z 字形变换

将一个给定字符串根据给定的行数,以从上往下、从左到右进行 Z 字形排列。比如输入字符串为 "LEETCODEISHIRING" 行数为 3 时,排列如下:L C I RE T O E S I I GE D H N之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比如:"LCIRETOESIIGEDHN...

2019-08-06 23:23:40 301

原创 二叉树(python实现)

1. BinaryTree (二叉树)二叉树是有限个元素的集合,该集合或者为空、或者有一个称为根节点(root)的元素及两个互不相交的、分别被称为左子树和右子树的二叉树组成。二叉树的每个结点至多只有二棵子树(不存在度大于2的结点),二叉树的子树有左右之分,次序不能颠倒。二叉树的第i层至多有个结点深度为k的二叉树至多有个结点;对任何一棵二叉树T,如果其终端结点数为N0,度为2的结点数为...

2019-08-04 21:28:50 2758 1

原创 无重复字符的最长子串

给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: "abcabcbb"输出: 3解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是 ...

2019-07-21 23:16:23 151

原创 两数相加

给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0 开头。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输出:7 -> 0 -&...

2019-07-19 22:17:30 188

转载 二分查找法模板

基本思想1)首先把循环可以进行的条件写成 while(left < right),在退出循环的时候,一定有 left == right 成立,此时返回 left 或者 right 都可以(2)“神奇的”二分查找法模板的基本思想(特别重要)“排除法”即:在每一轮循环中排除一半以上的元素,于是在对数级别的时间复杂度内,就可以把区间“夹逼” 只剩下 1 个数,而这个数是不是我们要找的数,单独...

2019-07-18 22:19:34 530

原创 爬楼梯

假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢?注意:给定 n 是一个正整数。示例 1:输入: 2输出: 2解释: 有两种方法可以爬到楼顶。1. 1 阶 + 1 阶2. 2 阶示例 2:输入: 3输出: 3解释: 有三种方法可以爬到楼顶。1. 1 阶 + 1 阶 + 1 阶2. 1 ...

2019-07-18 21:17:06 1615

原创 x 的平方根

实现 int sqrt(int x) 函数。计算并返回 x 的平方根,其中 x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例 1:输入: 4输出: 2示例 2:输入: 8输出: 2说明: 8 的平方根是 2.82842..., 由于返回类型是整数,小数部分将被舍去。方法一:二分法思路分析:使用二分法搜索平方根的思想很...

2019-07-17 21:19:25 345

原创 二进制求和

给定两个二进制字符串,返回他们的和(用二进制表示)。输入为非空字符串且只包含数字 1 和 0。示例 1:输入: a = "11", b = "1"输出: "100"示例 2:输入: a = "1010", b = "1011"输出: "10101"思路整体思路是将两个字符串较短的用 000 补齐,使得两个字符串长度一致,然后从末尾进行遍历计算,得到最终结果。本题...

2019-07-16 21:18:52 233

转载 加一

给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储一个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。示例 1:输入: [1,2,3]输出: [1,2,4]解释: 输入数组表示数字 123。示例 2:输入: [4,3,2,1]输出: [4,3,2,2]解释: 输入数组表示数字 4321。...

2019-07-15 22:12:19 117

原创 手撕Bert代码(torch版)

目录前言先从分类说起(run_classifeir.py文件)前言BERT(BidirectionalEncoderRepresentations fromTransformers)近期提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点:使用了Transformer...

2019-07-12 22:51:45 2032

原创 最后一个单词的长度

给定一个仅包含大小写字母和空格 ' ' 的字符串,返回其最后一个单词的长度。如果不存在最后一个单词,请返回 0 。说明:一个单词是指由字母组成,但不包含任何空格的字符串。示例:输入: "Hello World"输出: 5思路 标签:字符串遍历 从字符串末尾开始向前遍历,其中主要有两种情况 第一种情况,以字符串"Hello World"为例,从后向前遍...

2019-07-12 20:09:34 269

原创 合并K个排序链表

合并 k 个排序链表,返回合并后的排序链表。请分析和描述算法的复杂度。示例:输入:[ 1->4->5, 1->3->4, 2->6]输出: 1->1->2->3->4->4->5->6方法 1:暴力想法 & 算法 遍历所有链表,将所有节点的值放到一个数组中。 将这个数...

2019-07-11 21:15:34 120

原创 合并两个有序数组

给定两个有序整数数组 nums1 和 nums2,将 nums2 合并到 nums1 中,使得 num1 成为一个有序数组。说明: 初始化 nums1 和 nums2 的元素数量分别为 m 和 n。 你可以假设 nums1 有足够的空间(空间大小大于或等于 m + n)来保存 nums2 中的元素。示例:输入:nums1 = [1,2,3,0,0,0], m = 3...

2019-07-10 21:15:11 554

rubish_det.zip

垃圾分类数据集 1500+图片

2021-11-19

测试用的0DB WAV音频文件下载

测试用的0DB WAV音频文件 1KHz-stero 10KHz-stero 20Hz-stero

2020-12-09

data-structures.zip

尚硅谷 韩顺平 图解Java数据结构和算法,知识文档与JAVA代码

2019-07-10

汽车评论中文数据集.zip

有关于汽车评论的数据集,具体代码实现与数据处理操作参见我的博文https://blog.csdn.net/Wenweno0o/article/details/90522739

2019-05-26

cnews中文数据集.zip

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

2019-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除