自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 深度学习经典模型之GoogLeNet

​ GoogLeNet作为2014年ILSVRC在分类任务上的冠军,以6.65%的错误率力压VGGNet等模型,在分类的准确率上面相比过去两届冠军ZFNet和AlexNet都有很大的提升。从名字GoogLeNet可以知道这是来自谷歌工程师所设计的网络结构,而名字中GoogLeNet更是致敬了LeNet0^{[0]}0。GoogLeNet中最核心的部分是其内部子网络结构Inception,该结构灵感来源于NIN,至今已经经历了四次版本迭代(Inceptionv1−4_{v1-4}v1−4。

2024-11-08 02:07:52 1059

原创 深度学习经典模型之VGGNet

​ VGGNet是由牛津大学视觉几何小组(Visual Geometry Group, VGG)提出的一种深层卷积网络结构,他们以7.32%的错误率赢得了2014年ILSVRC分类任务的亚军(冠军由GoogLeNet以6.65%的错误率夺得)和25.32%的错误率夺得定位任务(Localization)的第一名(GoogLeNet错误率为26.44%)5^{[5]}5,网络名称VGGNet取自该小组名缩写。VGGNet是首批把图像分类的错误率降低到10%以内模型,同时该网络所采用的3×3。

2024-11-08 02:00:36 65

原创 深度学习经典模型之Network in Network

​ Network In Network (NIN)是由MinLinMin LinMinLin等人提出,在CIFAR-10和CIFAR-100分类任务中达到当时的最好水平,因其网络结构是由三个多层感知机堆叠而被成为NIN5^{[5]}5。NIN以一种全新的角度审视了卷积神经网络中的卷积核设计,通过引入子网络结构代替纯卷积中的线性映射部分,这种形式的网络结构激发了更复杂的卷积神经网络的结构设计,其中下一节中介绍的GoogLeNet的Inception结构就是来源于这个思想。

2024-11-07 12:03:22 862

原创 深度学习经典模型之ZFNet

​ ZFNet是由MatthewMatthewMatthewDZeilerD. ZeilerDZeiler和RobRobRobFergusFergusFergus在AlexNet基础上提出的大型卷积网络,在2013年ILSVRC图像分类竞赛中以11.19%的错误率获得冠军(实际上原ZFNet所在的队伍并不是真正的冠军,原ZFNet以13.51%错误率排在第8,真正的冠军是ClarifaiClarifaiCl。

2024-11-07 12:01:01 872

原创 深度学习经典模型之Alexnet

​ AlexNet是由AlexAlexAlex提出的首个应用于图像分类的深层卷积神经网络,该网络在2012年ILSVRCImageNetLargeScaleVisualRecognitionCompetition)图像分类竞赛中以15.3。

2024-11-05 17:22:01 1099

原创 深度学习经典模型之LeNet-5

​ LeNet-5是由LeCunLeCunLeCun提出的一种用于识别手写数字和机器印刷字符的卷积神经网络(Convolutional Neural Network,CNN)1^{[1]}1,其命名来源于作者LeCunLeCunLeCun的名字,5则是其研究成果的代号,在LeNet-5之前还有LeNet-4和LeNet-1鲜为人知。

2024-11-05 17:18:24 349

原创 深度学习之数据增强

其中一个重要的原因是,深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。​ 大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的,这便符合了covariate shift的定义。简而言之,每个神经元的输入数据不再是“独立同分布”。

2024-11-04 14:42:43 386

原创 深度学习之Dropout

​ dropout一大缺点就是代价函数J不再被明确定义,每次迭代,都会随机移除一些节点,如果再三检查梯度下降的性能,实际上是很难进行复查的。我通常会关闭dropout函数,将keep-prob的值设为1,运行代码,确保J函数单调递减。​ 直观上理解:不要依赖于任何一个特征,因为该单元的输入可能随时被清除,因此该单元通过这种方式传播下去,并为单元的四个输入增加一点权重,通过传播所有权重,dropout将产生收缩权重的平方范数的效果,和之前讲的L2正则化类似;

2024-11-04 14:39:44 778

原创 深度学习之学习率

​ 在梯度下降法中,都是给定的统一的学习率,整个优化过程中都以确定的步长进行更新, 在迭代优化的前期中,学习率较大,则前进的步长就会较长,这时便能以较快的速度进行梯度下降,而在迭代优化的后期,逐步减小学习率的值,减小步长,这样将有助于算法的收敛,更容易接近最优解。​ 分段常数衰减需要事先定义好的训练次数区间,在对应区间置不同的学习率的常数值,一般情况刚开始的学习率要大一些,之后要越来越小,要根据样本量的大小设置区间的间隔大小,样本量越大,区间间隔要小一点。容易训练的网络,便于较快的收敛,其更新规则如下。

2024-11-01 14:01:38 799 1

原创 深度学习之权重、偏差

​ 将偏差初始化为零是可能的,也是很常见的,因为非对称性破坏是由权重的小随机数导致的。:因为并不知道在训练神经网络中每一个权重最后的值,但是如果进行了恰当的数据归一化后,我们可以有理由认为有一半的权重是正的,另一半是负的。​ 另一种解决未校准方差问题的方法是把所有的权重矩阵都设为零,但是为了打破对称性,每个神经元都是随机连接地(从如上面所介绍的一个小的高斯分布中抽取权重)到它下面的一个固定数量的神经元。把后两个公式代入,可以看出所得到的梯度下降法的偏导相同,不停的迭代,不停的相同,不停的迭代,不停的相同…

2024-11-01 13:55:19 950

原创 深度学习之预训练与微调

​ 用别人的参数、修改后的网络和自己的数据进行训练,使得参数适应自己的数据,这样一个过程,通常称之为微调(fine tuning).​ 我们知道,CNN 在图像识别这一领域取得了巨大的进步。如果想将 CNN 应用到我们自己的数据集上,这时通常就会面临一个问题:通常我们的 dataset 都不会特别大,一般不会超过 1 万张,甚至更少,每一类图片只有几十或者十几张。这时候,直接应用这些数据训练一个网络的想法就不可行了,因为深度学习成功的一个关键性因素就是大量带标签数据组成的训练集。

2024-10-31 15:47:48 824

原创 深度学习之归一化

​ 以前在神经网络训练中,只是对输入层数据进行归一化处理,却没有在中间层进行归一化处理。要知道,虽然我们对输入数据进行了归一化处理,但是输入数据经过 $ \sigma(WX+b) $ 这样的矩阵乘法以及非线性运算之后,其数据分布很可能被改变,而随着深度网络的多层运算之后,数据分布的变化将越来越大。如果我们能在网络的中间也进行归一化处理,是否对网络的训练起到改进作用呢?答案是肯定的。​ 这种在神经网络中间层也进行归一化处理,使训练效果更好的方法,就是批归一化Batch Normalization(BN)。

2024-10-31 15:46:00 970

原创 深度学习之bactch_size

​ 假如每次只训练一个样本,即 Batch_Size = 1。线性神经元在均方误差代价函数的错误面是一个抛物面,横截面是椭圆。此时,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。因为如果数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。​ 既然 Batch_Size 为全数据集或者Batch_Size = 1都有各自缺点,可不可以选择一个适中的Batch_Size值呢?Batch的选择,首先决定的是下降的方向。

2024-10-30 20:34:25 417

原创 深度学习之激活函数

PiexpθiTx∑k1KexpθiTxPi∑k1K​expθiT​xexpθiT​x​​ 其中,$ \theta_i $ 和 $ x $ 是列向量,$ \theta_i^T x $ 可能被换成函数关于 $ x $ 的函数 $ f_i(x) $​ 通过 softmax 函数,可以使得 $ P(i) $ 的范围在 $ [0,1] $ 之间。

2024-10-30 20:33:17 1146

原创 深度学习之超参数

​超参数: 在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。1. 定义关于模型的更高层次的概念,如复杂性或学习能力。2. 不能直接从标准模型培训过程中的数据中学习,需要预先定义。3. 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定。

2024-10-29 07:30:00 314

原创 深度学习之网络与计算

​超参数: 在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。1. 定义关于模型的更高层次的概念,如复杂性或学习能力。2. 不能直接从标准模型培训过程中的数据中学习,需要预先定义。3. 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定。

2024-10-29 07:15:00 1065

原创 深度学习基础概念

​ 参数空间中学习的退化速度减慢,导致减少了模型的有效维数,网络的可用自由度对学习中梯度范数的贡献不均衡,随着相乘矩阵的数量(即网络深度)的增加,矩阵的乘积变得越来越退化。而深度学习可以从大数据中先学习简单的特征,并从其逐渐学习到更为复杂抽象的深层特征,不依赖人工的特征工程,这也是深度学习在大数据时代受欢迎的一大原因。:是一种特殊的机器学习,具有强大的能力和灵活性。梯度消失是指通过隐藏层从后向前看,梯度会变的越来越小,说明前面层的学习会显著慢于后面层的学习,所以学习会卡住,除非梯度变大。

2024-10-28 21:46:42 1040

原创 深度学习之降维和聚类

​ 选取专门用于测试分类、聚类算法的国际通用的UCI数据库中的IRIS数据集,IRIS数据集包含150个样本数据,分别取自三种不同 的莺尾属植物setosa、versicolor和virginica的花朵样本,每个数据含有4个属性,即萼片长度、萼片宽度、花瓣长度、花瓣宽度,单位为cm。​ 上图所示的只采用2个特征的线性分类器分错了一些训练样本,准确率似乎没有图2.21.1.e的高,但是,采用2个特征的线性分类器的泛化能力比采用3个特征的线性分类器要强。散落在角落的数据要比处于中心的数据难于分类。

2024-10-28 21:41:35 1123

原创 深度学习之EM算法

​ 最大期望算法(Expectation-Maximization algorithm, EM),是一类通过迭代进行极大似然估计的优化算法,通常作为牛顿迭代法的替代,用于对包含隐变量或缺失数据的概率模型进行参数估计。,则第(1)式是我们的包含隐藏数据的对数似然的一个下界。​ 考虑上一节中的(a)式,表达式中存在隐变量,直接找到参数估计比较困难,通过EM算法迭代求解下界的最大值到收敛为止。​ 第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值**;Q_i(z^{(i)}) $的期望。

2024-09-30 19:05:42 653

原创 深度学习之贝叶斯分类器

通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。于是,朴素贝叶斯(Naive Bayesian,简称NB)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。​ 一般的根据经验想法,会猜测这只黑球最像是从2号箱取出,此时描述的“最像”就有“最大似然”的意思,这种想法常称为“最大似然原理”。​ 总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。是标签属性,那么我们可以通过计数的方法估计。

2024-09-30 18:45:19 1397

原创 深度学习之支持向量机

​ 支持向量:在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。​ 支持向量机(Support Vector Machine,SVM):其含义是通过支持向量运算的分类器。​ 在一个二维环境中,其中点R,S,G点和其它靠近中间黑线的点可以看作为支持向量,它们可以决定分类器,即黑线的具体参数。​ 支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是边界最大化,最终转化为一个凸二次规划问题来求解。

2024-08-12 13:45:51 978

原创 深度学习之决策树

一个困难的预测问题,通过树的分支节点,被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。​ 思想:计算所有特征划分数据集D,得到多个特征划分数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。​ 预剪枝:在决策树生成过程中,在每个节点划分前先估计其划分后的泛化性能, 如果不能提升,则停止划分,将当前节点标记为叶结点。特征个数较少时,惩罚参数较大。5、对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。

2024-08-12 13:41:47 794

原创 深度学习之模型评估

它通常发生在模型过于复杂的情况下,如参数过多等,会使得模型的预测性能变弱,并且增加数据的波动性。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。​ 现在假设有一个训练好的二分类器对10个正负样本(正例5个,负例5个)预测,得分按高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],即5个正例均排在5个负例前面,正例排在负例前面的概率为100%。

2024-08-04 21:32:36 1081

原创 深度学习之主成分分析(PCA)

PCA就是将高维的数据通过线性变换投影到低维空间上去。投影思想:找出最能够代表原始数据的投影方法。被PCA降掉的那些维度只能是那些噪声或是冗余的数据。去冗余:去除可以被其他向量代表的线性相关向量,这部分信息量是多余的。去噪声,去除较小特征值对应的特征向量,特征值的大小反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异也越大,要保留。对角化矩阵,寻找极大线性无关组,保留较大的特征值,去除较小特征值,组成一个投影矩阵,对原始样本矩阵进行投影,得到降维后的新样本矩阵。

2024-08-04 21:00:25 858

原创 深度学习之自然梯度法和线性判别分析

若度量模型参数变化引起的概率分布变化,常用的“距离”度量是KL散度(Kullback-Leibler divergence)。设模型概率分布为px;θp(x;\theta)px;θDKLpx;θ∣∣px;θδθ∫px;θlogpx;θpx;DKL​px;θ∣∣px;θδθ))∫px;θlogpx;θδθpx;θ​dx。

2024-05-16 15:48:05 1247

原创 深度学习基础之梯度下降

1 梯度下降1.1 机器学习中为什么需要梯度下降梯度下降是机器学习中常见优化算法之一,梯度下降法有以下几个作用:(1)梯度下降是迭代法的一种,可以用于求解最小二乘问题。(2)在求解机器学习算法的模型参数,即无约束优化问题时,主要有梯度下降法(Gradient Descent)和最小二乘法。(3)在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。(4)如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。(5)

2024-05-16 15:42:53 730

原创 深度学习之损失函数

深度学习之损失函数

2024-05-13 14:29:13 829

原创 深度学习之代价函数

深度学习之代价函数

2024-05-13 14:27:37 1105

原创 深度学习基础之逻辑回归

深度学习基础逻辑回归

2024-05-10 23:25:39 784

原创 深度学习分类算法

深度学习分类算法

2024-05-10 23:23:08 1456

原创 深度学习基础之机器学习学习方式

机器学习学习方式

2024-05-08 17:43:19 513

原创 深度学习之机器学习基础

深度学习之机器学习基础1

2024-05-08 17:38:35 645

原创 深度学习数学基础之: 期望、方差、协方差、相关系数

深度学习数学基础之:期望、方差、协方差、相关系数

2024-05-07 02:29:41 415

原创 深度学习数学基础:概率论基础

深度学习数学基础之概率论

2024-05-07 02:25:20 754

原创 CentOS系统中常用的50个命令

Centos常用的50个命令,不来看看嘛》

2024-05-06 01:16:06 570

原创 深度学习数学基础:特征值和特征向量

深度学习数学基础之特征值和特征向量

2024-05-06 01:02:43 391

原创 深度学习之数学基础:偏导数

深度学习数学基础---偏导数

2024-05-06 00:59:34 842

原创 NPM从浅入深

npm详解

2024-05-05 19:55:12 245 1

原创 深度学习数学基础1

深度学习 数学基础1

2024-05-05 18:10:00 905

原创 浅谈深度学习

天天总是在下载安装CUDA和CUDNN,他们居然是这样的

2024-05-05 13:36:11 1023

计算机毕业设计:python+爬虫+分布式爬虫

distribute_crawler ================== 使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。 这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现,它包含一个针对http://www.woaidu.org/ 网站的spider, 将其网站的书名,作者,书籍封面图片,书籍概要,原始网址链接,书籍下载信息和书籍爬取到本地: * 分布式使用redis实现,redis中存储了工程的request,stats信息,能够对各个机器上的爬虫实现集中管理,这样可以 解决爬虫的性能瓶颈,利用redis的高效和易于扩展能够轻松实现高效率下载:当redis存储或者访问速度遇到瓶颈时,可以 通过增大redis集群数和爬虫集群数量改善。 * 底层存储实现了两种方式: * 将书名,作者,书籍封面图片文件系统路径,书籍概要,原始网址链接,书籍下载信息,书籍文件系统路径保存到mongodb 中,此时mongodb使用单个服务器,对图片采用图片的

2024-11-08

计算机毕业设计:python+爬虫+cnki网站爬

##bug报告 1. issue 2. pull request 3. 联系 颜登程<yanzhou@mail.ustc.edu.cn> ##使用说明 1. 在src/CnkiSpider.py设置检索条件 2. 执行src/CnkiSpider.py抓取数据 3. 抓取数据存储在/data目录下,文件名格式为"data-keyword-年月日时分秒.txt.txt",如"data-新媒体-20131128224556.txt" 4. 每个数据文件的第一行为字段名称 5. 每次运行都根据当前时间生成新的数据文件 6. 如果抓取过程中断,可以在src/CnkiSpider.py中设置startPage为中断时的页码,并重新运行src/CnkiSpider.py从中断的页面继续抓取,最后将各个数据文件合并 7. 生成的文本文件直接修改后缀名为.csv然后用LibreOffice打开并在LibreOffice中设置字段分隔符为src/CnkiSpider.py中变量fieldsSep设置的字符串 8. Windows下打开Excel 2013,然后【打开】->【浏览】->

2024-11-08

计算机毕业设计:python+爬虫+爬爱书网

distribute_crawler ================== 使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。 这个工程是我对垂直搜索引擎中分布式网络爬虫的探索实现,它包含一个针对http://www.woaidu.org/ 网站的spider, 将其网站的书名,作者,书籍封面图片,书籍概要,原始网址链接,书籍下载信息和书籍爬取到本地: * 分布式使用redis实现,redis中存储了工程的request,stats信息,能够对各个机器上的爬虫实现集中管理,这样可以 解决爬虫的性能瓶颈,利用redis的高效和易于扩展能够轻松实现高效率下载:当redis存储或者访问速度遇到瓶颈时,可以 通过增大redis集群数和爬虫集群数量改善。 * 底层存储实现了两种方式: * 将书名,作者,书籍封面图片文件系统路径,书籍概要,原始网址链接,书籍下载信息,书籍文件系统路径保存到mongodb 中,此时mongodb使用单个服务器,对图片采用图片的

2024-11-08

计算机毕业设计:python+爬虫

doubanspiders ============= 豆瓣电影、书籍、小组、相册、东西等爬虫集 writen by Python. PS: 哎, 八个月后自己尝试设计了下爬虫框架, 感觉doubanspiders代码简直糟蹋了Scrapy, 阿弥陀佛! ###依赖服务 1. MongoDB ###依赖包 1. pip install scrapy 2. pip install pybloom 3. pip install pymongo ###运行豆瓣电影爬虫 1. 进入douban/movie目录 2. 执行scrapy crawl movie ###运行豆瓣相册爬虫 1. 进入douban/album目录 2. 执行scrapy crawl album

2024-11-04

计算机毕业设计:Python+去哪儿携程机票爬虫

# Findtrip说明文档 ## 介绍 Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程) ## Introduction Findtrip is a webspider for flight tickets by Scrapy,which contains two major china ticket websites ---- Qua & Ctrip ## 安装 在用户目录下执行,将代码clone到本地 ``` git clone https://github.com/fankcoder/findtrip.git ``` 所需运行环境,请看 ./requirements.txt 本程序使用selenium+ phantomjs模拟浏览器行为获取数据,phantomjs浏览器下载地址(当然使用Firefox也可以,不过打开速度就会慢很多) http://npm.taobao.org/dist/phantomjs 数据库使用Mongodb存储,运行需要安装Mongodb,安装传送门 https://www.mongo

2024-11-04

计算机毕业设计:python+爬虫可视化

欢迎使用 SpiderKeeper SpiderKeeper** 是一款基于[scrapyd](https://github.com/scrapy/scrapyd)服务的scrapy爬虫管理程序,实现了对scrapy爬虫的可视化管理,包括爬虫的启动与取消,定时抓取任务的设置和周期执行,并可对在运行爬虫的日志,运行状态进行查看。

2024-11-01

计算机毕业设计:python2+爬虫+股票

一个股票数据(沪深)爬虫和选股策略测试框架,数据基于雅虎YQL和新浪财经。 * 根据选定的日期范围抓取所有沪深两市股票的行情数据。 * 根据指定的选股策略和指定的日期进行选股测试。 * 计算选股测试实际结果(包括与沪深300指数比较)。 * 保存数据到JSON文件、CSV文件。 * 支持使用表达式定义选股策略。 * 支持多线程处理。 能干什么 如果你想基于沪深股市行情数据进行一些工作,它可以帮助你导出指定时间范围内所有沪深A股的行情数据和一些技术指标,包括代码、名称、开盘、收盘、最高、最低、成交量、均线、KDJ等。<br \> 如果你对于技术分析有兴趣,它可以帮你根据你自定义的规则在所有沪深A股的范围内进行选股,并回测选股策略的收益情况(详细说明后面会有)。这样就能够非常方便快捷地测试和调整基于技术分析的选股策略。<br \> 还有些什么问题 行情数据目前来源于雅虎YQL,每日数据的更新时间不太稳定(一般在中国时间午夜左右)。<br \> 目前支持的技术指标还不多,还有一些指标如

2024-11-01

计算机毕业设计:网络爬虫之链家爬取+爬虫

链家爬虫 爬取北京地区链家历年二手房成交记录。[链家爬虫](http://lanbing510.info/2016/03/15/Lianjia-Spider.html)一文的全部代码,包括链家模拟登录代码。 爬取数据的部分截图 ![Aaron Swartz](https://github.com/lanbing510/LianJiaSpider/raw/master/screenshots/lianjia.jpg)

2024-10-31

计算机毕业设计:QQ群爬去 python+爬虫

QQ-Groups-Spider QQ Groups Spider(QQ 群爬虫) 批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。 代码说明 运行环境 * Python (2.7) * [bottle](http://bottlepy.org/) (0.12.9) 第三方库支持 * [requests](http://python-requests.org) * [pyexcel](https://github.com/pyexcel/pyexcel) * [XlsxWriter](https://github.com/jmcnamara/XlsxWriter) * [unicodecsv](https://github.com/jdunck/python-unicodecsv) 本地运行 ``` $ python app.py ``` SAE 上运行 参照 [https://www.sinacloud.com/doc/sae/python/tutorial

2024-10-31

计算机毕业设计:QQ空间采集分析 python+爬虫

如果出现报错: ``` Traceback (most recent call last): File ".\init.py", line 20, in <module> my_messages.backups() # 备份爬虫信息 NameError: name 'my_messages' is not defined ``` 多半的原因是 BitVector 模块用不了,可自行调试。 如果确定是BitVector用不了的话可以用 "BitVector模块报错解决" 里面的两个文件替换掉原有文件,不使用BitVector判重,改用python的list判重(数据量不大的话效果是一样的)。

2024-10-30

计算机毕业设计:网络爬虫之Selenium使用代理登陆爬取去哪儿 python+爬虫+金融数据

### 网络爬虫之Selenium使用代理登陆:爬取[去哪儿](http://flight.qunar.com/)网站 一些说明: * 使用selenium模拟浏览器登陆,获取翻页操作。 * 代理可以存入一个文件,程序读取并使用。 * 支持多进程抓取。

2024-10-30

python+爬虫+淘宝天猫爬虫+计算机毕业设计

python+爬虫+淘宝天猫爬虫+计算机毕业设计

2024-10-29

python+爬虫+微博爬虫+计算机毕业设计

python+爬虫+微博爬虫+计算机毕业设计

2024-10-29

爬虫+python+微信公众号爬虫接口+计算机毕业设计

爬虫+python+微信公众号爬虫接口+计算机毕业设计

2024-10-29

JAVA语言考试系统的设计与实现(论文+源代码+文献综述+外文翻译+开题报告)

JAVA语言考试系统的设计与实现(论文+源代码+文献综述+外文翻译+开题报告)

2024-10-28

计算机毕业设计-JAVA在线考试管理系统(源代码+论文+开题报告+外文翻译+英文文献+答辩PPT)

计算机毕业设计-JAVA在线考试管理系统(源代码+论文+开题报告+外文翻译+英文文献+答辩PPT)

2024-10-28

计算机毕业设计-java-作业管理系统

计算机毕业设计-java-作业管理系统

2024-10-28

计算机毕业设计-java信息查询与后端信息发布系统实现

计算机毕业设计-java信息查询与后端信息发布系统实现

2024-10-28

计算机毕业设计-Python2-乌云公开漏洞、知识库爬虫和搜索

计算机毕业设计-Python2-乌云公开漏洞、知识库爬虫和搜索,压缩密码私聊

2024-09-30

爬虫-Python2-计算机毕业设计

爬虫-Python2-计算机毕业设计,解压密码私聊

2024-09-30

计算机毕业设计-python2-网易客户端内容爬虫

网易客户端内容爬虫,解压密码私信获得

2024-09-30

python 计算机毕业程序设计 今天吃什么代码

python 计算机毕业程序设计 今天吃什么代码.

2024-08-04

python计算机毕业设计 微信机器人

python计算机毕业设计 微信机器人

2024-08-04

智能停车场车牌识别计费系统的程序 计算机毕业设计源码+使用说明文档..zip

智能停车场车牌识别计费系统的程序 计算机毕业设计源码+使用说明文档

2024-05-06

Excel数据分析师程序 计算机毕业设计源代码 +使用说明文档.zip

Excel数据分析师程序 计算机毕业设计源代码 +使用说明文档

2024-05-06

开心麻花影视作品分析程序 计算机毕业设计Python源代码+使用说明文档..zip

开心麻花影视作品分析程序 计算机毕业设计Python源代码+使用说明文档

2024-05-06

高德地图+58 租房的程序 计算机毕业设计Python代码+使用文档.zip

高德地图+58 租房的程序 计算机毕业设计Python代码+使用文档

2024-05-06

火车票分析助手 毕业设计Python源码+使用文档.zip

火车票分析助手 毕业设计Python源码+使用文档

2024-05-05

图片批量处理器程序 毕业设计Python源代码+开发文档.zip

图片批量处理器程序 毕业设计Python源代码+开发文档

2024-05-05

Word助手程序. 毕业设计 Python源代码.zip

Word助手程序. 毕业设计 Python源代码

2024-05-05

python diy字符画 计算机毕业设计源代码.zip

python diy字符画 计算机毕业设计源代码

2024-05-05

python 彩图版飞机大战 计算机毕业论文 .zip

python 彩图版飞机大战 计算机毕业论文

2024-05-05

python 玛丽冒险 计算机毕业设计.zip

python 玛丽冒险 计算机毕业设计

2024-05-05

python 五子棋 控制台版 计算机毕业设计.zip

python 五子棋 控制台版 计算机毕业设计

2024-05-05

python 企业编码管理 计算机毕业设计.zip

python 企业编码管理 计算机毕业设计

2024-05-04

Python 学生管理系统 计算机毕业设计源代码

Python 学生管理系统 计算机毕业设计源代码

2024-05-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除