自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 页面数据提取(2)

#!/usr/bin/python # -*- coding: UTF-8 -*-import sysimport zlibimport base64import refrom bs4 import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding('utf-8')def splitoffpage(s, h...

2019-03-01 13:10:34 344

转载 学习笔记第十四篇之知乎社交网络分析

今天老师让分析一个关于知乎社交网络内容分析的项目。使用的是https://www.jianshu.com/p/3b2a1895a12d中的例子。该项目主要是根据知乎网站的用户的关注关系来分析知乎社交网络的。使用的数据包含:2.6万名用户,461条关注连接,72万个问题。数据下载在这里点击打开链接,实现代码在这里点击打开链接。文章分析了知乎社交数据的统计关系,网络的总体特征,网络连接分析和热点话题分

2018-04-10 21:15:01 2264

转载 学习笔记第十三篇之进程和线程

进程和线程的区别?什么时候用进程?什么时候用线程?答:首先得知道什么是进程什么是线程?我的理解是进程是指在系统中正在运行的一个应用程序;程序一旦运行就是进程,或者更专业化来说:进程是指程序执行时的一个实例。线程是进程的一个实体。进程——资源分配的最小单位,线程——程序执行的最小单位。 线程进程的区别体现在几个方面:第一:因为进程拥有独立的堆栈空间和数据段,所以每当启动一个新的进程必须分配给它独立的...

2018-03-19 21:42:30 187

原创 学习笔记第十二篇之word2vec

       word2vec是训练词向量的表示方法,经常会使用到,所以在此记录一下。       2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(D...

2018-03-13 21:04:16 628

原创 学习笔记第十一篇之C#编程

之前一直使用的是Python编程,但是最近老师的项目需要完成一些相应的算法,但是使用的是c#,所以能就看了写关于c#方面的知识,顺便在此记录一下,以防以后也会用到。   首先看的就是菜鸟驿站关于c#的基础知识,链接在这里http://www.runoob.com/csharp/csharp-tutorial.html   然后是这个帖子里面的知识点https://www.cnblogs.c

2018-01-24 21:11:01 182

原创 学习笔记第十篇之安全评估模型设计

最近老师的项目需要做一个安全评估模型,想到以后可能会用到,所以在此也记录一下。主要是根据已知标签的数据来预测后面数据的标签值。这里的标签是0或1,相当于二分类问题,所以我这里使用神经网络来训练模型,用的是python中的sklearn这个包。数据如下:3,4,7,4,5,2,0,1,11,3,7,4,5,2,0,0.3,06,4,5,4,5,2,0,1,15,3,5,4,5,2,0

2018-01-13 17:52:39 802

原创 学习笔记第九篇之用matlab预测数值

同样是数据预测的问题,数据分为四块,数据格式如下,已知均值0.30478,我需要预测其他八个数据,同时我们也知道当第一个属性为0.6时数据值的情况,其在均值0.3189上下波动,因此我们需要根据这组已知的数据来求出在均值0.30478上下波动的数值。matlab代码如下%读取数据,共四块数据,用四个矩阵来存储,每个矩阵是8x8的,每一列第4个为平均值,其余为预测值。根据一致的第五列为已知值

2018-01-13 16:50:43 21876

原创 学习笔记第八篇之rnn预测序列数据

这两天帮师兄处理一些论文要用到的数据。数据格式是已知序列的前面标签值,预测后面每条数据的标签值。        我开始的思路是用sklearn这个机器学习包用Python来写一个神经网络,用已知标签的数据去训练网络模型,然后预测后面的数据。但是结果总是不对,后来发现sklearn.neural_network的MLPClassifier只能用来处理二分类问题,而我的数据标签是二分类的。所以我改

2018-01-13 16:11:50 5321 3

原创 学习笔记第七篇之安装win7遇到的系统问题

最近帮忙给老师长装了几个电脑的系统。安装过程中遇到了一些以前没有遇到过的问题,现在在这里记录一下,以免已有还会遇到。      情况一:安装过程出现从u盘进入系统需要很长的时间,进入以后会安装失败,找了很久没有找出错误原因。最后老师说他的硬盘有坏道,需要更换硬盘,所以是硬盘的原因。      情况二:win7系统已经安装成功,发现上不了网,下载的网卡驱动装上后还是不行。最后发现需要使用系统

2018-01-08 21:11:31 255

原创 学习笔记第六篇之聚类算法(学习向量量化)

今天记录一下之前做的用机器学习聚类算法中的学习向量量化方法做的实例,也是以此前的城市GDP数据为例。        算法如下:        输入: 样本集D={(x1,y1),(x2,y2),...,(xm,ym)};原型向量个数q,各原型向量预设的类别标记{t1,t2,...,tq};学习率e属于0-1。        过程:        1:初始化一组原型向量{P1,P2,

2018-01-01 16:02:10 3456 4

原创 学习笔记第五篇之聚类算法

今年年初的时候学习了《机器学习》这本书中的算法,并实践了一些。现在整理成笔记,以后需要时还可以找到。      今天先写个简单的聚类算法。     1、K-means聚类         K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的

2017-12-22 12:53:46 445

原创 学习笔记第四篇之python编码问题

接触python已经有一年多的时间了,使用Python做了很多东西。但是自我感觉python2.7中的编码问题确实有些讨厌,经常出现编码错误问题。所以查了几篇文章,在这里做一下笔记。     在python中使用unicode类型作为编码的基础类型。有              decode                    encode          str---

2017-12-22 11:19:09 205

原创 学习笔记之万方数据爬取

最近帮老师做个项目,需要用到文章摘要和关键词数据集。网上找了一下,没有很适合我的,所以自己写了一个小程序爬取了一些。现在把程序记录起来,供以后学习和需要的朋友使用。           # coding:utf-8import urllib2import reimport time #获取大的标签urldef page_link_1(url_1):    u

2017-12-18 18:39:51 2167

原创 学习笔记第二篇之CNN

卷积神经网络(CNN)或称为 广泛应用于许多视觉图像和语音识别等任务。在 2012 ImageNet 挑战赛 krizhevsky 等人首次应用深度卷积网络后,深度卷积神经网络的架构设计已经吸引了许多研究者做出贡献。这也对深度学习架构的搭建产生了很重要的影响,如 TensorFlow、Caffe、Keras、MXNet 等。尽管深度学习的实现可以通过框架轻易地完成,但对于入门者和从业者来说,数

2017-12-15 22:24:31 515

原创 学习笔记第一篇之RNN

引言   递归神经网络(Recurrent Neural Network, RNN)是神经网络家族的重要成员,而且也是深度学习领域中的得力干将,因为深度学习广泛应用的领域如语音识别,机器翻译等都有RNN的身影。与经典的神经网络不同,RNN主要解决的是样本数据为序列的建模问题,如语音序列,语言序列。因为对于序列数据来说,大部分情况下序列的每个元素并不是相互独立,其存在依赖关系,而RNN特别适

2017-11-29 21:58:03 683

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除