ZCC的专栏

每天坚持看书和写作,相信每天的一小步,将会是人生的一大步! 形成、知化、流动、屏读、使用、共享、过滤、重混、互动、追踪、提问、开始!...

使用Git在码云上上传项目

一、 码云:中国版的github       最近两年开源中国的业务发生了很大的变化,依托于社区的基础,我们一共构建了四大业务: 社区(oschina.net) --- 为开发者提供发现、学习和交流的平台; 人才(job.oschina.net) --- 为开发者提供求职就业的平台; ...

2017-07-31 14:37:02

阅读数:291

评论数:0

python爬取新浪新闻存储到excel

一、运行环境 (1) BeautifulSoup的导入:pip install BeautifulSoup4 (2) requests的导入:pip install requests (3) re的导入:pip install re (4) pandas的导入:pip in...

2017-07-30 11:06:02

阅读数:462

评论数:0

Spring思维导图

spring mvc简介与运行原理 Spring的模型-视图-控制器(MVC)框架是围绕一个DispatcherServlet来设计的,这个Servlet会把请求分发给各个处理器,并支持可配置的处理器映射、视图渲染、本地化、时区与主题渲染等,甚至还能支持文件上传。 (1) Http请求:客户...

2017-07-30 09:40:13

阅读数:329

评论数:0

windows下git 使用教程

安装好软件后,桌面右击点击Git Bash打开程序,是一个shell脚本命令,类似于linux的终端命令。 一、使用git上传项目 1.cd d:/github  进入一个D盘中github文件夹 2. git --version 查看版本号 3.git config --globa...

2017-07-28 09:27:00

阅读数:269

评论数:0

Scrapy框架利用CrawlSpider创建自动爬虫

一、适用条件    可以对有规律或者无规律的网站进行自动爬取  二、代码讲解   (1)创健scrapy项目 E:myweb>scrapy startproject mycwpjt New Scrapy project 'mycwpjt', using template dir...

2017-07-27 09:48:43

阅读数:3222

评论数:3

编写自动爬取网页的爬虫

一、item的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics...

2017-07-26 21:52:48

阅读数:1156

评论数:0

Nginx服务搭建负载均衡,反向代理,缓存加速,访问分布式文件系统高可用

一,Nginx         Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。AS13000系统Nginx为1.9.2版本。Nginx具有很多非常优越的特性: 在连接高并发的情况下,具有较好的性能,支持负载均衡,实现可扩...

2017-07-25 23:42:52

阅读数:933

评论数:5

GitHub+Hexo 搭建个人网站详细教程

什么是Hexo ? Hexo是一款基于Node.js的静态博客框架,依赖少易于安装使用,可以方便的生成静态网页托管在GitHub和Heroku上,是搭建博客的首选框架。这里我们选用的是GitHub,你没看错,全球最大的同性恋交友网站(逃……)。Hexo同时也是GitHub上的开源项目,参...

2017-07-24 17:04:04

阅读数:635

评论数:0

获取斗鱼图片

一、总体思路 从网页代码里获得你要图片。这里我们需要简单的分析一下该网页。 当我们把鼠标移到地址上的时候就会出现该图片,这个就是我们要爬取的图片。 这个图片是在 data-original 后面,我们就需要进行匹配,通过正则表达式很快就可以达到目的。 网页代码片段 1 i...

2017-07-23 22:50:47

阅读数:426

评论数:0

github使用

什么是Github 说到什么事github,我们先看wikipedia的描述“GitHub是一个利用Git进行版本控制、专门用于存放软件代码与内容的共享虚拟主机服务。它由GitHub公司(曾称Logical Awesome)的开发者Chris Wanstrath、PJ Hyett和Tom Pr...

2017-07-23 22:29:04

阅读数:1292

评论数:0

好用的Markdown编辑器总结

Markdown 是一种简单的、轻量级的标记语法。用户可以使用诸如 * # 等简单的标记符号以最小的输入代价生成极富表现力的文档。         Markdown具有很多优点: 写作中添加简单符号即完成排版,所见即所得。让你专注于文字而不是排版。 格式转换方便,Markdown 的文本你可以轻松...

2017-07-23 15:34:51

阅读数:286

评论数:0

学习Scrapy框架

一、Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页...

2017-07-22 21:12:21

阅读数:247

评论数:1

爬取今日头条上的图片

一、动态页面逆向分析爬取 (1)今日头条搜索界面如上: (2)页面分析获取Jason数据格式 http://www.toutiao.com/search_content/?offset=20&format=json&keyword=美女&autoload=true&...

2017-07-22 17:09:29

阅读数:361

评论数:0

Python 成最热门编程语言

最近,调查结果已公布:Java 被评为最流行的语言,JavaScript 是最常用的语言,而 Go 被认为是最有前途的语言。 一、编程语言 可以看到,JavaScript 是使用最多的语言,Python 是最多人想去尝试的语言,Java 则在流行度上独领风骚。注意,下图数值皆为百分比(%)...

2017-07-22 15:02:23

阅读数:268

评论数:0

常见python爬虫框架

一、python爬虫框架    一些爬虫项目的半成品 二、常见python爬虫框架   (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如wei...

2017-07-21 16:26:34

阅读数:10469

评论数:0

爬虫的定向爬取

一、爬虫的定向爬取技术: 根据设置的主题,对要爬取的网址或者网页中的内容进行筛选。       二、爬虫的信息筛选方法          (1) 通过正则表达式筛选          (2)通过XPath表达式筛选 (Scapy经常使用)          (3)通过xslt 筛选 ...

2017-07-21 15:49:47

阅读数:357

评论数:4

爬虫的浏览器伪装

一、常见的反爬虫机制 (1)通过分析用户请求的Headers信息  构造用户请求的Headers,即设置好"User-Agent""Referer"字段信息 (2)检测用户行为:判断同一个ip在短时间内是否频繁访问对应的网站  使用代理服务器经常...

2017-07-20 09:03:59

阅读数:214

评论数:0

前端知识体系总结

前端技术栈 前端基础 以上是前端的基本功,一些HTML5的新特性,新API还有CSS3的一些新特性,以及ES6的新语法也是比较热门的,都有涉及。 框架或库    这是前端常用到的库和框架,包括: jQuerybootstraprequireJsechartsvueangularJ...

2017-07-19 22:57:18

阅读数:321

评论数:0

手写python爬虫第二弹

一、微信爬虫 import re import urllib.request import time import urllib.error #代理服务器地址 http://yum.iqianyue.com/proxy #模拟成浏览器 headers=("User-Agent"...

2017-07-18 15:58:51

阅读数:626

评论数:0

2017 年学习的编程语言、框架和工具

大趋势 渐进式 Web Apps 在 2016 年里,我们见证了 Progressive Web App 概念的蓬勃兴起。它意味着 Web 应用程序可以离线工作,并能提供原生移动应用的体验。它们可以添加到你的智能设备的主屏幕上,甚至可以给你发送推送通知,从而弥补与原生移动应用程序的差距。我...

2017-07-18 14:42:14

阅读数:325

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭