自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

灰寨小学的python---小陈

人生苦短 我用python

  • 博客(23)
  • 收藏
  • 关注

转载 ElasticSearch + Canal 开发千万级的实时搜索系统【转】

公司是做社交相关产品的,社交类产品对搜索功能需求要求就比较高,需要根据用户城市、用户ID昵称等进行搜索。项目原先的搜索接口采用SQL查询的方式实现,数据库表采用了按城市分表的方式。但随着业务的发展,搜索接口调用频次越来越高,搜索接口压力越来越大,搜索数据库经常崩溃,从而导致搜索功能经常不能使用。从上面的系统架构图可以看出,当用户修改资料时,接口会修改用户库信息,接着触发器会将改变的用户...

2018-08-26 09:15:50 446

转载 [Elasticsearch] Elasticsearch权威指南翻译目录

为了方便大家能够更加快速地找到自己需要参考的那部分,对已经翻译完成的部分根据权威指南的目录做了相应目录,希望能够有所帮助。起步(Getting Started)1. 你懂的,为了搜索英文原文链接:You Know, for Search2. 集群中的生活译文链接: [Elasticsearch] 集群的工作原理 - 第一部分 [Elasticsearch] 集群的工作原理 - ...

2018-08-26 09:08:30 215

转载 [Elasticsearch] 集群的工作原理 - 第一部分

ES就是为高可用和可扩展而生的。扩展可以通过购置性能更强的服务器(垂直扩展或者向上扩展,Vertical Scale / Scaling Up),亦或是通过购置更多的服务器(水平扩展或者向外)扩展,水平缩放/缩小)来完成。尽管ES能够利用更强劲的硬件,垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展 - 通过向集群中添加更多的节点来分布负载,增加可靠性。在大多数数据库中,水平扩展通...

2018-08-26 09:07:09 381

原创 ElasticSearch 学习记录之 分布式文档存储往ES中存数据和取数据的原理

分布式文档存储ES分布式特性屏蔽了分布式系统的复杂性 集群内的原理 垂直扩容和水平扩容 真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点一个集群拥有相同的cluster.name 配置的节点组成, 它们共同承担数据和负载的压力 主节点负责管理集群的变更例如增加、删除索引,或者增加、删除节点等。 而主节点并不需要...

2018-08-26 09:00:50 807

原创 爬虫Scrapy框架的setting.py文件详解

  # -*- coding: utf-8 -*-   # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find mor...

2018-08-23 15:56:36 2596

原创 垂直型爬虫架构设计

(一)1.爬虫的分类:        对于我来说,爬虫分为两类:            需要载入配置文件的爬虫与不需要载入配置文件的爬虫。            其实也就是人们常说的垂直型爬虫跟宽度(深度)遍历爬虫。    2.爬虫的架构:        1.宽度遍历爬虫。            做过SEO的朋友大概都知道,如果一个网站需要百度能够尽快的抓取,那么仅仅优...

2018-08-23 15:17:42 937

转载 在Excel中使用SQL语句查询和筛选

本文转自:http://blog.sina.com.cn/s/blog_5fc375650102e1g5.html今天在微博上看到@数据分析精选 分享的一篇文章,是关于《在Excel中使用SQL语句实现精确查询》,觉得非常受用,分享给大家。微博上有人回复评论说直接用vlookup、或者导入数据库进行查询处理就好了,岂不是更高效、更灵活;其实给人的第一直观感觉是这样子的,但是我们多想一步,这...

2018-08-22 10:34:08 33082

转载 数据分析与处理 -- Leveldb 实现原理

LevelDb日知录之一:LevelDb 101  说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师,为数甚少的Google Fellow之二。  Jeff Dean其人:http://research.google.com/pe...

2018-08-22 10:30:21 222

原创 Python数据分析----Python3操作Excel-以豆瓣图书Top250为例

本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录。旨在进行更多的爬虫实践练习以及模块学习。工具1.Python 3.52.BeautifulSoup、xlwt模块开始动手首先查看目标网页的url: https://book.douban.com/top250?start=0, 然后我尝试了在代码里直接通过字符串连...

2018-08-21 14:49:30 536

原创 数据分析之numpy模块学习

Python模块中的numpy,这是一个处理数组的强大模块,而该模块也是其他数据分析模块(如pandas和scipy)的核心。接下面将从这5个方面来介绍numpy模块的内容:1)数组的创建2)有关数组的属性和函数3)数组元素的获取--普通索引、切片、布尔索引和花式索引4)统计函数与线性代数运算5)随机数的生成 数组的创建numpy中使用array()函数创建数组...

2018-08-21 14:47:54 273

转载 数据分析/数据挖掘 入门级选手建议

1.数据分析和数据挖掘联系和区别联系:都是搞数据的区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力。数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =。 2.怎么入门请百度“如何成为一名数据分析师”或者“如何成为一名数据挖掘工程师”。英文好上Quora,不行上知乎,看看入门资料。 3.选哪些书看入门资料给你提供的书,有电子版下电子版,没电...

2018-08-21 14:45:52 303

转载 数据分析师最常用的10个机器学习算法

在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。 因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。 当然,你尝试的算法必须和你...

2018-08-21 11:49:54 25106 2

原创 pandas--总结篇

pandas是本书后续内容的首选库。pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失...

2018-08-21 11:33:42 1544

转载 几张图帮你理解 docker 基本原理及快速入门

几张图帮你理解 docker 基本原理及快速入门写的非常好的一篇文章,不知道为什么被删除了。  利用Google快照,做个存档。快照地址:地址作者地址:青牛什么是dockerDocker 是一个开源项目,诞生于 2013 年初,最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。 项目后来加入了 Linux 基金会,遵从了 Apa...

2018-08-21 11:05:30 304

转载 Docker学习笔记

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。官网:https://www.docker.com/相关资料:1、Docker入门教程 http://dockone.io/article/1112、Docker_百度百科 http:...

2018-08-21 11:02:54 1211

原创 数据分析---pandas库

一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd 2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name....

2018-08-21 10:58:37 152

原创 随机获取代理 ip

import requestsimport random# 请求API,并解析json成dictionaryproxy_result = requests.get("http://127.0.0.1:8080").json()# print(proxy_result)# num = proxy_result['num']# updatetime = proxy_result['upda...

2018-08-07 20:06:57 1353

转载 构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI 欢迎Star/Fork使用本项目采用python3进行开发,建议使用virtualenv# 下载源码git clone https://github.com/SimpleBrightMan/proxypool.gitcd prox...

2018-08-07 19:06:25 466

转载 python爬虫之PyQuery的基本使用

python爬虫之PyQuery的基本使用PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/...

2018-08-07 10:50:05 240

原创 Scrapy框架--Requests对象

 Scrapy框架--Requests对象  Scrapy使用request对象来爬取web站点。  request对象由spiders对象产生,经由Scheduler传送到Downloader,Downloader执行request并返回response给spiders。  Scrapy架构:  1、Request objectsclass scrapy.http.R...

2018-08-02 23:33:25 2466

原创 MongoDB - 连接

MongoDB - 连接在本教程我们将讨论 MongoDB 的不同连接方式。启动 MongoDB 服务在前面的教程中,我们已经讨论了如何启动 MongoDB 服务,你只需要在 MongoDB 安装目录的 bin 目录下执行 mongodb 即可。执行启动操作后,mongodb 在输出一些必要信息后不会输出任何信息,之后就等待连接的建立,当连接被建立后,就会开始打印日志信息。你可...

2018-08-02 00:36:01 196

原创 Ajax请求并抓取今日头条街拍美图:爬取详情页的url与实际页面上显示不符

1. 使用py爬取今日头条图集图片1.1 爬取图片并且下载到本地,同时,保存信息到mongoDB中。toutiao.pyimport jsonimport osfrom hashlib import md5import pymongoimport requestsfrom bs4 import BeautifulSoupfrom requests.exceptions i...

2018-08-01 19:00:05 979

转载 python中的正则表达式(re模块)----compile

python中的正则表达式(re模块)一、简介正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。二、正则表达式中常用的字符含义1、普通字符和11个元字符:普通字符 匹配自身 abc ...

2018-08-01 18:03:48 10030

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除