2018年08月_python小陈

转载 ElasticSearch + Canal 开发千万级的实时搜索系统【转】

公司是做社交相关产品的，社交类产品对搜索功能需求要求就比较高，需要根据用户城市、用户ID昵称等进行搜索。项目原先的搜索接口采用SQL查询的方式实现，数据库表采用了按城市分表的方式。但随着业务的发展，搜索接口调用频次越来越高，搜索接口压力越来越大，搜索数据库经常崩溃，从而导致搜索功能经常不能使用。从上面的系统架构图可以看出，当用户修改资料时，接口会修改用户库信息，接着触发器会将改变的用户...

2018-08-26 09:15:50 446

转载 [Elasticsearch] Elasticsearch权威指南翻译目录

为了方便大家能够更加快速地找到自己需要参考的那部分，对已经翻译完成的部分根据权威指南的目录做了相应目录，希望能够有所帮助。起步(Getting Started)1. 你懂的，为了搜索英文原文链接：You Know, for Search2. 集群中的生活译文链接： [Elasticsearch] 集群的工作原理 - 第一部分 [Elasticsearch] 集群的工作原理 - ...

2018-08-26 09:08:30 215

转载 [Elasticsearch] 集群的工作原理 - 第一部分

ES就是为高可用和可扩展而生的。扩展可以通过购置性能更强的服务器（垂直扩展或者向上扩展，Vertical Scale / Scaling Up），亦或是通过购置更多的服务器（水平扩展或者向外）扩展，水平缩放/缩小）来完成。尽管ES能够利用更强劲的硬件，垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展 - 通过向集群中添加更多的节点来分布负载，增加可靠性。在大多数数据库中，水平扩展通...

2018-08-26 09:07:09 381

原创 ElasticSearch 学习记录之分布式文档存储往ES中存数据和取数据的原理

分布式文档存储ES分布式特性屏蔽了分布式系统的复杂性集群内的原理垂直扩容和水平扩容真正的扩容能力是来自于水平扩容–为集群添加更多的节点，并且将负载压力和稳定性分散到这些节点中 ES集群特点一个集群拥有相同的cluster.name 配置的节点组成，它们共同承担数据和负载的压力主节点负责管理集群的变更例如增加、删除索引，或者增加、删除节点等。而主节点并不需要...

2018-08-26 09:00:50 807

原创爬虫Scrapy框架的setting.py文件详解

# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find mor...

2018-08-23 15:56:36 2596

原创垂直型爬虫架构设计

（一）1.爬虫的分类：对于我来说，爬虫分为两类：需要载入配置文件的爬虫与不需要载入配置文件的爬虫。其实也就是人们常说的垂直型爬虫跟宽度（深度）遍历爬虫。 2.爬虫的架构： 1.宽度遍历爬虫。做过SEO的朋友大概都知道，如果一个网站需要百度能够尽快的抓取，那么仅仅优...

2018-08-23 15:17:42 937

转载在Excel中使用SQL语句查询和筛选

本文转自：http://blog.sina.com.cn/s/blog_5fc375650102e1g5.html今天在微博上看到@数据分析精选分享的一篇文章，是关于《在Excel中使用SQL语句实现精确查询》，觉得非常受用，分享给大家。微博上有人回复评论说直接用vlookup、或者导入数据库进行查询处理就好了，岂不是更高效、更灵活；其实给人的第一直观感觉是这样子的，但是我们多想一步，这...

2018-08-22 10:34:08 33082

转载数据分析与处理 -- Leveldb 实现原理

LevelDb日知录之一：LevelDb 101　　说起LevelDb也许您不清楚，但是如果作为IT工程师，不知道下面两位大神级别的工程师，那您的领导估计会Hold不住了：Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师，为数甚少的Google Fellow之二。　　Jeff Dean其人：http://research.google.com/pe...

2018-08-22 10:30:21 222

原创 Python数据分析----Python3操作Excel-以豆瓣图书Top250为例

本文利用Python3爬虫抓取豆瓣图书Top250，并利用xlwt模块将其存储至excel文件，图片下载到相应目录。旨在进行更多的爬虫实践练习以及模块学习。工具1.Python 3.52.BeautifulSoup、xlwt模块开始动手首先查看目标网页的url： https://book.douban.com/top250?start=0，然后我尝试了在代码里直接通过字符串连...

2018-08-21 14:49:30 536

原创数据分析之numpy模块学习

Python模块中的numpy，这是一个处理数组的强大模块，而该模块也是其他数据分析模块（如pandas和scipy）的核心。接下面将从这5个方面来介绍numpy模块的内容：1）数组的创建2）有关数组的属性和函数3）数组元素的获取--普通索引、切片、布尔索引和花式索引4）统计函数与线性代数运算5）随机数的生成数组的创建numpy中使用array()函数创建数组...

2018-08-21 14:47:54 273

转载数据分析/数据挖掘入门级选手建议

1.数据分析和数据挖掘联系和区别联系：都是搞数据的区别：数据分析偏统计，可视化，出报表和报告，需要较强的表达能力。数据挖掘偏算法，重模型，需要很深的代码功底，要码代码，很多= =。 2.怎么入门请百度“如何成为一名数据分析师”或者“如何成为一名数据挖掘工程师”。英文好上Quora，不行上知乎，看看入门资料。 3.选哪些书看入门资料给你提供的书，有电子版下电子版，没电...

2018-08-21 14:45:52 303

转载数据分析师最常用的10个机器学习算法

在机器学习领域，有种说法叫做“世上没有免费的午餐”，简而言之，它是指没有任何一种算法能在每个问题上都能有最好的效果，这个理论在监督学习方面体现得尤为重要。举个例子来说，你不能说神经网络永远比决策树好，反之亦然。模型运行被许多因素左右，例如数据集的大小和结构。因此，你应该根据你的问题尝试许多不同的算法，同时使用数据测试集来评估性能并选出最优项。当然，你尝试的算法必须和你...

2018-08-21 11:49:54 25106 2

原创 pandas--总结篇

pandas是本书后续内容的首选库。pandas可以满足以下需求：具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源（索引方式不同）的数据而导致的常见错误。. 集成时间序列功能既能处理时间序列数据也能处理非时间序列数据的数据结构数学运算和简约（比如对某个轴求和）可以根据不同的元数据（轴编号）执行灵活处理缺失...

2018-08-21 11:33:42 1544

转载几张图帮你理解 docker 基本原理及快速入门

几张图帮你理解 docker 基本原理及快速入门写的非常好的一篇文章，不知道为什么被删除了。利用Google快照，做个存档。快照地址：地址作者地址:青牛什么是dockerDocker 是一个开源项目，诞生于 2013 年初，最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。项目后来加入了 Linux 基金会，遵从了 Apa...

2018-08-21 11:05:30 304

转载 Docker学习笔记

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。官网：https://www.docker.com/相关资料：1、Docker入门教程 http://dockone.io/article/1112、Docker_百度百科 http:...

2018-08-21 11:02:54 1211

原创数据分析---pandas库

一、生成数据表 1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd 2、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name....

2018-08-21 10:58:37 152

原创随机获取代理 ip

import requestsimport random# 请求API，并解析json成dictionaryproxy_result = requests.get("http://127.0.0.1:8080").json()# print(proxy_result)# num = proxy_result['num']# updatetime = proxy_result['upda...

2018-08-07 20:06:57 1353

转载构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序，并提供开放的实时API服务:proxypool-open-WebAPI 欢迎Star／Fork使用本项目采用python3进行开发，建议使用virtualenv# 下载源码git clone https://github.com/SimpleBrightMan/proxypool.gitcd prox...

2018-08-07 19:06:25 466

python爬虫之PyQuery的基本使用PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：http://pyquery.readthedocs.io/...

2018-08-07 10:50:05 240

原创 Scrapy框架--Requests对象

Scrapy框架--Requests对象 Scrapy使用request对象来爬取web站点。 request对象由spiders对象产生，经由Scheduler传送到Downloader,Downloader执行request并返回response给spiders。 Scrapy架构： 1、Request objectsclass scrapy.http.R...

2018-08-02 23:33:25 2466

原创 MongoDB - 连接

MongoDB - 连接在本教程我们将讨论 MongoDB 的不同连接方式。启动 MongoDB 服务在前面的教程中，我们已经讨论了如何启动 MongoDB 服务，你只需要在 MongoDB 安装目录的 bin 目录下执行 mongodb 即可。执行启动操作后，mongodb 在输出一些必要信息后不会输出任何信息，之后就等待连接的建立，当连接被建立后，就会开始打印日志信息。你可...

2018-08-02 00:36:01 196

原创 Ajax请求并抓取今日头条街拍美图：爬取详情页的url与实际页面上显示不符

1. 使用py爬取今日头条图集图片1.1 爬取图片并且下载到本地，同时，保存信息到mongoDB中。toutiao.pyimport jsonimport osfrom hashlib import md5import pymongoimport requestsfrom bs4 import BeautifulSoupfrom requests.exceptions i...

2018-08-01 19:00:05 979

转载 python中的正则表达式（re模块)----compile

python中的正则表达式（re模块）一、简介正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。二、正则表达式中常用的字符含义1、普通字符和11个元字符：普通字符匹配自身 abc ...

2018-08-01 18:03:48 10030

灰寨小学的python---小陈