python分布式爬虫打造搜索引擎
有种算法叫姚蔚敏
底层码农
展开
-
mac下python安装scrapy报错解决方案
distutils.errors.DistutilsError: Could not find suitable distribution for Requirement.parse(‘incremental>=16.10.1’)Command “python setup.py egg_info” failed with error code 1 in /private/tmp/pip-i...原创 2018-12-23 19:59:32 · 635 阅读 · 0 评论 -
最新版python对于elasticsearch-dsl的使用说明
一.旧版elasticsearch-dsl很多同学在python搜索引擎视频中关于看到的第十章elasticsearch使用中使用python创建mapping老师使用的以下代码,这些代码对于elasticsearch-dsl的引用已经失效,会报异常错误from datetime import datetimefrom elasticsearch_dsl import Document, D...原创 2018-12-29 14:36:53 · 6323 阅读 · 32 评论 -
elasticsearch查询
准备数据PUT lagou{ "mappings": { "job":{ "properties":{ "title":{ "type": "text", "store":tr原创 2018-12-29 10:29:26 · 165 阅读 · 0 评论 -
elasticsearch映射mapping
映射映射是创建索引的时候,可以预先定义字段的类型以及相关属性elasticsearch会根据JSON源数据的数据基础类型猜测你想要的字段映射。将输入的数据转变成可搜索的索引项。Mapping就是根据我们自己定义的字段的数据类型,同时告诉Elasticsearch如何索引数据以及是否可以被搜索。作用:会让索引建立的更加细致和完善类型:静态映射和动态映射内置类型:文本类型: text,ke...原创 2018-12-29 10:26:06 · 252 阅读 · 0 评论 -
elasticsearch的crud以及批量操作
CURD操作#文档es的文档和索引CRUD操作#索引初始化操作#指定分片5个和副本的数量1个#shards一旦设置不能修改PUT lagou{ "settings": { "index":{ "number_of_shards":5, "number_of_replicas":1 } }}#获取所有索引GET _all#获取...原创 2018-12-29 10:22:51 · 428 阅读 · 0 评论 -
TF-IDF算法
TF-IDF算法(Term Frequency-Inverse Document Frequency)即词频-逆文档频率,一般用在文本描述中。主要思想是通过统计文章的关键词频率,来衡量和某个主题的相近程度或者计算文章之间的相似性。计算步骤(1)通过停用词将文章从字流分为词流,这儿推荐python的jieba库,下面给出一个使用示例:import jieba string='小明昨天去了...原创 2018-12-28 15:39:06 · 149 阅读 · 0 评论 -
elasticsearch-head的配置
ealsticsearch只是后端提供各种api,那么怎么直观的使用它呢?elasticsearch-head将是一款专门针对于elasticsearch的客户端工具elasticsearch-head配置包,下载地址:https://github.com/mobz/elasticsearch-headelasticsearch-head是一个基于node.js的前端工程,启动elastics...原创 2018-12-28 14:52:45 · 1842 阅读 · 0 评论 -
elasticsearch/elasticsearch-rtf在mac上安装及错误问题处理
什么是Elasticsearch-RTFRTF是Ready To Fly的缩写,在航模里面,表示无需自己组装零件即可直接上手即飞的航空模型,Elasticsearch-RTF是针对中文的一个发行版,即使用最新稳定的elasticsearch版本,并且帮你下载测试好对应的插件,如中文分词插件等,目的是让你可以下载下来就可以直接的使用(虽然es已经很简单了,但是很多新手还是需要去花时间去找配置,中间...原创 2018-12-28 14:13:49 · 482 阅读 · 0 评论 -
Mac上安装多个jdk并自由切换
1. 获取并安装多个版本的 jdk点击如下链接,你可以分别获取到:jdk1.7jdk1.8其中某些版本的 macOS 系统上自带 jdk1.6。如果没有的话,点击上面的链接从苹果官网下载,注意 oracle 官网不提供 jdk1.6 for macOS,只有 Linux 和 Windows 版本。2.修改系统环境变量,以自如的切换多个版本的 jdk例如我之前安装的是jdk1.7版本(...原创 2018-12-28 13:34:44 · 551 阅读 · 0 评论 -
MAC安装chromedriver碰到的问题
MAC安装chromedriver碰到的问题:mv: rename chromedriver to /usr/bin/chromedriver: Operation not permitted原创 2018-12-27 20:41:58 · 5320 阅读 · 0 评论 -
MysqlTwistedPipline的对象没有cursor属性
mac下抓取伯乐在线网站debug过程中遇到的坑及补充使用vartualenv创建的python3.x版本在pycharm中运行第四章抓取伯乐在线的例子中如果遇到以下情况该怎么做1.MysqlTwistedPipline的对象没有cursor属性?解决办法一:请检查你是否加了self?如果有,请去掉解决办法二:是否引入这些依赖import pymysqlfrom pym...原创 2018-12-27 14:15:17 · 881 阅读 · 0 评论 -
mac在pycharm下debug时, import MySQLdb 报这个错误,怎么解决?
mac下抓取伯乐在线网站debug过程中遇到的坑及补充使用vartualenv创建的python3.x版本在pycharm中运行第四章抓取伯乐在线的例子中如果遇到以下情况该怎么做1.ImportError: dlopen(/Users/apple/.virtualenvs/fortune_spider/lib/python3.6/site-packages/_mysql.cpython-3...原创 2018-12-27 13:10:19 · 704 阅读 · 0 评论 -
from models.es_types import ArticleType报错的解决方法
对于聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎课中出现from models.es_types import ArticleType 提示这行有问题错误提示from models.es_types import ArticleTypeModuleNotFoundError: No module named ‘models’解决方法from ArticleSpider...原创 2018-12-29 14:56:03 · 603 阅读 · 0 评论