Python elasticsearch 导入json文件数据 + 将scrapy爬虫数据直接存入elasticsearch

1、json文件数据存入elasticsearch

  • json文件是从网上爬下来的数据

这里写图片描述

  • scrapy 保存的json格式数据默认Unicode格式编码,转utf-8 格式需要在settings里面加入一条:
FEED_EXPORT_ENCODING='utf-8'

2、 将scrapy爬虫数据直接存入elasticsearch

  • settings.py里面设置elasticsearch host
  • pipelines.py添加代码:
    这里写图片描述

  • 需要注意在settings.py开启 ITEM_PIPELINES选项

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
使用elasticsearch-dsl可以很方便地将Scrapy爬取的数据存储到Elasticsearch中。 首先,需要在Scrapy项目中安装elasticsearch-dsl: ``` pip install elasticsearch-dsl ``` 然后,在Scrapy项目的settings.py文件中添加以下代码: ``` ELASTICSEARCH_HOST = 'localhost' ELASTICSEARCH_PORT = 9200 ELASTICSEARCH_USERNAME = '' ELASTICSEARCH_PASSWORD = '' ELASTICSEARCH_INDEX = 'my_index' ELASTICSEARCH_TYPE = 'my_type' ``` 这里需要设置Elasticsearch的主机名、端口号、用户名、密码、索引名称和类型名称。 接下来,在Scrapy项目中的pipelines.py文件中编写以下代码: ``` from elasticsearch_dsl.connections import connections from elasticsearch_dsl import DocType, Text, Date, Integer from scrapy.utils.project import get_project_settings class MyItem(DocType): title = Text() content = Text() publish_date = Date() view_count = Integer() class Meta: index = get_project_settings().get('ELASTICSEARCH_INDEX') doc_type = get_project_settings().get('ELASTICSEARCH_TYPE') class ElasticsearchPipeline(object): def __init__(self): settings = get_project_settings() self.es = connections.create_connection( hosts=[{'host': settings.get('ELASTICSEARCH_HOST'), 'port': settings.get('ELASTICSEARCH_PORT')}], http_auth=(settings.get('ELASTICSEARCH_USERNAME'), settings.get('ELASTICSEARCH_PASSWORD')) ) def process_item(self, item, spider): my_item = MyItem(title=item['title'], content=item['content'], publish_date=item['publish_date'], view_count=item['view_count']) my_item.save(using=self.es) return item ``` 这里定义了一个MyItem类,包含了需要存储到Elasticsearch中的字段。ElasticsearchPipeline类则是对数据进行处理和存储的类,其中在初始化方法中连接Elasticsearch,将数据保存到Elasticsearch中的process_item方法中则是通过创建MyItem对象并调用save方法来完成的。 最后,在Scrapy项目中的settings.py文件中添加以下代码启用ElasticsearchPipeline: ``` ITEM_PIPELINES = { 'my_project.pipelines.ElasticsearchPipeline': 300, } ``` 这样,爬取到的数据就会自动存储到Elasticsearch中了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值