FSCrawler

FSCrawler组件是为了监听目标文件夹中的文件,如果有文件的增删,会同步给es库

一、下载FSCrawler

在安装包文件夹中已经准备好了所需要的安装文件,或者去官网下载,需要注意下载时需要和对应的es版本所对应

官网下载地址:https://fscrawler.readthedocs.io/en/fscrawler-2.9/installation.html

下载好之后解压即可。

在这里插入图片描述

二、配置对应的jdk

不同版本的FSCrawler对于jdk的要求不同,这个可以从说明文档中看到具体的要求

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hifJAeFe-1682419663694)(image1\3.png)]

但是如果本地环境已经有了其他版本的jdk(如jdk1.8),又不想更换jdk11,可以针对于FSCrawler进行单独的jdk配置

1、先准备好对应版本的jdk11,解压后放到FSCrawler解压后的目录中,如图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f4OSaGMB-1682419663694)(image1\4.png)]

2、进行配置,进入FSCrawler解压后的目录下,打开bin/fscrawler文件,如下图操作,换成自己jdk11的路径即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vtGIwr4e-1682419663695)(image1\5.png)]

三、第一次启动

进入FSCrawler目录,输入以下命令:

​ 启动一个FSCrawler,术语被称为:启动一个作业(job)

bin/fscrawler --config_dir ./test job_name

bin/fscrawler : 为固定写法

–config_dir: 设置一个参数dir,dir对应的路径中会存放你本次作业的相关配置信息

./test:这里是我自己想要把文件创建到哪里,即上面dir的具体值。 这样FSCrawler就会在该路径下创建我本次作业的相关信息

job_name :这里自定义,目的是为了给你本次的作业起一个名字

注意:可以不添加 --config_dir ./test参数,官网给定的例子中也没有对应参数,但是会将作业相关的配置文件生成至~/.fscrawler/{job_name}

第一次使用上述命令启动时,因为是第一次,在对应的目录下没有_settings.yaml的配置文件,所以FSCrawler会询问是否要创建,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A3RL7SNd-1682419663695)(image1\6.png)]

四、配置

经过第三步的操作后,会在对应的目录下生成_settings.yaml文件,具体的位置是在FSCrawler的解压路径下的test文件下,与job_name相同名字的文件夹中,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3N1J2b3X-1682419663695)(image1\7.png)]

注意:如果在第一次启动时没有配置–config_dir参数,则_settings.yaml文件在默认路径下:~/.fscrawler/{job_name}/

vim _settings.yaml,进行自己的配置,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JWpAplvI-1682419663695)(image1\8.png)]

具体参数的信息可以参考官网的介绍:https://fscrawler.readthedocs.io/en/fscrawler-2.9/admin/fs/elasticsearch.html

五、再次启动

bin/fscrawler --config_dir ./test job_name

不报错,即启动成功,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zO0XRsvr-1682419663695)(image1\9.png)]

六、查询验证

GET /bzgl/_search
{
  "query": {
    "match_all": {}
  }
}

“bzgl”:换成自己的job名称

七、补充,设置mapping,设置ik分词器

因为FSCrawler有对于文件的mapping有固定的写法,如果我们要修改(比如:修改为ik分词器),需要更改对应的配置文件

到自己配置的--config_dir目录下,_default/7中配置_settings.json文件,

修改完毕后,删除es中之前对应生成的索引库,然后重新启动FSCrawler即可

{
  "settings": {
    "number_of_shards": 1,
    "index.mapping.total_fields.limit": 2000,
    "analysis": {
      "analyzer": {
        "fscrawler_path": {
          "tokenizer": "fscrawler_path"
        }
      },
      "tokenizer": {
        "fscrawler_path": {
          "type": "path_hierarchy"
        }
      }
    }
  },
  "mappings": {
    "dynamic_templates": [
      {
        "raw_as_text": {
          "path_match": "meta.raw.*",
          "mapping": {
            "type": "text",
            "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
          }
        }
      }
    ],
    "properties": {
      "attachment": {
        "type": "binary",
        "doc_values": false
      },
      "attributes": {
        "properties": {
          "group": {
            "type": "keyword"
          },
          "owner": {
            "type": "keyword"
          }
        }
      },
      "content": {
        "type": "text",
		"analyzer": "ik_smart" //比如此处,需要给content字段设置使用ik分词器
      },
      "file": {
        "properties": {
          "content_type": {
            "type": "keyword"
          },
          "filename": {
            "type": "keyword",
            "store": true
          },
          "extension": {
            "type": "keyword"
          },
          "filesize": {
            "type": "long"
          },
          "indexed_chars": {
            "type": "long"
          },
          "indexing_date": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "created": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "last_modified": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "last_accessed": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "checksum": {
            "type": "keyword"
          },
          "url": {
            "type": "keyword",
            "index": false
          }
        }
      },
      "meta": {
        "properties": {
          "author": {
            "type": "text"
          },
          "date": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "keywords": {
            "type": "text"
          },
          "title": {
            "type": "text"
          },
          "language": {
            "type": "keyword"
          },
          "format": {
            "type": "text"
          },
          "identifier": {
            "type": "text"
          },
          "contributor": {
            "type": "text"
          },
          "coverage": {
            "type": "text"
          },
          "modifier": {
            "type": "text"
          },
          "creator_tool": {
            "type": "keyword"
          },
          "publisher": {
            "type": "text"
          },
          "relation": {
            "type": "text"
          },
          "rights": {
            "type": "text"
          },
          "source": {
            "type": "text"
          },
          "type": {
            "type": "text"
          },
          "description": {
            "type": "text"
          },
          "created": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "print_date": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "metadata_date": {
            "type": "date",
            "format": "dateOptionalTime"
          },
          "latitude": {
            "type": "text"
          },
          "longitude": {
            "type": "text"
          },
          "altitude": {
            "type": "text"
          },
          "rating": {
            "type": "byte"
          },
          "comments": {
            "type": "text"
          }
        }
      },
      "path": {
        "properties": {
          "real": {
            "type": "keyword",
            "fields": {
              "tree": {
                "type": "text",
                "analyzer": "fscrawler_path",
                "fielddata": true
              },
              "fulltext": {
                "type": "text"
              }
            }
          },
          "root": {
            "type": "keyword"
          },
          "virtual": {
            "type": "keyword",
            "fields": {
              "tree": {
                "type": "text",
                "analyzer": "fscrawler_path",
                "fielddata": true
              },
              "fulltext": {
                "type": "text"
              }
            }
          }
        }
      }
    }
  }
}

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值