- 博客(49)
- 收藏
- 关注
原创 github模拟登陆
github模拟登陆使用requests,xpath模拟GitHub登陆具体步骤思路如下:清空浏览器保存的GitHub网站的cookies回到登陆界面登陆,F12开发者模式,分析参数点击登陆,便可在开发者工具中看到各种请求,点开可以看到请求地址为 https://github.com/session,请求方式为POST分析提交表单,可以看到 authenticity_token、ga_id、timestamp、timestamp_secret等参数无法自行构造
2020-07-26 09:40:39
337
原创 头条_signature
头条搜索_signature获取叨叨:爬取今日头条搜索内容的时候发现头条是动态更新网页即Ajax,其URL组成如下:Query String Parameters:aid: 24app_name: web_searchoffset: 0format: jsonkeyword: 街拍autoload: truecount: 20en_qc: 1cur_tab: 1from: search_tabpd: synthesistimestamp: 1594006097370_sig
2020-07-06 16:25:14
2065
1
原创 Linux学习(五)文件系统相关指令
磁盘与目录的容量df:列出文件系统的整体磁盘使用量 df [-ahikHTm] 目录或文件名 -a:列出所有的文件系统,包括系统特有的/proc等文件系统 -k:以KBytes的容量显示各文件系统 -m:以MBytes的容量显示各文件系统 -h:以人类较易阅读的GBytes、MBytes、KBytes等格式自行显示 -H:以M=1000K取代M=1024K的进位方...
2019-08-17 23:44:23
156
原创 Linux学习(四)dumpe2fs
dumpe2fs:查询Ext家族superblock信息的指令 dumpe2fs [-bh] 装置文件名 选项与参数: -b:列出保留为坏轨的一部分 -h:仅列出superblock的数据,不会列出其他区段内容 blkid:列出目前系统有被格式化的装置查看 Linux支持的文件系统 ls -l /lib/modules/$(uname -r)/kernel...
2019-08-14 23:05:47
184
原创 nlp基础学习 中文分词原理
分词算法综述分词算法先把句子按照字典切分成词,再寻找词的最佳组合方式基于字的分词,先把句子分成一个个字,再将字组合成词,也可转化为序列标注问题基于词典的分词最大匹配分词算法(正向、逆向、双向)先将字典构造成一个字典树(提升查找效率降低存储空间)最短路径分词算法将一句话中的所有词匹配出来,构成词图(有向无环图),然后起始点到终点的最短路径作为最佳组合方式...
2019-08-13 19:12:03
365
原创 Linux学习(二)
Linux文件与目录管理目录相关操作cd:变换目录pwd:显示当前目录mkdir:创建新目录rmdir:删除一个空目录cd:切换目录pwd:显示当前目录mkdir:创建新目录rmdir:删除空目录文件与目录管理ls:...
2019-08-09 00:02:15
82
原创 Elasticsearch复合查询
bool query:使用must,should,must_not,filter选项表示简单查询之间的逻辑must: 相当于逻辑运算的andshould:相当与逻辑运算的ormust_not:与must相反filter:和must一样,匹配filter选项下的查询条件的文档才会被返回,但filter不评分,只起到过滤功能GET books/_search{ "query":{ ...
2019-08-05 09:09:56
105
原创 ElasticSearch 词项查询
词项搜索对倒排索引中存储的词项进行精确操作terms query:用来查询包含多个词的文档GET books/_search{ "query":{ "terms":{ "title":["java","python"] } } }range query:用于匹配在某一范围内的数值型、日期类型或者字符型字段的文档。range查询支持的参数有以下几种:gt 大于,...
2019-08-04 20:52:15
338
原创 ElasticSearch全文搜索指令学习
match_all query:返回所有文档,文档得分都是1GET books/_search{ "query":{ "match_all":{} }}term query:用来查找指定字段中包含给定单词的文档,term查询不被解析,只有查询词和文档词精确匹配才会被搜索到,应用场景为查询人名、地名等需要精确匹配的需求GET books/_search{ "query":{...
2019-08-04 19:53:42
139
原创 Linux学习(一)
Linux用户身份与群组记录的文件/etc/passwd : 默认情况下,保存系统上的账号,一般使用者,root的相关信息/etc/shadow:保存用户的密码/etc/group: 保存所有的组名Linux 文件属性ls -al :列出所有文件的文件名和相关属性文件的类型与权限drwxr-xr-x:...
2019-07-29 22:27:01
78
转载 解决Python中读Oracle数据库的中文编码问题
转自;https://blog.csdn.net/melon0014/article/details/52452906 一、编码字符是各种文字和符号的总称,包括各个国家文字...
2019-06-02 02:09:34
1185
转载 转 Python 字典 列表 嵌套 复杂排序大全
原:https://blog.csdn.net/ray_up/article/details/42084863 一: 字典排序解析: 使用sorted 方法, 排序后的结果为一个元组. 可以字符串排序(那数字肯定更没问题了!) 1: 按照键值(value)排序a = {'a': 'China'...
2019-01-05 09:24:31
427
转载 转 Python获取代码运行时间的几种方法
版权声明: https://blog.csdn.net/asialee_bird/article/details/79673860 Python获取代码运行时间的几种方法1、方法一:#python 的标准库手册推荐在任何情况下尽量使用time.clock().#只计...
2018-11-14 13:56:58
818
转载 转 全文检索
本文我将为大家讲解全文检索技术——Lucene,现在这个技术用到的比较多,我觉得大家还是应该掌握一下,不说多精通,但是应该有所了解。在讲解之前,我们先来看一个案例,通过该案例引出全文检索技术——Lucene。案例实现一个文件的搜索功能,通过关键字搜索文件,凡是文件名或文件内容包括关键字的文件都需要找出来。...
2018-11-10 12:16:06
164
原创 Elasticsearch学习之的delimited_payloads使用
想要为每个token添加负载信息,例如标注词性elasticsearch中Token Filter:delimited_payloads注意事项:在设置tokenizer时必须不能把delimited_payloads中的分界符去掉实现:PUT /20181105{ "settings": { "analysis": { "filter": { ..
2018-11-06 09:55:07
765
转载 转 中文分词
转自:http://www.cnblogs.com/flish/archive/2011/08/08/2131031.html 基于CRF(Conditional Random Field)分词算法 论文链接:http://nlp.stanford.edu/pubs/sighan2005....
2018-11-04 21:09:44
309
原创 Elaticsearch analyzer 学习
analyzer记录术语的顺序和相关位置信息(短语查询和单词邻近查询)记录每个术语相对于原始文本的开始和结束位置的偏移量(用于高亮)可以自定义analyzer,可以通过添加配置信息使得某个analyzer成为自己需要的分词器https://www.elastic.co/guide/en/elasticsearch/reference/6.3/_testing_analyzers.html...
2018-10-30 10:01:21
317
原创 elasticsearch学习之cross_fields字段使用
cross_fields字段:在查询阶段解决信号冲突问题问题: The cross_fields type is particularly useful with structured documents where multiple fields should match. For instance, when querying the first_name and last_name fi...
2018-10-17 14:28:25
1493
原创 elasticsearch学习之通过设置搜索边界实现精确匹配字段
GET tmdb/_search{ "_source": "name_exact_match", "query": { "bool": { "should": [ { "constant_score": { "filter": { "matc
2018-10-17 14:16:23
988
原创 elasticsearch学习之field_value_factor函数的使用
GET tmdb/_search{ "_source": ["title","vote_average"], "query": { "function_score": { "query": { "match_all": {} }, "functions": [ {
2018-10-17 14:13:34
2279
原创 elasticsearch学习之根据发布时间设置衰减函数
衰减函数decay functionion 高斯衰减GET _search{ "_source": ["title","release_date"], "query": { "function_score": { "query": { "match_all": {} }, "functi
2018-10-17 14:12:10
2391
原创 elasticsearch学习之搜后建议
GET tmdb/_search{ "suggest":{ "text":"star trec", "simple_phrase":{ "phrase":{ "field":"suggestion", "collate":{ "query":{
2018-10-17 14:05:23
107
原创 elasticsearch学习之搜索补全
GET tmdb/_search{ "suggest":{ "completion":{ "prefix":"star tr", "completion":{ "field":"completion" } } }}
2018-10-17 14:04:32
601
原创 elasticsearch学习之切面搜索 通过aggregation实现
GET tmdb/_search{ "size": 1, "_source": "title", "aggs": { "genres": { "terms": { "field": "genres.name.keyword" } } }}GET tmdb/_search
2018-10-17 14:02:50
627
原创 elasticsearch学习之高亮
GET tmdb/_search{ "size": 30, "_source": " ", "query": { "multi_match": { "query": "star trek", "fields": ["title","overview"]
2018-10-17 14:01:42
439
原创 elasticsearch学习之文档分组
GET tmdb/_search{ "size": 1, "_source": " ", "query": { "match": { "title": "star trek" } }, "
2018-10-17 13:59:32
210
原创 elasticsearch6.3.2 针对text的aggregation
对于字段类型为text文本会在aggregation时报错: Fielddata is disabled on text fields by default. Set fielddata=true on [your_field_name] in order to load fielddata in memory by uninverting the inverted index. Note th...
2018-10-16 10:55:48
327
原创 Python elasticsearch 导入json文件数据 + 将scrapy爬虫数据直接存入elasticsearch
json文件是从网上爬下来的数据scrapy 保存的json格式数据默认Unicode格式编码,转utf-8 格式需要在settings里面加入一条:FEED_EXPORT_ENCODING='utf-8'
2018-09-14 17:21:24
2027
1
原创 字节跳动 数据处理 elasticsearch 面试问题
面试问题如下:计算机网络三次握手和四次挥手数据结构二叉树 数据的序列化和反序列化(当场写代码)进程和线程elasticsearchterms 和term 的区别filter 和query的区别MySQL 数据同步到es中: pagesize大小设置,数据超过这个pagesize该怎么处理一个数字如何设置mapping,为什么...
2018-09-14 14:44:52
4512
原创 elasticsearch 6.3.2 + Ubuntu16.04 Ubuntu18.04 集群搭建问题一览
配置3个节点的elasticsearch集群,遇到问题如下:问题一ERROR: bootstrap checks failed max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144] 解决办法:修改 /etc/sysctl.conf ,...
2018-09-14 08:57:25
480
原创 PHP-elasticsearch配置+基于elasticsearch全文搜索引擎的开发小结
首先参照官网内容下载与自己php以及elasticsearch版本相匹配的Php-elasticsearch,按照官网内容进行配置https://www.elastic.co/guide/en/elasticsearch/client/php-api/current/index.html接下来讲一下我基于elasticsearch-PHP开发的一个全文搜索项目说明一下:PHP使用...
2018-09-04 11:24:07
2542
原创 Logstash elasticsearch MySQL数据同步以及遇到问题解决
使用Logstash将MySQL数据同步到elasticsearch:input { stdin { } jdbc { jdbc_driver_library => "mysql-connector-java-5.1.46-bin.jar" jdbc_driver_class => "com.mysql.jdbc.Driv...
2018-09-03 17:47:53
3635
2
原创 Elasticsearch学习之 Search After 结果分页显示
Search After通过提供一个live cursor来规避消耗存储和时间的性能问题通过上一页的结果帮助检索下一页如下面这个示例,按照第一个检索到的最后显示的“balance”和‘_id’值,作为下一个检索search_after的参数当使用search_after参数时,from的值必须被设为0或者-1curl -XGET "http://localhost:9200/ban...
2018-08-14 10:14:08
10587
原创 Elasticsearch 学习之Field Collapsing(字段折叠)
Field Collapsing(字段折叠)不能与scroll、rescore以及search after 结合使用collapse字段:表示按照age(每个age对应多条document结果)的值折叠(keyword或者数值)sort:表示按照age字段排序from:偏移,即前180个document的值都被折叠掉了curl -XGET "http://localhost:9200...
2018-08-13 18:01:07
10728
原创 Elasticsearch 学习之Search API inner hits
inner hits: curl -X PUT "localhost:9200/test" -H 'Content-Type: application/json' -d' { "mappings": { "_doc": { "properties": { "comments": { "type.
2018-08-13 17:58:53
3001
转载 转 Elasticsearch的使用场景深入详解(Elasticsearch实战篇)
了解了ES的使用场景,ES的研究、使用、推广才更有价值和意义。1、场景—:使用Elasticsearch作为主要的后端传统项目中,搜索引擎是部署在成熟的数据存储的顶部,以提供快速且相关的搜索能力。这是因为早期的搜索引擎不能提供耐用的存储或其他经常需要的功能,如统计...
2018-08-03 14:53:51
3378
2
转载 转 ElasticSearch启动报错,bootstrap checks failed
修改elasticsearch.yml配置文件,允许外网访问。vim config/elasticsearch.yml# 增加network.host: 0.0.0.0启动失败,检查没有通过,报错[2018-05-18T17:44:59,658][INFO ][o.e...
2018-07-30 15:26:00
1363
转载 转 安装nodejs和npm以后出现 /usr/bin/env: node: No such file or directory
原文地址:https://blog.csdn.net/Ezreal_King/article/details/78587503 安装完成以后需要执行此命令:sudo ln -s /usr/bin/nodejs /usr/bin/node1将2个文件夹链接。 ...
2018-07-29 12:25:00
1941
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人