分词工具Jieba使用过程记录

1、环境搭建

在window下开发工程,需要用到pycharm,安装包在165的ftp下,路径 /ambari/soft/pycharm

测试jieba的demo地址  https://github.com/WanZhang1/cars_jieba,下载后直接用pycharm打开即可

2、安装相关python包

在线安装

pip install jieba
pip install python-docx

离线安装

下载包

jieba jieba-0.39.zip
python-docx  python-docx-0.8.6.tar.gz
lxml lxml-2.3.4.tar.gz

安装

pip install jieba-0.39.zip
pip install python-docx-0.8.6.tar.gz
pip install lxml-2.3.4.tar.gz

3、开发RESTful接口

 安装python包

pip install flask

离线安装python包

下载flask包和相关依赖包,在 https://pypi.python.org/simple/ 可以找到

Flask-0.12.2.tar.gz  
click-2.0.tar.gz  
itsdangerous-0.21.tar.gz  
itsdangerous-0.21.tar.gz 
MarkupSafe-0.23.tar.gz  
MarkupSafe-0.23.tar.gz

安装
pip install click-2.0.tar.gz
pip install itsdangerous-0.21.tar.gz
pip install MarkupSafe-0.23.tar.gz
pip install Werkzeug-0.7.2.tar.gz
pip install Jinja2-2.4.1.tar.gz
pip install Flask-0.12.2.tar.gz

4、代码开发

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# by zhangw 2017/11/8
from flask import Flask, abort, request, jsonify
import jieba
 
app = Flask(__name__)
 
 
 
@app.route('/user_dict/', methods=['POST'])
def user_dict():
if not request.json or 'text' not in request.json:
abort(400)
text = request.json['text']
 
# 自定义词典
jieba.load_userdict("../../../file/user_dict.dat")
seg_list = jieba.cut(text, cut_all=False)
seg = " ".join(seg_list)
print(seg)
 
return jsonify({'result': seg})
 
if __name__ == "__main__":
# 将host设置为0.0.0.0,则外网用户也可以访问到这个服务
app.run(host="0.0.0.0", debug=True)

5、测试

POST http://127.0.0.1:5000/jieba_parse/

示例:

curl -l -H "Content-type: application/json" -X POST -d '{"text":"近日,国外几名网友整理了一份自然语言处理的免费/公开数据集(包含文本数据)清单,为防止大家错过这个消息,论智暂且把清单内容搬运如下。有需要的读者可直接收藏本文,或去github点个星星以示感谢"}' http://0.0.0.0:5000/jieba_parse

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值