![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 75
xiaojiewang1990
这个作者很懒,什么都没留下…
展开
-
策略产品经理--NLP技术基础与算法模型
前言:BERT模型的出现,使NLP技术进入新的时代。由此机会窥探NLP技术全貌,学习了解NLP相关技术与算法模型。一、基本概念词向量(Word Embedding): 词向量主要用于将自然语言中的词符号数学化,这样才能作为机器学习问题的输入。 数学化表示词的方式很多,最简单的有独热编码,即“足球”=[0,0,1,0,0,0,0,…],“篮球”=[0,0,0,0,0,1,0,…]...原创 2018-10-16 12:23:53 · 1532 阅读 · 1 评论 -
信息流广告投放相关概念与技术(DSP等,OCPA)
一、基本概念广告主: 广告活动的发布者,是在网上销售或宣传自己产品和服务的商家,是联盟营销广告的提供者。任何推广、销售其产品或服务的商家都可以作为广告主。广告主发布广告活动,并按照网站主完成的广告活动中规定的营销效果的总数量及单位效果价格向网站主支付费用CPM,m定义为mille,按展现付费,最常见的是钻石展位CPC,Cost Per Click,按点击付费,最常见的是直通车,百度大部...原创 2018-10-16 20:49:34 · 4287 阅读 · 0 评论 -
NLP---- python实践案例(word2vec求语义相似度,LDA,词性标注)
NLP应用的第一步是自动分词,然后在分词之后构建词向量,然后再对词向量进行训练,最后输出任务结果。案例:中文处理预料库《倚天屠龙记》,为例子。引用博文:https://blog.csdn.net/sinat_29694963/article/details/79177832https://zhuanlan.zhihu.com/p/23225934word2vec是构建多层的神经网络...原创 2018-12-28 13:51:08 · 3499 阅读 · 1 评论 -
中文情感分析语料库【下载】
转自博客:https://blog.csdn.net/noter16/article/details/75340354http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93数据集1:情感挖掘的酒店评论语...转载 2018-11-07 12:00:42 · 6456 阅读 · 0 评论 -
解决python因为中文编码问题出现乱码
在读取中文的情况下,通常会遇到一些编码的问题,但是首先需要了解目前的编码方式是什么,然后再用decode或者encode去编码和解码,下面是使用chardet库来查看编码方式的。importchardetpath1="2000_neg.txt"path2="2000_pos.txt"file1=open(path1,'rb')file2=open(path2,'rb')da...原创 2018-11-16 12:02:11 · 867 阅读 · 0 评论 -
python删除文件中的重复行
无论文件中的每行无论是已经切分的词还是句子,set(a),这个a可以是一行得到句子作为单位,也可以是字符。去除重复行,则就以每行作为这个无序集合中的一个单元。import codecs line_seen=set()#初始化空的无序集合in_file=codecs.open('2000_pos_cut_stopword.txt','r',encoding='utf-8')out...原创 2018-11-16 15:45:52 · 6895 阅读 · 0 评论 -
python中常见的矩阵运算
转自:https://www.cnblogs.com/chamie/p/4870078.htmlpython的numpy库提供矩阵运算的功能,因此我们在需要矩阵运算的时候,需要导入numpy的包。1.numpy的导入和使用from numpy import *;#导入numpy的库函数import numpy as np; #这个方式使用numpy的函数时,需要以np.开头。2...原创 2018-11-16 17:00:43 · 26342 阅读 · 0 评论 -
wiki中文语料下载及繁体转简体的处理。
wiki中文语料下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载后是xml的文件,需要转换为中文的txt文件,网上又很多处理的python代码。#!/usr/bin/env python# -*- coding: utf-8 -*-#将xml的wiki数据转换为...原创 2018-11-15 11:45:16 · 2973 阅读 · 1 评论