nlp
辽宁大学
毕业于朝阳科技大学
展开
-
文本相似性做法
#!pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple#!pip install editdistance -i https://pypi.tuna.tsinghua.edu.cn/simpleimport reimport numpy as npimport pandas as pdimport jiebafrom sklearn.feature_extraction.text import CountVectoriz.原创 2020-06-29 23:03:04 · 212 阅读 · 0 评论 -
stacking的代码机器核心思想
核心思想:先用不同的分类模型进行分类。然后模型的输出作为次级模型的输入。基本上是最终结果是好于单个分类模型原创 2020-05-02 17:21:06 · 175 阅读 · 0 评论 -
PCA降维的例子
import numpy as npimport matplotlib.pyplot as plt#载入数据data=np.genfromtxt("data.csv",delimiter=",")x_data=data[:,0]y_data=data[:,-1]plt.scatter(x_data,y_data)plt.show()print(x_data.shape)#数据中...原创 2020-05-02 11:38:27 · 558 阅读 · 1 评论 -
DBCAN代码
#coding=utf-8from sklearn.cluster import DBSCANimport numpy as npimport matplotlib.pyplot as plt#载入数据data=np.genfromtxt("kmeans.txt",delimiter=" ")model=DBSCAN(eps=1,min_samples=4)#这两个超参数可以进行修改...原创 2020-05-02 09:38:04 · 567 阅读 · 0 评论 -
实现贝叶斯的代码
import numpy as npfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_report,confusion_matrixfrom sklearn.naive_bayes import...原创 2020-05-01 22:41:19 · 819 阅读 · 0 评论 -
svm处理非线性分类的方式。代码如下
import matplotlib.pyplot as pltimport numpy as npfrom sklearn import svmfrom sklearn.metrics import classification_reportdata=np.genfromtxt("LR-testSet2.txt",delimiter=",")#print(data)x_data=da...原创 2020-05-01 18:21:57 · 735 阅读 · 0 评论 -
线性回归中随机梯度下降算法的代码
先上代码代码中alpha是学习率。theta初始值为1。reshape是为了匹配成一个数。np.sum是矩阵求和。/3是数据的组数。原创 2020-04-30 10:41:47 · 402 阅读 · 0 评论 -
最小二乘法实现代码
实现过程:使用到了numpy的inv(矩阵的逆) dot(点乘) array和mat区别主要是维度不同矩阵A,转置为A.T 。reshape既能实现转置又可以转换成为任意格式...原创 2020-04-30 10:21:33 · 957 阅读 · 0 评论 -
github本地仓库和远程仓库连接问题
从本质上讲,当远程仓库名字进行改变。本地仓库上传更新。会提示错误。道理简单1对应2.现在2改变了。需要找到最新的对应地址。改后在上传更行就可以拉。...原创 2020-04-19 09:43:05 · 182 阅读 · 0 评论 -
计算机非核心期刊
非版面费多少?根据一般杂志社版面费计算规则:省级期刊:400元-800元,国家级期刊一般在1500元左右。具体的版面费用还得来本网站核实,不同的撰写费用也会有所偏差所以大家可以咨询本文网站在线客服了解详细情况。非核心期刊有哪些?国家级:计算机安全网络安全技术与应用省级:科技风数码世界投稿的时候,要找到官网。切记要找官网。中介很不靠谱。希望对毕业生小伙伴或者评...原创 2020-04-12 16:36:38 · 959 阅读 · 0 评论 -
分布式AI系统的研究和总结
分布式的概念:结合分布式数据库和分布式操作系统。为了能够满足数据、速度或者安全性的需要。使物理位置不在一起的机器共同处理一个任务或者作业的过程。叫做分布式。老外对分布式系统的解释为:A distributed system is a system which has unbounded latency and experiences partial failure分布式AI系统中的分布式...原创 2020-04-11 11:06:14 · 1317 阅读 · 0 评论 -
数据分析相关的论文
https://www.aclweb.org/anthology/D19-1497.pdf基于同行评议文本的神经引文计数预测模型https://nrgeup.github.io/resume/papers/18-sigir.pdf学术论文同行评审文章的情感分析https://arxiv.org/pdf/1804.09635.pdf同行评审(peerread)数据集:收集,见解和nl...原创 2020-04-10 13:23:53 · 1994 阅读 · 0 评论 -
numpy函数的使用
# _*_coding:utf-8-*_import numpy as np # 定义矩阵变量并输出变量的一些属性# 用np.array()生成矩阵arr=np.array([[1,2,3], [4,5,6]]) print(arr)print('number of arr dimensions: ',arr.ndim)print('~ ~ ...原创 2020-04-07 19:42:47 · 403 阅读 · 0 评论 -
csv文件的操作方法
# _*_ coding: utf-8 _*_"""csv file operate"""import csvimport datetime# 数据data = [ [1, "a,bc", 19.353, datetime.datetime(2001, 3, 17)], [2, "ei,f", 13.287, datetime.datetime(2011, 4...原创 2020-04-07 19:01:20 · 692 阅读 · 0 评论 -
图论相关知识
1 图的基本概念 1. 子图的概念 2. 同构的概念 给定了节点数目及它们之间的相邻关系,可以很容易的画出图G,不 过它的形状不是唯丯的。这种形状不同结构相同的图叫做同构。 2020CVPR,北京大学有三篇关于图网络论文,作者对图上的节点进 行逐点变换,使得每个节点可以具有不同的变换,以达到扩充数据集 的目的。 https://arxiv.org/pdf/191...原创 2020-04-01 21:27:12 · 236 阅读 · 0 评论 -
10折交叉法
from sklearn.linear_model import LinearRegressionfrom sklearn import model_selectionfrom sklearn.datasets import load_irisimport pandas as pdimport torch as timport numpy as npdata=pd.read_exce...原创 2020-03-29 20:50:31 · 762 阅读 · 0 评论 -
excel转csv文件的代码。简单暴力好用
# import pandas as pd# data = pd.read_excel('novel.xlsx',sheet_name='novel')# data.to_csv('data.csv',encoding='utf-8')#!/usr/bin/python3# -*- coding: utf-8 -*-# 导入CSV安装包import csvimport pand...原创 2020-03-27 08:11:32 · 584 阅读 · 0 评论 -
基于python matplotlib的应用
import matplotlib.pyplot as pltimport randomimport numpy as npimport pandas as pddef MaxMinNormalization(x,Max,Min): x = (x - Min) / (Max - Min); return x/3.00124732715609def graphpic(...原创 2020-03-22 19:55:37 · 207 阅读 · 0 评论 -
随手一画的方块图
import matplotlib.pyplot as pltimport randomimport numpy as npimport pandas as pddef MaxMinNormalization(x,Max,Min): x = (x - Min) / (Max - Min); return x/3.00124732715609def graphpic(...原创 2020-03-22 16:23:23 · 227 阅读 · 0 评论 -
归一化长度代码
#coding=utf-8"""长度归一化"""import pandas as pddef MaxMinNormalization(x,Max,Min): x = (x - Min) / (Max - Min); return xlist=[1,2,3]for i in list: t=MaxMinNormalization(i,max(list),min...原创 2020-03-21 23:19:48 · 528 阅读 · 0 评论 -
python如何保存自己的环境变量
Python创建virtualenv(虚拟环境)方法本文目录一 前言 二 通过virtualenv软件创建 三 在Pycharm下创建 新建项目 四 已有项目使用和创建虚拟环境 五 参数说明回到目录一 前言 需求: --公司之有一台服务器 -目前运行这一个5年前开发的Django项目,基于1.5 -现在要基于Dj...翻译 2020-03-14 20:49:17 · 749 阅读 · 0 评论 -
ubuntu 和windows运行模型代码操作的不同。
ubuntu上操作如下:export BERT_BASE_DIR=../modelParams/uncased_L-12_H-768_A-12 export DATASET=../data/ python run_classifier.py --data_dir=$MY_DATASET --task_name=imdb --vocab_file=$BERT_...原创 2020-03-14 00:30:45 · 572 阅读 · 1 评论 -
github下载的代码很多是shell输入,并不是主函数运行
所以在windows系统下可以写一个bat文件或者直接用cmd控制台,或者annocoda 的命令窗口。在ubuntu下一般是使用sh文件或者直接命令运行。原创 2020-03-12 08:52:10 · 349 阅读 · 1 评论 -
两个例子读懂np.concatenate
>>> a = np.array([[1, 2], [3, 4]])>>> b = np.array([[5, 6]]) b是一个二维array>>> np.concatenate((a, b), axis=0)array([[1, 2], [3, 4], [5, 6]])>...原创 2020-03-11 11:43:05 · 160 阅读 · 0 评论 -
python画框框图
#conding=utf-8"""@author=wanggangdate:March,9,2020"""import numpy as npimport matplotlib.pyplot as pltlist1=[1,2,1,2,0,0,1,0,0]#角度1list2=[2,1,0,1,2,0,2,0,1]#角度2list3=[1,2,1,1,2,0,2,0,2]#角度3...原创 2020-03-10 23:21:18 · 3982 阅读 · 0 评论 -
对excel中transform的使用,直接上代码啦
#coding=utf-8"""@author=wanggangdate:March,4,2020"""import pandas as pdws=pd.read_excel('tp_2017conference.xlsx')wt=ws.titlewscore=ws.scorewlevel=ws.levelws['max']=ws.groupby('title')['scor...原创 2020-03-04 11:08:52 · 626 阅读 · 0 评论 -
ubuntu 上执行python getMostFrequent.py accepted.txt rejected.txt 100 2
如何在windows下执行:cd 文件路径。路径文件夹下是 rejected 和accepted文件。原创 2020-03-02 20:59:04 · 118 阅读 · 0 评论 -
sys.argv 方法的使用
sys.argv[]说白了就是一个从程序外部获取参数的桥梁,这个“外部”很关键,所以那些试图从代码来说明它作用的解释一直没看明白。因为我们从外部取得的参数可以是多个,所以获得的是一个列表(list),也就是说sys.argv其实可以看作是一个列表,所以才能用[]提取其中的元素。其第一个元素是程序本身,随后才依次是外部给予的参数。下面我们通过一个极简单的test.py程序的运行结果来说明它的用法...转载 2020-03-02 20:15:36 · 1020 阅读 · 0 评论 -
loglikelihood ratio 相似度理解
摘要:在机器学习中常用到各种距离或者相似度,今天在看美团推荐系统重排序的文章时看到了 loglikelihood ratio 相似度,特总结起来。以后有时间再把常用的相似度或者距离梳理到一篇文章。背景:记录 loglikelihood ratio 相似度概念总结:下表表示了 Event A 和 Event B 之间的相互关系,其中:k11 :Event A 和 Event ...转载 2020-03-02 19:54:05 · 3568 阅读 · 0 评论 -
遍历列表中最长的单词,且输出
word_len_list = [len(word) for word in list]max_word_len = max(word_len_list)for word in list: if len(word) == max_word_len: #print(word) list = []原创 2020-02-29 10:19:51 · 2602 阅读 · 0 评论 -
文本分类出现找不到文件错误如何解决
File "C:\Anaconda3\lib\site-packages\tensorflow\python\lib\io\file_io.py", line 78, in _preread_checkcompat.as_bytes(self.__name), 1024 * 512, status)File "C:\Anaconda3\lib\contextlib.py", line 88, ...原创 2020-02-28 22:34:53 · 375 阅读 · 0 评论 -
获取teamviewer密码进行远程
import osimport win32gui # pywin32-221.win-amd64-py3.7.exeimport win32confrom ctypes import *import win32clipboard as wimport timefrom PIL import Image # pip install pillowfrom PIL import Im...原创 2020-12-21 13:13:17 · 857 阅读 · 0 评论 -
颜色归一化
#coding=utf-8"""@author=wanggang归一化颜色"""def color(value): digit = list(map(str, range(10))) + list("ABCDEF") if isinstance(value, tuple): string = '#' for i in value: a1 = i //...原创 2020-02-19 13:10:06 · 1538 阅读 · 0 评论 -
画并列的柱状图
#coding=utf-8"""@author=wanggangdate:Feb,17,2020实现对arxiv的统计"""import numpy as npimport matplotlib.pyplot as pltimport pandas as pdname_list = ['A', 'B', 'C', 'D']num_list = [10, 15, 16, 28]...原创 2020-02-17 07:11:20 · 674 阅读 · 0 评论 -
南湖职业学院开机自动连网脚本
1.编写python脚本2.编写bat控制python脚本的代码3.将bat文件放到开机启动文件夹下。开机就会启动。代码如下:#coding=utf-8"""author=wanggangdate:Feb,05,2020"""from selenium import webdriverimport timeurl='https://pass.neu.edu.cn/t...原创 2020-02-06 01:15:19 · 266 阅读 · 2 评论 -
pyechart开发文档
pyechartsEcharts是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts诞生了。配置项全局配置项|系列配置项基本使用图表 API|示例数据|全局变量图表类型基本图表|直角坐标系图表|地理图表...原创 2020-02-02 18:35:33 · 804 阅读 · 0 评论 -
Reading text model trained by word2vec and ValueError: invalid vector on line
解决方法model = KeyedVectors.load_word2vec_format('glove_400d_w2v_format.txt',binary=True)原创 2020-02-02 14:53:08 · 497 阅读 · 0 评论 -
split和strip的区别
1、split()函数语法:str.split(str="",num=string.count(str))[n]参数说明:str:表示为分隔符,默认为空格,但是不能为空('')。若字符串中没有分隔符,则把整个字符串作为列表的一个元素num:表示分割次数。如果存在参数num,则仅分隔成 num+1 个子字符串,并且每一个子字符串可以赋给新的变量[n]:表示选取第n个分片注意:当使用空...原创 2020-02-02 13:36:28 · 2362 阅读 · 1 评论 -
Numpy数据类型对象报错:Future warning: Numpy数据类型对象报错:Future warning: _np_qint8 = np.dtype([("qint8", np.int8,
修改方法Numpy数据类型对象报错:Future warning: _np_qint8 = np.dtype([("qint8", np.int8, (1,))])原创 2020-02-02 12:12:32 · 316 阅读 · 0 评论 -
glove数据集下载如下
I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this?datasetI am currently doing a massive analysis of Reddit's entire pu...原创 2020-02-02 11:22:27 · 2923 阅读 · 0 评论