python—谭松波情感分析

学习目标:

谭松波情感分析

学习内容:

# -*- coding: utf-8 -*-
###唐松波情感分析###
import pandas as pd
import numpy as np

df1=pd.read_excel('E:/pywork\data analysis\谭松波语料/bookneg.xls',header=None, index=None)
print(df1)

data1=np.array(df1[0])
print(len(data1))
print(type(data1))
print(data1.shape)

df2=pd.read_excel('E:/pywork\data analysis\谭松波语料/bookpos.xls',header=None, index=None)
print(df2)
data2=np.array(df2[0])
print(data2)
print(len(data2))

data=np.concatenate((data1, data2), axis=0)
print(len(data))

df3=pd.read_excel('E:/pywork\data analysis\谭松波语料/computerpos.xls',header=None, index=None)
print(df2)
data3=np.array(df3[0])
print(data2)
print(len(data3))
data=np.concatenate((data, data3), axis=0)
print(len(data))


df4=pd.read_excel('E:/pywork\data analysis\谭松波语料/computerneg.xls',header=None, index=None)
print(df2)
data4=np.array(df4[0])
print(data2)
print(len(data4))

data=np.concatenate((data3, data4), axis=0)
print(len(data))
# 
df5=pd.read_excel('E:/pywork\data analysis\谭松波语料/hotelneg.xls',header=None, index=None)
print(df2)
data5=np.array(df5[0])
print(data2)
print(len(data5))

data=np.concatenate((data, data5), axis=0)
print(len(data))

df6=pd.read_excel('E:/pywork\data analysis\谭松波语料/hotelpos.xls',header=None, index=None)
print(df2)
data6=np.array(df6[0])
# print(data2)
print(len(data6))
#
data=np.concatenate((data5, data6), axis=0)
print(len(data))
print(data)

outfile='E:/pywork\data analysis:stopwords.txt'
with open(outfile, 'wb') as f1:
    for i in data:
        out='%s \n' % (i)
        f1.write(out.encode('utf-8'))
with open(outfile,'r',encoding='utf-8') as f:
    lines=f.readlines()
    for i in lines:
        print(i)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,我来回答你的问题。 首先,需要下载谭松波酒店数据集,并在alink框架下进行情感分析。以下是Python代码实现: ```python from __future__ import print_function import subprocess import os import sys from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer from sklearn.linear_model import LogisticRegression # 下载谭松波酒店数据集 subprocess.call(["wget", "https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/hotel_comment/hotel_comment.csv"]) # 读取数据集 with open('hotel_comment.csv', 'r', encoding='utf-8') as f: lines = f.readlines() # 数据预处理 labels = [] docs = [] for line in lines: data = line.split(',') label = int(data[0]) doc = data[1].strip() labels.append(label) docs.append(doc) # 将文本转换为向量 vectorizer = CountVectorizer() X = vectorizer.fit_transform(docs) # 计算TF-IDF transformer = TfidfTransformer() tfidf = transformer.fit_transform(X) # 训练逻辑回归模型 clf = LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial') clf.fit(tfidf, labels) # 输出模型信息 print(clf.intercept_) print(clf.coef_) ``` 以上代码使用了CountVectorizer和TfidfTransformer转换文本向量,并使用逻辑回归算法进行训练和预测。最后输出了模型的截距和系数信息。 注意:由于数据集较大,上述代码可能需要一些时间来运行。 希望这个回答能够帮到你!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Y_ni

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值