目录
一、新闻语料获取
从激光制造网获取1.8w余条新闻数据,并按照标题、内容、链接、时间来爬取数据,并写入excel表格,数据格式如下:
二、数据处理
1. 读取数据
分别读取新闻语料数据与企业数据,首先获取企业数据中的企业名称一列并逐一赋予id。
import pandas as pd
import numpy as np
import re
#关键词数据
projs = pd.read_csv('E:/zhihuiyuanqu/jiguanghuizong.csv')
data = pd.read_excel('E:/zhihuiyuanqu/龙头企业数据评分.xlsx')
companydict = data