nlp
韩雨庭
这个作者很懒,什么都没留下…
展开
-
TIANCHI-NLP-入门赛-新闻分类-Task3-解决思路一
知识点Bag of WordsBag of Words(词袋表示),也称为Count Vectors,每个文档的字/词可以使用其出现次数来进行表示。直接统计每个字出现的次数,并进行赋值。在sklearn中可以直接CountVectorizer来实现这一步骤:vectorizer = CountVectorizer()vectorizer.fit_transform(datalist).toarray()TF-IDF第一部分是词语频率(Term Frequency),第二部分是逆文档频率(In原创 2020-07-25 23:59:25 · 133 阅读 · 0 评论 -
天池nlp入门赛-新闻类别分辨-Task2-数据分析
比赛链接Task1-赛题理解天池入口句子长度统计plt.hist(df['len'],bins=3000)plt.xlim(0,8000)句子类别统计df['label'].value_counts().plot()字符个数统计from collections import Counterall_lines = ' '.join(list(train_df['text']))word_count = Counter(all_lines.split(" "))word_cou原创 2020-07-22 23:55:51 · 105 阅读 · 0 评论 -
NLP-KAGGLE-新手入门赛-TASK1:赛题分析
TASK1-赛题理解赛题学习目标解题思路所遇问题赛题赛题名称:零基础入门NLP之新闻文本分类赛题任务:赛题以自然语言处理为背景,对新闻文本进行分类。比赛链接学习目标去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.理解背景,理解数据比赛报名,数据下载,理解解题思路解题思路主要是文本特征提取和文本分类两个任务,可用多种思路组合完成。尝试思路:TF-IDF + 机器学习分类器直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可原创 2020-07-21 23:38:17 · 392 阅读 · 0 评论