达观杯-智能文本处理
zhengdadalalala
这个作者很懒,什么都没留下…
展开
-
达观杯-文本智能处理挑战赛-初识数据
赛题目标:建立模型通过长文本数据正文,预测文本对应的类别数据准备:train_set.csv 用于模型训练test_set.csv 用于模型预测读取前5000条数据:import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitmy_data = pd.read...原创 2019-04-05 17:36:55 · 249 阅读 · 0 评论 -
达观杯-文本智能处理挑战赛-02
TFIDF原理及实践一、词袋模型原理:将每篇文章看成一袋子词,并忽略每个词出现的顺序。即将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文章中的重要程度。权重与词在文本中出现的频率有关,而其中不考虑词与词之间的上下文关系。词袋模型的三步骤:分词——统计修订词特征值——标准化二、TF-IDF概述公式为:TF-I...原创 2019-04-07 12:36:39 · 171 阅读 · 0 评论 -
达观杯-文本智能处理挑战赛-04
LR+SVM模型实现逻辑回归:lr = LogisticRegression(C = 120, dual = True)lr.fit(X_train, y_train)y_test_predict = lr.predict(X_test)f1_score_lr = f1_score(y_test, y_test_predict, average = 'micro')print('LR模...原创 2019-04-11 21:08:57 · 154 阅读 · 0 评论 -
达观杯-文本智能处理挑战赛-06
任务:【Task4 模型优化】:(2天)1)进一步通过网格搜索法对3个模型进行调优(用5000条数据,调参时采用五折交叉验证的方式),并进行模型评估,展示代码的运行结果。(可以尝试使用其他模型)2)模型融合,模型融合方式任意,并结合之前的任务给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。模型结果...原创 2019-04-15 21:53:11 · 160 阅读 · 0 评论 -
达观杯-文本智能处理挑战赛-03
word2vec原理及实践一、概述word2vec其实就是训练词向量的一种方法。因为从语言学的角度,一句话中两个词越近,其联系就会越强。而之前常见的one-hot训练词向量的方法,则割裂了语言之间的相关性。one-hot是映射到一维空间的一个点,word2vec是把词映射到高维空间,相近的词出现的位置相近。接下来,词都表示成向量,再根据余弦距离、曼哈顿距离等计算向量之间的相似性。再考虑怎么把词...原创 2019-04-09 21:17:38 · 179 阅读 · 0 评论 -
达观杯-文本智能处理挑战赛-05
一、LightGBM原理简介传统的boosting算法(如GBDT和XGBoost)已经有相当好的效率,但是在如今的大样本和高维度的环境下,传统的boosting似乎在效率和可扩展性上不能满足现在的需求了,主要的原因就是传统的boosting算法需要对每一个特征都要扫描所有的样本点来选择最好的切分点,这是非常的耗时。为了解决这种在大样本高纬度数据的环境下耗时的问题,Lightgbm使用了如下两种...原创 2019-04-13 21:05:29 · 247 阅读 · 0 评论