NLP
小亦折
梅花香自苦寒来 Persevere
展开
-
2020腾讯广告算法大赛上分进榜艰难史
这里写自定义目录标题提交记录和目前排名尝试历程后话 提交记录和目前排名 第一次参加算法比赛,在完成工作闲暇时间积极尝试,目前在初赛第76名,可以在2020腾讯广告算法大赛的榜单上,已备感荣幸。 尝试历程 提交记录这么多就可以看出,走的弯路很多,就当笨拙的案例稍微分享下。 赛题简单易懂,提供了用户在90天内的点击行为,从而预测出用户的年龄与性别。 特征表示 通常我们会先统计基础特征,提供的8个维度的nunique,比如点击的不同的广告id数等,还有比如点击次数的最大最小值均值方差等等。其中有出现一个原创 2020-05-27 16:11:00 · 973 阅读 · 7 评论 -
NLP基础之算法通用流程步骤
通用步骤 1. 论文和最新算法研究 2. 算法大方向的评估 问题相似度、情景相似度、切换语言等方向考虑 3. 数据收集、清洗、预处理 收集:内部数据,网络数据、公开数据、GAN生成数据。 清洗:采样、噪声过滤、生成 预处理:特征工程 4. 算法实现、系统设计、参数调优、模型升级 5. 模型效果评估与部署 准确率、召回率、lib库、封装服务 ...原创 2019-07-03 00:44:38 · 540 阅读 · 0 评论 -
NLP基础之分词
jieba 分词 其实 NLP 的第一个基础工具是正则表达式,熟悉规则就行,当然熟练是需要练习的。 1. jieba 三种分词模式 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut(...原创 2019-07-03 00:47:17 · 363 阅读 · 0 评论