数据挖掘
文章平均质量分 74
yinglish_
是一名喜欢运动和打游戏的妹子欸
展开
-
电影评论人名抽取与情感分析
电影评论的数据挖掘是我一直以来的项目。最近的刚完成的一个工作是于分析影评中表露出来的对演员角色的情感倾向。主要的工作便是识别评论中人名+情感分析。评论人名抽取与情感分析影迷用户的电影评论中往往包含大量对本部电影中演员的评价和看法,为了了解观众对一位演员的情感倾向,我们首先需要识别一位演员在众多评论中的称呼、叫法,接着再在涉及该演员的相关短句中判断情感。主流的命名实体识别方法及其存在的问题目前效果比较原创 2017-09-16 20:59:12 · 6885 阅读 · 6 评论 -
素描svm
假设f(x),ci(x),hj(x)f(x), c_{i}(x), h_{j}(x)是定义在RnR^n上的连续可微函数(为什么连续可微呢,后面再说,这里不多想),考虑既有极值又有约束的最优化:minx∈Rnf(x)\min_{x \in R^n} f(x) ci(x)≤0,i=1,2,....,kc_i(x) \le 0, i = 1, 2,...., k hj(x)=0,j=1,2,原创 2017-10-08 21:57:20 · 328 阅读 · 0 评论 -
从两元线性回归到多元:数据预处理的重要性
在了解了一下梯度下降的原理之后,如下有一个程序实现了两元的线性回归。按理说,那么要写多元线性回归,就是几维都可以处理的,应该只需要改一部分代码,多一个循环取值就可以了。但却出现了损失值越来越大的情况。折腾了很久,后来发现,加一步数据预处理-数据规范化,问题就解决了。(0 。0) 先上一开始的代码,可以求出有两个自变量x0,x1时的线性方程的两个未知参数theta0,theta1。prin原创 2016-07-13 20:26:38 · 3678 阅读 · 0 评论 -
Aprior算法和FP Group算法
转自 http://blog.sina.com.cn/s/articlelist_1761593252_1_1.html 分别详细介绍了Aprior算法和FP Group算法。他们的区别就是Apriori算法多次扫描交易数据库,每次利用候选频繁集产生频繁集,而FP则利用树形结构,不用产生候选频繁集而是直接得到频繁集,大大减少了扫描的次数,从而算法效率提高,但是apriori的扩展性好,可以用于并转载 2018-01-23 15:35:28 · 2073 阅读 · 2 评论 -
百度贴吧爬虫:理解网页的加载过程
最近在学习爬虫,就顺便记录一下吧(つд⊂) 以百度贴吧的主题帖为例子,首先,在百度贴吧主页那个大大的搜索框旁边,点那个小小的“高级搜索”,输入关键词,以“王思聪”为例,enter后在排序结果那里点主题帖(这种类型的帖子相关性比较高)获取该页面的所有的入口链接。(最好要设置headers吧)import requestsurl = "http://tieba.baidu.com/f/s...原创 2018-08-24 16:48:53 · 698 阅读 · 0 评论 -
爬虫工具selenium
在我爬虫的过程中,遇到的主要问题有:有一些网页链接似乎有重定向功能,获取到的并不是真实的源码;还有一些网站对ip的限制特别严重……关于后者,我找过一些免费的ip网站如西刺,但是那些ip大多数都不能用(´゚д゚`) 这里顺便贴一下关于配置ip的代码。# 代理链表proxy_list = []with open("data/proxy.txt") as file: for l...原创 2018-09-06 15:36:11 · 358 阅读 · 0 评论