最近给自己开一个题

离开学校已经一年半了,一直在一个软件开发工程师的位置上待着。但是目前的状态并不让人满意,且不说多么的没有挑战性,研究生时学到的方法论都快荒废了。我为什么要读一个研究生?绝不是仅仅为了开发,而我发现不光是我,许许多多的的硕士毕业生都作了开发,而且再也不会去做什么研究了。这一年来一直纠缠于表面的东西,追求着貌似光鲜的技术,但是却没有自己的创造。我心底里一直渴望做一个技术强人,希望能够创造一些有用的东西出来,希望为计算机科学作一些东西。但一直没有醒悟,没有超出于目前的境界。也可能自己成熟的太晚,接触技术的时间太短。但是忽然一天就灵机一动,不能继续像一台机器一样做下去了,我要给自己开一个题。最近一年,我接触了这些领域,信息检索,数据挖掘,机器学习,信息抽取,自然语言处理。一方面为从前并不知道这些领域而懊悔,一面天天疯狂的去搜索这些领域的资料,企图在一个领域深入下去。信息检索是一个相对偏技术的方向,没有太多的挑战性;数据挖掘是一个不错的方向,大学的时候学习过统计学,学习了一些数据挖掘的算法。这是一个偏重算法的方向,用到了诸如决策数,贝叶斯,自动分类,自动聚类,关联规则等算法,但是那时候并不知道这些东西有什么用,完全的白痴一个,也没想到今天会回过头去研究这些东西。机器学习,相对于数据挖掘来说是一个工具,可以为数据挖掘服务,比如神经网络,svm,遗传算法等。信息抽取说的是从大量无结构的数据中抽取到有用的信息。自然与杨处理是一个宏伟的方向,常用的分词技术术语他的一部分,同时也是最低层次的技术,高级的技术比如自然语言理解,用到了句法和语义分析,比较难。机器翻译就需要这样的技术。经过综合的比较,暂时不选太难的自然语言理解,也不选相对简单的信息检索(找一些书看看,敲一些代码就行,不需要专门研究),那么最终选定的是web挖掘。可以看到,web挖掘并不完全等同于数据挖掘,因为web数据是无结构化数据,必须先经过一些处理才能应用于数据挖掘算法,需要用到信息抽取;因此这个方向就想当于,信息抽取+数据挖掘。首先从网页信息中清晰,抽取(狭义抽取)内容、链接等信息,然后使用dm算法进行聚类,如果可能的话进一步提取想要的信息,如实体名识别(信息抽取中相对简单的方向,如果需要抽取更高级的信息,可能用到自然语言理解等职能技术,暂时无法做到)。

因此方向最终确定,web mining..目的:下载相关网页,对网页进行聚类,抽取实体名。

算法选择:kmeans做聚类,vsm相关性,信息抽取算法

试验设置:以某IT厂商为目标,搜索其相关的网页,对网页进行清洗,聚类,提取指定的信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值