最近给自己开一个题

最新推荐文章于 2024-07-06 15:43:38 发布

xiaonamylove

最新推荐文章于 2024-07-06 15:43:38 发布

阅读量804

点赞数

分类专栏：想法文章标签：数据挖掘算法自然语言处理 it厂商语言 web

本文链接：https://blog.csdn.net/xiaonamylove/article/details/4539972

版权

想法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

离开学校已经一年半了，一直在一个软件开发工程师的位置上待着。但是目前的状态并不让人满意，且不说多么的没有挑战性，研究生时学到的方法论都快荒废了。我为什么要读一个研究生？绝不是仅仅为了开发，而我发现不光是我，许许多多的的硕士毕业生都作了开发，而且再也不会去做什么研究了。这一年来一直纠缠于表面的东西，追求着貌似光鲜的技术，但是却没有自己的创造。我心底里一直渴望做一个技术强人，希望能够创造一些有用的东西出来，希望为计算机科学作一些东西。但一直没有醒悟，没有超出于目前的境界。也可能自己成熟的太晚，接触技术的时间太短。但是忽然一天就灵机一动，不能继续像一台机器一样做下去了，我要给自己开一个题。最近一年，我接触了这些领域，信息检索，数据挖掘，机器学习，信息抽取，自然语言处理。一方面为从前并不知道这些领域而懊悔，一面天天疯狂的去搜索这些领域的资料，企图在一个领域深入下去。信息检索是一个相对偏技术的方向，没有太多的挑战性；数据挖掘是一个不错的方向，大学的时候学习过统计学，学习了一些数据挖掘的算法。这是一个偏重算法的方向，用到了诸如决策数，贝叶斯，自动分类，自动聚类，关联规则等算法，但是那时候并不知道这些东西有什么用，完全的白痴一个，也没想到今天会回过头去研究这些东西。机器学习，相对于数据挖掘来说是一个工具，可以为数据挖掘服务，比如神经网络，svm,遗传算法等。信息抽取说的是从大量无结构的数据中抽取到有用的信息。自然与杨处理是一个宏伟的方向，常用的分词技术术语他的一部分，同时也是最低层次的技术，高级的技术比如自然语言理解，用到了句法和语义分析，比较难。机器翻译就需要这样的技术。经过综合的比较，暂时不选太难的自然语言理解，也不选相对简单的信息检索(找一些书看看，敲一些代码就行，不需要专门研究)，那么最终选定的是web挖掘。可以看到，web挖掘并不完全等同于数据挖掘，因为web数据是无结构化数据，必须先经过一些处理才能应用于数据挖掘算法，需要用到信息抽取；因此这个方向就想当于，信息抽取+数据挖掘。首先从网页信息中清晰，抽取(狭义抽取)内容、链接等信息，然后使用dm算法进行聚类，如果可能的话进一步提取想要的信息，如实体名识别(信息抽取中相对简单的方向，如果需要抽取更高级的信息，可能用到自然语言理解等职能技术，暂时无法做到)。

因此方向最终确定，web mining..目的：下载相关网页，对网页进行聚类，抽取实体名。

算法选择：kmeans做聚类，vsm相关性，信息抽取算法

试验设置：以某IT厂商为目标，搜索其相关的网页，对网页进行清洗，聚类，提取指定的信息。

xiaonamylove

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
最近给自己开一个题

离开学校已经一年半了，一直在一个软件开发工程师的位置上待着。但是目前的状态并不让人满意，且不说多么的没有挑战性，研究生时学到的方法论都快荒废了。我为什么要读一个研究生？绝不是仅仅为了开发，而我发现不光是我，许许多多的的硕士毕业生都作了开发，而且再也不会去做什么研究了。这一年来一直纠缠于表面的东西，追求着貌似光鲜的技术，但是却没有自己的创造。我心底里一直渴望做一个技术强人，希望能够创造一些有用的东西
复制链接

扫一扫