最近研究Python,准备实现一个网路数据挖掘的课题。
网络
以网页的url为关键字,以文章关键词建立多个索引,现在初步设计为3到5个
然后组织一些需要的进行搜索的词,在网络上进行数据的获取,然后存入到数据库
现在最大的难点就是对文章的分词,这方面有不少东西学习,多花点时间就好。
最近研究Python,准备实现一个网路数据挖掘的课题。
网络
以网页的url为关键字,以文章关键词建立多个索引,现在初步设计为3到5个
然后组织一些需要的进行搜索的词,在网络上进行数据的获取,然后存入到数据库
现在最大的难点就是对文章的分词,这方面有不少东西学习,多花点时间就好。