Imbalance Dataset ->Unsupervised learning

1、写在前面

  话题不知从何起?本不该在这个环境公开自己一些不太成熟的Ideas。但好的总结对自己的认识也会提高一些,同时也刚好清楚自己正需要解决一个什么问题(研究领域)?在此,简单地介绍一下自己的研究方向。

2、研究基础

(1)入门论文:文本挖掘是大方向,入门级论文,包括LDA、HDP和PYP。这是导师建议的精度论文,仅仅只是进入这个研究领域。学会一种思想,概率生成模型的思维去解释这个世界很多现象,比如一篇新闻报道、一张网页和一则评论等等表达的主题是什么?学会一种学习模式,叫“唯心主义”(先验知识),其实并不是的,遇到新的事物,多半都是依靠一个人过去学习的经验去解决;学会一种更其妙的世界,叫“非参贝叶斯模型”的世界,了解了世上万物的发生所有可能的轨迹,组成事件的概率地毯(Probability Rug)。
(2)入门基础:计算机出身,补习统计学的知识甚多,比如《高等数理统计》、《应用随机过程》、《PRML》、《MLAPP》等等。

3、方向确定

  (1)在于设计优秀的model: 先是学会以上的文本挖掘的基本模型,然后才开始自己能解决问题。初始想解决的问题可能比较多,比如主题模型的演化问题。比如,以时间为单位,每天都拟合一个模型,这样,这要求我们的模型是个动态的,不是一成不变。这样也适合我们更加精确和合理地解释这个大千世界。

  (2)数据集的问题: 然后在选取模型的数据集上,突然发现了一个问题,要是数据集不平衡呢?会给模型带来什么影响?仅仅是因为这个问题,所以花了一段时间去研究这个问题?

  (3)不平衡数据集学习: 从研一下学期,就一直思考,怎么解决数据集中不同类别之间不平衡,说白了就是有些类别的样本特别多,而有样本有特别少。这两类数据在一起进行学习,模型能适应么?这是一个问题。后来查阅这个领域,在监督学习(比如分类)已经很熟了,有较多的学习方式尝试去解决,在无监督领域(聚类,特别非参的),这个领域研究的论文很稀有,可能难度在上升。所以,是未来值得去探索的。

  (4)研究的价值:我算是个待人上,倾向于佛家思想之人(尽管很不合格)。所以,能吸引自己去执着的事,自然自己会赋予它很多意义。尽管自己不伟大,生在当下,也会偶尔不得物质些(以后我是会工作挣钱)。但是还是对引领的事情、很有意义(自己赋予)和创始人一样的(不断尝试做别人没做过的事情)。

  (5)应用场景:生活中正是太多,如果你哪一天开始思考这个问题的时候。比如,[1] 银行的信用卡的欺诈行为,毕竟绝大多数的行为是正常的,怎么能够更加精确地识别异常行为问题呢?[2]疾病诊断中,精确地诊断,对于个性化治疗方案是很有有意的,当下这个时代,各种奇怪的病致命疾病的出现,已让医生们误诊率的又得到增加,这并不是什么好事。[3]恐怖袭击,隔几年就有发生一次,在路上,形形色色各种人,绝对多数是正常的行为轨迹,可是恐怖事件的行为轨迹,由于少,独有特征混在其中,知道发生事情,才知道。很遗憾。还有很多。。。真多,世界本来就存在很多分布不平衡的现象,“富人越富”也是当下国家之间,人之间的矛盾的一个重要因素。

4、学术研究心态

【1】忘记自己,不是因为会带给自己荣誉,你才去做这件事;切记功利心太重
【2】保持谦虚,与不同领域、同行的交流,保持一颗学习的心态;
【3】坚持与努力,是你走出很多困境的启明灯;
。。。。。。

5、遇见自己!明白自己要追寻什么?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值