服创大赛-僵尸企业画像及分类(自己的一些心得与感悟)

        刚开始选择这个看到这个题目的时候其实自己是一脸懵逼的,特别是看到僵尸两个字,就让我想起了小时候看的林正英的僵尸大片。还有画像二字,也是很懵逼的,画像,画什么像,画一个僵尸吗。选完题目之后,后面就组队,不得不说我们的团队还是配合的相当的不错,师姐,师兄,师妹,个个都很给力,通过我们的团队合作,可以说是相当的完美了。不管结果如何,我觉得我都应该写一份心得体会。来记录这几个月从一个小白什么都不懂,到后面完美的完成比赛。

        总结一下,僵尸企业画像分类及画像抓重点,就是企业的画像和分类两个方面。一开始我们就疯狂的到处找文档,怎么样来评判僵尸企业,企业符合那些条件就是僵尸企业。当时找了很多资料,也看了很多,最后还是运用了 一些进来的。刚开始拿到企业给的数据其实是很懵逼的。企业要求如下:
要求:
(1)多表数据融合的能力;
(2)数据特征提取的能力;
(3)数据预处理的能力;
(4)数据建模的能力。
目标:追求模型分类识别的精确性与高效性。

四张表分别有,企业的基本信息表,专利等表,企业年度报表,还有企业的融资表。看到这四张表很是懵逼。怎么体现(1)多表数据融合的能力;(2)数据特征提取的能力;(3)数据预处理的能力;(4)数据建模的能力。自己也没接触过这方面的。最后通过和师兄师姐来商讨,最后确定下来这是一个数据分析赛题。当然数据分析只是一方面,最后还得开发一个系统来进行画像。

        当时最初的办法是想通过weka来进行数据分析,因为weka是数据分析的一把利器。先用weka分析一下来看看数据的基本信息等情况。我还是倒腾了weka一两周,看b站上面的视频自己倒腾了一下,发现weka可以把你的需求变成代码,生成的还是java代码,当时还是有一点点心动、因为weka是java写的嘛,自己对java可能相对于其他语言要熟悉一点,就想这个赛题是否可以通过java来实现呢,顺带把画像系统也用java实现是吧。反正当时就是这样想来着,倒腾了也就一两周,发现还是比较困难,网上这方面的资料还是不多。最后不行了,只有求救github了。在github搜索关键词 什么company,zombie company,draw company 等等关键词,找了一大堆数据分析先关的代码。最后自己也确定了一些项目来下手。比较照着前人的方法走,错也不会偏离太远。下图是我找的一些代码。
在这里插入图片描述
        可以见搜索资料的能力也是很重要的如何选择一个项目为你所用也是很重要的,最后还是老师指点了一下我才决定用了那个《企业经营退出风险预测》因为这个也是做分类的嘛,他是分析企业是不是有风险,也是一个分类问题,可以说是很相似了,他里面有些数据处理的方式我也借鉴了一些为我所用,还是模型啥的。

        我还记得年后第一上讨论课,老师提xgb,lgb,rf,我是很懵逼的。这些都是些啥玩意,没听说呀,这是模型吗?过年,都懂得,人都已经飘了,即使还没飘,那段时间就是那种感觉,即使就是躺着发呆,也不愿意打开电脑,更别说敲代码,写程序了,那是万万不能的。中途我记得老师还问了一下进展。意思就是用自己数据试了没。我当时我记得我回答是代码跑通了,还没把自己数据拿进去试,还在处理数据。其实当时我也就还停留在学校的进度,把第一张表的数据处理完了,把代码跑通了,其实也不是全部跑通了90%还是有的,有的代码存在outofmemory,确实数据量比较大,有的一张表几百兆。但是也算是比较安心,自己能够复现90%,那我还是有信心把这个代码为我所用,当然只是借鉴了,看看思想,毕竟数据处理方式不一样,特征工程,模型筛选都不一样,这些代码都是需要自己去写的。

        因为这次疫情的原因确实这个比赛前前后后花了将近半年的时间。年前的主要工作,就是找了想关的文档,找了一大堆代码,确实了一些代码为我所用,跑通了代码,自己处理了一张表的数据。中途过年将近一个月把,可以说一点进展都没有,主要是不想动。

        开学了,其实也还是在家,这不行了,不能再没有进展,每周要汇报进展不是,那不行必须的撸起袖子加油干了,我一个人也不行,那不行拉上师姐,想想数据怎么处理,自己也用自己的数据跑出了一个基本的模型和分类结果,一开始是很不如人意的,可能是数据处理的原因,看着控制台模型的日志信息显然是很不对头的。离源代码跑的日志信息可以说相差太远。这就得来说说数据分析的基本步骤了。

        一:数据清洗,这里我就不一一赘述了,反正自己也是在网上找了很多的资料,模仿着清洗数据把(包括缺失值,异常值等等的处理方式)
        二:特征工程,也就是一些(我理解就是生成新特征,特征之间的融合。当然不同数据处理方式不同,视自己的数据决定吧,也包括筛选特征等等步骤,不管使用特征选择工具也好,还是其他方式,选择比较有用的特征来进行建模,特征多了可能存在过拟合不是。)
        三:模型融合(什么投票,什么stacking,bagging等等方式,选一个好的融合方式呗,里面还包括调参等等操作了)

反正这些我一开始也不会,我也属于小白那种,什么一窍不通,都是百度出来的,看别人的博客呀,github上面的资源呀等等。总是能有自己的收获不是,当然困难肯定是很多的,尝试呗,不要怕失败。

        当然能有基本模型之后,肯定就要考虑画像了,天啊,听到这个消息是很悲伤的,这意味着自己又要从头开始。画像,???,怎么画,用什么语言,要开发系统吗,当然我之前知道什么用户画像呀,就去网上找相关代码,结果是悲伤的,没找到合适的。老师说有一个师兄,毕业设计是做画像相关的。我就跑去咨询,反正也没问出个啥,师兄的意思是短时间以一己之力是很难完成的,可能是我们之前还是没沟通好。没互相理解对方的需求。我当时也是一脸懵逼了,这怎么画啊,苍天啊。反正当时收集各种资料嘛。最后选择语言,因为我想我跑的模型是用的python,能更好使用自己的模型当然首选python语言把。

        一个大难题就来了,python怎么写项目啊,自己从来没用过python做项目。自己比较熟悉的是使用java,因为自己还是用java实操过几个项目,当然是属于菜鸟级别的。知道使用springboot,什么SSM框架是吧,毕竟自己也是软件工程科班出身,哈哈哈哈,惭愧,大学没能好好学习一下编码,编码能力还是实习的时候提升了一下。但是这个python怎么做项目,怎么进行前后端交互呢,想起了我的毕业设计,当时也是在github上面看的一个类似的项目,用的是python写的前后端交互。灵感一现,多去github上面下载python类似前后端交互的代码。多看看别人是怎么写的是吧。中途有个疑惑就是我该使用flask呢还是django呢,最终选择了轻量级的flask,反正也就是模仿别人写的把,自己在找找相关的资料,看看博客是吧。我就觉得只要你动手去做,都是应该能够做的出来的。只是有些可能很困难,会失败很多次。

        后面就是画像嘛,也是百度,看博客找的灵感了,基本上整个画像流程都是用echarts实现的。好家伙,这一顿操作下来,让我好好地熟悉了echarts的操作,相信在以后工作中也会发挥作用的。

        好吧,基本的就介绍到这里,反正也是从一个小白走过来的,中途也遇到很多困难,借助博客呀,github等等。当然和组员的配合也是很重要。这里不得不提和师姐的配合,一般都是师姐出方案,我用代码实现,其中(特征工程里面的方案基本都是师姐出的)然后我一一用代码实现,师姐写文档,需要用的实验结果,实验过程也是经过讨论最终确定下来的。每周差不多要开三四次的腾讯会议来进行讨论,确定方案。交流沟通是很重要的。有时候不要瞎搞,你做的有时候不符合需求,是很恼人的,意味着要改代码。有时候我都有点害怕师姐的问候了,一般问候多半就是,懂吧。

        还有就是有时候需要提升一下精确度,需要找其他方法l来进行改进,这时候也是比较恼人的。精度一直提不上去,找不到好的办法。要看很多东西,进行很多尝试。我记得当时我看过一篇博客,博主就说,自己的分数一直提不上去,网上找各种办法,改进,就感觉很烦。最后他写反思的时候就说。不要烦,要当成一个学习进步的机会。我当时就是一直抱着这种心态一直前进的,不行咋就改,不会咋就学。反正学到的就是自己的。对以后自己的人生肯定是有益处的。当然最后师妹的PPT和视频都做的非常的棒,找的资料也是非常得好,很多资料给我的编码上面带来了灵感(例如画像),师兄提的意见也非常得好。团队协作还是很重要。

        大概就是这些内容把,反正通过这次比赛,自己确实学习到了很多的东西。收获了很多。方方面面把。最后要感谢的还是老师们,辛勤的指导,每周一次指导一次指导就长达一两个小时。谢谢老师的指导,谢谢团队的每一位成员。

几百本常用电子书免费领取:https://github.com/XiangLinPro/IT_book

在这里插入图片描述
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值