他笑了起来:“嗨——其实就是省里搞了个金融建模,搞大了声势,成了国际赛事,其实还不是省里那些人参加。我们去年钱花了不少,却得了个倒数。今年准备一雪前耻。”
“明白了。我尽力。可能也许又会是倒数。做好心理准备。”林荃歌再次实话实说。
“没事。总不能比倒数第一更差了。”姚霖彦从楼上走了下来,一身LV睡衣。
“姚董。”林荃歌见他一脸疲态,头发半湿的样子,便知这伙人也许玩了个通宵,现在只是为了等她到来。
“只有半个月的时间,辛苦你了。”姚霖彦将一叠文件递给她。
林荃歌打开文件一看。
“信用风险是金融监管机构重点关注的风险,关乎金融系统运行的稳定。
在实际业务开展和模型构建过程中,面临着高维稀疏特征以及样本不平衡等各种问题,如何应用机器学习等数据挖掘方法提高信用风险的评估和预测能力,是各家金融机构积极探索的方向。
本次竞赛提供实际业务场景中的信贷数据作为建模的对象,希望能借此展现各参赛选手数据挖掘的实战能力。
本次赛题给出30个非匿名的业务字段以及112个匿名字段,在极不平衡的样本数据中,预测客户是否会出现信用违约行为。
赛题难点
①数据的高维稀疏性导致数据的可利用性降低,给模型学习能力的提升带来了困难;
②数据的极度不平衡,导致模型极其容易出现过拟合问题;
③匿名字段的处理:如何理解并使用匿名字段中潜在的业务意义;
④新旧数据探索:如何衡量新旧数据的差异,如何把握特征的新旧差异,以及如何构建合适的验证策略。”
后面是大片的相关数据、字段说明。最后是评分指标。
林荃歌看了看,感受到了压力,人家是团体作战,而她是孤军奋战,居然还是一拖六。
林荃歌阖上文件,摸了摸鼻子:“姚董,我们的参赛队伍是七个人?”
“只有我们三个,他们都是来玩的。”
林荃歌这才放松下来,还好还好,一拖二,那她还能接受。
“姚董,有数据的电子版吗?”
“我让秘书马上发你。”