10月25日,第二届全球程序员节“解放号杯”程序员大赛的颁奖仪式在十三朝古都西安隆重举行(http://www.codingthefuture.com/)。 实验室研究生郭海帅同学喜获行业大数据竞赛全国二等奖(一等奖1名,二等奖5名)。


    “码出智慧 数字未来”,第二届“解放号杯”程序员大赛8月15日正式开启,本届大赛聚焦于行业大数据, 提供真实稀缺的交通领域数据资源,激发程序员的创作灵感,架设企业与人才之间的桥梁, 为中国的大数据产业发展提供源源不断的创新动力。 大赛由西安市政府与中国电子信息行业联合会主办,中软国际解放号协办,得到了西安高新区管委会、 中国铁路成都局集团有限公司、青岛地铁集团有限公司运营分公司、飞常准多家单位的支持。 为充分激励程序员的参与热情,本届程序员大赛设置了百万大奖,包含现金奖励、Design Thinking课程奖励等, 丰富的奖励组合在肯定获奖者钻研备赛的同时,也帮助选手进一步学习和提升自己。 


为最大程度的发挥铁路运输能力,郭海帅同学设计了一种基于Spark计算框架的分布式货源预测方法。为了使预测更加可靠,更加准确,在已有数据的基础上,增加了美元汇率数据来作为数据集。

预测模型选择了单隐层神经网络,它虽然隐含层数少,但计算速度快,训练时间短,还能在一定程度上减少训练过程中过拟合的发生。为了解决传统点预测在评估预测结果上存在的不足,引入区间预测,并结合上下界估计方法(Lower Upper Bound Estimation Method)将单隐层神经网络和区间预测结合起来,通过单隐层神经网络来构造预测区间PI。

在训练方法上,选择了多目标遗传算法NSGA-II。同时,为了减轻训练过程的计算量,采用随机隐含层权值的方法。首先,将单隐层神经网络的输入层与隐含层的权值以及隐含层偏置都设为随机值,并且在训练过程中不再改变。然后,将一个神经网络看做一个个体,将神经网的隐含层到输出层的权值看做个体的基因,通过不断的排序、选择、交叉和变异,最终得到符合货源预测场景的预测模型。

Spark计算框架上的分布式货源预测分析主要有以下创新:

1.方案采用神经网络模型来进行货源预测,相对于传统的统计学方案,有着很大的优势。在预测速度和预测准确度上都有着显著的提升。

2.方案采用分布式架构,解决了单台服务器负载过重的问题。通过分布式架构,将任务的负载转移到计算机集群中,从而使得单台服务器的负载降低,减少了服务器的出错率。

3.方案采用区间预测的方式。相对于传统的点预测方式,具有更客观的评价预测结果,并能够根据预测结果实现动态调节。

4.方案基于Spark平台对货源预测模型进行训练,利用数据并行的思想,加快模型的训练速度,同时解决了大数据的分布式存储问题。

5.由于Spark MLlib类库中还未包含神经网络和遗传算法,本设计方案对其它Spark神经网络或者遗传算法相关的项目和研究也有一定的参考价值。