在达摩院AI气候预测大赛里,王天雷和胡中岩、耿良超组成的AI Lab队排名4名,是唯一一组进入决赛的南京队伍。
他们三位都是南京信息工程大学计算机与软件学院的学生,王天雷是队伍的队长,今年研二,胡中岩和耿良超研一,虽然不是同一个年级,但他们拥有同一个导师————耿焕同,耿教授带领的实验室承担过国家重点发计划子课题和多项国家、省、市气象局的研发任务,比如短临雷达外推、延伸期降水温度风速预测、模式修正等工作。王天雷和胡中岩、耿良超就是实验室里的气象预测“三剑客”。
虽然说他们的专业深度学习,但和一般高校的计算机相关专业不同,这一专业在南京信息工程大学更注重学术和产业的结合,就是将AI算法应用在气象等领域。
春节前夕,达摩院发布了AI气候预测大赛,耿焕同是第一个看到比赛信息的,实验室一直比较重视各类比赛。于是他就把比赛推荐到实验室内部。恰巧【三剑客】在几个月前,阅读了罗京佳教授的深度学习预测厄尔尼诺的论文《Deep learning for multi-year ENSO forecasts》(发布在Nature),王天雷当时就觉得这个他这个创新点很有趣,因为以前还没有人用卷积神经网络和迁移学习的方法成功预测厄尔尼诺。这一大胆创新为团队打开了一扇新的大门,但意外的是,“三剑客”很快在实验室里开辟了一条新的道路,尝试用另外一个AI模型来做预测。“因为厄尔尼诺预测也算是一个时空序列问题,所以我们思考用擅长的时空预测模型来做预测。”
巧合的是,这次比赛刚好可以检验下他们的新方法。
于是,王天雷和两位师弟再次相约组队报名参赛。
王天雷表示,虽然他们是计算机学院的学生,但是平时接触的项目都是各气象局的,再加上南信大本的气象氛围比较浓厚,所以说对气象领域也算是略有了解。这是他们的天然优势。
春节后,比赛一开榜,队伍正式就立即开始了比赛相关的工作,包括数据处理、模型训练等等。仅仅一个星期后队伍就提交了成绩。
不过,团队比赛过程并非一帆风顺。晋级赛阶段,比赛明确要求“提交最优模型对应完整端到端代码运行得到最优成绩”,这一规则保证了比赛的绝对公平公正,但代码必须通过docker提交镜像,而“三剑客”们对该技术仅仅是略有耳闻,这是他们的知识盲区,所以他们需要学习阿里镜像仓库的使用,才能把比赛进行下去。
另外,实验室的研究和具体场景并不一样。实验室的论文更重视模型的准确度,而对模型的稳定性和训练时间着墨不多,而比赛中数据预处理、训练和推理必须严格限制在6小时内完成。所以“三剑客”必须改变往常实验室动辄训练一周、半个月的训练方案,去选择一个性价比最高的新方案,包括数据预处理、筛选特征、舍弃准确但臃肿的模型等。
整个过程还有一个小插曲。队伍处理数据集的时候,有一段代码没交接好,数据集是乱的。导致提交的结果一直是在二三十分徘徊,直到比赛最后一天,检查代码的时候才发现这个bug,修复之后分数直接就变成40分了。最终他们以B榜成绩第四的位置闯入决赛。
王天雷认为机器学习的比赛是有很多小技巧的,例如尽可能地汲取顶会里的优质模型,并且融合模型。
“三剑客”非常看好AI在气象预测领域的应用,虽然气候领域的厄尔尼诺数据并不多,但气象相关的资料非常充足,比如气象雷达,6分钟就可以出一张图,远远可以满足现在模型的需求。其次,是标签问题,气象领域的很多问题都是无监督学习,可以免去人工标签这一过程。这些对于其他领域来说可能都是瓶颈。王天雷还认为AI和传统模式应该握手,两者都具有各自的优势,但是目前大家几乎都是各干个的。