深度学习将自动云检测带到了新的高度

躺在草地上的孩子们可能会扫描云层中的图像 - 这里可能是一只毛茸茸的兔子,还有一条火热的龙。通常,大气科学家的反面相反 - 他们搜索云的数据图像,作为他们研究地球系统的一部分。

逐个像素地手动标记数据图像非常耗时,因此研究人员依赖于自动处理技术,例如云检测算法。但算法的输出并不像科学家想要的那样精确。

最近,美国能源部太平洋西北国家实验室的研究人员联手研究深度学习 - 机器学习的一个独特子集 - 是否可以更好地识别激光雷达数据中的云,而不是当前基于物理的算法。答案:明确的“是”。新模型更接近科学家的答案,但只有一小部分时间。

激光雷达是一种遥感仪器,可发射脉冲激光并收集由云滴或气溶胶散射回来的返回信号。该返回信号提供有关大气特征(例如云或烟雾层)的高度和垂直结构的信息。来自地面激光雷达的此类数据是全球预测的重要组成部分。

地球科学家Donna Flynn注意到,在某些情况下,算法在激光雷达图像中检测到的云与她的专家眼睛所看到的不匹配。算法倾向于高估云边界。

“目前的算法使用广泛的笔触来识别云,”该项目的联合首席研究员Flynn说。“我们需要更准确地确定云的真实顶部和基础,并区分多个云层。”

升级已启动

直到最近,计算能力有限的人工神经网络,一种深度学习模型,到少数计算层。现在,随着超级计算集群可用的计算能力的提高,研究人员可以在一系列层中使用更多计算 - 每个计算都建立在最后一个计算之上。人工神经网络层越多,深度学习网络就越强大。

弄清楚那些计算是什么是模型训练的一部分。首先,研究人员需要正确标记的激光雷达数据图像或“地面实况”数据,以进行模型的训练和测试。因此,Flynn花了很长时间逐像素地手工标记图像:云或没有云。她的眼睛可以区分云边界和云与气溶胶层。她花了40个小时 - 相当于一个完整的工作周 - 来标记在南大平原大气天文台收集的大约100天的激光雷达数据,这是美国能源部大气辐射测量用户设施的一部分,位于俄克拉荷马州。

考虑到手工贴标过程的时间和劳动密集程度,PNNL计算科学家和联合首席研究员Erol Cromwell使用了需要最少地面实况数据的学习方法。

该模型通过自我反馈学习。克伦威尔解释说,它将自己的表现与手工标记的结果进行了比较,并相应地调整了计算结果。它会循环执行这些步骤,每次都会改进。

Cromwell将于1月份在电气和电子工程师协会计算机视觉应用冬季会议上介绍该团队的研究结果。

实现目标

通过培训,深度学习模型优于当前算法。该模型的精度几乎是人类专家所能找到的两倍,而且距离很短 - 但只有一小部分时间。

接下来的步骤是评估模型在不同位置和不同季节收集的激光雷达数据的性能。对位于阿拉斯加Oliktok Point的ARM天文台的数据进行初步测试是有希望的。

“深度学习模式的一个优点是转移学习,”克伦威尔说。“我们可以利用Oliktok的数据进一步训练模型,使其性能更加强大。”

“减少全球模型预测中的不确定性来源对大气科学界尤为重要,”弗林说。“凭借其提高的精确度,深度学习增加了我们的信心。”

她补充道:“而且,它让我们有更多时间在外面看真正的云!”