光伏圈告别「看天吃饭」，塞浦路斯大学耗时 2 年，发现机器学习预测污染损失未来可期-摩杜云开发者社区

内容一览：光伏系统是一种利用太阳能发电的可再生能源解决方案，具有减少温室气体排放、分散式发电、经济效益等优势，对于推动可持续能源发展和应对环境挑战具有重要作用。然而，许多具有最高太阳辐射的地点也存在地面干燥、多尘的缺点，这可能会影响光伏系统的性能。近期，塞浦路斯研究人员用了 6 种不同的模型评估污染损失，应对这一挑战。 关键词：光伏产业 CatBoost 模型新能源

本文首发自 HyperAI 超神经微信公众平台～

光伏 (Photovoltaic, PV) 能源，作为减少化石燃料使用和人类活动碳足迹的关键技术，在全球能源结构中发挥着重要作用。国际能源署 (IEA) 近期报告称，就建设和运营成本而言，太阳能光伏发电厂比燃煤或燃气发电厂更低。自 2009 年以来，光伏发电装机成本在 2021 年下降了约 90%，大约为每兆瓦时 36 美元，这显示光伏是能源行业脱碳的先进可再生能源技术。此背景下，减少系统损耗，确保光伏系统最佳发电状态以及保持高水平的性能至关重要。

为实现这一目标，研究人员广泛评估、了解了各种损耗因素，他们发现，污垢是影响光伏系统性能的关键损耗因素，特别是在干旱和干燥气候地区。污垢是指沉积在光伏组件表面的灰尘、树叶、鸟粪、花粉、雪或其他有机/无机污染物。这些污垢的积累，使得集热器接收到的太阳辐射减少，从而导致功率损失，即污染损失 (soiling loss)。

最近的一项研究估计，污染造成的输出损失使 2018 年全球光伏发电量减少了约 3%-4%，年收入损失高达 30-50 亿欧元。因此，对于早期光伏电站能源开发而言，预测并减少污染损失非常必要且具有挑战性。

近期，来自塞浦路斯大学 (University of Cyprus) 的 Javier Lopez-Lorente 等研究人员用 3 种物理模型和 3 种机器学习模型，预测干旱气候下光伏板表面的污垢和其他物质的累积等造成的污染损失，结果显示物理模型预测性能最好，但基于卫星数据支持的机器学习模型潜力巨大。目前该研究已发布在《Solar Energy》期刊上，标题为「Characterizing soiling losses for photovoltaic systems in dry climates: A case study in Cyprus 」。 图 1.png ::: hljs-center

图 1：该研究成果已发表在《Solar Energy》

:::

论文地址： https://www.sciencedirect.com/science/article/pii/S0038092X23001883#s0040

实验概述

本实验设置在欧洲太阳能资源最为丰富的国家之一塞浦路斯，该地辐射水平较高，拥有巨大的光伏发电潜力。然而，过去几十年里，来自撒哈拉和沙特阿拉伯沙漠的沙尘增加，导致光伏电站的污染损失加剧，特别是在气候干燥、降雨量低、气温高于沿海地区的岛屿中心地区。

研究人员将实验设立在塞浦路斯大学的光伏技术实验室 (位于尼科西亚)，并在户外测试设施 (OTF) 上安装了一个污染测试台实验装置，以模拟在干旱气候地区安装的光伏系统户外环境。本研究中，根据 Köppen-Geiger 气候分类系统，实验地干旱和干燥气候确定为 B 类气候亚型。

污染评估测试台装置的 3 种光伏模块如下图所示：

图 2.jpeg ::: hljs-center

图 2：OTF 污染测试台实验装置

:::

a：实验装置前视图 b：实验装置后视图

为了评估污染损失，实验装置采用了不同的清洁方法和频率。图 2a 右侧模块为清洁模块 (Clean Module)，每天用位于模块顶部的定时触发喷水系统进行清洁，去除表面污垢；中间模块为手动清洁模块，按季节 (定期) 进行手动清洁；左侧模块为脏模块 (Dirty Module)，除了自然降雨之外，没有采用其他清洁方法。

研究人员通过比较并排放置的清洁模块和脏模块，计算测试对应的污染损失。他们评估了 6 种不同的模型预测污染损失的准确性。整个实验过程如下图所示：

图3.jpeg ::: hljs-center

图 3: 概述评估用于预测污染损失的不同物理和机器学习模型

:::

i 实验数据来源 ii 污染损失估计 iii 对用于评估污染损失的 6 种模型进行建模 iv 通过预定义的性能指标评估结果

实验过程

数据集

本实验数据集来自塞浦路斯大学尼科西亚校区污染测试台的实测数据及其他来源的数据，其中，其他来源数据指卫星观测的气象数据和空气质量数据。

具体来说，气象数据来自于美国航空航天局 (NASA) 全球建模和同化办公室 (GMAO) (2015) 现代研究与应用回顾分析第 2 版 (MERRA-2) 再分析数据。而空气质量数据则来自哥白尼大气监测服务 (CAMS) 的气溶胶光学厚度 (AOD) 数据。

模型开发

本项研究中，研究人员共评估了 6 种模型，包括 3 种物理模型和 3 种机器学习模型。

3 种物理模型分别为 Kimber、You 和 Coello 模型。Kimber 模型也被称为固定降水率模型 (fixed rate precipitation model)，其是基于经验得出的模型，固定输入参数如下：图4.png ::: hljs-center

图 4 ：Kimber 模型固定参数

:::

You 模型基于尘埃颗粒累积，其将污染损失等效于尘埃沉积密度函数，计算公式如下：图5.png ::: hljs-center

图 5：尘埃沉积密度函数公式

:::

Coello 模型也被称为 HSU 模型，其基于气象和空气质量数据输入，根据每个时间段污染物积累，估算每天的污染物积累量，计算公式如下：图6.png ::: hljs-center

图 6：污染物积累量公式

:::

3 种机器学习模型分别是 XGBoost、LightGBM、CatBoost 模型，都属于梯度提升机 (GBM) 模型范畴。XGBoost 模型实现了在函数空间中进行渐进优化的梯度提升，此外，它还融入了正则化模型以防止过拟合，并且能够处理稀疏模式 (sparsity patterns) 和列采样 (column sampling)。

LightGBM 模型包括两种算法（基于梯度的单边采样和独占特征绑定），利用样本的信息增益 (information gain of the samples) 和贪婪算法 (greedy algorithm) 减少特征的数量，从而加快模型训练。

研究人员通过以下指标评估 6 种模型的性能：平均偏差误差 (MDE)、归一化的平均偏差误差 (NMDE)、平均绝对误差 (MAE)、平均绝对百分比误差 (MAPE)、均方根误差 (RMSE)、归一化的均方根误差 (NRMSE)、判定系数 (R²)。

其中，MDE 用于表示高估或低估的平均系统误差；MAE 用于表示误差的大小；RMSE 用于测量偏差的离散度，计算公式如下：图 7.png ::: hljs-center

图 7：MDE、MAE、RMSE 计算公式

:::

实验结果

研究人员对污染预测模型进行了两年的测试和评估，最终他们得到了每日污染损失 (Daily Soiling Losses, DSL) 和污染损失指数 (Soiling Losses Index, SLI) 2 个指标，DSL 表示光伏系统因污染导致的损失量，而 SLI 则表示污染程度。如图 8 所示。2 年评估期内， DSL 范围为 0.01% 至 9.91%，平均值为 1.9%（标准差 σ = 1.65%），而月均 SLI 则为 2.4% (σ = 1.19%)，其中 1 月份为 0.3%，8 月份为 4.34%。

图 8.png ::: hljs-center

图 8：污染损失的统计分布

:::

a：DSL 直方图和累积分布函数 (cumulative distribution function, CDF) b：月均 SLI

6 种污染预测模型 (3 种机器学习模型和 3 种物理模型) 污染预测结果如图 9 所示。图中显示，基于现场实测数据比基于卫星天气数据预测的 DSL 更准确，且据研究人员称，前者也与实验记录的污染情况更相符。

图 9.jpeg ::: hljs-center

图 9: 不同模型预测的 2021 年 DSL

:::

a：用现场实测数据训练的机器学习模型 b：用卫星天气数据训练的机器学习模型 c：用现场实测数据训练的物理模型

表 1 列出了用不同天气数据集训练 6 种模型 DSL 预测结果，图中显示：

现场实测数据训练的机器学习模型中，CatBoost 模型准确率最高，而 XGBoost 模型预测污染损失方向（即预测清洁度、气候变化等方面的能力）上误差最小。
卫星天气数据训练的机器学习模型中，CatBoost 模型准确率最高，其次是 LightGBM 模型。
现场数据训练的物理模型中，Coello 模型准确率最高，Kimber 模型排名第二，You 模型则排名第三。

表 1.png ::: hljs-center

表 1: DSL 物理和机器学习模型的性能指标

:::

此外，研究人员还探究了一年中各时间段污染损失情况。表 2 列出了 6 种模型月均污染损失模型结果。总体来看，与表 1 每日结果相比：

现场实测的数据训练的模型中，Kimber 模型整体性能最佳。
卫星天气数据训练的模型中，CatBoost 模型整体性能最佳。

表 2.png ::: hljs-center

表 2：物理和机器学习模型预测月均污染损失性能指标

:::

综上，研究人员得出以下结论：

用现场实测数据训练的模型表现最好。
物理和机器学习模型中，DSL 预测上表现最好的是 Coello 物理模型，其次是现场实测数据训练的 CatBoost 机器学习模型和 Kimber 物理模型。
月均 SLI 预测上，表现最好的是现场实测数据训练的 Kimber 物理模型，其次是 Coello 物理模型和 LightGBM 机器学习模型。

总之，所有模型中，利用现场实测数据训练的物理模型的性能略高于机器学习模型，但研究人员也提出结合数据集来源，用卫星天气数据训练的机器学习模型有更大的潜力，具体分析如下：

使用卫星天气数据存在一定限制，如该数据可能由于时间、空间分辨率的问题，会忽略同一区域的局部天气变化，因此，用卫星数据更适合用来训练机器学习模型。
现场实测数据数量同样存在一定的限制，如数量有限、收集范围小、没有考虑季节性变化，以及可能会忽略灰尘再悬浮情况。

新能源称王，光伏产业迎机遇

为降低对传统能源的依赖，各国对新能源的需求与日俱增，光伏市场具有巨大的发展潜力。各国纷纷出台光伏产业扶持政策以调高光伏发电装机容量目标，光伏产业进入快车道。

在 2022 年 4 月，英国政府官网更新的《英国能源安全战略》显示：预计到 2035 年，英国的光伏发电装机容量将增加 5 倍，增至 70 GW。在 2022 年 7 月，德国通过的《可再生能源法》(EEG2023) 修正案显示：2030 年光伏发电装机容量将从 2022 年的约 60 GW增至 215 GW。而根据中国光伏行业协会 (CPIA) 的数据，2021 年我国的光伏新增装机量为 54.88 GW，预计 2023 年将达到 81.6 GW。

从全球范围内看，国际可再生能源机构 (IRENA) 在 2022 年 3 月发布的 2021 年全球光伏报告显示：2021 年全球新增光伏装机 175 GW+，同比增长率为 20.7%。截止 2021 年，而在全球升温控制在 1.5℃ 以内的情景下，2030 年全球光伏发电累计装机容量将接近 5221 GW，2050 年将超过 14,000 GW。

种种数据表明，光伏产业前景大好，**或将是一下个「黄金赛道」**。

参考文章： [1]https://www.sciencedirect.com/topics/engineering/international-energy-agency [2]https://www.sciencedirect.com/science/article/pii/S0038092X23001883#b0165 [3]https://www.pv-magazine.com/2023/07/19/machine-learning-keeps-solar-one-step-ahead-of-soiling/ [4]https://www.sciencedirect.com/science/article/pii/S0038092X23001883#b0250 [5]https://m.sohu.com/a/632149858_121319519?

本文首发自 HyperAI超神经微信公众平台～