I. 서론
태양과 지표면 사이, 지표면에서 인공위성 사이에는 대기층이 존재한다. 전자기파가 대기층을 통과하면서 대기입자와 충돌하면 산란, 흡수 및 굴절에 의해 에너지의 이동 방향이나 에너지양에 변화가 발생한다. 따라서 인공위성 또는 항공기에 탑재된 센서에서 감지된 신호는 지표면에서 반사된 순수한 신호에 추가하여 지표면과 전혀 관계없이 대기 입자에 의하여 발생한 부수적인 신호를 포함하고 있다(이규성, 2019). 육지 영상에서 대기영향의 비중은 가시광선 파장대에서 전체 신호값의 30% 정도를 차지하며, 그 정도는 대기의 상태, 파장 등에 의해 다르게 나타나기 때문에 센서에서 관측된 대기 상한(top of atmosphere, TOA) 반사도에서 대기 효과를 제거하거나 최소화하는 대기보정은 중요한 전처리 과정이다.
대기보정 알고리즘은 영상 기반의 경험적 방법론, 물리적 모델을 이용한 방법 및 기계학습 기반의 접근법 등 다양한 방식으로 존재한다. 그 중 정밀한 복사전달모델(radiative transfer model, RTM)을 이용하는 물리 기반 방식은 복사전달이론과 대기 매개변수를 바탕으로 이루어진다. 또한 기계학습 모델은 물리 모델을 강화하거나 물리 기반 모델의 대안으로 작동하며(Shah et al., 2022), 입력 자료와 지표 반사도 사이의 비선형 관계를 학습하여 주어진 입력 자료로부터 지표 반사도 값을 직접 생성할 수도 있다. 기존의 look-up table (LUT) 방식은 정확도와 속도 사이의 trade-off로 중간 값을 보간하는 데 사용되었지만, LUT의 크기가 클 경우 보간 과정이 매우 계산 집약적이라는 한계가 존재한다.
이때, 인공지능을 활용하는 방법은 처리 시간을 크게 단축할 수 있는 장점이 존재하기 때문에 AI 기반의 대기보정 연구가 증가하는 추세이다. Shah et al.(2022)은 Landsat 8 영상에 대해 CNN 기반의 대기보정 모델 결과와 지상 분광값을 비교하였으며, Basener and Basener(2023)은 MODTRAN으로 학습 및 검증한 Gaussian process 모델, AutoEncoder 모델의 성능을 비교하였다. Rusia et al.(2021)은 Resourcesat-2A 영상에 대해 6S 및 LUT 기반의 딥러닝 아키텍처를 생성하였고, Qamar and Dobler(2023)는 초분광 센서에 대해 CNN 모델을 활용하여 식생 스펙트럼 반사도 대기보정에 대한 연구를 수행하였다.
국토위성(Compact Advanced Satellite 500-1, CAS500-1)은 대한민국의 차세대 중형위성으로, 국토정보플랫폼(https://map.ngii.go.kr/mn/mainPage.do)에서 고해상도의 위성영상을 취득할 수 있다. 현재 국토위성 영상은 인공지능 분석을 위한 대량의 학습 자료로 이용되고 있는 추세이다(박상철 등, 2022). 또한 영상 모자이크, 다시기의 영상을 통한 시계열 변화 분석 등의 분야에 활용되기 위해서는 각 영상마다 상이한 대기의 영향을 정규화하는 것이 선행되어야 한다.
이에 본 연구에서는 국토위성 영상의 대기보정을 위해 우리나라 영역에 대해 Sentinel-2 영상을 기반으로 기구축된 6SV 모사 랜덤 포레스트(Random Forest, RF) 모델을 활용하고자 하였다. 해당 모델은 물리 모델을 강화한 기계학습 기반의 대기보정 알고리즘으로, 6SV의 정확도 및 RF의 계산속도가 모두 고려되어 고해상도 위성영상의 효율적인 대기보정이 가능할 것으로 사료되며, 실제 영상에 대한 실험을 통해 가용성을 평가하였다.
II. 자료와 방법
1. 사용 자료
본 연구에서는 국토지리정보원에서 제공받은 국토위성의 정밀정사영상(Level 2G)과 European Space Agency (ESA)에서 제공하는 Sentinel-2 Level-1C(L1C) 영상을 사용하였다. 2021년 3월 21일 발사된 국토위성은 차세대 중형위성 프로그램의 첫 번째 위성으로, Advanced Earth Imaging Sensor System-Compact (AEISSC) 센서를 탑재하여 0.5 m의 공간해상도를 가진 전정색 밴드와 2 m의 해상도를 가진 다중 분광 밴드(B, G, R, N)로 구성되어 있다. 촬영각도 변경을 통해서 4.6일의 재방문 주기를 가지며, 관측폭(swath width)은 12 km이다. 국토위성 영상자료는 정밀정사영상 뿐만 아니라 모자이크 영상 등 여러 산출물을 가공·배포하여 사용자 친화형 산출물로 고도화되고 있다. 그림 1은 본 연구에 활용된 국토위성 영상을 나타낸 것으로, 2023년 3월 11일은 합천, 2023년 3월 16일은 서울 지역을 촬영한 영상이다.
학습 자료로는 2021년부터 2022년까지 한국 영역에 대해 47장의 Sentinel-2 Level-1C 영상이 사용되었으며, Sentinel-2 위성자료의 경우 장기간 대량의 영상에 대해 쉽게 수집이 가능한 장점이 존재한다. 공간해상도는 10 m로 국토위성보다 낮지만 밴드별 중심파장은 유사하다(표 1). 표 2는 본 연구에 사용된 국토위성과 Sentinel-2 영상 정보를 요약한 것이다.
표 1.
The spectral bands of CAS500-1 and Sentinel-2
| Spectral band | Central wavelength (nm) | |
| CAS500-1 | Sentinel-2 | |
| Blue | 485 | 490 |
| Green | 560 | 560 |
| Red | 660 | 665 |
| NIR | 830 | 842 |
표 2.
List of CAS500-1 and Sentinel-2 images used in the study
대기보정에 필요한 매개변수인 aerosol optical depth (AOD), 가강수량(total precipitable water, TPW), 총오존량(total ozone, TOZ)은 모두 Geo-Kompsat 2A(GK2A) 위성의 산출물을 사용하였다. 학습과 검증에 사용된 TPW, TOZ는 해당 국토위성 영상의 촬영시각에 가장 가까운 자료를 활용하였으며, AOD의 경우에는 구름으로 인한 결측 화소가 상당수 존재하기 때문에 해당 날짜의 매시 정각자료를 합성하여 평균한 값으로 대체하였다. 이후에도 누락된 화소에 대해서는 OpenCV 라이브러리의 inpaint 함수를 사용하여 결측 복원을 수행하였다.
2. 6SV 모델
6S는 5S의 개선된 버전으로 Vermote et al.(1997)에 의해 개발되었다. 6S RTM은 광범위한 기하학적, 대기, 에어로졸 및 스펙트럼 조건에 대해 수증기, 오존, 에어로졸과 같은 대기 성분의 산란 및 흡수 효과를 계산한다(Lee et al., 2020). 6SV는 6S의 벡터 버전으로 편광 및 비편광 복사를 설명할 수 있다. 6SV는 식 (1)~(2)에 따라 표면 반사도를 계산한다.
는 TOA 반사도이며, , , 는 각각 태양 천정각, 위성 천정각, 상대 방위각을 의미한다. 는 복사에 대한 , , , 의 가스 전달, 는 에어로졸 산란 및 분자의 전체 반사도이다. 및 는 태양과 지표면(및 지표면과 센서) 사이의 경로에서 대기의 전체 전달이다. 는 대기의 구형 알베도이며, 는 램버시안(lambertian) 균질 대상에 대한 전달 방정식을 나타낸다. 6S RTM이 실행되면 , 및 보정 계수가 생성된다. 는 투과율의 역수를 나타내고, 는 대기의 산란 항이며, 는 와 동일하다. 표면 반사도()은 대기보정 계수를 사용하여 계산된다.
여기에서 은 위성 센서로 측정한 TOA 복사휘도()를 의미한다. 본 연구에 활용된 RF 모델은 Sentinel-2 L1C TOA 반사도에서 무작위로 밴드별 1,000,000개의 픽셀에 대해 6SV로 산출된 표면 반사도를 바탕으로 구축되었다.
3. Random Forest
랜덤 포레스트는 다수의 디시즌 트리(decision tree)를 임의로 학습한 후, 그 결과를 앙상블하여 최종 예측값을 산출하는 기계학습 기법이다(Breiman, 2001). 디시즌트리는 주어진 훈련 데이터에서 복원 추출을 통해 리샘플링을 수행하는 부트스트랩(bootstrap) 방식을 기반으로 생성되며, 이러한 부트스트랩 결과를 집계하여 평균하는 배깅(bootstrap aggregating, Bagging)을 통해 각 디시즌 트리 결과가 앙상블된다. 하나의 디시즌 트리를 통한 예측 결과는 높은 분산 특성을 가지지만 여러 개의 디시즌 트리의 결과를 앙상블함으로써 모델의 예측 성능을 일반화할 수 있다.
본 연구에서는 밴드별 1,000,000건의 6SV 계산값을 참조기준으로 하고, 입력조건을 input feature로 구축된 RF 모델을 사용하여(김서연 등, 2023) 국토위성 영상에 대해 대기보정을 진행하였다. 해당 밴드별 모델은 6SV로 산출된 반사도와 평균제곱근오차(root mean square error, RMSE) 0.001 이하, 상관계수(correlation coefficient, CC) 0.999 이상의 정확도를 보였다.
III. 결과 및 토의
국토위성 영상에 대한 대기보정 처리를 위하여 전정색 밴드를 바탕으로 팬 샤프닝(pan -sharpening)된 0.5 m 해상도의 다중 분광 영상(B,G,R,N)을 사용하였다. 현재 국토위성에서는 6SV를 활용하여 대기보정을 진행하고 있기 때문에, 6SV와 기구축된 RF 모델을 적용한 결과를 이용하여 영상 기반의 정확도 평가를 수행하였다. 6SV의 경우 스펙트럼 조건으로 밴드별 분광응답함수(spectral response function, SRF)가 입력되어야 하는데, 국토위성 센서가 갖는 SRF 정보는 취득이 어려워 Sentinle-2 위성 센서의 값을 대체 입력변수로 사용하였다. 또한 0.5 m 해상도의 각 밴드 이미지는 약 8억 개 이상의 픽셀로 이루어져 있어 6SV에서 픽셀별 계산이 불가하다. 따라서 본 연구에서는 각 입력자료의 평균값으로 밴드별 대기 보정 계수를 출력하고, 이를 L2G 영상에 일괄적으로 적용하였다.
2023년 3월 16일 영상에 대한 밴드별 6SV와 RF 결과를 바탕으로 10만 개의 픽셀을 랜덤 샘플링하여 비교한 결과(그림 2), 모든 밴드에서 1:1 선에 잘 부합하는 것으로 나타났다. 파장이 짧은 Blue 밴드의 경우(그림 2(a)), 대기 중 AOD에 대한 영향이 크기 때문에 다른 밴드에 비해 다소 오차가 높게 나타났으며(정대성 등, 2020), 파장이 길어짐에 따라 오차가 감소하는 경향을 보였다. 즉, blue 밴드는 AOD에 민감하므로 다른 밴드에 비해 상대적으로 정확한 반사도를 모의하기 까다롭다. 또한 반사도가 매우 낮은 영역에서는 6SV에 비해 RF가 동일한 값으로 수렴하는 경향을 보였으나, 이는 모델이 극심히 낮은 반사도 범위까지 학습한다면 성능이 향상될 것으로 보인다. 그림 3은 각 모델 및 밴드별 반사도 영상과 그 차이를 의미한다. 그림 2에서 확인할 수 있듯이 모델 간 반사도 차이는 파장에 따라 상이한 결과를 보였으며, 특히 NIR 밴드에서는(그림 3(l)) 그 차이가 매우 근소함을 알 수 있다.
그러나, 2023년 3월 11일 영상에 대해 수행된 대기보정 결과는 이전 사례와 다른 양상이 나타났다. 그림 4는 6SV와 RF 모델을 사용하여 계산된 반사도를 기반으로 무작위로 추출한 10만 개의 픽셀을 비교한 결과이다. Blue 밴드와 Green 밴드에서는 3월 16일의 영상과 유사한 결과를 보였지만 Red 밴드와 NIR 밴드에서는 6SV로 산출된 반사도 값이 현저히 낮게 나타났다. 해당 일자의 L2G 영상과 대조해 보았을 때, RF는 L2G의 추세를 효과적으로 반영하였으나 6SV는 L2G 영상의 TOA 반사도에 비해 매우 낮은 지표 반사도를 계산하였다(그림 5). 이는 해당 L2G 영상에서 Red 및 NIR 밴드의 반사도가 매우 낮은 범위에서 분포하고 있기 때문인 것으로 사료되며, 이러한 경우에는 RF 모델이 더욱 적합한 결과를 보였다. 밴드별 10만 개의 픽셀에 대해 분포를 확인한 결과, Blue 밴드와 Green 밴드는 0.1 ~ 0.15, Red 밴드는 0.05 ~ 0.1, NIR 밴드는 0.05 ~ 0.13 사이의 범위로 나타나는 것이 확인되었다(그림 6). 6SV로 도출되는 3가지 대기보정 계수는 파장이 길어질수록 감소하는 경향을 가지기 때문에, 해당 Red 및 NIR 밴드의 극심히 낮은 TOA 반사도가 크게 감쇄되어 올바르지 않은 지표 반사도가 계산된 것으로 추측된다.
이러한 특이 상황을 제외하고는 6SV 결과에 비해 RF의 반사도가 조금 더 낮게 계산되었으며, 아주 낮은 반사도 값은 같은 값으로 다소 수렴되는 추세도 존재하였다. 하지만 0.5 m 공간해상도 기준, 밴드별 약 8억 개 이상의 픽셀을 가지는 국토위성 영상에 대하여 대기보정 연산 속도 대비 높은 정확도를 가지는 것으로 평가된다. 또한 일반적이지 않은 영상 상황에 대해서는 오히려 물리 기반의 모델보다 안정적인 결과를 산출하였으므로 대기보정에 있어 기계학습 기법의 적용이 효과적임을 입증하였다. 현재로서는 획득 가능한 국토위성 영상이 많지 않기 때문에 추후 다양한 영상을 확보하여 고품질의 보조자료와 함께 모델을 수립한다면 국토위성에 더욱 적합한 대기보정이 가능할 것으로 사료된다.
IV. 결론
위성센서에서 측정된 복사에너지는 태양-지표면-센서로 전달되는 과정에서 대기에 의해 산란, 흡수 및 반사되기 때문에 오차가 발생하며, 위성 기반 원격탐사 연구에서 이러한 대기의 영향을 제거하거나 최소화하는 대기보정은 필수적인 전처리 과정이다. 이때 복사전달모델을 직접 이용하는 경우, 계산 부하가 과중하기 때문에 일반적으로 미리 구축된 LUT를 이용하는 방식이 가장 일반적으로 활용되었다. 최근에는 인공지능 기술이 원격탐사에 적용됨에 따라 복잡한 비선형 관계를 처리할 수 있는 기계학습 및 딥러닝 기반의 접근법이 대기보정에도 또한 활용되는 추세이다.
이에 따라 본 연구에서는 Sentinel-2 위성 영상을 학습자료로 하는 복사전달모델 모사 기계학습 기반 대기보정 모델을 이용하여 국토위성 영상을 대상으로 대기보정을 수행하였다. 기구축된 RF 모델은 밴드별 1,000,000건의 6SV 계산값을 종속변수로, 대기보정에 필요한 입력자료를 독립변수로 수립되었으며 Sentinel-2 위성영상을 대상으로 실험한 결과에서 밴드별 RMSE 0.001 미만, CC 0.999 이상의 성능을 보였다. 해당 모델을 활용하여 국토위성 영상의 대기보정을 수행한 결과, 영상 자체의 한계 상황을 제외하고는 6SV 계산값과 비교하여 RMSE 0.003 미만, CC 0.99 이상의 정확도를 보였다. 따라서 국토위성 영상의 대기보정에 기계학습 기반의 모델 사용의 적용 가능성을 확인하였으며, 특히 초고해상도 위성영상을 대상으로 정밀한 대기보정을 진행하기 위해 정확도와 속도 측면에서 뛰어난 기계학습 기반의 접근법이 적합할 것으로 사료된다. 향후 국토위성 영상을 바탕으로 좋은 품질의 대기 매개변수 자료를 이용하여 모델을 구축한다면 더욱 효과적인 대기보정이 가능할 것으로 기대된다.








