Pentru a îndeplini cerințele utilizatorilor pentru rezoluția spațială și temporală, am folosit un algoritm inspirat de Super-Resolution Generative Adversarial Network (SR-GAN), antrenat pe datele SPOT-6 pentru a mări și îmbunătăți imaginile Sentinel-2. Particularitatea modelului pe care l-am selectat este că calculul funcției de pierdere se bazează pe hărțile caracteristicilor rețelei VGG, ceea ce duce la o sensibilitate scăzută a modelului la modificările spațiului pixelilor.
SRGAN este o structură de rețea de super-rezoluție propusă de Christian Ledig într-o lucrare publicată la conferința CVPR din 2017, care aduce efectul super-rezoluției la un nou nivel. SRGAN este instruit pe baza rețelei GAN, care constă dintr-un generator și un discriminator.
Generatoarele folosesc o structură ResNet, prima parte a rețelei este conectată cu mai multe blocuri reziduale, fiecare conținând două straturi de convoluție 3 × 3, care este urmată de stratul de normalizare a lotului, activat cu funcția ReLu. În cele din urmă, sunt adăugate două module de rețea subpixeli pentru a crește dimensiunea, astfel încât generatorul să poată învăța detaliile imaginii de înaltă rezoluție din stratul frontal în timpul procesului de antrenament și să îmbunătățească rezoluția imaginii mai târziu, pentru a atinge obiectivul de reducere a calculului și resurse.
Discriminatorul adoptă structura de rețea vgg-19, incluzând opt straturi de convoluție, în care funcția ReLU este utilizată ca funcție de activare pentru stratul ascuns și, în final, probabilitatea ca imaginea prezisă să provină din imaginile reale și de înaltă rezoluție. Imaginea de înaltă rezoluție generată este obținută prin utilizarea stratului de conexiune complet și a funcției de activare a sigmoidului.
Figura 1. Descriere grafică a fluxuluiu de prelucrare pentru obținerea imaginilor de super-rezouție
Pentru a evalua performanța modelului și a evalua modul în care disponibilitatea datelor de formare afectează calitatea rezultatelor, am propus diferite scenarii în care modelul a fost antrenat folosind imagini 1 imagine, 5 și 10 imagini din diferite situri de patrimoniu cultural. Modelul SR-GAN a fost antrenat imagini din diferite situri de patrimoniu cultural. Imaginile Sentinel-2 și imaginile SPOT realizate în zona de studiu au fost folosite pentru a antrena modelul SR-GAN.
Toate imaginile folosite în antrenamentul modelelor au fost realizate în sezonul de vară, între 2019 și 2020. În final, modelul a fost aplicat pentru a putea imaginile S2 ale orașului Alba Iulia. Rezultatele respective model au fost apoi evaluate prin utilizarea de metrici Peak Signal to Noise Ratio (PSNR), Structural Similarity Index (SSI) și Index de percepție pe baza scorurilor medii de opinii colectate prin sondaje.
Procurarea datelor | |||
---|---|---|---|
Numărul de imagini Sentinel-2 | Numărul de imagini Spot 6 | Arii de instruire | |
Model 1 | 1 | 1 | 1 |
Model 2 | 5 | 5 | 5 |
Model 3 | 10 | 10 | 5 |
Tabel 1. Datele de intrare pentru fiecare model antrenat
Factorul de reeșantionare al imaginii de înaltă rezoluție (HR) și al imaginii de joasă rezoluție (LR) utilizate în antrenamentul modelului a fost setat la 4. Imaginile LR au fost obținute prin reeșantionarea imaginii HR de patru ori, folosind metoda celui mai apropiat vecin implementată în Python. În timpul antrenamentului, dimensiunea lotului a fost setată la 16, iar procesul de antrenament a fost împărțit în două etape. În primul pas, ResNet a fost antrenat să obțină eroarea pătrată medie între imaginea de înaltă rezoluție generată și imaginea reală de înaltă rezoluție, funcția tradițională de „pierdere” bazată pe pixeli, iar rata de învățare a fost inițializată la 10-4, implicând în total 100 de epoci. În a doua etapă, am folosit modelul antrenat în prima etapă ca inițializator al generatorului. Utilizarea inițializării bazată pe pierderi de pixeli poate face ca metoda bazată pe GAN să funcționeze mai bine. Motivul pentru aceasta poate fi rezumat după cum urmează:
Imaginea de înaltă rezoluție generată de preprocesare este o imagine relativ bună pentru discriminator, așa că acordați mai multă atenție detaliilor texturii în următorul proces de antrenament.
Este de preferat să se evite optimizarea generatorului local. Rata de pregătire inițială a pregătirii generatorului a fost de 10-4 și a fost redusă la 1/2 pentru fiecare 250 de iterații, implicând un total de 500 de epoci.
S-a folosit algoritmul de optimizare RMSProp pentru a actualiza alternativ generatorul și discriminatorul. Modelul a fost implementat folosind cadrul Tensorflow și a fost alimentat de patru GPU-uri NVIDIA GeForce GTX TITAN X.
Figura 2. Descrierea modului de extracție a zonelor de instruire