GAN - Cum se măsoară performanța GAN?

Fotografie de Dawid Małecki

În GAN-urile, funcția obiectivă pentru generator și discriminator măsoară, de obicei, cât de bine se descurcă în raport cu adversarul. De exemplu, măsurăm cât de bine este generatorul care păcălește discriminatorul. Nu este o măsură bună în măsurarea calității imaginii sau a diversității acesteia. Ca parte a seriei GAN, analizăm Scorul de Incepție și Distanța de Incepție Frechetă despre cum se pot compara rezultatele de la diferite modele GAN.

Scor de început (IS)

IS folosește două criterii pentru măsurarea performanței GAN:

  • Calitatea imaginilor generate și
  • diversitatea lor.

Entropia poate fi privită ca aleatorie. Dacă valoarea unei variabile aleatoare x este foarte previzibilă, aceasta are o entropie scăzută. Dimpotrivă, dacă este extrem de imprevizibil, entropia este ridicată. De exemplu, în figura de mai jos, avem două distribuții de probabilitate p (x). p2 are o entropie mai mare decât p1 deoarece p2 are o distribuție mai uniformă și, prin urmare, mai puțin previzibil despre ceea ce este x.

În GAN, dorim ca probabilitatea condițională P (y | x) să fie extrem de previzibilă (entropie scăzută). adică dată o imagine, ar trebui să cunoaștem ușor tipul obiectului. Așadar, folosim o rețea Inception pentru a clasifica imaginile generate și a prezice P (y | x) - unde y este eticheta și x sunt datele generate. Aceasta reflectă calitatea imaginilor. În continuare, trebuie să măsurăm diversitatea imaginilor.

P (y) este probabilitatea marginală calculată ca:

Dacă imaginile generate sunt diverse, distribuția datelor pentru y ar trebui să fie uniformă (entropie ridicată).

Figura de mai jos vizualizează acest concept.

Pentru a combina aceste două criterii, calculăm divergența lor KL și utilizăm ecuația de mai jos pentru a calcula IS.

Un neajuns pentru IS este că poate reprezenta greșit performanța dacă generează o singură imagine pe clasă. p (y) va fi în continuare uniformă, chiar dacă diversitatea este redusă.

Distanța de inițiere Frechet (FID)

În FID, folosim rețeaua Inception pentru a extrage caracteristici dintr-un strat intermediar. Apoi, modelăm distribuția de date pentru aceste caracteristici folosind o distribuție gaussiană multivariată cu media µ și covarianță Σ. FID-ul dintre imaginile reale x și imaginile generate g este calculat ca:

unde Tr rezumă toate elementele diagonale.

Valorile FID mai mici înseamnă o calitate și o diversitate mai bună a imaginii.

FID este sensibil la colapsul modului. După cum se arată mai jos, distanța crește cu modurile lipsă simulate.

Sursa Un scor FID mai mic identifică un model mai bun.

FID este mai puternic la zgomot decât IS. Dacă modelul generează o singură imagine pe clasă, distanța va fi mare. Deci FID este o măsurătoare mai bună pentru diversitatea imaginii. FID are o prejudecată destul de mare, dar variație scăzută. Calculând FID între un set de date de instruire și un set de date de testare, ar trebui să ne așteptăm ca FID să fie zero, deoarece ambele sunt imagini reale. Cu toate acestea, efectuarea testului cu diferite loturi de eșantion de antrenament nu arată niciun FID zero.

Sursă

De asemenea, atât FID cât și IS sunt bazate pe extragerea caracteristicilor (prezența sau absența caracteristicilor). Un generator va avea același punctaj dacă relația spațială nu este menținută?

Precizie, recurgere și scor F1

Dacă imaginile generate arată similar cu imaginile reale în medie, precizia este ridicată. Reclamarea ridicată presupune că generatorul poate genera orice eșantion găsit în setul de date de instruire. Un scor F1 este media armonică de precizie și rechemare.

În lucrarea de cercetare Google Brain „Sunt GAN-urile create egale”, un experiment de jucărie cu un set de triunghiuri este creat pentru a măsura precizia și reamintirea diferitelor modele GAN.

Sursă

Acest set de date jucărie poate măsura performanța diferitelor model GAN. Îl putem folosi pentru a măsura meritul diferitelor funcții de cost. De exemplu, noua funcție va fi bună la producerea unui triunghi de înaltă calitate, cu o acoperire bună?

Referinţă

Tehnici îmbunătățite pentru GAN-urile de instruire

GAN-urile sunt create egale? Un studiu la scară largă

GAN-urile antrenate de o regulă de actualizare la scară în timp converg către un echilibru local Nash