Cele doua etape ale descendentei gradientului in invatarea profunda

Credit: https://unsplash.com/@paulgilmore_

Datorita muncii experimentale minunate realizate de mai multe grupuri de cercetare care studiaza comportamentul descendentei gradientului stochastic (SGD), obtinem in mod colectiv o intelegere mult mai clara a ceea ce se intampla in vecinatatea convergentei instruirii. kelly vedovelli porno

Povestea incepe cu cel mai bun castigator al premiului pentru hartie pentru ICLR 2017, „Rethinking Generalization”. Aceasta lucrare am discutat-o ​​pentru prima data in urma cu cateva luni, intr-o postare pe blog „Regandirea generalizarii in invatarea profunda”. porno sensuelle O observatie interesanta in aceasta lucrare este rolul SGD. Observatia este extrem de radicala, unde autorii scriu:

Intr-adevar, in retelele neuronale, alegem aproape intotdeauna modelul nostru ca iesire a coborarii descendente stochastice. femmes fontaines porno Apeland la modele liniare, analizam modul in care SGD actioneaza ca un regulator implicit. Pentru modelele liniare, SGD converge intotdeauna la o solutie cu o norma mica. porno senior Prin urmare, algoritmul in sine regularizeaza implicit solutia.

Aceasta este o notiune foarte ciudata ca SGD este etichetat ca o „regularizare implicita”. porno mere Intamplator, o alta lucrare: O analiza empirica a suprafetelor de pierdere in retea profunda de Daniel Jiwoong Im, Michael Tao, Kristin Branson, discuta structura suprafetelor de pierdere ale diferitilor algoritmi SGD si descopera ca toate sunt diferite:

Aceste masuratori experimentale par sa sustina afirmatia ca, similar cu regularizarea, algoritmul SGD pe care il selectati va influenta acolo unde converge o retea. Pe scurt, ajungeti la diferite locuri de repaus cu algoritmi SGD diferiti. flashing porno Acest lucru este diferit de modul in care ne gandim in mod conventional la SGD. Adica, SGD-uri diferite va ofera doar rate de convergenta diferite datorita diferitelor strategii, dar ne asteptam ca toate sa ajunga la aceleasi rezultate! Credem intr-un fel ca SGD ar atinge aceeasi optima indiferent de metoda (BTW, mentionez ca aceasta lucrare fantastica a fost respinsa in ICLR 2017. porno jupe Scrierea de lucrari academice in spatiul de invatare profunda este competitiva nerezonabila.)

Leslie Smith si Nicholay Topin, au prezentat recent o lucrare de atelier la atelierul ICLR 2017: „Exploring Loss Function Topology with Cyclic Learning Rate”, unde descopera un comportament de convergenta aparte:

Sursa: Explorarea topologiei functiei pierderii cu o rata de invatare ciclica

Aici, pe masura ce cresteti si scadeti monoton rata de invatare, exista o tranzitie aproape de regimul de convergenta, incat o rata de invatare suficient de mare perturbe sistemul imediat, care este bazinul intr-un spatiu cu pierderi mult mai mari. vieux films porno Apoi SGD converge din nou rapid (retineti, de asemenea, rata de convergenta mai rapida). Ce se intampla exact aici?

O lucrare recenta despre Arxiv „Deschiderea cutiei negre a retelelor neuronale profunde prin informatii de Ravid Shwartz-Ziv si Naftali Tishby are o interpretare eleganta a ceea ce se intampla in SGD. porno 70 Ei descriu SGD ca avand doua faze distincte, o faza de deriva si o faza de difuzie. SGD incepe in prima faza, explorand practic spatiul multidimensional al solutiilor. porno 90 Cand incepe sa converga, ajunge la faza de difuzie, unde este extrem de haotica, iar rata de convergenta incetineste pana la un crawl. O intuitie a ceea ce se intampla in aceasta faza este ca reteaua invata sa se comprime. chatte porno



  • porno xxxl
  • candice porno
  • cougar porno
  • anna polina porno
  • porno ecole
  • porno excitant
  • bella thorne porno
  • porno orzel
  • cuisine porno
  • forum porno
  • asmr porno
  • cardi b porno
  • porno gay big dick
  • film porno 1970
  • porno gay dad
  • your porno sexy
  • film porno cougar
  • porno asia
  • porno free francais
  • actrice porno italienne





Acest grafic ilustreaza cel mai bine acest comportament:

Adica, comportamentul face o tranzitie de faza de la media ridicata cu varianta scazuta la una cu medie mica, dar varianta ridicata. Aceasta ofera explicatii suplimentare pentru Smith et. film porno clara morgane Observatiile lui Al, ca in regiunea apropiata de convergenta, este extrem de haotic. Desigur, acest lucru nu explica pe deplin de ce o rata de invatare ridicata va transforma sistemul intr-un loc cu pierderi mari. porno jeune ado

Tomaso Poggio si Qianli Liao au totusi propriile experimente si au o teorie: „Teoria II: Peisajul riscului empiric in invatarea profunda”. Unde descriu in detaliu comportamentul in acea regiune haotica:

Sursa: Teoria II: Peisajul riscului empiric in invatarea profunda

Se transforma ca bazinul minimelor globale este plat, dar este foarte accidentat. porno cheval Nu numai asta, dar exista multe dintre aceste bazine. Invoca unele teoreme ezoterice de matematica si vin cu aceasta concluzie:

Apoi putem invoca teorema Bezout pentru a concluziona ca exista un numar foarte mare de minime zero-error si ca minimele zero-error sunt extrem de degenerate, in timp ce minimele locale non-zero, daca exista, pot sa nu fie degenerate. porno 80 In cazul clasificarii, eroarea zero implica existenta unei marje, adica o regiune plana in toate dimensiunile in jurul erorii zero.

Hartie absolut fascinanta, demna de mai multe citiri. porno zoophile Exista totusi o indepartare pragmatica din aceasta lucrare „Medierea a doua modele intr-un bazin tind sa dea o eroare care este media celor doua modele (sau mai putin). Medierea a doua modele intre bazine are tendinta de a da o eroare mai mare decat ambele modele ”. jessica alba porno

Raman multe intrebari despre modul de exploatare a acestei noi cunostinte. Cum putem folosi acest lucru pentru capacitati critice, cum ar fi invatarea prin transfer, adaptarea domeniului si evitarea uitarii? Care este relatia acestor faze, in special faza de compresie in ceea ce priveste generalizarea? Exista cu siguranta o multime de cai interesante aici!

Pe scurt, exista o multime de grupuri de cercetare care depun eforturi bune pentru a intelege mai bine comportamentul sistemelor Deep Learning. porno intense Prin aceasta lucrare fundamentala de cercetare, castigam cu totii in mod colectiv modalitati mai bune de a ne imbunatati propria munca. Din pacate, conferintele au tendinta de a evalua arhitecturi noi (cu cat este mai nebun cu atat mai bine) fata de datele experimentale bune. porno cougar francaise Din pacate, aceasta favorizeaza mai degraba practica alchimiei decat urmarirea stiintei chimiei.

Actualizare: Tomaso Poggio isi lanseaza Theory III: http://cbmm. porno ivre mit.edu/sites/default/files/publications/CBMM-Memo-067. pdf

Exploreaza invatarea profunda : intuitie artificiala: revolutia de invatare profunda improbabila

Exploateaza Deep Learning : Manualul de invatare profunda AI