Transformarea datelor categorice

Unele dintre caracteristicile dvs. pot fi valori discrete care nu se afla intr-o relatie ordonata. porno interracial Exemplele includ rase de caini, cuvinte sau coduri postale. Aceste caracteristici sunt cunoscute ca categorice si fiecare valoare se numeste categorie. chinese porno Puteti reprezenta valori categorice ca siruri sau chiar numere, dar nu veti putea compara aceste numere sau le puteti scadea unele de la altele.

Adesea, ar trebui sa reprezentati caracteristici care contin valori intregi ca date categorice in loc de date numerice. teresa w porno De exemplu, luati in considerare o caracteristica de cod postal in care valorile sunt intregi. Daca in mod eronat reprezentati aceasta caracteristica numeric, atunci solicitati modelului sa gaseasca o relatie numerica intre diferite coduri postale; de exemplu, va asteptati ca modelul sa determine ca codul postal 20004 este de doua ori (sau jumatate) semnalul ca cod postal 10002. porno belle soeur Prin reprezentarea codurilor postale ca date categorice, activati modelul pentru a gasi semnale separate pentru fiecare cod postal individual.

Daca numarul categoriilor unui camp de date este mic, cum ar fi ziua saptamanii sau o paleta limitata de culori, puteti crea o caracteristica unica pentru fiecare categorie. karin schubert porno De exemplu:

Figura 1: O caracteristica unica pentru fiecare categorie.

Un model poate invata apoi o greutate separata pentru fiecare culoare. porno tabou De exemplu, poate modelul ar putea afla ca masinile rosii sunt mai scumpe decat masinile verzi.

Functiile pot fi apoi indexate. rihanna porno

Figura 2: Caracteristici indexate.

Acest tip de cartografiere se numeste vocabular . porno infirmière

Vocabular

Intr-un vocabular, fiecare valoare reprezinta o caracteristica unica.

Numar index Categorie 0 Rosu 1 Portocaliu 2 Albastru . film sex porno .. yps porno .. porno cochonne .

Modelul cauta indexul din sir, atribuind 1. porno kif 0 slotului corespunzator din vectorul de caracteristica si 0.0 tuturor celorlalte sloturi din vectorul de caracteristica. porno academie

Figura 3: Procesul de la capat la cap la maparea categoriilor la vectorii de caracteristici.

Nota despre reprezentarea rara

Daca categoriile dvs. porno sperme sunt zilele saptamanii, puteti, de exemplu, sa reprezentati vinerea cu vectorul de caracteristici [0, 0, 0, 0, 1, 0, 0]. Cu toate acestea, majoritatea implementarilor sistemelor ML vor reprezenta acest vector in memorie cu o reprezentare rara. oksana porno



  • gold porno
  • porno cuq
  • porno tunisien
  • porno jeune couple
  • porno vrai.com
  • star wars porno
  • femme poilue porno
  • porno emma watson
  • porno français mature
  • film porno black
  • sister porno
  • barbie porno
  • ville porno
  • porno family
  • twerk porno
  • porno chantage
  • vierge porno
  • porno femmes fontaine
  • porno dingues
  • meilleur actrice porno





O reprezentare comuna este o lista de valori ne-goale si indicii lor corespunzatori – de exemplu, 1.0 pentru valoare si [4] pentru index. kalissu porno Acest lucru va permite sa cheltuiti mai putina memorie stocand o cantitate imensa de 0 si permite o multiplicare mai eficienta a matricei. In ceea ce priveste matematica de baza, [4] este echivalent cu [0, 0, 0, 0, 1, 0, 0]. video porno xxl

Out of Vocab (OOV)

La fel cum datele numerice contin valori anormale, exista si datele categorice. De exemplu, luati in considerare un set de date care contine descrieri de masini. porno teen gay Una dintre caracteristicile acestui set de date ar putea fi culoarea masinii. Sa presupunem ca culorile obisnuite ale masinii (negru, alb, gri si asa mai departe) sunt bine reprezentate in acest set de date si le transformati pe fiecare intr-o categorie, astfel incat sa puteti afla cum aceste culori diferite afecteaza valoarea. porno fairy tail Totusi, sa presupunem ca acest set de date contine un numar mic de masini cu culori excentrice (mov, puce, avocado). In loc sa acordati fiecareia dintre aceste culori o categorie separata, le-ati putea incadra intr-o categorie completa numita Out of Vocab ( OOV ). kim glow porno Prin utilizarea OOV, sistemul nu va pierde timpul antrenandu-se pe fiecare dintre acele culori rare.

Hashing

O alta optiune este sa hash fiecare sir (categorie) in spatiul dvs. index disponibil. Hashing-ul provoaca adesea coliziuni, dar va bazati pe modelul care invata o reprezentare partajata a categoriilor din acelasi index care functioneaza bine pentru problema data.

Pentru termeni importanti, hashing poate fi mai rau decat selectarea unui vocabular, din cauza coliziunilor. Pe de alta parte, hashingul nu necesita sa asamblati un vocabular, ceea ce este avantajos daca distributia caracteristicilor se schimba puternic in timp.

Figura 4: Asocierea elementelor la un vocabular.

Hibrid de Hashing si Vocabular

Puteti adopta o abordare hibrida si puteti combina hashingul cu un vocabular. Utilizati un vocabular pentru cele mai importante categorii din datele dvs., dar inlocuiti cupa OOV cu mai multe cupe OOV si utilizati hashing pentru a atribui categorii cupelor.

Categoriile din galetile de hash trebuie sa partajeze un index, iar modelul probabil nu va face predictii bune, dar am alocat o cantitate de memorie pentru a incerca sa invatam categoriile in afara vocabularului nostru.

Figura 5: Abordare hibrida care combina vocabularul si hashingul.

Nota despre incorporari

Amintiti-va de la cursul accidental de invatare automata ca incorporarea este o caracteristica categorica reprezentata ca o caracteristica cu valoare continua. Modelele profunde convertesc frecvent indicii dintr-un index in incorporare.

Figura 6: Vectorii de caracteristici rare prin incorporare

Celelalte transformari pe care le-am discutat ar putea fi stocate pe disc, dar incorporarile sunt diferite. Deoarece incorporarile sunt instruite, acestea nu reprezinta o transformare tipica a datelor – fac parte din model. Sunt instruiti cu alte greutati model si functional sunt echivalente cu un strat de greutati.

Cum ramane cu incorporarile pretrainate? Incorporarile pre-antrenate sunt inca de obicei modificabile in timpul antrenamentului, asa ca fac parte din concept din model.