Quan normalitzar o estandarditzar les dades?

Quan normalitzar o estandarditzar les dades?
Quan normalitzar o estandarditzar les dades?
Anonim

La normalització és útil quan les vostres dades tenen escales diferents i l'algoritme que utilitzeu no fa suposicions sobre la distribució de les vostres dades, com ara k-veïns més propers i neuronals artificials xarxes. L'estandardització suposa que les vostres dades tenen una distribució gaussiana (corba de campana).

Quan hem de normalitzar les dades?

Les dades s'han de normalitzar o estandarditzar per tal que totes les variables estiguin en proporció entre elles. Per exemple, si una variable és 100 vegades més gran que una altra (de mitjana), és possible que el vostre model es comporti millor si normalitzeu/estandarditzeu les dues variables perquè siguin aproximadament equivalents.

Quina diferència hi ha entre la normalització i l'estandardització?

La normalització normalment significa reescalar els valors en un interval de [0, 1]. L'estandardització normalment significa que les dades es reescalen perquè tinguin una mitjana de de 0 i una desviació estàndard d'1 (variància de la unitat).

Quan i per què necessitem la normalització de dades?

En termes més senzills, la normalització assegura que totes les vostres dades es llegeixen i es llegeixen de la mateixa manera en tots els registres. La normalització estandarditzarà camps que inclouen noms d'empreses, noms de contactes, URL, informació d'adreces (carrers, estats i ciutats), números de telèfon i càrrecs.

Com trieu la normalització i l'estandardització?

Al món empresarial, "normalització" normalment significa que el rang de valors és"normalitzat per ser de 0,0 a 1,0". "Estandardització" normalment significa que l'interval de valors està "estandarditzat" per mesurar quantes desviacions estàndard té el valor respecte a la seva mitjana.