La
La normalització s'utilitza per eliminar dades redundants i garanteix que es generen clústers de bona qualitat que poden millorar l'eficiència dels algorismes d'agrupament. Per tant, esdevé un pas essencial abans de l'agrupació com a distància euclidiana és molt sensible als canvis en les diferències[3].
Hem de normalitzar les dades per a l'agrupació de K-means?
Com en el mètode k-NN, les característiques utilitzades per agrupar s'han de mesurar en unitats comparables. En aquest cas, les unitats no són un problema, ja que les 6 característiques s'expressen en una escala de 5 punts. La normalització o estandardització no és necessària.
Com prepareu les dades abans d'agrupar-les?
Preparació de dades
Per realitzar una anàlisi de clúster a R, en general, les dades s'han de preparar de la següent manera: Les files són observacions (individus) i les columnes són variables. Qualsevol valor que f alti a les dades s'ha d'eliminar o estimar. Les dades s'han d'estandarditzar (és a dir, escalar) per fer que les variables siguin comparables.
S'han d'escalar les dades per agrupar-les?
En agrupar, calculeu la similitud entre dos exemples combinant totes les dades de les característiques d'aquests exemples en un valor numèric. La combinació de dades de funcions requereix que les dades tinguin la mateixa escala.
Per què és important normalitzar les funcions abans d'agrupar-les?
L'estandardització és un pas important de les dadespreprocessament.
Com s'explica en aquest article, els k-means minimitzen la funció d'error mitjançant l'algorisme de Newton, és a dir, un algorisme d'optimització basat en gradients. La normalització de les dades millora la convergència d'aquests algorismes.