Normalizace se používá k odstranění nadbytečných dat a zajišťuje generování shluků dobré kvality, které mohou zlepšit efektivitu shlukovacích algoritmů. Stává se tedy nezbytným krokem před shlukováním jako euklidovská vzdálenost je velmi citlivý na změny v rozdílech[3].
Potřebujeme normalizovat data pro shlukování K-means?
Stejně jako u metody k-NN musí být charakteristiky použité pro shlukování měřeny ve srovnatelných jednotkách. V tomto případě jednotky nepředstavují problém, protože všech 6 charakteristik je vyjádřeno na 5bodové škále. Normalizace nebo standardizace není nutná.
Jak připravujete data před shlukováním?
Příprava dat
K provedení shlukové analýzy v R by obecně měla být data připravena následovně: Řádky jsou pozorování (jednotlivci) a sloupce jsou proměnné. Jakákoli chybějící hodnota v datech musí být odstraněna nebo odhadnuta. Údaje musí být standardizovány (tj. škálovány), aby byly proměnné srovnatelné.
Měla by být data škálována pro shlukování?
Při shlukování vypočítáte podobnost mezi dvěma příklady tím, že sloučíte všechna data vlastností pro tyto příklady do číselné hodnoty. Kombinování dat funkcí vyžaduje, aby data měla stejné měřítko.
Proč je důležité normalizovat funkce před shlukováním?
Standardizace je důležitým krokem Datapreprocessing.
Jak je vysvětleno v tomto článku, k-means minimalizuje chybovou funkci pomocí Newtonova algoritmu, tj. optimalizačního algoritmu založeného na gradientu. Normalizace dat zlepšuje konvergenci takových algoritmů.