Normalizace je užitečná když mají vaše data různá měřítka a algoritmus, který používáte, nepředpokládá distribuci vašich dat, jako jsou k-nejbližší sousedé a umělý neurální sítí. Standardizace předpokládá, že vaše data mají Gaussovu distribuci (zvonová křivka).
Kdy bychom měli data normalizovat?
Data by měla být normalizována nebo standardizována aby byly všechny proměnné ve vzájemném poměru. Pokud je například jedna proměnná 100krát větší než druhá (v průměru), může se váš model chovat lépe, pokud tyto dvě proměnné normalizujete/standardizujete tak, aby byly přibližně ekvivalentní.
Jaký je rozdíl mezi normalizací a standardizací?
Normalizace obvykle znamená změnu měřítka hodnot do rozsahu [0, 1]. Standardizace obvykle znamená změnu měřítka dat tak, aby měla průměr 0 a směrodatnou odchylku 1 (rozdíl jednotek).
Kdy a proč potřebujeme normalizaci dat?
Zjednodušeně řečeno, normalizace zajišťuje, že všechna vaše data vypadají a čtou se ve všech záznamech stejně. Normalizace standardizuje pole včetně názvů společností, kontaktních jmen, URL, adresních informací (ulice, státy a města), telefonních čísel a pracovních pozic.
Jak si vybíráte normalizaci a standardizaci?
V obchodním světě „normalizace“obvykle znamená, že rozsah hodnot je"normalizováno na hodnotu od 0,0 do 1,0". „Standardizace“obvykle znamená, že rozsah hodnot je „standardizován“, aby bylo možné měřit, o kolik standardních odchylek je hodnota od svého průměru.