Kosinová podobnost se obecně používá jako metrika pro měření vzdálenosti, když na velikosti vektorů nezáleží. K tomu dochází například při práci s textovými daty reprezentovanými počtem slov.
Kdy mám použít kosinusovou podobnost?
Kosinová podobnost měří podobnost mezi dvěma vektory vnitřního součinového prostoru. Měří se kosinusem úhlu mezi dvěma vektory a určuje, zda dva vektory směřují zhruba stejným směrem. Často se používá k měření podobnosti dokumentů v analýze textu.
Proč používat kosinusovou podobnost místo euklidovské vzdálenosti?
Kosinusová podobnost je výhodná, protože i když jsou dva podobné dokumenty daleko od sebe o euklidovskou vzdálenost kvůli velikosti (např. slovo „kriket“se objevilo 50krát v jednom dokumentu a 10krát v jiném), mohly by stále mezi sebou mají menší úhel. Čím menší úhel, tím vyšší podobnost.
Jaký je rozdíl mezi kosinovou podobností a euklidovskou vzdáleností?
V tomto článku jsme studovali formální definice euklidovské vzdálenosti a kosinové podobnosti. Euklidovská vzdálenost odpovídá normě L2 rozdílu mezi vektory. Kosinusová podobnost je úměrná bodovému součinu dvou vektorů a nepřímo úměrná součinu jejich velikostí.
Jaký je rozdíl mezi kosinovou podobností a kosinovou vzdáleností?
Lidé obvykle používají kosinusovou podobnost jako metriku podobnosti mezi vektory. Nyní lze vzdálenost definovat jako 1-cos_similarity. Intuice za tím je, že pokud jsou 2 vektory dokonale stejné, pak podobnost je 1 (úhel=0) a tedy vzdálenost je 0 (1-1=0).