13. Előadás - Osztályozás

Az osztályozandó elemeket pontokként (valós vektorokként) tekinthetjük. Az osztályozás célja, hogy egy adott pontról eldöntsük, hogy milyen osztályba tartozik.

Precedens alapú osztályozó

Rendelkezésre állnak olyan pontok, amelyekről tudjuk, hogy milyen osztályba tartoznak.

Feltételezzük, hogy a térben van egy adott metrika (például euklideszi távolság).

A KNN (K Nearest Neighbour) osztályozó megkeresi a \(K\) számú legközelebbi szomszédot, majd a kérdéses pont osztályának a leggyakrabban előforduló osztályt választja.

Klaszterezés

Adott egy ponthalmaz, rajta egy metrika. A ponthalmaz alapján meg szeretnénk határozni, hogy milyen csoportok, klaszterek (clusters) alkotják a halmazt.

K-Means algoritmus

Tudjuk, hogy a pontokat \(K\) klaszterbe lehet besorolni.

  • Minden pontot besorolunk a \(K\) számú klaszter valamelyikébe.

  • Definiálunk egy hiba metrikát, amelyik az aktuális klaszterezés jóságát mutatja.

  • Feltételezzük, hogy a klaszterek a metrika szerint térben közel helyezkednek el egymáshoz (közel gömb alakúak).

  • Kiszámítjuk a klaszterek aktuális középpontját.

  • Meghatározzuk, hogy az alapján mely pontok melyik klaszterbe esnének.

  • Módosítjuk a klaszter azonosítókat.

Kérdések

  • Mi a különbség az osztályozás és a klaszterezés között?

Feladatok

  • Implementáljuk az előzőekben említett algoritmusokat!

  • Készítsen hozzájuk konkrét példákat!