Analiza i klasyfikacja stron www z wykorzystaniem podlinków i zakładek
Zaimplementowana funkcjonalność przechodzenia przez podlinki w sytuacji, gdy nie ma wystarczającej ilości tekstu na stronie nie zawsze przynosi spodziewane rezultaty.
Funkcjonalność – analiza stron internetowych
Zaimplementowana funkcjonalność przechodzenia przez podlinki w sytuacji, gdy nie ma wystarczającej ilości tekstu na stronie www nie zawsze przynosi spodziewane rezultaty. Strony internetowe są budowane na niezliczoną ilość sposobów, co często powoduje trudności. Mimo, że program jest przygotowany by obsługiwać różne warianty stron i definiować podlinki to nie jest w stanie przewidzieć wszystkich możliwości, w jaki sposób użytkownicy umieszczają zasoby na stronie internetowej. Ponadto witryny www są budowane na różne sposoby. Dlatego wykonano szereg testów, które pozwalają zobrazować, że dla jednej strony internetowej przechodzenie przez linki czy zakładki w celu zebrania większej ilości słów może być pomocne.
Strona: https://silyzbrojne.pl
Spodziewana kategoria: Polityka, Prawo i Instytucje rządowe
Tematyka: Siły zbrojne
Algorytm już na stronie głównej poprawnie sklasyfikował stronę (wyjątkiem był algorytm Bayesian, tam spodziewana kategoria została zwrócona na drugim miejscu). Dzięki przejściu przez podlinki, algorytmy zwiększyły pewność, co do zwróconej pierwszej kategorii
Algorytm Ridge:
- Przed przejściem: Polityka, Prawo i Instytucje Rządowe: 100%
- Przed przejściem: Media, Wiadomości i Pogoda: 96,39%
- Po przejściu: Polityka, Prawo i Instytucje Rządowe: 100%
- Po przejściu: Media, Wiadomości i Pogoda: 77,17%
Wykres wygenerowany bez przechodzenia przez podlinki
Wykres wygenerowany po przejściu przez podlinki (polepszenie)
Niestety, przechodzenie przez zakładki powoduje też często pogorszenie wyników. Przykładem może tu być link prowadzący do regulaminu serwisu lub klauzul. Z wielkim prawdopodobieństwem zostanie zwrócona wtedy zła kategoria i nie stanie się to z winy algorytmów, gdyż te bazują jedynie na danych wejściowych w formie tekstowej.
Przykład strony: FColumbus
Strona firmy: https://fcolumbus.pl/
Spodziewana kategoria: Ludzie i Media Społecznościowe
Tematyka: Rozwój osobisty
Tabela przedstawiająca wyniki dla strony głównej, oraz po przejściu przez zakładki (pogorszenie)
Mimo, że wystąpiło zebranie większej ilości słów, algorytmy odnotowały pogorszenie swojego działania. Jest to podyktowane sytuacją związaną z faktem, że analizowana strona internetowa zawiera wiele zakładek. Mogą one jedynie rozregulować działanie algorytmów poprzez wczytywanie słów z różnych kategorii. Są to między innymi zakładki: Sponsorzy, Statut Fundacji, Kontakt.
Wykres wygenerowany bez przechodzenia przez podlinki
Algorytm Ridge:
- Przed przejściem: Finanse, Bankowość i Ubezpieczenia: 100% (błędna)
- Przed przejściem: Ludzie i Media Społecznościowe: 89,44% (spodziewana)
- Po przejściu: Kariera, Edukacja i Religia: 100% (błędna)
- Po przejściu: Ludzie i Media Społecznościowe: wypadło z pierwszej trójki zwracanych kategorii
Czerwonym regionem zaznaczono kategorie spodziewaną, która powinna osiągnąć 100%
Wykres wygenerowany po przejściu przez podlinki (pogorszenie wyników)
Można uchronić się przed taką sytuacją definiując nazwy potencjalnych zakładek, których program nie powinien odwiedzać. Przykładowo: Regulamin, Klauzula, Kontakt. Nie jest możliwe całkowite uniknięcie tego problemu, gdyż strony internetowe są budowane w nieszablonowy sposób, a różne elementy na nich umieszczone mogą wymykać się z pewnych, ściśle zdefiniowanych ram.
Poniżej przedstawiono wizualizacje dla strony https://fcolumbus.pl/, która ukazuje jak trudna dla algorytmów klasyfikacji jest praca na niejednolitym zestawie danych wejściowych z pominięciem przechodzenia przez podlinki.
Może Cię zainteresować