Klasyfikacja stron www

Zestawienie rezultatów dwóch algorytmów Ridge, oraz dwóch wersji algorytmu Passive Agressive, których skuteczność działania została potwierdzona eksperymentalnie.

Spis treści

Zamawiam kontakt

Rezultaty dwóch algorytmów Ridge, oraz dwóch wersji algorytmu Passive Agressive

Wymienione algorytmy zwracają najlepsze rezultaty porównując je z innymi dostępnymi klasyfikatorami. Algorytmy są konfigurowalne, co oznacza, że możemy zwiększać ich skuteczność, lecz ma to związek z dłuższym czasem klasyfikacji.

Celem zaimplementowania algorytmów Ridge i Passive Agressive wraz z ich porównaniem, jest zwizualizowanie problemu klasyfikacji wraz ze wskazaniem stron internetowych problematycznych, dla których algorytmy nie zwróciły tych samych wyników. Pozwala to na stałe rozwijanie baz kategorii o kolejne słowa kluczowe za pomocą sztucznej inteligencji oraz szczegółową analizę bezpieczeństwa.

Klasyfikacja stron internetowych – algorytmy klasyfikujące strony internetowe

Istnieje wiele algorytmów klasyfikacji bazujących na rachunku prawdopodobieństwa. Każdy z algorytmów inaczej podchodzi do tego zagadnienia, co powoduje, że dana strona internetowa może zwracać różne kategorie dla różnych algorytmów. Wynik działania algorytmów bazuje na danych wejściowych, jakimi są słowa znajdujące się na Twojej stronie internetowej. Największą trudnością przy tego typu zagadnieniu jest ogromna różnorodność stron internetowych i dowolność w ich tworzeniu przez web deweloperów. Algorytm działa pewnie w sytuacji, gdy strona internetowa posiada dużo tekstu, który zawiera się w konkretnej dziedzinie. W sytuacji, gdy analizowana strona internetowa ma mało tekstu, a dodatkowo zawiera się w wielu kategoriach, algorytm może błędnie sklasyfikować stronę. W celu zmaksymalizowania szans na poprawne działanie klasyfikatora, zaimplementowano funkcjonalności, takie jak przechodzenie przez podstrony, gdy dla strony głównej nie ma wystarczającej ilości tekstu. Wdrożono także funkcjonalność dotyczącą zwrócenia trzech najbardziej prawdopodobnych kategorii zamiast jednej.

BTC eAuditor V7 Wizualizacja wyników klasyfikacji stron internetowych przy użyciu algorytmów Passive Agressive oraz Ridge onet

Rezultaty strony www

Klasyfikator analizuje adresy URL na podstawie tekstu dla różnych algorytmów, warto zwizualizować wyniki, poprzez stworzenie wykresu, który w łatwy sposób je zobrazuje. Ważne jest także, aby osiągać możliwie jak najkrótszy czas klasyfikacji. Dla komercyjnych rozwiązań kluczowym jest, aby znaleźć balans pomiędzy czasem działania algorytmu, a jego skutecznością. Na potrzeby testu zaimplementowano zmodyfikowany algorytm Passive Agressive (na wykresie oznaczony kolorem żółtym), który w praktyce osiąga niewiele lepsze rezultaty od algorytmu niezmodyfikowanego, lecz klasyfikuje stronę ponad pięciokrotnie dłużej.

Przykładowo:

  • Czas klasyfikacji strony zawierającej 1008 słów
  • Ridge Algorithm = 0.1589s
  • Passive Agressive Algorithm = 0.1709s
  • Passive Agressive Algorithm Upgraded = 1.0734s
Działanie machine learningu

Z komercyjnego punktu widzenia i pracując z setką tysięcy stron www, każde, nawet najmniejsze skrócenie czasu klasyfikacji, wpływa pozytywnie na funkcjonowanie Twojego biznesu w skali miesiąca, czy kwartału. Dużą zaletą jest konfigurowalność parametrów. Ich ustawienie jest uwarunkowane dostępną mocą obliczeniową. Wraz z jej wzrostem poprawiać się może nie tylko ilość sklasyfikowanych stron, ale także skuteczność klasyfikacji. To także szansa na jeszcze skuteczniejsze zarządzanie, co ma realny wpływ na bezpieczeństwo strony www w Internecie.

Algorytmy Passive Agressive oraz Ridge w klasyfikacji stron www posiadają certyfikat ssl i chronią przed przypadkowym wyciekiem danych.

2024-11-18T15:35:53+01:00