Automatyczna klasyfikacja stron www

Machine learning w systemie eAuditor dokonuje analizy treści stron www oraz przypisuje odpowiednią kategorię. Sprawdź jakie daje możliwości!

Spis treści

Zamawiam kontakt

Wykorzystanie AI w klasyfikowaniu stron WWW

Wiele firm ma problem z określeniem czego dokładnie potrzebuje, oraz co może osiągnąć inwestując w technologię AI (Artificial Intelligence) i uczenie maszynowe. Najczęstszą barierą jest brak wiedzy i przekonania o zasobach danych, które gromadzone są w firmie.

Zastosowanie Machine learningu w naszym systemie pozwalające na szczegółową analizę bezpieczeństwa

Machine learning (uczenie maszynowe) w systemie eAuditor dokonuje analizy treści stron WWW oraz przypisuje odpowiednią kategorię.

Klasyfikacja stron internetowych może być przydatna w każdym podmiocie, gdzie nadzór i kontrola aktywności użytkowników może mieć realny wpływ na bezpieczeństwo.

Zaimplementowanie algorytmu uczenia maszynowego pozwala na sprawne i szybkie klasyfikowanie każdej strony internetowej pod kątem jej zawartości, dzięki czemu może być ona przypisania do odpowiedniej kategorii. Moduł klasyfikacji stron WWW w systemie eAuditor przygotowany jest na występowanie różnych zdarzeń losowych w taki sposób, aby mimo błędu po stronie serwera lub wygaśnięcia strony internetowej nie przerywał działania i poprawnie wykonywał swoje zadanie, przypisując strony do odpowiednich kategorii.

eAuditor - Blokowanie stron www

Działanie klasyfikatora bayesowskiego

Klasyfikator bayesowski, który bazuje na twierdzeniu Bayesa, nadaje się w szczególności do rozwiązywania problemów o wielu wymiarach. Mimo prostoty metody, często działa ona lepiej od innych, bardziej skomplikowanych metod klasyfikujących. Wspomniany klasyfikator można uczyć w trybie uczenia z nadzorem. Oznacza to, że do poprawnego i jeszcze lepszego działania algorytmu konieczny jest nadzór człowieka, który na bieżąco analizuje i poprawia ewentualne błędy algorytmu. Klasyfikacja jest tak długo poprawna, jak długo poprawna kategoria jest bardziej prawdopodobna od innych.

Warto pamiętać!

W praktyce zdarza się, że algorytm może wskazać inną kategorię, niż się tego spodziewamy. Dzieje się to zwłaszcza na stronach informacyjnych, które składają się z wielu artykułów o wielu tematykach i branżach. Wtedy algorytm może wskazać niepoprawną kategorię.

Poprawność i czas klasyfikacji stron internetowych

W ramach testu machine learningu w eAuditor skategoryzowano 1000 losowych i mało popularnych stron internetowych. Obecnie jest to już liczba bliska 5 milionom! Poprawność przypisania kategorii dla tych stron wynosi > 95%. Problem z osiąganiem lepszych rezultatów nie stoi po stronie algorytmu, gdyż ten stwierdza największe prawdopodobieństwo wystąpienia danej kategorii. Problematyczny okazuje się fakt, że jedna strona internetowa może zawierać się w kilku kategoriach naraz i każda z kategorii może być poprawna.

Przykład:

Strona www.onet.pl może być skategoryzowany zarówno jako wiadomości i media, jak również jako rozrywka czy prawo i polityka.

Zastosowanie sztucznej inteligencji w biznesie

Dlaczego wprowadziliśmy machine learning do systemu eAuditor?

  • baza danych stron www z przypisanymi kategoriami jest ogromna oraz zajmuje mnóstwo miejsca (pow. 1 TB). Ilość stron www to nie kilka tysięcy czy nawet milionów. Obecnie jest to ilość trudna do oszacowania,
  • zastosowanie gotowej bazy danych nie obejmuje nawet 75% stron przeglądanych przez naszych klientów – jest to fizycznie niemożliwe,
  • strony www mogą zmieniać swoją kategorię szybciej niż gotowe bazy danych kategorii stron,
  • bazy danych wymagają stałej aktualizacji, co jest kosztowne oraz pochłania mnóstwo czasu,
  • machine learning kategoryzuje strony www indywidualnie pod potrzeby każdego użytkownika.

Korzyści z machine learningu dla użytkowników systemu eAuditor

  • automatyczne przypisanie kategorii do każdej odwiedzanej strony www,
  • wysoka skuteczność klasyfikacji,
  • autodostosowanie do każdego użytkownika systemu eAuditor,
  • brak bazy danych kategorii stron www i konieczności jej aktualizacji,
  • automatyczna reklasyfikacja w przypadku modyfikacji algorytmu lub modyfikacji strony www,
  • niezależność od zewnętrznych dostawców takiej bazy,
  • redukcja kosztów eksploatacji systemu,
  • możliwość integracji z systemem Hyprovision DLP pod kątem blokowania wybranych typów stron.
2024-11-18T15:33:55+01:00