Automatyczna klasyfikacja stron www
Machine learning w systemie eAuditor dokonuje analizy treści stron www oraz przypisuje odpowiednią kategorię. Sprawdź jakie daje możliwości!
Wykorzystanie AI w klasyfikowaniu stron WWW
Wiele firm ma problem z określeniem czego dokładnie potrzebuje, oraz co może osiągnąć inwestując w technologię AI (Artificial Intelligence) i uczenie maszynowe. Najczęstszą barierą jest brak wiedzy i przekonania o zasobach danych, które gromadzone są w firmie.
Zastosowanie Machine learningu w naszym systemie pozwalające na szczegółową analizę bezpieczeństwa
Machine learning (uczenie maszynowe) w systemie eAuditor dokonuje analizy treści stron WWW oraz przypisuje odpowiednią kategorię.
Klasyfikacja stron internetowych może być przydatna w każdym podmiocie, gdzie nadzór i kontrola aktywności użytkowników może mieć realny wpływ na bezpieczeństwo.
Zaimplementowanie algorytmu uczenia maszynowego pozwala na sprawne i szybkie klasyfikowanie każdej strony internetowej pod kątem jej zawartości, dzięki czemu może być ona przypisania do odpowiedniej kategorii. Moduł klasyfikacji stron WWW w systemie eAuditor przygotowany jest na występowanie różnych zdarzeń losowych w taki sposób, aby mimo błędu po stronie serwera lub wygaśnięcia strony internetowej nie przerywał działania i poprawnie wykonywał swoje zadanie, przypisując strony do odpowiednich kategorii.
Działanie klasyfikatora bayesowskiego
Klasyfikator bayesowski, który bazuje na twierdzeniu Bayesa, nadaje się w szczególności do rozwiązywania problemów o wielu wymiarach. Mimo prostoty metody, często działa ona lepiej od innych, bardziej skomplikowanych metod klasyfikujących. Wspomniany klasyfikator można uczyć w trybie uczenia z nadzorem. Oznacza to, że do poprawnego i jeszcze lepszego działania algorytmu konieczny jest nadzór człowieka, który na bieżąco analizuje i poprawia ewentualne błędy algorytmu. Klasyfikacja jest tak długo poprawna, jak długo poprawna kategoria jest bardziej prawdopodobna od innych.
Warto pamiętać!
W praktyce zdarza się, że algorytm może wskazać inną kategorię, niż się tego spodziewamy. Dzieje się to zwłaszcza na stronach informacyjnych, które składają się z wielu artykułów o wielu tematykach i branżach. Wtedy algorytm może wskazać niepoprawną kategorię.
Poprawność i czas klasyfikacji stron internetowych
W ramach testu machine learningu w eAuditor skategoryzowano 1000 losowych i mało popularnych stron internetowych. Obecnie jest to już liczba bliska 5 milionom! Poprawność przypisania kategorii dla tych stron wynosi > 95%. Problem z osiąganiem lepszych rezultatów nie stoi po stronie algorytmu, gdyż ten stwierdza największe prawdopodobieństwo wystąpienia danej kategorii. Problematyczny okazuje się fakt, że jedna strona internetowa może zawierać się w kilku kategoriach naraz i każda z kategorii może być poprawna.
Przykład:
Strona www.onet.pl może być skategoryzowany zarówno jako wiadomości i media, jak również jako rozrywka czy prawo i polityka.
Dlaczego wprowadziliśmy machine learning do systemu eAuditor?
- baza danych stron www z przypisanymi kategoriami jest ogromna oraz zajmuje mnóstwo miejsca (pow. 1 TB). Ilość stron www to nie kilka tysięcy czy nawet milionów. Obecnie jest to ilość trudna do oszacowania,
- zastosowanie gotowej bazy danych nie obejmuje nawet 75% stron przeglądanych przez naszych klientów – jest to fizycznie niemożliwe,
- strony www mogą zmieniać swoją kategorię szybciej niż gotowe bazy danych kategorii stron,
- bazy danych wymagają stałej aktualizacji, co jest kosztowne oraz pochłania mnóstwo czasu,
- machine learning kategoryzuje strony www indywidualnie pod potrzeby każdego użytkownika.
Korzyści z machine learningu dla użytkowników systemu eAuditor
- automatyczne przypisanie kategorii do każdej odwiedzanej strony www,
- wysoka skuteczność klasyfikacji,
- autodostosowanie do każdego użytkownika systemu eAuditor,
- brak bazy danych kategorii stron www i konieczności jej aktualizacji,
- automatyczna reklasyfikacja w przypadku modyfikacji algorytmu lub modyfikacji strony www,
- niezależność od zewnętrznych dostawców takiej bazy,
- redukcja kosztów eksploatacji systemu,
- możliwość integracji z systemem Hyprovision DLP pod kątem blokowania wybranych typów stron.
Może Cię zainteresować