Automatyczne wyszukiwanie, analiza i klasyfikacja treści wysoce szkodliwych (APAKT)
Sztuczna inteligencja pomaga w moderacji internetowych treści - szybko i skutecznie klasyfikuje szkodliwe materiały i wspiera moderatorów w ich codziennej pracy
Wyzwanie
Zadaniem moderatorów sieci w Dyżurnet.pl, jednostce działającej w strukturze NASK PIB, jest weryfikacja nielegalnych treści zgłoszonych przez użytkowników lub algorytmy, w tym między innymi materiałów zawierających seksualne wykorzystanie dzieci (ang. CSAM, child sexual abuse material). Chyba nie trzeba nikogo przekonywać, jak ważne i jednocześnie trudne to zadanie. Z jednej strony chodzi o to, by zwielokrotnić efektywność i jak najszerzej ochronić potencjalnych odbiorców przed tego typu treściami. Z drugiej – ochronić również samych moderatorów narażonych przez wiele godzin dziennie na kontakt z tymi materiałami.
W projekcie APAKT razem z Politechniką Warszawską opracowujemy system, który ma wspomagać moderatorów poprzez automatyczne wyszukiwanie i wstępną klasyfikację podejrzanych materiałów. Będzie on jednocześnie proponować kolejność zgłoszeń tak, aby pierwsze były te, które wymagają najszybszej interwencji (są potencjalnie najbardziej szkodliwe).
Potencjalnymi klientami programy APAKT mogą być: dostawcy internetu, duże portale, policja, biegli sądowi, a także zagraniczne instytucje zajmujące się usuwaniem z sieci treści o charakterze pedofilskim. APAKT radzi sobie z wykrywaniem pedofilii na wideo i zdjęciach, a także w tekstach. Obecnie obsługuje on jedynie język polski, jednakże wykorzystane w nim m.in. model RoBERTa czy wektory StyloMetrix dostępne są w języku angielskim oraz ukraińskim.
Projekt jest finansowany z grantu przyznanego przez Narodowe Centrum Badań i Rozwoju.
Co zrobiliśmy?
Do tej pory opracowaliśmy szczegółową koncepcję projektu, w tym wymagania biznesowe, diagramy i schematy odzwierciedlające założenia projektu, a także:
- zbudowaliśmy środowisko badawcze wraz z repozytorium danych;
- opracowaliśmy ramy prawne konieczne ze względu na wrażliwość analizowanych treści;
- opracowaliśmy definicje klas materiałów związanych z materiałami CSAM oraz adnotacje;
- przeprowadziliśmy warsztaty psychologiczne dla wszystkich członków zespołu projektowego;
- zgromadziliśmy i sklasyfikowaliśmy materiały neutralne;
- zgromadziliśmy materiały przedstawiające seksualne wykorzystanie osób małoletnich (CSAM) i opracowaliśmy dane pozyskane z Prokuratury Krajowej;
- zrealizowaliśmy zadania naukowe w dziedzinie biometrii i inteligencji maszynowej oraz uczenia maszynowego w analizie tekstów.
O projekcie w prasie:
“AI wspomoże moderatorów w blokowaniu nielegalnych treści” w Dziennik Gazeta Prawna