Automatyczne wyszukiwanie, analiza i klasyfikacja treści wysoce szkodliwych (APAKT)

Sztuczna inteligencja pomaga w moderacji internetowych treści - szybko i skutecznie klasyfikuje szkodliwe materiały i wspiera moderatorów w ich codziennej pracy

Wyzwanie

Zadaniem moderatorów sieci w Dyżurnet.pl, jednostce działającej w strukturze NASK PIB, jest weryfikacja nielegalnych treści zgłoszonych przez użytkowników lub algorytmy, w tym między innymi materiałów zawierających seksualne wykorzystanie dzieci (ang. CSAM, child sexual abuse material). Chyba nie trzeba nikogo przekonywać, jak ważne i jednocześnie trudne to zadanie. Z jednej strony chodzi o to, by zwielokrotnić efektywność i jak najszerzej ochronić potencjalnych odbiorców przed tego typu treściami. Z drugiej – ochronić również samych moderatorów narażonych przez wiele godzin dziennie na kontakt z tymi materiałami.

W projekcie APAKT razem z Politechniką Warszawską opracowujemy system, który ma wspomagać moderatorów poprzez automatyczne wyszukiwanie i wstępną klasyfikację podejrzanych materiałów. Będzie on jednocześnie proponować kolejność zgłoszeń tak, aby pierwsze były te, które wymagają najszybszej interwencji (są potencjalnie najbardziej szkodliwe).

Potencjalnymi klientami programy APAKT mogą być: dostawcy internetu, duże portale, policja, biegli sądowi, a także zagraniczne instytucje zajmujące się usuwaniem z sieci treści o charakterze pedofilskim. APAKT radzi sobie z wykrywaniem pedofilii na wideo i zdjęciach, a także w tekstach. Obecnie obsługuje on jedynie język polski, jednakże wykorzystane w nim m.in. model RoBERTa czy wektory StyloMetrix dostępne są w języku angielskim oraz ukraińskim.

Projekt jest finansowany z grantu przyznanego przez Narodowe Centrum Badań i Rozwoju.

Do tej pory opracowaliśmy szczegółową koncepcję projektu, w tym wymagania biznesowe, diagramy i schematy odzwierciedlające założenia projektu, a także:

zbudowaliśmy środowisko badawcze wraz z repozytorium danych;
opracowaliśmy ramy prawne konieczne ze względu na wrażliwość analizowanych treści;
opracowaliśmy definicje klas materiałów związanych z materiałami CSAM oraz adnotacje;
przeprowadziliśmy warsztaty psychologiczne dla wszystkich członków zespołu projektowego;
zgromadziliśmy i sklasyfikowaliśmy materiały neutralne;
zgromadziliśmy materiały przedstawiające seksualne wykorzystanie osób małoletnich (CSAM) i opracowaliśmy dane pozyskane z Prokuratury Krajowej;
zrealizowaliśmy zadania naukowe w dziedzinie biometrii i inteligencji maszynowej oraz uczenia maszynowego w analizie tekstów.

O projekcie w prasie:
“AI wspomoże moderatorów w blokowaniu nielegalnych treści” w Dziennik Gazeta Prawna