StyloMetrix - klasyfikacja oparta na interpretowalnej stylometrii
Gramatyka ma nie tylko znaczenie dla języka - w gramatyce nierzadko kryje się znaczenie tekstu!
Wyzwanie
Metod wykrywania konkretnych treści, w tym szkodliwych, jest już wiele, aczkolwiek w większości operują one na warstwie semantycznej tekstu; poza tym wielkie modele, takie jak transformery, wciąż pozostają w dużej mierze niewyjaśnione. Na bazie eksperckiej wiedzy w zakresie lingwistyki i wieloletnich doświadczeń w analizie i interpretacji tekstu chcieliśmy opracować model interpretowalnej statystycznej reprezentacji wektorowej, który pozwala m.in. na reprezentację warstwy gramatycznej.
Oprócz zaskakująco wysokich wyników klasyfikacji opartej wyłącznie na gramatyce, takie podejście oferuje szereg innych zalet: w sposób interpretowalny pozwala przedstawić strukturę gramatyczną tekstu i jej cechy dystynktywne bez konieczności obcowania z oryginalną treścią (co w przypadku pracy z treściami o charakterze szkodliwym jest sporą zaletą) oraz wyjaśnić model.
Co zrobiliśmy?
StyloMetrix oblicza statystyki lingwistyczne dokumentów w języku polskim, angielskim i ukraińskim. Oferuje znormalizowane, interpretowalne reprezentacje wektorowe całych dokumentów, niezależnie od ich długości. Wektory StyloMetrix mogą być wejściem do modeli uczenia maszynowego lub źródłem informacji do własnych badań korpusu. Interfejs umożliwia własny wybór grup metryk, które mają wejść w skład wektora, dzięki czemu możemy dopasować zbiór cech do konkretnego typu zadania lub korpusu.
Wyjaśnialność modelu oznacza tu zarówno możliwość wizualizacji konkretnych cech wektora – które części tekstu są reprezentowane w jaki sposób, jak i wyjaśnialność decyzji modelu. Biblioteki XAI, takie jak dalex czy PyArtemis, pokazują wartości Shapleya czy interakcje najważniejszych cech, które tutaj przekładają się bezpośrednio na zrozumiałe wzorce gramatyczne. W ten sposób oprócz klasyfikacji zyskujemy też nową wiedzę na temat klasyfikowanego tekstu – w zakresie charakterystycznych dla niego elementów stylistyki. Ponadto wektor StyloMetrix może być traktowany jako narzędzie do stylistycznego finetuningu modeli typu BERT. Wstępne eksperymenty pokazały, że podejście hybrydowe podnosi skuteczność transformera lub przyśpiesza proces jego uczenia.
StyloMetrix może służyć do analizy wzorców stylistycznych tekstów czy dokumentów o różnej formie, tematyce (łatwiej się generalizuje, co jest istotne przy nowych, nieznanych wcześniej tematach), stylu czy wydźwięku. Obecnie dostępny jest dla języka polskiego, angielskiego oraz ukraińskiego. W przygotowaniu wersja rosyjska i niemiecka.
Repozytorium biblioteki na GitHub – StyloMetrix