Polish Large Language Model (PLLuM)
Innowacyjny duży polski model językowy dla sektora publicznego i prywatnego
Wyzwanie
Projekt PLLuM (Polish Large Language Model) to inicjatywa mająca na celu stworzenie otwartego i odpowiedzialnego polskojęzycznego modelu językowego. Dążymy do zapewnienia wsparcia innowacji w sektorze publicznym i gospodarczym poprzez rozwój narzędzi, takich jak inteligentny asystent dla administracji. Pracujemy nad zebraniem i opracowaniem obszernego zbioru danych w języku polskim. Proces ten odbywa się zgodnie z wytycznymi Krajowego Centrum Doskonałości Danych. Nasz projekt umożliwi dostęp do modelu za pośrednictwem otwarto-źródłowej licencji oraz interfejsów programistycznego (API) i graficznego (GUI), co pozwoli na praktyczne wykorzystanie w administracji publicznej, np. w postaci prototypowego inteligentnego asystenta. Dbamy o to, aby nasz model był bezpieczny i wolny od treści szkodliwych czy nieprawdziwych, co jest kluczowe przy jego zastosowaniu w sektorze publicznym.
Istnieje wiele sposobów wsparcia naszej inicjatywy. Obecnie szczególnie zachęcamy do kontaktu w sprawie przekazania danych tekstowych do treningu modelu. Prosimy o wypełnienie formularza kontaktowego na oficjalnej stronie PLLuM.
Co zrobiliśmy?
Projekt PLLuM stanowi wyjątkowe połączenie sił czołowych polskich instytucji naukowych, skupiając ekspertów z różnych dziedzin w celu stworzenia przełomowego modelu językowego. W skład konsorcjum wchodzą Politechnika Wrocławska (lider projektu), NASK – Państwowy Instytut Badawczy, Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki Polskiej Akademii Nauk, Uniwersytet Łódzki oraz Instytut Slawistyki Polskiej Akademii Nauk. Ta współpraca naukowa łączy różnorodne kompetencje i pasje, tworząc solidną podstawę dla rozwoju AI w Polsce.
Projekt realizowany jest w roku 2024. W ciągu tych 12 miesięcy:
- Opracujemy plan realizacji budowy dużego otwartego bazowego modelu językowego dla języka polskiego. Powstanie zbiór zasobów językowych, w tym dane z rządowej informacji publicznej.
- Zbudujemy korpus danych językowych niezbędnych do bazowego treningu i dostrajania naszego modelu. Prace obejmą stworzenie systemu do zarządzania danymi, w tym korpus danych językowych spełniający parametry wymagane do efektywnego treningu.
- Przeprowadzimy bazowy trening dużego modelu językowego dla języka polskiego, dostosowując go do szeregu zadań. Efektem będzie wytrenowana sieć neuronowa.
- Rozwiniemy model dialogowy przez uczenie ze wzmocnieniem, wykorzystując reakcje użytkowników. Efektem będzie ulepszony model i system informatyczny.
- Zbudujemy moduł korekty wyjścia dla dużego dialogowego modelu językowego, który poprawi jakość jego odpowiedzi. Prace zakończą się stworzeniem systemu informatycznego.