Polish Large Language Model (PLLuM)
Innowacyjny duży polski model językowy dla sektora publicznego i prywatnego
Wyzwanie
Projekt PLLuM (Polish Large Language Model) to inicjatywa mająca na celu stworzenie polskiego dużego modelu językowego zgodnie z założeniami odpowiedzialnego rozwoju sztucznej inteligencji. Model będzie w pełni otwarty i darmowy, a przyjęty model licencjonowania umożliwi jego wdrożenie nie tylko w administracji publicznej, lecz także w biznesie. Projekt nie ogranicza się jednak do budowy modelu. Model PLLuM będzie wzbogacony będzie o różne procesy asystujące, takie jak dostosowanie do preferencji czy korekta wyjścia. Utworzony w projekcie ekosystem do uczenia i ewaluacji LLM-ów może posłużyć do budowy kolejnych modeli językowych. Dodatkowym rezultatem projektu będzie prototyp inteligentnego asystenta wspomagającego pracę administracji publicznej.
Istnieje wiele sposobów wsparcia naszej inicjatywy. Obecnie szczególnie zachęcamy do kontaktu w sprawie przekazania danych tekstowych do treningu modelu. Prosimy o wypełnienie formularza kontaktowego na oficjalnej stronie PLLuM.
Co zrobiliśmy?
PLLuM stanowi wyjątkowe połączenie sił czołowych polskich instytucji naukowych, skupiając ekspertów i ekspertki z różnych dziedzin. Realizowany jest od 22 stycznia do końca grudnia 2024 roku w konsorcjum sześciu jednostek – Politechniki Wrocławskiej (lider), Instytutu Podstaw Informatyki PAN, Instytutu Slawistyki PAN, Naukowej i Akademickiej Sieci Komputerowej, Ośrodka Przetwarzania Informacji oraz Uniwersytetu Łódzkiego – na zlecenie Ministerstwa Cyfryzacji.
Prace obejmują:
- Pozyskiwanie zróżnicowanych danych językowych oraz opracowanie na ich podstawie wysokiej jakości korpusów do treningu i dostrajania modelu.
- Przeprowadzenie treningu dużego modelu językowego dla języka polskiego.
- Dostrojenie modelu na autorskich zbiorach instrukcji.
- Wychowanie modelu na bazie autorskich zbiorów preferencji.
- Opracowanie modułu korekty wyjścia, który poprawi jakość odpowiedzi modelu.
- Zaprojektowanie wirtualnego asystenta wspomagającego administrację publiczną.
Model udostępniony zostanie w po zakończeniu projektu w grudniu 2024 roku.