pllum_www_sci

PLLuM_www_SCI

Polish Large Language Model (PLLuM)

img_20241005_033259723

IMG_20241005_033259723

projekty_stylometrix_ikona-2

Projekty_StyloMetrix_ikona

Dr Agnieszka Karlińska

dr Agnieszka Karlińska

Challenge
 
The PLLuM (Polish Large Language Model) project aims to create a Polish large language model in line with the principles of responsible AI development. The model is fully open and free, and the licensing system will allow its implementation not only in public administration, but also in business. However, the project goes beyond the creation of the model. PLLuM will be enriched with various auxiliary processes, such as preference adaptation and output correction. The ecosystem created within the project for training and evaluating LLMs can serve as a foundation for building future language models. An additional outcome of the project will be a prototype of an intelligent assistant to support the Polish public administration.

Projekt PLLuM (Polish Large Language Model) to inicjatywa mająca na celu stworzenie polskiego dużego modelu językowego zgodnie z założeniami odpowiedzialnego rozwoju sztucznej inteligencji. Model jest w pełni otwarty i darmowy, a przyjęty model licencjonowania umożliwi jego wdrożenie nie tylko w administracji publicznej, lecz także w biznesie. Projekt nie ogranicza się jednak do budowy modelu. Model PLLuM będzie wzbogacony będzie o różne procesy asystujące, takie jak dostosowanie do preferencji czy korekta wyjścia. Utworzony w projekcie ekosystem do uczenia i ewaluacji LLM-ów może posłużyć do budowy kolejnych modeli językowych. Dodatkowym rezultatem projektu będzie prototyp inteligentnego asystenta wspomagającego pracę administracji publicznej.

The PLLuM project is a unique collaboration between leading Polish scientific institutions, bringing together experts from different fields. It was carried out from January 22 to December 2024 by a consortium of six institutions: Wroclaw University of Technology (project leader), NASK – National Research Institute, the Information Processing Center – National Research Institute (OPI PIB), the Institute of Computer Science Foundations of the Polish Academy of Sciences, the University of Lodz and the Institute of Slavic Studies of the Polish Academy of Sciences – under the mandate of the Ministry of Digital Affairs.
 
The work included:
 

<ol>
<li>Collecting diverse language data and creating high-quality corpora for model training and fine-tuning.</li>
<li>Training a large language model for the Polish language.</li>
<li>Fine-tuning the model using original instruction datasets.</li>
<li>Aligning the model based on original preference datasets.</li>
<li>Developing an output correction module to improve the quality of the model&#8217;s responses.</li>
<li>Designing a virtual assistant to support public administration.</li>
</ol>
 
The model has been made available at the end of the project in December 2024. We describe the project&#8217;s results on its website: <a href="https://pllum.org.pl/blog/posts/zakonczenie-projektu-pllum">https://pllum.org.pl/blog/posts/zakonczenie-projektu-pllum</a>.

What have we done?

PLLuM stanowi wyjątkowe połączenie sił czołowych polskich instytucji naukowych, skupiając ekspertów i ekspertki z różnych dziedzin. Realizowany był od 22 stycznia do końca grudnia 2024 roku w konsorcjum sześciu jednostek – Politechniki Wrocławskiej (lider), Instytutu Podstaw Informatyki PAN, Instytutu Slawistyki PAN, Naukowej i Akademickiej Sieci Komputerowej, Ośrodka Przetwarzania Informacji oraz Uniwersytetu Łódzkiego – na zlecenie Ministerstwa Cyfryzacji.
 
Prace objęły:

<ol>
<li>Pozyskiwanie zróżnicowanych danych językowych oraz opracowanie na ich podstawie wysokiej jakości korpusów do treningu i dostrajania modelu.</li>
<li>Przeprowadzenie treningu dużego modelu językowego dla języka polskiego.</li>
<li>Dostrojenie modelu na autorskich zbiorach instrukcji.</li>
<li>Wychowanie modelu na bazie autorskich zbiorów preferencji.</li>
<li>Opracowanie modułu korekty wyjścia, który poprawi jakość odpowiedzi modelu.</li>
<li>Zaprojektowanie wirtualnego asystenta wspomagającego administrację publiczną.</li>
</ol>
Model został udostępniony po zakończeniu projektu w grudniu 2024 roku. Jego wyniki opisujemy na stronie: <a href="https://pllum.org.pl/blog/posts/zakonczenie-projektu-pllum">https://pllum.org.pl/blog/posts/zakonczenie-projektu-pllum</a>.

Polish Large Language Model (PLLuM)

Wyzwanie

Co zrobiliśmy?