Safe AI – Czy AI może być bezpieczna i wiarygodna?
Naukowcy z Zakładu Bezpieczeństwa i Przejrzystości Sztucznej Inteligencji rozpoczęli realizację projektu SAFEAI pod kierownictwem dr. inż. Sebastiana Cygerta. Celem projektu jest opracowanie nowych metod zapewniania bezpieczeństwa, przejrzystości oraz rzetelnej ewaluacji dużych modeli, które coraz szerzej wykorzystywane są w sektorze publicznym, przemyśle i usługach.

Sztuczna inteligencja staje się dziś jednym z kluczowych czynników transformacji cyfrowej, wchodząc w kolejne obszary życia gospodarczego, społecznego i publicznego. Systemy oparte na dużych modelach językowych (LLM) są wdrażane w przemyśle, administracji, usługach profesjonalnych, edukacji czy ochronie zdrowia. Dynamiczny rozwój tych technologii otwiera nowe możliwości automatyzacji, analizy danych oraz personalizacji usług, ale jednocześnie generuje istotne wyzwania związane z bezpieczeństwem, przejrzystością i wiarygodnością modeli AI. Właśnie tym zagadnieniom poświęcony jest projekt SAFEAI realizowany w NASK.
Jawność danych treningowych
Jednym z kluczowych wyzwań jest brak przejrzystości dotyczącej danych treningowych. Wiele modeli powstaje w procesach, w których pochodzenie, charakter i zgodność prawna danych pozostają nieujawnione. Utrudnia to ocenę ryzyka związanego z prywatnością, prawami autorskimi oraz możliwością wykorzystania w treningu informacji, które nie powinny się tam znaleźć — na przykład danych licencjonowanych, testowych czy o niejasnym statusie prawnym. W projekcie SAFEAI opracowujemy metody wykrywania przecieków danych, pozwalające ustalić, czy określone treści zostały użyte do treningu modelu niezgodnie z zasadami.
Bezpieczeństwo generacji
Drugim obszarem ryzyka jest bezpieczeństwo generowanych treści. Modele generatywne mogą produkować materiały szkodliwe, niebezpieczne lub niezgodne z prawem. W projekcie rozwijamy metody sterowania modelami oraz tzw. modele guardowe — wyspecjalizowane systemy kontrolujące wyjście z modelu generatywnego i zapobiegające emisji treści niepożądanych. Celem jest zwiększenie odporności modeli na próby obchodzenia zabezpieczeń oraz poprawa bezpieczeństwa ich stosowania w praktyce.
Rzetelna ewaluacja modeli AI
Trzecim filarem projektu jest rzetelna i odporna na kontaminację ewaluacja modeli AI. Opracowujemy metody systematycznego audytu, które pozwalają wykrywać ukryte manipulacje oraz identyfikować obszary, w których model zachowuje się nieprzewidywalnie lub niezgodnie z oczekiwaniami. Równolegle rozwijamy narzędzia testowania odzwierciedlające realistyczne warunki użycia, ponieważ wiele istniejących benchmarków utraciło wiarygodność wskutek wcześniejszego kontaktu modeli z danymi testowymi, co prowadzi do sztucznie zawyżonych wyników.
Rezultaty projektu
Projekt SAFEAI jest realizowany przy aktywnej współpracy z międzynarodowymi ekspertami oraz ośrodkami badawczymi. Członkowie zespołu uczestniczą m.in. w programach Astra Fellowship czy MARS Programme (Mentorship for Alignment Researchers), co umożliwia wymianę wiedzy z badaczami z czołowych instytucji zajmujących się bezpieczeństwem modeli AI.
Równocześnie projekt zakłada opracowanie nowych metod i narzędzi, które będą udostępniane społeczności naukowej w modelu open‑source, wspierając rozwój bezpiecznej i transparentnej sztucznej inteligencji. Wyniki badań będą kierowane do publikacji na wiodących konferencjach rangi CORE A/A*, takich jak NeurIPS, ICLR, ICML, ACL.