Kilka krajowych organów ochrony danych osobowych w UE oraz instytucji unijnych opublikowało wytyczne dotyczące generatywnej AI (prywatność, bezpieczeństwo, zarządzanie i wykorzystanie w miejscu pracy). Przykłady obejmują: Europejska Rada Ochrony Danych (EDPB), Biuro Komisarza ds. Informacji (Wielka Brytania), CNIL (Francja), IMY (Szwecja) oraz inne różne krajowe organy ochrony danych i organy nadzorcze. Opublikowano dokumenty dyskusyjne lub praktyczne porady dotyczące szkolenia modeli, anonimizacji i wykorzystania w miejscu pracy.

Wytyczne wskazują, że w miarę jak narzędzia generatywnej AI stają się coraz bardziej zintegrowane z codziennymi procesami pracowników, ich użycie powinno być oceniane nie tylko pod kątem efektywności i szybkości, ale także z perspektywy ochrony danych osobowych, bezpieczeństwa informacji, ochrony tajemnic handlowych, jakości decyzji i zarządzania korporacyjnego.

Shadow AI: rosnące ryzyko niekontrolowanego użycia w organizacjach

Jednym z kluczowych pojęć podkreślonych w wytycznych jest „Shadow AI”. Termin ten odnosi się do użycia narzędzi generatywnej AI przez pracowników w procesach biznesowych bez wiedzy lub kontroli organizacji. Takie niekontrolowane użycie może prowadzić do ryzyk, szczególnie w zakresie odpowiedzialności, ochrony tajemnic handlowych i bezpieczeństwa informacji, w tym danych osobowych.

Wyobraźmy sobie liderkę HR, która rozesłała notatkę na dwóch kanałach Slack: „Narzędzie do burzy mózgów w marketingu – darmowe podpowiedzi na pomysły kampanii. Wypróbujcie i podzielcie się ulubioną podpowiedzią”. Link prowadził do czystej, prostej strony oferującej skategoryzowane pakiety podpowiedzi i radosny widget czatu, który pytał o branżę zespołu i największe wyzwanie „aby podpowiedzi lepiej pasowały.” Podekscytowani młodsi pracownicy wklejali wewnętrzne briefy kampanii i dane do czatu, aby otrzymać dostosowane podpowiedzi. W ciągu kilku tygodni kalendarz marketingowy wypełnił się pomysłami, które niemal niesamowicie pasowały do planów firmy na następny kwartał.

Strona rejestrowała każdą przesłaną podpowiedź i załączone pliki, a następnie przesyłała te dane do wewnętrznego pulpitu analitycznego używanego do sesji strategicznych konkurencji. Skutki można sobie wyobrazić: prewencyjna kampania konkurencji, która podcięła planowane wprowadzenie produktu na rynek.

Z pozoru niewinne narzędzia jako zagrożenia dla poufnych informacji

Takich przykładów jest cała masa. Nawet z pozoru bezpieczne, niewinne narzędzia stanowią zagrożenie dla poufnych informacji. Inna historia – młodszy analityk, był przytłoczony konwersją chaotycznego eksportu danych na temat klientów na czysty plik CSV do kwartalnego przeglądu budżetu.

Wykorzystał więc darmowy ChatGPT na jakimś linku do przeformatowania tabeli. Wystarczyło wkleić tabelę zawierającą nazwiska, wartości kontraktów, e-maile kontaktowe klientów i rodzaje usług – informacje, które uznał za nieszkodliwe i przeznaczone wyłącznie do użytku wewnętrznego. Usługa zwróciła perfekcyjnie sformatowany plik CSV w ciągu kilku sekund.

W następnym tygodniu konkurencyjna firma wysłała e-mail do jednego z klientów, odnosząc się do wyjątkowo wysokich płatności, które klient ponosi za usługi tego typu. Klient zadzwonił, aby zapytać, dlaczego i w jaki sposób informacje o płatności zostały ujawnione.

Niewinnie wyglądająca usługa spowodowała wyciek wartości kontraktów i innych wrażliwych danych handlowych do usługi poza kontrolą firmy, tworząc ryzyko zgodności i narażenie na szwank reputacji. Dzieje się to w tysiącach lub milionach firm każdego dnia. Przydatne narzędzia mogą być pułapkami – nigdy nie należy wklejać tajemnic do nieznanych usług (i znanych również), nawet gdy brakuje czasu. To podejście sugeruje, że firmy powinny skupić się nie tylko na tym, czy AI jest używana, ale także na tym, które narzędzia są używane, przez kogo, do jakich celów i jakie kategorie danych są zaangażowane.

Ryzyka związane z danymi osobowymi, tajemnicami handlowymi i wrażliwymi informacjami

Niekontrolowane użycie narzędzi generatywnej AI może prowadzić do znaczących ryzyk nie tylko w odniesieniu do danych osobowych, ale także w zakresie tajemnic handlowych, praw własności intelektualnej i innych wrażliwych informacji korporacyjnych. Udostępnianie materiałów takich jak kod źródłowy, projekty produktów, strategie biznesowe, korespondencja wewnętrzna, dane zasobów ludzkich i pliki klientów zewnętrznym narzędziom AI może osłabić kontrolę organizacyjną nad takimi informacjami.

Opublikowane wytyczne zalecają anonimizację/pseudoanonimizację tam, gdzie to możliwe. Pracownicy nie powinni w ogóle podawać identyfikowalnych danych w podpowiedziach. Niektóre przypadki (ale nie na poziomie pracownika) wymagałyby identyfikowalnych danych do poprawnego działania (np. spersonalizowana obsługa klienta, obsługa spraw HR, wykrywanie oszustw, porady medyczne lub prawne związane z osobą). Anonimizacja i pseudoanonimizacja muszą usunąć wszystkie dane osobowe, zachowując kontekst potrzebny do uzyskania dokładnych i istotnych wyników.

Pracownicy powinni uwzględnianiać w podpowiedziach lub przesyłanych danych wyłącznie tych, które są ściśle niezbędne do wykonania zadania. Dobrym podejściem jest wdrożenie kontroli na poziomie podpowiedzi (np. blokowanie dostępu do części danych) i ograniczeń opartych na rolach, aby pracownicy nie mogli przesyłać niepotrzebnych danych np. osobowych. Należy wyraźnie zabronić wprowadzania wrażliwych kategorii (dane osobowe specjalnej kategorii, tajemnice handlowe, kod źródłowy, nieopublikowane projekty, bazy danych klientów) do modeli zewnętrznych.

Generatywna AI – potężne narzędzie do szpiegowania

W przypadku niewłaściwego użycia generatywna AI może działać jak potężne narzędzie do nadzoru i szpiegowania. Pracownicy wklejający poufne pliki lub podpowiedzi z identyfikatorami osobowymi do zewnętrznych modeli mogą ujawniać tajemnice handlowe i dane osobowe. Modele trenowane lub dostrajane na zebranych danych wejściowych mogą nieumyślnie zachować lub ujawnić dalej wrażliwe informacje.

Złośliwe podpowiedzi mogą skłonić modele do ujawnienia danych treningowych lub wywnioskowania wrażliwych atrybutów z danych wejściowych. Zintegrowani agenci AI mogą dodatkowo nieustannie analizować komunikację lub dokumenty, tworząc profilowanie bez właściwego powiadomienia lub podstawy prawnej.

Mieliśmy pracowników, którzy używali atrakcyjnych darmowych narzędzi do podpowiedzi, aby szybko rozwiązywać zadania w pracy, ale te strony zbierały wrażliwe dane strategiczne i osobowe, które później wykorzystywali konkurenci lub strony trzecie.

Ale wyobraźmy sobie inną sytuację – wielu pracowników w różnych firmach wkleja różne zestawy danych wrażliwych (wizyty lekarskie, leki, zakupy spożywcze, podróże) do tego samego popularnego narzędzia, używając wspólnego identyfikatora, co umożliwiło usłudze połączenie tych danych wejściowych w jeden, identyfikowalny profil. To nie jest realistyczne? A co większość z nas robi w ChatGPT lub Claude?

Ta agregacja stwarza naruszenie prywatności i bezpieczeństwa z poważnymi ryzykami ponownej identyfikacji. Małe sygnały zbierane z różnych miejsc – nie wiadomo jak kiedyś zostaną wykorzystane. A pytanie brzmi, jak bardzo możemy ufać usługom takim jak ChatGPT lub Claude, nie wspominając o Google czy Microsoft.

Narzędzia generatywnej AI szeroko stosowane bez kontroli, mogą nieumyślnie działać jako systemy agregacji i profilowania, przekształcając wiele małych, pozornie nieszkodliwych danych wejściowych w szczegółowe, identyfikowalne profile użytkowników. Powinniśmy traktować punkty wprowadzania podpowiedzi jako potencjalne wektory zbierania danych (i to nawet niezależnie od dostawcy) i egzekwować ścisłe polityki, narzędzia wewnętrzne do anonimizacji i monitorowanie zachowań, aby zapobiec identyfikacji i niewłaściwemu wykorzystaniu danych z wprowadzanych źródeł.

Chyba najlepiej mimo wszystko używać modeli prywatnych i rozwiązań on-premise. Dotyczy to zarówno modeli GPT jak i baz danych. Dlatego lokalne projekty i modele typu Bielik AI w Polsce mają sens pod warunkiem, że nie będą osadzone w chmurze Google, Microsoft czy AWS :/ To jedyne zdrowe podejście.