Definicja danych osobowych na gruncie RODO

Zgodnie zart. 4 pkt 1) RODO:

„dane osobowe” oznaczają informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej („osobie, której dane dotyczą”); możliwa do zidentyfikowania osoba fizyczna to osoba, którą można bezpośrednio lub pośrednio zidentyfikować, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej;

 

Definicja danych osobowych na gruncie RODO jest szeroka. W branży internetowej, szczególne znaczenie ma ocena, czy identyfikatory generowane przez urządzenia, aplikacje, narzędzia i protokoły stanowią dane osobowe. Identyfikatory internetowe w sytuacji, gdy samoistnie nie pozwalają na identyfikację osoby fizycznej, nie stanowią danych osobowych. Identyfikatory te dopiero w połączeniu z innymi unikatowymi identyfikatorami (np. ID użytkownika z systemu autoryzacyjnego administratora danych) lub innymi informacjami pozwalającymi na identyfikację danej osoby fizycznej, stanowić będą dane osobowe.

Test

Aby ocenić czy określone dane stanowią dane osobowe zalecane jest przeprowadzenie testu przez administratora danych zgodnie z motywem 26 Preambuły RODO:

Aby stwierdzić, czy dana osoba fizyczna jest możliwa do zidentyfikowania, należy wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby (w tym wyodrębnienie wpisów dotyczących tej samej osoby), w stosunku do których istnieje uzasadnione prawdopodobieństwo, iż zostaną wykorzystane przez administratora lub inną osobę w celu bezpośredniego lub pośredniego zidentyfikowania osoby fizycznej. Aby stwierdzić, czy dany sposób może być z uzasadnionym prawdopodobieństwem wykorzystany do zidentyfikowania danej osoby, należy wziąć pod uwagę wszelkie obiektywne czynniki, takie jak koszt i czas potrzebne do jej zidentyfikowania, oraz uwzględnić technologię dostępną w momencie przetwarzania danych, jak i postęp technologiczny.  

 

Konkretna informacja stanowi dane osobowe określonej osoby, jeżeli administrator danych ma możliwość powiązania tej konkretnej informacji z konkretną osobą przy uwzględnieniu takich czynników jak koszt i czas potrzebny do zidentyfikowania danej osoby, oraz technologia dostępna w momencie przetwarzania danych i postęp technologiczny.

O zakwalifikowaniu informacji do kategorii danych osobowych powinny decydować kryteria oceny z uwzględnieniem wszelkich informacji mogących posłużyć do identyfikacji osoby. W związku z tymdane zapisane w plikach cookies nie zawsze będą danymi osobowymi.Potwierdza to także motyw 30 Preambuły RODO:

 

Osobom fizycznym mogą zostać przypisane identyfikatory internetowe – takie jak adresy IP, identyfikatory plików cookie – generowane przez ich urządzenia, aplikacje, narzędzia i protokoły, czy też inne identyfikatory, generowane na przykład przez etykiety RFID. Może to skutkować zostawianiem śladów, które w szczególności w połączeniu z unikatowymi identyfikatorami i innymi informacjami uzyskiwanymi przez serwery mogą być wykorzystywane do tworzenia profili i do identyfikowania tych osób.

 

Pliki cookies, które dostosowują wygląd strony internetowej od pierwszej wizyty i wygasają stosunkowo szybko, czy też są nośnikiem danych o lokalizacji dla celów wyświetlania ceny w odpowiedniej walucie niekoniecznie stanowią dane osobowe. Identyfikatory plików cookies będą stanowiły dane osobowe w sytuacji, w której administrator danych przetwarza dane w ramach dwóch odrębnych procesów biznesowych: w pierwszym zbierane są pliki cookies, a w drugim przetwarzane są informacje identyfikujące osobę fizyczną, takie jak adres e-mail czy imię i nazwisko użytkownika serwisu internetowego, a istnieje możliwość zestawienia informacji z tych dwóch procesów.Bez znaczenia pozostaje okoliczność, że administrator danych osobowych nie podjął środków w celu identyfikacji osoby, której dotyczą przetwarzane przez niego informacje (nie zestawił tych danych) – jeżeli tylko takie środki były dozwolone przez prawo, a ich podjęcie leżało w zakresie możliwości administratora danych. Podobnie, identyfikatory plików cookies będą stanowiły dane osobowe w razie połączenia tych danych z danymi transakcyjnymi umożliwiającymi identyfikację konkretnej osoby.

Zakres zastosowania RODO

Odpowiadając na pytanie, czy konkretna informacja stanowi dane osobowe należy pamiętać o następujących zasadach:

  • dane zanonimizowane nie podlegają RODO i mogą być przetwarzane mimo zmiany celu przetwarzania,
  • dane zagregowane, które nie odnoszą się do jednej osoby, ale do całej grupy osób nie stanowią danych osobowych, o ile nie można w takim agregacie danych zidentyfikować określonych osób fizycznych, których dane dotyczą. Na przykład informacja o lokalizacji (nazwie miasta użytkownika) nie będzie stanowić danych osobowych, jeżeli administrator nie dysponuje dodatkowymi informacjami, które mógłby powiązać z tą informacją.
  • spseudonimizowane dane stanowią dane osobowe na gruncie RODO,
  • wyłączeniem z RODO objęte są dane dotyczące osób prawnych.

 

Zanonimizowane dane osobowe

Definicja

Motyw 26 Preambuły RODO definiuje anonimizację w następujący sposób:

(…) Zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, czyli informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osób, których dane dotyczą, w ogóle nie można zidentyfikować lub już nie można zidentyfikować. Niniejsze rozporządzenie nie dotyczy więc przetwarzania takich anonimowych informacji, w tym przetwarzania do celów statystycznych lub naukowych.

 

Anonimizacja danych osobowych to trwałe i nieodwracalne przekształcenie danych osobowych, po którym nie można (w rozsądnym wymiarze czasowym) przyporządkować informacji określonej lub możliwej do zidentyfikowania osobie fizycznej za pomocą wszystkich możliwych środków, jakimi dysponuje administrator, podmiot przetwarzający lub osoba trzecia.Kluczową cechą anonimizacji jest jej nieodwracalność. Potwierdza to definicja z PN-ISO/IEC 29100: “anonimizacja jest procesem, w którym informacje umożliwiające identyfikację osoby są nieodwracalnie zmienione w taki sposób, aby nie istniała już możliwość bezpośredniego lub pośredniego zidentyfikowania podmiotu informacji umożliwiających identyfikację osoby przez administratora informacji umożliwiających identyfikację osoby działającego samodzielnie lub we współpracy z jakąkolwiek inną stroną.”

Główną korzyścią anonimizacji jest to, iżdane osobowe przestają być „danymi osobowymi” i tym samym przestają podlegać wymogom RODO. Takie dane mogą być dalej przetwarzane bez ograniczeń związanych z regulacjami o ochronie danych osobowych.

Techniki anonimizacji

Nie ma jednej najlepszej techniki anonimizacji, stąd podczas wyboru, należy uwzględnić 3 czynniki ryzyka mogące wpłynąć na skuteczność procesu anonimizacji:

  • możliwość wyodrębnienia (wydzielenia) informacji dotyczących zidentyfikowanej osoby fizycznej, które pozwalają na wydzielenie zapisów identyfikujących określoną osobę fizyczną w zbiorze,
  • możliwość tworzenia powiązań np. na podstawie analizy korelacji danych, prowadzących do przyporządkowania danych do określonej osoby fizycznej,
  • możliwość wnioskowania ze znacznym prawdopodobieństwem wartości danego atrybutu na podstawie innych atrybutów zbioru, prowadzącego do przyporządkowania danych do określonej osoby fizycznej.

 

Opierając się na wytycznych Grupy Roboczej Art. 29 zawartych w Opinii 05/2014 w sprawie technik anonimizacji, zaleca się stosowanie dwóch technik opartych na randomizacji i uogólnieniu.

  • Randomizacjazmienia prawdziwość danych w celu wyeliminowania ścisłego związku między danymi a konkretną osobą fizyczną. Dane charakteryzujące się wystarczającą nieprawidłowością nie pozwalają na określenie konkretnej jednej osoby. Jednak jeżeli dane dalej odnoszą się do jednej osoby, istnieje ryzyko wnioskowania, dlatego konieczne staje się skorzystanie z dodatkowych technik:
    • Dodanie zakłóceńpolega na modyfikacji atrybutów, które mogą mieć niekorzystny skutek dla poszczególnych osób fizycznych, w taki sposób, aby były one mniej dokładne, przy jednoczesnym zachowaniu ogólnej dystrybucji. Przykładowo, modyfikacja wieku pacjenta w przeprowadzanych badaniach klinicznych +/- 5 lat, skutecznie nie pozwoli osobie trzeciej na identyfikację osoby fizycznej.
    • Permutacjapolega na tasowaniu wartości atrybutów w tabelach, poprzez podstawianie wartości z jednego zapisu do innego zapisu – dane w zbiorze pozostają takie same, ale korelacja między wartościami i poszczególnymi osobami fizycznymi jest inna. Metodę tę stosuje się wtedy, gdy istotne jest zachowanie dokładnych atrybutów w zbiorze.
    • Prywatność różnicowajest stosowana w czasie rzeczywistym podczas generowania zanonimizowanego widoku danych, przy zachowaniu danych pierwotnych przez administratora. Korzyścią stosowania tej techniki jest fakt, że dane osobowe są udostępniane upoważnionym osobom trzecim w odpowiedzi na zapytanie, a nie przez udostępnianie całego zbioru.
  • Uogólnienielub osłabienie atrybutów poprzez zmianę zakresu lub rzędu wielkości może skutecznie uniemożliwić wyodrębnianie, jednak nie zabezpiecza przed tworzeniem powiązań i wnioskowaniem. Dla silniejszej gwarancji prywatności łączy się dodatkowe techniki:
    • Agregacja i k-anonimizacjama na celu uniemożliwienie wyodrębnienia poprzez zgrupowanie danych osoby z co najmniej k innymi osobami fizycznymi.
    • L-dywersyfikacjajest rozszerzeniem k-anonimizacji uniemożliwiającym ataki oparte na wnioskowaniu deterministycznym poprzez zadbanie, aby w każdej klasie równoważności każdy atrybut miał co najmniej l różnych wartości. Technika jest skuteczna, jeśli wartości atrybutów są równo rozmieszczone, w przeciwnym wypadku lub gdy atrybuty należą do małego zakresu wartości technika może nie zapobiec identyfikacji.

 

Poniższa przykładowa tabela wskazuje jakie techniki anonimizacji danych stosować w kontekście przetwarzania danych pracowników. Niewątpliwie wraz z postępem technologicznym techniki anonimizacji mogą ulec udoskonaleniu.

 

Pole Typ zmiany Technika
ID Pracownika Hashowanie SHA-2 z solą
Data Urodzin Wstawić losową datę z przedziału (1-2000) Randomizacja
Nazwisko panieńskie matki Usunąć Usunięcie rzadkich atrybutów
Pesel/Nip Usunąć Usunięcie rzadkich atrybutów
Adres email Zamienić na mail@iab.pl dla wszystkich Uogólnienie
Telefon Zamienić na losowy numer Randomizacja
Ulica Zamienić na jeden adres dla wszystkich pracowników Uogólnienie
Numer Budynku Mieszkania Zamienić na numer z zakresu 1-1000 Uogólnienie
Kod Pocztowy Zamienić na kod miasta wojewódzkiego Uogólnienie
Miasto Zamienić na miasto wojewódzkie Uogólnienie

 

Spseudonimizowane dane osobowe

Definicja

Zgodnie z art. 4 pkt 5) RODO:

„pseudonimizacja” oznacza przetworzenie danych osobowych w taki sposób, by nie można ich było już przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji, pod warunkiem, że takie dodatkowe informacje są przechowywane osobno i są objęte środkami technicznymi i organizacyjnymi uniemożliwiającymi ich przypisanie zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej.

 

Psuedonimizacja to środek zwiększający bezpieczeństwo przetwarzania danych osobowych. Zastosowanie tego zabezpieczenia powinno wynikać z analizy ryzyka dla systemu informatycznego uwzględniającej ryzyko naruszenia praw i wolności osoby fizycznej.

Pseudonimizacja to proces odwracalny, który polega na zastąpieniu jednego atrybutu innym atrybutem, co nadal umożliwia wyodrębnienie konkretnej osoby fizycznej i tworzenie w odniesieniu do tej osoby powiązań między różnymi zbiorami.Nie jest to jednak równoznaczne z anonimizacją, w związku z czym te dane dalej podlegają przepisom o ochronie danych osobowych.

RODO przewiduje następujące korzyści związane z pseudonimizacją:

  • pseudonimizacja stanowi środek zwiększający bezpieczeństwo przetwarzania danych osobowych. Zastosowanie tego zabezpieczenia powinno wynikać z analizy ryzyka dla systemu informatycznego uwzględniającej ryzyko naruszenia praw i wolności osoby fizycznej (Art. 32 ust. 1 lit. a)),
  • pseudonimizacja stanowi techniczny środek ochrony danych w fazie projektowania oraz domyślnej ochrony danych (Art. 25 ust. 1 RODO),
  • w razie wdrożenia odpowiednich zabezpieczeń, w tym ew. szyfrowania lub pseudonimizacji oraz pod warunkiem spełnienia pozostałych wymogów przewidzianych przez art. 6 ust. 4 RODO, dane osobowe mogą być przetwarzane w celu innym niż cel, dla którego dane osobowe zostały zebrane,
  • w razie naruszenia ochrony danych osobowych uprzednie wdrożenie pseudonimizacji może wiązać się z brakiem konieczności zawiadamiania osób, których dane dotyczą o takim naruszeniu (art. 34 RODO) ze względu na brak wysokiego ryzyka naruszenia ich praw lub wolności (np. w razie wycieku danych osobowych osoby nieuprawnione nie będą miały do tych danych osobowych dostępu ze względu na pseudonimizację). Ponadto, w pewnych okolicznościach uprzednie wdrożenie pseudonimizacji może wiązać się nawet z brakiem konieczności zgłaszania naruszenia do organu nadzorczego (art. 33 RODO) ze względu na małe prawdopodobieństwo, by naruszenie to skutkowało ryzykiem naruszenia praw lub wolności osób fizycznych,
  • pseudonimizacja jest istotnym zabezpieczeniem w razie przetwarzania danych osobowych do celów archiwalnych w interesie publicznym, do celów badań naukowych lub historycznych lub do celów statystycznych (Art. 89 ust. 1 RODO).

Jedną z głównych wartości pseudonimizacji jest możliwość bezpiecznego przekazania danych do systemów zewnętrznych. Zewnętrzne systemy nie mają możliwości zidentyfikowania konkretnych osób na podstawie takich danych.

Przykładowe techniki pseudonimizacji to:

  • Szyfrowanie z kluczem tajnym – dobry klucz daje dużą gwarancję bezpieczeństwa, jednak administrator może odszyfrować dane.
  • Funkcja skrótu – dla każdej wartości dodaje się stałej wielkości wynik, którego nie można odwrócić (często stosowana do przechowywania haseł). Technika podatna na złamanie atakiem siłowym przy znajomości treści podlegającej funkcji skrótu, np. próba pozyskania nieautoryzowanego dostępu poprzez wielokrotne (nawet do kilkudziesięciu tysięcy prób) sprawdzanie wszelkich możliwych kombinacji hasła.
  • Funkcja skrótu z dodaniem losowego ciągu znaków (ang. salt) ogranicza prawdopodobieństwo uzyskania wartości treści lub odczytania zasobu.
  • Funkcja skrótu z dodanym kluczem, który jest przechowywany – łatwiejsze odzyskanie treści lub odczytanie zasobu dla administratora, a trudne dla atakującego.
  • Szyfrowanie deterministyczne lub funkcja skrótu z kluczem, bez przechowywania klucza – pozwala ograniczyć ryzyko tworzenia powiązań między zbiorami przy zastosowaniu innych kluczy.
  • Tokenizacja, często stosowana w sektorze finansowym, polega na przypisaniu wartości, które nie zostały w sposób matematyczny uzyskane z danych pierwotnych, np. dla nr kart.

Wraz z postępem technologicznym i doświadczeniami administratorów danych oraz podmiotów przetwarzających powyższe techniki mogą ulec zmianie i udoskonaleniu.

 

Poszczególne techniki pseudonimizacji i anonimizacji wykazują różne podatności względem trzech czynników ryzyka. Tabela ocenia czy przy zastosowaniu danej przykładowej techniki dalej istnieje ryzyko wyodrębnienia, tworzenia powiązań lub wnioskowania.

Technika Wyodrębniania Tworzenia powiązań Wnioskowania
Pseudonimizacja Tak Tak Tak
Dodawanie zakłóceń Tak Być może nie Być może nie
Zastąpienie Tak Tak Być może nie
Agregacja lub k-anonimizacja Nie Tak Tak
L-dywersyfikacja Nie Tak Być może nie
Prywatność różnicowa Być może nie Być może nie Być może nie
Skracanie/Tokenizacja Tak Tak Być może nie

 

Mając to na uwadze i w zależności od rodzaju danych można podjąć decyzję o doborze właściwej techniki.

 

Tips & tricks:

  • W zależności od okoliczności konkretnego przetwarzania danych osobowych, ta sama kategoria danych (np. adres IP, identyfikator pliku cookie) może stanowić dane osobowe w rozumieniu RODO lub też nie. Z ostrożności zalecane jest, aby w przypadkach braku pewności, czy określona kategoria danych stanowi daną osobową także stosować do niej przepisy RODO,
  • Zalecane jest śledzenie standardów stosowanych technik anonimizacji i pseudonimizacji. Warto wziąć pod uwagę zastosowanie nowych technik lub podjąć odpowiednie działania w przypadku odkrycia nowych podatności,
  • Nie należy traktować pseudonimizacji równoważnie z anonimizacją. Anonimizacja jest nieodwracalna, a pseudonimizacja jest procesem możliwym do odwrócenia z wykorzystaniem dodatkowych informacji (np. tabeli przyporządkowań, kluczy szyfrujących, danych źródłowych itp.),
  • Dane osobowe spseudonimizowane, po usunięciu informacji pozwalającej na przyporządkowanie osoby fizycznej (np. wiersza tabeli przyporządkowań, kluczy szyfrujących, danych źródłowych itp.) można traktować jako zanonimizowane.