Wojna o dane i prywatność

Coraz częściej zastanawiamy się nad tym, czy mamy kontrolę nad danymi o naszej aktywności w sieci. Nasze obawy o to, w jaki sposób i przez kogo mogą być one wykorzystywane wzrosły zwłaszcza po ujawnieniu sprawy Cambridge Analytica. Firma ta pomagała Donaldowi Trumpowi zostać prezydentem USA – wykorzystując dane o użytkownikach Facebooka i algorytmy tworzące profile psychologiczne – co skończyło się przesłuchaniem Marka Zuckerberga przez komisję Senatu USA.

REKLAMA

Hoax Analytica

Od pewnego czasu pojawiają się opinie, że prezentacje Aleksandra Niksa, CEO Cambridge Analytica, były – delikatnie mówiąc – podkoloryzowaną wizją i obietnicą bez pokrycia opakowaną w naukową otoczkę i multimedialną oprawę (rys. 1). Wszystko po to, by przekonać polityków do skorzystania z usług jego firmy, która – jak sam przyznał – była po prostu agencją reklamową.

Rys. 1. Alexander Nix, CEO Cambridge Analytica, prezentuje działanie oferowanej przez jego firmę technologii. Źródło: npr.org

Faktycznie ani algorytmy Cambridge Analytica, ani posiadane przez nich dane, nie były w stanie osiągnąć większej precyzji profilowania i skuteczności reklam, niż standardowe kierowanie demograficzne i geolokalizacyjne, dostępne dla każdego reklamodawcy na Facebooku.
Uważa tak data scientist David Sumpter, który w swojej książce Osaczeni przez liczby podkreśla, że nawet jeśli z pewnych informacji z mediów społecznościowych można określić preferencje polityczne użytkownika, dotyczy to wyłącznie osób o silnie spolaryzowanych poglądach, którzy nie zmienią ich pod wpływem kampanii. Tymczasem w wyborach chodzi głównie o wyborców niezdecydowanych, na których poparcie może potencjalnie liczyć każdy z kandydatów.
Podobne wnioski można wyciągnąć z eksperymentu przeprowadzonego przez Larry’ego Kima, który pokazał, jak łatwo jest niewielką inwestycją dotrzeć z nieprawdziwą informacją do szerokiej grupy wyborców i manipulować ich emocjami, wykorzystując wyłącznie natywne metody targetowania reklam Facebooka.
Przypuszczalnie wielu z nas zetknęło się z firmami deklarującymi posiadanie technologii, która na podstawie kilku konwersji jest w stanie dokonać optymalizacji gwarantującej nadzwyczajną efektywność, a która w praktyce osiągała co najwyżej przeciętne wyniki. Mając takie doświadczenia, łatwo jest zrozumieć, co miał na myśli prof. Sumpter, pisząc „historia Cambridge Analytica to przede wszystkim opowieść o firmie przesadzającej, gdy mówi o tym, co potrafi zrobić przy pomocy danych”.

ePrivacy

Niezależnie od realnej skuteczności profilowania, kwestia tego, kto zbiera o nas dane nie powinna być nam obojętna. Każdego dnia śledzeni jesteśmy przez dziesiątki firm, których nazwy wielu z nas przypuszczalnie nic nie mówią (rys. 2).

Rys. 2. Każdego dnia odwiedzamy strony, na których śledzą nas dziesiątki firm przetwarzających dane i profilujących użytkownika do celów reklamowych

Problem ten został już dostrzeżony dawno, m.in. przez Unię Europejską, która już w 2002 r. wydała dyrektywę ePrivacy, która zagwarantowała nam prawo do kontroli nad naszymi danymi cyfrowymi. Konsekwencją jej nowelizacji z 2009 r. było pojawienie się na naszych stronach pasków cookie, których zadaniem było… nierobienie niczego. Pasek z informacją o „umieszczaniu na urządzeniu użytkownika identyfikatorów w postaci plików cookie lub innych podobnie działających technologii” mogliśmy zamknąć (lub nie). Niezależnie od tego, co zrobiliśmy, dane były przetwarzane jak dotychczas, a w nas narastała irytacja wywołana koniecznością zamykania wyskakujących okienek (rys. 3).

Rys. 3. Pasek informujący o stosowaniu plików cookie na stronie gov.pl, niezawierający przycisku rezygnacji ze śledzenia, podczas gdy kody śledzące uruchamiane są, jeszcze zanim użytkownik zapozna się z jego treścią, stawiając go przed faktem dokonanym

Wyrok TSUE

Pod koniec 2019 r. Trybunał Sprawiedliwości Unii Europejskiej wydał wyrok, który później, już w roku 2020 został usystematyzowany wytycznymi Europejskiej Rady Ochrony Danych, które określają, że zgoda na umieszczanie na urządzeniu użytkownika plików cookie nie może być domyślna. Zanim na urządzeniu użytkownika zostaną umieszczone ciasteczka, musimy mieć na to jego wyraźną zgodę, przy czym użytkownik powinien móc tę zgodę w każdej chwili w prosty sposób odwołać oraz od samego początku nie zgodzić się na śledzenie.
Dotychczasowe paski cookie musiały zostać zastąpione innymi, w których poza opcją „OK” znajdziemy również możliwość zmiany ustawień i niewyrażenia zgody na ciasteczka bądź wyrażenia zgody tylko na niektóre z nich (rys. 4).

Rys. 4. Zgoda opt-in na stronie www. Forma zgody odpowiada profilowi tego satyrycznego portalu. Po wybraniu „more options” uzyskujemy przyjazną dla użytkownika możliwość rezygnacji z poszczególnych plików cookie. Niektóre interpretacje wskazują jednak, że na tym ekranie powinien też być przycisk „brak zgody”, gdyż odmowa powinna być równie łatwa do wyrażenia, jak zgoda na śledzenie

Tego rodzaju funkcja jest bardziej skomplikowana, niż wcześniejszy „pasek cookie”, który składał się z dwóch linijek kodu – tym bardziej że dodatkowo powinniśmy prowadzić ewidencję udzielonych zgód. Realizację prawidłowego zbierania zgód ułatwiają platformy zarządzania zgodami (CMP, Consent Management Platforms). Wybór CMP na rynku jest obecnie bardzo szeroki. Wybierając platformę, warto zwrócić uwagę, na ile łatwa będzie integracja jej z Google Tag Managerem w trybie i czy dostępne są jej gotowe szablony.
Proponowana nowelizacja europejskiej regulacji e-Privacy, która weszła w ostatnią fazę procesu legislacyjnego, określa, że pomiar ruchu na stronie internetowej stanowi uzasadniony interes jej właściciela i tak długo, jak nie naraża to prywatności użytkownika, nie wymaga uzyskania zgody. Jeśli więc regulacja ta wejdzie w życie w proponowanym kształcie, nie będziemy musieli pytać o zgodę na uruchomienie śledzenia skuteczności ruchu (np. Google Analytics). Wciąż jednak będzie konieczna zgoda np. na remarketing. Niemniej obecnie wciąż musimy mieć zgodę na śledzenie dla celów statystycznych i analitycznych.

Consent Mode

Narzędzia Google również zostały dostosowane do nowej rzeczywistości, w której większa część użytkowników będzie miała możliwość zablokowania śledzenia. Aby je respektować, a jednocześnie umożliwić pomiary ruchu na stronie – Google wdraża tryb uzyskania zgody (Consent Mode) w Google Analytics i Google Ads.
Narzędzia te w przypadku użytkowników, którzy nie wyrazili zgody na śledzenie, uruchamiają się w trybie prywatnym. Dzięki temu wiadoma jest liczba użytkowników, którzy zgody nie wyrazili, a także znane są odwiedzane przez nich strony, choć już bez przypisania ich do konkretnego użytkownika – co pozwala na estymowanie liczby konwersji ze strony tych użytkowników (rys. 5).

Modelowanie konwersji na podstawie niepełnych danych będzie prawdopodobnie chlebem powszednim analityki przyszłości. Nie będzie to związane tylko z wymogami wynikającymi z ograniczeń prawnych, ale również z ograniczania i zaciemniania zbieranych przez nas danych przez dostawców technologii.

Intelligent Tracking Prevention

W 2017 r. firma Apple wzięła na celownik pliki cookie stron trzecich, upatrując w nich głównego zagrożenia dla prywatności użytkowników. Third party cookies, to te ciasteczka, które nasza strona umieszcza na urządzeniu użytkownika w imieniu stron trzecich, takich jak Google, Facebook czy inne systemy śledzące. W ramach Intelligent Tracking Prevention, przeglądarka Safari zaczęła stopniowo ograniczać ich czas życia, by ostatecznie całkowicie domyślnie zablokować ich obsługę.
W międzyczasie Facebook i Google wypracowały rozwiązania, które pozwoliły im kontynuować śledzenie bez 3rd party cookies. Skrypty śledzące tworzyły ciasteczka 1st party, a identyfikator odczytywany był z parametru dodawanego do linku, tzw. dekoracji linku. Od tego czasu, do każdego adresu URL klikniętego na Facebooku, doklejany jest identyfikator fbclid identyfikujący nie tylko klikniętą reklamę czy treść, ale przede wszystkim to, kto dany link kliknął.
W odpowiedzi na takie działania Apple zaczął również ograniczać czas życia plików 1st party, jeśli zostały stworzone przez skrypt i wiążą się z dekoracją linku. Obecnie po ciasteczkach Facebooka i Google’a umieszczanych w przeglądarce Safari po 7 dniach od wizyty użytkownika nie ma już śladu.

Server side tracking

W odpowiedzi na blokadę ciasteczek generowanych przez skrypty firma Google udostępniła w otwartej becie rozwiązanie Server-side Google Tag Managera. W odróżnieniu od tradycyjnego Managera Tagów, który uruchamia skrypty śledzące w przeglądarce, Server-side GTM zostawia na urządzeniu użytkownika jeden plik cookie, przy czym jest to ciasteczko „serwerowe”, w które przeglądarki nie ingerują, a cała komunikacja odbywa się między serwerami strony a serwerami systemów śledzących.
Rozwiązanie to pozwala odzyskać dużą ilość blokowanych danych. Doświadczenie pokazuje, że liczba użytkowników raportowanych jako powracający wzrasta o 70%, widzimy o 30% więcej interakcji na ścieżce, której długość w czasie zwiększa się nawet dwukrotnie. Nic dziwnego, bo dzięki temu rozwiązaniu możemy znów cieszyć się dwuletnim ciasteczkiem Google Analytics. W przypadku zastosowania śledzenia server-side dla Google Ads, liczba konwersji wzrasta nawet o 40% (rys. 6).

Rys. 6. Server-side Google Tag manager uruchamia skrypty śledzące bezpośrednio z serwera. W przeglądarce umieszczane jest ciasteczko serwerowe, w które przeglądarki nie ingerują

Dodatkowo, rozwiązanie to zwiększa bezpieczeństwo danych, bo ich transmisja odbywa się wyłącznie między serwerami (bez udziału przeglądarki), co również zwiększa odporność na blokowanie śledzenia przez adblocki.

PCM i Privacy Sandbox

W 2021 r. firma Apple zaproponowała protokół Private Click Management, który miał ograniczyć możliwość nieograniczonego śledzenia użytkowników. Choć oficjalnie Apple nie wymienia nazwy Facebooka, to właśnie on znalazł się na celowniku działań właściciela przeglądarki Safari.
Dołączając do linków identyfikator fbclid, Facebook umożliwia przekazanie do strony docelowej identyfikatora konkretnego użytkownika, a następnie nieograniczone zbieranie danych o jego aktywności na danej stronie, co może rodzić zagrożenia dla prywatności.
Inżynierowie Apple uznali, że należy uniemożliwić stronom www „przypisanie konwersji do kliknięcia reklamy w ramach śledzenia na masową skalę”. Jednocześnie zadeklarowali chęć „wspierania możliwości pomiaru skuteczności reklam”. Te dwa zdania są oczywiście sprzeczne, dlatego Apple proponuje kompromis. Śledzenie konwersji będzie możliwe, ale już nie tak granularnie i precyzyjnie, jak dotychczas.
Zgodnie z propozycją Apple, w miejsce identyfikatorów kliknięcia, miałby się pojawić atrybut linku zawierający 8-bitowy identyfikator źródła. Oznacza to możliwość śledzenia przez dany system maksymalnie 256 różnych źródeł ruchu: kampanii, reklam, słów kluczowych itp. Z kolei, aby nie dało się przesyłać dowolnej informacji ze strony, będziemy mogli utworzyć nie więcej niż 16 śledzonych akcji (konwersji), zapisanych w postaci 4-bitowego identyfikatora. Dodatkowo, aby nie dało się tego ominąć, wykorzystując timestamp jako pomocniczy identyfikator, informacje te będą przesyłane z losowym opóźnieniem między 24 a 48 godzin.
W wyniku update iOS 14.5, Facebook został zmuszony do zastosowania PCM w stosunku do tych użytkowników iPhone’ów, którzy nie wyrazili zgody na śledzenie przez aplikację.
Firma Google również zaczęła pracę nad podobnym rozwiązaniem, Privacy Sandbox, które ma nałożyć limit na ilość zbieranych informacji (privacy budget) przez przeglądarkę Chrome. Mimo pewnych opóźnień (wdrożenie przesunięto z 2022 na 2023 r.), również ta przeglądarka zakończy obsługę plików cookie stron trzecich, a w zamian wprowadzi mechanizm oparty na kohortach użytkowników, co pozwoli na prowadzenie skutecznych działań remarketingowych, zachowując jednak prywatność użytkownika. Wstępne badania wskazują, że technologii tej udało się utrzymać 95% skuteczności rozwiązań opartych na ciasteczkach.
Nie wiadomo jeszcze, jak daleko pójdzie zaciemnianie danych na potrzeby analityki, ale pewne jest, że w raportowanych danych będziemy musieli posiłkować się nie tylko pomiarami, ale również danymi modelowanymi. Posiadając ograniczone i fragmentaryczne informacje, systemy analityczne będą wyliczały najbardziej prawdopodobne wartości konwersji przypisanych do danego źródła, tak jak obecnie już to robią Google Ads i Facebook Ads.

Co teraz?

Niezależnie od tego, jak daleko pójdą ograniczenia w zbieraniu danych o użytkownikach, zarówno te wynikające z przepisów prawa, jak i zmian narzucanych przez dostawców technologii (Apple, Google), powinniśmy się do tych zmian dostosować.
Warto przede wszystkim wdrożyć rozwiązania server-side i przestać tracić dane na skutek ograniczania plików cookie przez przeglądarki. Czas najwyższy zacząć zbierać prawidłowe zgody na śledzenie, wdrażając platformę zarządzania zgodami użytkowników. I wreszcie, wdrożyć systemy śledzące w trybie consent mode, uwzględniającym preferencje użytkowników, a jednocześnie umożliwiającym modelowanie brakujących danych.