Dołącz do czytelników
Brak wyników

Temat numeru

29 sierpnia 2019

NR 47 (Sierpień 2019)

Jak połączyć kropki – identyfikacja użytkowników cross-device

0 102

Z perspektywy marketerów online w ostatnich latach wiele się zmieniło. Nikogo nie trzeba przekonywać, jak istotne w komunikacji z użytkownikiem jest definiowanie personalizowanych doświadczeń omnichannelowych. Znudzeni płytkim remarketingiem konsumenci spodziewają się coraz lepszych doświadczeń w interakcji z reklamą. Tymczasem legiony specjalistów od ad-tech i big data zastanawiają się, jak przekuć piętrzące się stosy nieanalizowanych danych na mierzalne efekty biznesowe i sprzedażowe.

Potrzeba rzetelnej identyfikacji użytkownika na jego coraz bardziej skomplikowanej ścieżce zachowań w kanałach online nigdy nie była tak ważna, jak dzisiaj. Cross-platformowe badanie konsumpcji treści online (tzw. cross-device) stało się niezbędnym narzędziem wsparcia marketingu wielokanałowego.
Wzbogacenie mediów tradycyjnych o wymiar cyfrowy przyniosło masę korzyści już dwadzieścia lat temu, kiedy to w ręce marketerów trafiły niespotykane wcześniej możliwości pomiaru konsumpcji treści i bardziej precyzyjne metody docierania do odbiorców. Z czasem kontekstowe targetowanie ustąpiło miejsca segmentom budowanym na podstawie analiz zachowań, zainteresowań czy lokalizacji. I oto na progu kolejnej dekady stoimy przed nowymi wyzwaniami. Pomimo dynamicznego rozwoju rynku opartego na modelach emisji programatycznych i niepomiernych korzyści jakie przynoszą coraz lepiej zoptymalizowane architektury systemów DMP, DSP i SSP, pozostaje wiele obszarów i zagadnień, z którymi borykają się marketerzy. Jednym z nich jest identyfikacja użytkowników.

Istotna i istotnie trudna

Paradoksem wyzwania poprawnej identyfikacji użytkowników jest fakt, że każdy uczestnik rynku reklamy online bardzo jej potrzebuje:

  1. Reklamodawcy i agencje marketingu online szukają coraz lepszych możliwości targetowania, które mogłoby poprawić efektywność komunikacji ich klientów. Od wielu lat podejmują też próby pogłębionej analizy atrybucji, której nowe modele z coraz większą precyzją określają, które kanały konwertują na pożądane akcje.
  2. Wydawcy, wspierani przez wyspecjalizowanych dostawców technologii, są żywo zainteresowani dostarczaniem rozwiązań odpowiadających na potrzeby klientów. Im więcej wiedzą o swoich użytkownikach, tym wyższe przychody są w stanie wygenerować – zarówno w sprzedaży bezpośredniej, jak i modelu aukcyjnym (RTB).
  3. Sam użytkownik, zazwyczaj najbardziej zniesmaczony chybionym targetowaniem, potrzebuje rzetelnej treści dopasowanej do jego profilu, podanej w sensownym kontekście i w odpowiednim czasie.
     
Rys. 1. Uczestnicy rynku reklamy digital: wspólna intencja jak
najlepszej identyfikacji użytkownika

 

Wskazówka

Identyfikacja użytkowników jest trudna, ponieważ przeglądarki webowe oraz mobilne nie oferują identyfikatora jednolitego dla różnych urządzeń identyfikatora. Ciasteczko znika zanim zdążysz się nim rozsmakować!


Pomimo znacznych wzrostów konsumpcji treści wewnątrz aplikacji, które zapewniają dostęp do twardych, stabilnych identyfikatorów urządzeń (GAID dla Android oraz IDFA dla iOS), kanał webowy i przeglądarki internetowe nadal stanowią znaczący obszar działań marketingowych. Identyfikacja użytkowników pomiędzy przeglądarkami jest bardzo trudna, głównie z uwagi na ograniczenia technologii opartej na cookies. W dwóch przeglądarkach dla tej samej domeny odkładane są dwa różne ciasteczka. Ponadto ciasteczko utworzone przez jedną domenę nie może być przeczytane przez inną. 
 

Wskazówka

Nie istnieje jeden wspólny identyfikator, który umożliwiałby reklamodawcom i wydawcom łatwe rozpoznawanie użytkowników poruszających się pomiędzy różnymi witrynami i platformami.


Jeśli nie jesteś więc szczelnie ogrodzonym gigantem dysponującym milionami zalogowanych na kilku urządzeniach użytkowników (Facebook, Google, Amazon, Apple) i nie siedzisz na stercie deterministycznych danych umożliwiających kojarzenie różnych urządzeń z tym samym użytkownikiem i analizowanie kompletnych ścieżek zachowań użytkowników, stoisz przed konkretnym wyzwaniem. Całe szczęście są rozwiązania, które mogą Ci pomóc: znacznie uzupełnić wiedzę o Twoich użytkownikach i zoptymalizować działania, nawet jeśli dysponujesz sporą pulą zalogowanych użytkowników.

Jak ułożyć puzzle

Jednym z rozwiązań problemu różnych identyfikatorów tych samych użytkowników jest tzw. cookie syncing (cookie matching) – proces mający na celu połączenie ze sobą różnych cookies nadawanych przez różne platformy, np. DSP i SSP. Metody te, pomimo umiejętności kojarzenia tych samych cookies przez różne systemy, nie uwzględniają faktu konsumpcji treści przez tych samych użytkowników na różnych przeglądarkach i urządzeniach.
Niedokładność takiej identyfikacji jest pogłębiona przez fakt, że coraz popularniejsze jest odwiedzanie stron internetowych bez wychodzenia z aplikacji, tzw. in-app view. Technicznie taka operacja oznacza nadanie kolejnego pliku cookie, tak jakby wizyta była generowana z innej przeglądarki, identyfikując w systemach zliczających kolejnego unikalnego użytkownika. Nierzadko osoba odwiedzająca jednego dnia tę samą stronę internetową z kilku aplikacji i przeglądarek może być zidentyfikowana jako kilku lub kilkunastu różnych użytkowników. 
Stajemy wobec tego przed konkretnym wyzwaniem, aby poprawnie identyfikować użytkowników:
a) na wszystkich urządzeniach umożliwiających konsumpcję treści online,
b) na wszystkich przeglądarkach (web/desktop, web/mobile, web/in-app-view, mobile apps).
 

Wskazówka

Poprawnie zrealizowana identyfikacja pozwala dostrzec 360° obraz użytkownika i jego customer journey, bez względu na to, w których kanałach się porusza i jakich urządzeń używa.

 

Rys. 2. Cechy poprawnej identyfikacji użytkownika


 

Poprawna identyfikacja użytkownika powinna być:

a) miarodajna – oparta na rzetelnych danych,
b) dokładna – uwzględniająca wszystkie sfery aktywności użytkownika,
c) omnichannelowa – uwzględniająca realizowaną przy pomocy różnych urządzeń aktywność online i offline,
d) ciągła – prowadzona powtarzalnie i na bieżąco,
e) bezpieczna – oparta na anonimizowanych danych i szanująca prywatność użytkownika.

 

Rys. 3. Cross-device identity graph – powiązane identyfikatory przeglądarek (cookies) oraz urządzeń mobilnych (IDFA – Identifier for
Advertising dla systemów iOS, AAID – Google/Android Advertising ID) tworzące profile zanonimizowanych użytkowników


Deterministycznie i probabilistycznie

Droga ku holistycznemu spojrzeniu na użytkownika zaczyna się od danych związanych z jego profilem fizycznym. Wielu marketerów i reklamodawców dobrze to rozumie i po latach szlifowania metod komunikacji przyzwyczaili nas do formatów wykorzystujących nasze imię, adres zamieszkania, numery telefonów i adresy e-mail. W procesie identyfikacji cross-platformowej te twarde, deterministyczne dane są często przypisywane konkretnym urządzeniom lub przeglądarkom (cookies). W większości przypadków stanowią one faktyczne odzwierciedlenie rzeczywistości – tak jest np. wtedy, gdy logujesz się przy pomocy swojego adresu e-mail do konta Dropbox, Amazon lub Gmail na wielu urządzeniach. Czasami jednak takie powiązanie zrealizowane bezrefleksyjnie może być błędne. Kiedy użyczysz bowiem swojego laptopa koleżance na wakacjach nie oznacza to, że należy przypisać jej adres e-mail do Twojego profilu użytkownika.
W celu wykluczenia takich przypadków konieczna jest analiza danych o charakterze domniemanym i prawdopodobnym – probabilistycznym. Informacje zbierane ze ścieżki naszych interakcji online używane są do budowy konkluzji, które paradoksalnie mogą być bardziej dokładne niż pozornie jednoznaczne dane deterministyczne. Dzięki nim koleżanka pożyczająca komputer nie zostałaby przypisana do Twojego profilu – jej logowanie zostałoby uznane jako wydarzenie niepasujące do schematu. Jego charakterystykę może ułatwiać dopisanie laptopa i telefonu do jednego adresu IP, typ używanej przeglądarki, lokalizacja czy konkretne zachowanie w wybranych godzinach dnia i nocy.
 

Wskazówka

Identyfikacja probabilstyczna, pomimo oparcia o mniej jednoznaczne dane niż analiza deterministyczna,  jest równie, o ile nie bardziej istotna w procesie identyfikacji cross-device.


Poprawne stosowanie obu metod pozwala wzmacniać powiązania i z dużym prawdopodobieństwem kojarzyć urządzenia z konkretnymi osobami.

Cross-Device Identity Graph

Technologia cross-device polega na identyfikacji różnych urządzeń należących do tego samego użytkownika. Jej esencją jest tzw. graf, który można przedstawić jako zbiór powiązanych ze sobą urządzeń. Służy on przetworzeniu danych przedstawionych w zapytaniu i zaprezentowaniu powiązań urządzeń identyfikowanych jako przypisane do tego samego użytkownika (rys. 3).
Węzły grafu odpowiadają konkretnym urządzeniom. Połączenia między nimi identyfikowane są dzięki zbieraniu szeregu informacji generowanych podczas ich aktywności online (tzw. requesty HTTP). Są to dane probabilistyczne, do których mogą należeć:
a) id urządzenia mobilnego lub cookie dla desktopu lub przeglądarek mobilnych,
b) znacznik czasu (tzw. time stamp) – dzień i godzina rejestrowanego na urządzeniu wydarzenia,
c) zanonimizowany adres IP,
d) geolokalizacja urządzenia,
e) system operacyjny,
f) informacja o odwiedzanych adresach URL.

Po zebraniu odpowiedniej bazy danych następuje proces poszukiwania podobieństw w zachowaniu oraz wspólnych wzorców dla różnych próbek. Zamiast manualnego opracowywania formuł mających na celu ocenę prawdopodobieństwa, że dana para urządzeń należy do tego samego użytkownika, dostawcy najnowszych rozwiązań z zakresu technologii cross-device, tacy jak niemiecki Roq.ad, automatyzują ten proces przy pomocy algorytmów uczenia maszynowego (machine learning). Umożliwia to przetwarzanie dużych zbiorów danych i osiąganie wymaganej precyzji wyników.
Do dokonania predykcji (łączenia probabilistycznego) potrzebny jest model wytrenowany na danych deterministycznych.
 

Rys. 4. Proces trenowania algorytmu machine learning do probabilistycznego
rozpoznawania wzorców powiązań między urządzeniami

 

  1. Do procesu trenowania wykorzystywany jest odpowiednio przygotowany zbiór requestów HTTP, zawierający etykiety w postaci zahashowanej (zaszyfrowanej) informacji o użytkowniku (np. e-mail). Algorytm jest w ten sposób „trenowany” do rozpoznawania wzorców połączeń.
  2. Tak wytrenowany model jest gotowy na przyjęcie danych probabilistycznych (nieopisanych żadną etykietą użytkownika) i na rozpoczęcie procesu predykcji, w którym obliczane są prawdopodobieństwa połączeń pomiędzy urządzeniami. Są one identyfikowane na podstawie wiedzy zdobytej podczas trenowania. 
  3. Ostatnim krokiem jest weryfikacja poprawności przewidywanych połączeń – walidacja wykonywana z próbką danych deterministycznych, których algorytm wcześniej nie widział (porcja „twardych” powiązań, które nie były przedmiotem pierwotnej próbki treningowej.)

Proces trenowania modelu jest działaniem ciągłym, które ma na celu stałe podnoszenie jakości dostarczanych predykcji.
Wykorzystanie probabilistycznego grafu można zilustrować prostym przykładem, w którym klient dostarczył sześciu wejściowych identyfikatorów urządzeń. W wyniku ich przeprocesowania identyfikowana jest część wspólna pomiędzy zapytaniem i zawartością grafu:
 

Rys. 5. Przykład wyniku przetworzenia zapytania dotyczącego sześciu urządzeń


W wyniku przetworzenia danych dotyczących sześciu przykładowych urządzeń (A-F), wystąpiły trzy sytuacje:

  1. Znaleziono pokrycie dla pięciu urządzeń z sześciu wprowadzonych jako zapytanie. Tak zwany overlap (ang. pokrycie) wyniósł 83%.
  2. Dokonano procesu deduplikacji – uzyskano dwa połączenia (C-D oraz A-B) i zdefiniowano dwóch użytkowników o określonych parach urządzeń. Oznacza to, że tzw. współczynnik deduplikacji wyniósł w tym przypadku 66% (4/6 – ilość zdeduplikowanych urządzeń do wszystkich urządzeń wprowadzonych w zapytaniu).
  3. Wzbogacono pierwotny zbiór o urządzenie M, powiązane z A i B – dokonano tzw. procesu data enrichment. Oznacza to, że współczynnik wzbogacenia danych w tym przypadku wynosi 33% (2/6 – ilość urządzeń z zapytania, które udało się powiązać z innymi urządzeniami spoza grafu do ilości wszystkich urządzeń z zapytania.

Zamieniając ten prosty przykład na prawdziwy przypadek użycia zastosowania technologii dużej puli danych, jesteśmy w stanie identyfikować wiele ciekawych statystyk, takich jak:
a) liczbę powiązań między różnymi typami urządzeń, np. liczbę „połączonych światów” mobile i desktop;
b) średnią liczbę urządzeń na użytkownika (zazwyczaj mamy do czynienia z dużą liczbą pojedynczych urządzeń, największą grupą użytkowników z 2-3 urządzeniami i ze skrajnymi przypadkami nawet do kilkunastu urządze...

Pozostałe 70% treści dostępne jest tylko dla Prenumeratorów.

Masz już prenumeratę? Zaloguj się, aby przeczytać artykuł.
Zaloguj się
Nie masz jeszcze prenumeraty? Nic straconego! Dołącz do grona stałych Czytelników już dziś i miej pewność, że żadne treści już Cię nie ominą.
Co zyskasz, kupując prenumeratę?
  • 6 drukowanych wydań magazynu Online Marketing
  • Dodatkowe artykuły niepublikowane w formie papierowej
  • Dostęp do czasopisma w wersji online
  • Dostęp do wszystkich archiwalnych wydań magazynu oraz dodatków specjalnych
  • ... i wiele więcej!
Sprawdź szczegóły

Przypisy