Dołącz do czytelników
Brak wyników

Temat numeru

29 sierpnia 2019

NR 47 (Sierpień 2019)

Atrybucja idealna – czy to już?

0 57

Ścieżki wielokanałowe i modelowanie atrybucji już od dawna nie są nowością. W miarę jak zaczęliśmy zbierać coraz więcej danych na temat ścieżek konwersji i interakcji, które się na nią składają, proces konwersji stał się dla nas bardziej zrozumiały. Z drugiej strony można mieć wrażenie, że pojawiło się więcej pytań niż odpowiedzi. Jednym z nich jest pytanie o idealny model atrybucji. Który z modeli jest najlepszy? W jaki sposób wybrać model, który najbardziej odpowiada naszym potrzebom? I co to w ogóle oznacza?

Czym jest atrybucja?

W dobie wszechobecnych mediów cyfrowych, niemal natychmiastowego dostępu do informacji i łatwości porównywania ofert, konwersja rzadko bywa procesem opartym na jednej interakcji. Marketing online jest grą zespołową przeplatających się kanałów marketingowych.
Na podstawie uzyskanego lub planowanego przychodu, firmy określają swój budżet marketingowy, czyli kwotę, którą są w stanie zapłacić, by ten przychód zdobyć. Budżet ten trzeba następnie rozdzielić między poszczególne kanały reklamowe tak, aby uzyskać z niego najwyższą stopę zwrotu. 
 

Atrybucja, czyli przypisanie udziału w konwersji, to właśnie sposób podziału wartości pomiędzy współpracujące z sobą kanały marketingowe. Dostępny jest szereg modeli atrybucji o różnym stopniu złożoności, które na różne sposoby określają wartość poszczególnych kanałów.


Potencjalnie na konwersję mogą mieć wpływ wszystkie interakcje, które znalazły się na ścieżce. Modele single touch (pierwsza interakcja, ostatnie kliknięcie itp.) będą zawsze pewnymi przybliżeniami, a w doskonałym modelu będziemy musieli uwzględniać wszystkie punkty styku. 

Dlaczego szukamy idealnego modelu?

Przyjmuje się, że idealny model atrybucji to taki, który najsprawiedliwiej rozdziela wartość generowaną przez współpracujące ze sobą kanały reklamowe. Nie chodzi tu o sprawiedliwość mającą na względzie wniesiony wkład pracy i poniesione koszty, ale faktyczny wpływ danego kanału na końcowy wynik. Dlaczego ma to takie znaczenie?
 

Wyobraź sobie sklep odzieżowy, który zatrudnia sprzedawców, by doradzali klientom w zakupach za wynagrodzeniem prowizyjnym. Jeden ze sprzedawców wpadł na pomysł, by zagadywać klientów, którzy już samodzielnie dokonali wyboru i jedynie prowadzić ich do kasy. Zauważył, że w ten sposób w ciągu dnia pracy zdobędzie znacznie wyższą prowizję niż ci, którzy cierpliwie, czasem nawet godzinę lub dłużej pomagają przy przymiarkach, by na koniec usłyszeć „to ja się jeszcze zastanowię”. Na koniec miesiąca okazało się, że uzyskał on kilkukrotnie wyższe wynagrodzenie niż inni. Można powiedzieć, że nic takiego się nie stało – przecież sklep tylko podzielił się z nim zyskiem. Jednak dla każdego jest oczywiste, że wkład tego pracownika we wzrost sprzedaży sklepu był znikomy. Pieniądze wypłacone na jego prowizję można było przeznaczyć dla personelu, który właściwie wykonywał swoją pracę. Wyższe wynagrodzenie przyciągnęłoby lepszych sprzedawców lub pojawiłby się budżet na zatrudnienie kolejnych i poprawę jakości obsługi, a co za tym idzie – lepsze wyniki. 


Spójrz teraz na przykład z ramki 1. Mimo że reklama w wyszukiwarce miała wysoki współczynnik konwersji, nie wywarła faktycznego wpływu na wzrost sprzedaży. W przypadku tego reklamodawcy model atrybucji, który przypisuje takiej reklamie jakikolwiek udział w konwersjach, jest oczywiście błędny. Wartość przypisana tej reklamie jest niesłusznie odbierana innym kanałom generującym konwersje, przez co są one niedoinwestowane. Budżet wydany na nieskuteczne reklamy mógłby być spożytkowany na zwiększenie sprzedaży lub po prostu zaoszczędzony. Widać więc, że sprawiedliwe wynagradzanie i prawidłowa atrybucja, odpowiednie do faktycznie wniesionego wkładu, mają bezpośrednie przełożenie na wzrost efektywności. 

Jak znaleźć doskonały model? 

Wybór stosowanego modelu jest najczęściej wynikiem arbitralnej decyzji co do wyboru modelu bazowego i wag przypisywanych poszczególnym interakcjom. Na jakiej podstawie powinniśmy tę decyzję podjąć? Najczęściej usłyszymy radę, by „testować różne modele i wybrać ten, który się najlepiej sprawdza”. Jest to odpowiedź o tyle prawdziwa, co wymijająca. 
Idealna atrybucja powinna dokładnie określać wpływ każdej z interakcji na całościowy wynik. Przede wszystkim powinna dawać ona odpowiedź na pytanie o to, co by się stało, gdyby danej interakcji na ścieżce nie było. Ile konwersji stracimy, gdy usuniemy dane źródło? Ile w takim razie warto zapłacić, by te konwersje odzyskać? 

Ramka 1

Popularna marka konsumencka prowadzi w wyszukiwarce Google kampanie, w których słowami kluczowymi jest jej własna nazwa. Co prawda strona sklepu firmy znajduje się na pierwszym miejscu w bezpłatnych wynikach wyszukiwania jej marki w Google, ale niski koszt konwersji i duży wolumen generowanych transakcji skłania firmę do prowadzenia tej kampanii. 
Ważnym argumentem jest też to, że przy wynikach wyszukiwania tych słów czasem pojawiają się również reklamy konkurencyjnych marek. 
Ponieważ nasze reklamy wykorzystujące marki konkurencji przynoszą konwersje, spodziewamy się, że konkurencji w ten sam sposób również udaje się odbierać nam naszych klientów.  
Jednak jeśli przyjrzeć się bliżej naszym ścieżkom konwersji słów będących markami konkurencji to zauważymy, że w większości przypadków nasza własna marka „była w grze” jeszcze zanim klient zaczął wyszukiwać konkurenta (rys. 1). 
 

Rys. 1. Ścieżki słów własnej marki i konkurencji


Ponadto, kiedy ograniczamy reklamy w Google, rośnie odpowiedni ruch organiczny (rys. 2). 
 

Rys. 2. Wzrost ruchu organicznego po ograniczeniu reklam


Świadczy to o tym, że reklama w wyszukiwarce na własną markę nie jest konieczna, by użytkownik trafił do sklepu. Ale czy brak reklamy nie powoduje jednak pewnej utraty klientów?
Do przeprowadzenia testu została wykorzystana funkcja grup użytkowników w Google Analytics (user buckets). Przypomnijmy: przypisuje ona losowo każdemu z użytkowników numer od 1 do 100. Na tej podstawie stworzono segmenty użytkowników grupy eksperymentalnej (1–50) i kontrolnej (51–100).
Następnie, przy pomocy utworzonych z tych segmentów list remarketingowych (RLSA), zablokowano wyświetlanie reklamy w wyszukiwarce połowie powracających użytkowników (rys. 3). 
 

Rys. 3. RLSA w oparciu o grupy użytkowników blokuje wyświetlenie reklam połowie powracających użytkowników, co pozwala
zmierzyć inkrementalny wpływ reklamy na konwersje


Okazało się, że przyrost konwersji w grupie poddanej reklamie był… ujemny – wyniósł on  minus 213 konwersji. 
Czy to oznacza, że reklama miała negatywny wpływ na konwersje? Nie, gdyż odczyt ten w tym przypadku nie miał istotności statystycznej, a wpływ kampanii na przychody był na poziomie błędu statystycznego. 
Innymi słowy, pomiar ten wykazał z dużym prawdopodobieństwem, że prowadzenie reklamy w wyszukiwarce na własną nazwę dla tego reklamodawcy1 nie zwiększa sprzedaży – mimo odnotowanych 1574 konwersji po kliknięciu reklamy.

Załóżmy, że udało nam się znaleźć odpowiedzi na te pytania – że, przykładowo, rezygnacja z Google powoduje spadek udziału w konwersjach o 50%, z Facebooka – o 40%, a wyłączenie remarketingu obniża sprzedaż o 30%. Wtedy pojawia się kolejny problem. Jeśli zsumujemy te „udziały”, uzyskamy łącznie 120%. A że budżet nie jest z gumy, nie możemy rozdysponować więcej niż 100% budżetu. Pojawia się więc pytanie – jak na podstawie tych informacji określić udział w konwersjach? 
Ponieważ nie dysponujemy uniwersalnymi odpowiedziami na te pytania, to może w jakiś sposób da się je wywnioskować na podstawie analizy ścieżek konwersji? Z tym zadaniem próbują się zmierzyć modele atrybucji oparte na danych (data-driven attribution), wykorzystujące różne modele matematyczne. 

Wartość Shapleya

Wartość Shapleya to pojęcie z teorii gier, które określa, jakiego wynagrodzenia powinien się spodziewać gracz w grze zespołowej, biorąc pod uwagę jego średni wkład do każdej z możliwych kombinacji graczy. 
Do jego zrozumienia konieczne jest zaznajomienie się z pojęciem wkładu marginalnego. Wkład marginalny gracza do danej kombinacji graczy to różnica między jej wynikiem, a wynikiem dla tej kombinacji po usunięciu z niej danego gracza: 
 

Ramka 2
 

Rys. 4. Przedsiębiorstwo złożone z biznesmena i dwóch pracowników


W przykładowej grze biorą udział biznesmen (B) oraz dwaj pracownicy (P1 i P2). Wynikiem gry jest przychód przedsiębiorstwa. 
Każdy z pracowników jest w stanie wytworzyć przychód o wartości $10. Aby przedsiębiorstwo działało, potrzebny jest biznesmen – a więc sami pracownicy, razem czy w pojedynkę, nie zarabiają nic. Biznesmen bez pracowników również nic nie zarabia. Gdy pracują w trójkę, zarabiają $20, a gdy biznesmen zatrudnia tylko jednego z pracowników, firma zarabia tylko $10.
Obliczmy teraz wartość Shapleya dla pracownika P1. W tym celu obliczamy wyniki wszystkich kombinacji, w których P1 może wziąć udział. Następnie obliczamy dla tych kombinacji wkłady marginalne. Aby je uzyskać, od obliczonych wyników odejmujemy wyniki tychże kombinacji pozbawionych gracza P1 (Tab. 1).
Zgodnie z formułą wartość Shapleya dla P1 wynosi: 
 


Moglibyśmy teraz wykonać obliczenia dla wszystkich graczy, ale wykorzystamy tu pewne własności wartości Shapleya. 
Sytuacja pracownika P2 w tej grze jest identyczna, jak P1, dlatego jego wartość Shapleya musi być taka sama: 


Wartości Shapleya graczy muszą sumować się do wyniku gry, w której biorą udział wszyscy gracze. Łączny przychód zespołu B, P1, P2 wynosi $20, więc gracz B „bierze resztę” po odjęciu wartości Shapleya graczy P1 i P2: 
 

 

Tabela 1. Wyliczenie wartości Shapleya dla pracownika P1
Kombinacja
z udziałem P1
Rozmiar
kombinacji
Liczba kombinacji
danego rozmiaru
Wynik
z P1
Ta kombinacja
bez P1
Wynik
bez P1
Wkład marginalny
P1 do tej kombinacji
P1 1 gracz 1 0 NULL 0 0
P1, B 2 graczy 2 $10 B 0 $10
P1, P2 2 graczy 2 0 P2 0 0
P1, P2, B 3 graczy 1 $20 P2, B $10 $10


Jak obliczać wartość Shapleya dla ścieżek wielokanałowych? Wyobraźmy sobie kampanię, w której biorą udział tylko dwa kanały, Google i Facebook, w której znamy liczbę kliknięć i konwersji dla każdej z kombinacji tych kanałów (tab. 2). 

 

Tabela 2. Wyniki dla kombinacji kanałów na ścieżkach
Kombinacja
kanałów
Kliknięcia Konwersje Wsp. konw.
Google 1000 50 5%
FB 2000 60 3%
Google + FB 750 45 6%


Na podstawie tych danych możemy obliczyć wkłady marginalne Google do poszczególnych kombinacji (tab. 3). 
 

Tabela 3. Obliczenia wkładów marginalnych
Kombinacja
kanałów z
udziałem Google
Wsp.
konw.
Kombinacja
kanałów bez
Google
Wsp.
konw. bez
Google
Wkład
marginalny
Google
Google 5% NULL 0% 5%
Google + FB 6% FB 3% 3%


Wartość Shapleya dla Google’a wynosi: 
 


Wartość Shapleya dla Facebooka uzyskamy, odejmując Sh(Google) od współczynnika konwersji ścieżki Google + FB:
 


 Aby wyliczyć samą atrybucję konwersji, musimy obliczyć konwersje przypadające na poszczególne kanały, z uwzględnieniem cząstkowych wkładów (wartości Shapleya) dla poszczególnych kombinacji kanałów, a następnie zsumować je dla każdego z kanałów (tab. 4). 
 

Tabela 4. Obliczenia atrybucji na bazie wartości Shapleya współczynników konwersji
Kombinacja kanałów Kliknięci Sh
(FB)
Sh
(Google)
Atrybucja
FB
Atrybucja Google
Google 1000 - 5% - 50
Facebook 2000 3% - 60 -
Google + FB 750 2% 4% 15 30
SUMA (atrybucja kanału): 75 80


Zainteresowanych bardziej rozbudowanymi przykładami i szerszym omówieniem tematu wartości Shapleya w modelowaniu atrybucji odsyłam do mojego artykułu na blogu Adequate: bit.ly/WartoscShapleya. 

Łańcuchy Markowa 

Łańcuchy Markowa stanowią alternatywę dla modeli stworzonych na bazie wartości Shapleya. Łańcuch Markowa to ciąg zdarzeń, w którym prawdopodobieństwo każdego zdarzenia zależy jedynie od wyniku poprzedniego. Działanie atrybucji opartej o łańcuchy Markowa najlepiej zrozumieć na przykładzie. Wyobraźmy sobie, że mamy cztery ścieżki interakcji użytkownika z reklamą, z których dwie doprowadziły do konwersji (rys. 5). 
 

Rys. 5. Ścieżki konwersji


Ścieżki te można przedstawić w postaci grafu, w którym węzłami są poszczególne kanały połączone łukami w postaci strzałek (rys. 6). 
Ułamek przy łukach wynika z liczby występujących przejść między węzłami grafu. Interpretujemy go jako prawdopodobieństwo przejścia po danym łuku. 
 

Przykładowo: po interakcji z Facebookiem na dwóch ścieżkach nastąpi interakcja z Google, a na jednej – z remarketingiem. Łącznie są to trzy ścieżki, stąd prawdopodobieństwa tych przejść wynoszą...

Pozostałe 70% treści dostępne jest tylko dla Prenumeratorów.

Masz już prenumeratę? Zaloguj się, aby przeczytać artykuł.
Zaloguj się
Nie masz jeszcze prenumeraty? Nic straconego! Dołącz do grona stałych Czytelników już dziś i miej pewność, że żadne treści już Cię nie ominą.
Co zyskasz, kupując prenumeratę?
  • 6 drukowanych wydań magazynu Online Marketing
  • Dodatkowe artykuły niepublikowane w formie papierowej
  • Dostęp do czasopisma w wersji online
  • Dostęp do wszystkich archiwalnych wydań magazynu oraz dodatków specjalnych
  • ... i wiele więcej!
Sprawdź szczegóły

Przypisy