≡ edrone Blog
You've successfully subscribed to edrone
Great! Next, complete checkout for full access to edrone
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.
Success! Your billing info is updated.
Billing info update failed.

Prawo Benforda: Czy rzeczywistość jest z góry ustalona?

W edrone gromadzimy mnóstwo danych. Wśród tych danych znajduje się informacja o wartości zamówienia i jak zapewne się domyślasz, jest tam mnóstwo “losowych wartości. Najciekawsze jest to, że w rzeczywistości wcale nie są przypadkowe...

Marcin Lewek
Marcin Lewek

Ktoś powie: Oczywiście, że nie są przypadkowe, określają je ceny produktów!

W porządku. Ale sklepy internetowe nie uzgadniają między sobą tych cen. A i nawet jeśli, to byłaby to chirurgiczna koordynacja, bo istnieje 30% szans, że wartość koszyka zacznie się cyfrą "1". 30 000 000 transakcji rocznie z ponad 1000 sklepów eCommerce, i prawie co trzeci koszyk, zaczyna się jedynką.

Dane edrone z ostatnich kilku miesięcy

Hej, edrone, macie dziwnych klientów!

Nasi klienci są wspaniali i zdecydowanie “normalni”. Niezwykli, ale nikt nie ustawia cen, by prezentowały dumnie jeden na przedzie.

Zatem przypadek? Nie. To globalnie obserwowane zjawisko. Opisuje je tak zwane Prawo Benforda. Co więcej, globalne nie tylko dla eCommerce.

Zanim wskoczymy na głęboką wodę i porozmawiamy o tym, do czego tak naprawdę możesz wykorzystać tę wiedzę (bo to nie jest tylko ciekawostka!), wyjaśnimy sobie podstawowe prawidłowości i właściwości rzeczywistości, na podstawie których działa statystyka, prowadząc ostatecznie do powyższego wykresu.

Wróżenie z pewną pewnością

Jako menedżer eCommerce z pewnością ufasz statystyce. Wykorzystujesz ją przecież praktycznie codziennie. Nie zawsze jednak mówi prawdę, całą prawdę i tylko prawdę, ale nie ma w tym właściwie nic dziwnego.

Problem zaczyna się wtedy, gdy traktujemy dane statystyczne deterministycznie, i to podejście prowadzi do katastrofy. Wtedy gdy chcemy dowiedzieć się ze stuprocentową pewnością, co dokładnie się wydarzy. Tymczasem statystyki dają nam wskazówki do tego co może się wydarzyć i jaka jest na to szansa.

Kości zostały rzucone

Przyjrzyjmy się klasycznemu, szkolnemu przykładowi – standardowej sześciościennej kostce do gry. Dla uproszczenia nazwijmy ją "k6" (jak ma to miejsce na przykład w grach RPG czy planszowych).

Przed rzutem nie mamy pojęcia, jaką wartość (z dostępnych sześciu) otrzymamy, gdy rzucisz kostką tylko raz. Jednak gdy wykonasz 600 000 takich rzutów, jest więcej niż pewne, że otrzymasz około 100 000 wyników każdej wartości dostępnej na sześciennej kostce.

Dzieje się tak, ponieważ znasz rozkład prawdopodobieństwa możliwych wyników; jest on równomierny, co oznacza, że każda ścianka ma taką samą szansę na bycie wylosowaną.

K6-tki są dobrym punktem wyjścia, ponieważ ich wartości generowane za ich pomocą są całkowicie losowe. Nie możesz wpłynąć na ten wynik, a właściwie nic nie ma na niego wpływu. Oczywiście można oszukiwać, używając spreparowanych kości, ale nie o to w tym kontekście chodzi.

Taka kość i tak nie daje znacząco większych szans na wygraną w pojedynczym rzucie. Jej "magiczne" właściwości ujawniają się właśnie dzięki statystyce – dają przewagę w perspektywie czasu.

Co mają rzuty kośćmi do wartości koszyka w eCommerce. Ustaliliśmy już, że wartości koszyka nie są losowane. Owszem nie są, co nie wyklucza tego, że w szerszym kontekście są losowe. Zależne od wielu zmiennych

Gdy będziesz rzucać wieloma kośćmi i sumować oczka, zacznie się robić ciekawie. Okazuje się, że wyniki stają się coraz bardziej przewidywalne.

Cecha rzeczywistości

Przy większej liczbie czynników, rozkład przestaje być liniowy. Ok, wynik rzutu 2k6 waha się od dwóch do dwunastu, ale w większości przypadków otrzymamy... 7. Statystycznie raz na sześć rzutów, przy czym wynik 2 otrzymamy raz na 36 rzutów. Wszystko stanie się jasne gdy pokolorujemy jedną z kostek.

Tabela kombinacji wyników dla 2 x k6

Szanse na wynik '7' są największe, ponieważ siódemkę można uzyskać aż w sześciu kombinacjach:

Rozkład prawdopodobieństwa wyniku dla 2k6
Rozkład prawdopodobieństwa wyniku dla 2k6
Rozkład prawdopodobieństwa wyniku dla 1k6
Rozkład prawdopodobieństwa wyniku dla 1k6

Im więcej kostek dodajemy, tym bardziej wykres rozkładu prawdopodobieństwa przypomina dzwon. Dla trzech kostek:

Rozkład prawdopodobieństwa wyniku dla 3k6
Rozkład prawdopodobieństwa wyniku dla 3k6

Dla czterech:

Rozkład prawdopodobieństwa wyniku dla 4k6
Rozkład prawdopodobieństwa wyniku dla 4k6

Ostatni przykład przypomina już całkiem nieźle bohatera naszego następnego rozdziału: rozkład normalny.

Spostrzeżenie pierwsze: Mając wiele próbek, możemy przewidzieć, jak będą wyglądały zagregowane wyniki, na podstawie odpowiednio dobranego rozkładu.

Krzywa Gaussa, rozkład normalny

Jest to jeden z najpopularniejszych przykładów rozkładu obserwowanych w przyrodzie. Jego nazwa – rozkład normalny – mówi sama za siebie. U jego podstaw stoi centralne twierdzenie graniczne.

Centralne twierdzenie graniczne mówi, że jeśli masz populację ze średnią μ i odchyleniem standardowym σ i weźmiesz pod uwagę wystarczająco dużo losowych próbek z populacji, to rozkład próbki będzie w przybliżeniu normalny.

Innymi słowy, gdy losowe, niezależne zmienne – rzuty d6 – są dodawane i wykonamy odpowiednio dużo takich rzutów, ich rozkład zaczyna przypominać rozkład normalny.

Suma rzutu czterema kośćmi. Wykonaliśmy 1296 takich rzutów. Każdy pojedynczy nie będzie oczywiście dawał nam rozkładu normalnego, ale 1296 takich rzutów – już tak.

Wystarczy już tych eksperymentów myślowych. Pora na przykłady z życia.

Matura

Matura jest doskonałym przykładem na to, jak działa rozkład normalny... i jak dobitnie widać, w nich pewną manualną modyfikację. Oczywiście dane dotyczą uczniów, więc mamy tutaj czynnik ludzki, ale wynik to wartość punktowa, która odzwierciedla umiejętności maturzystów, a te są odbiciem rozkładu cechy w populacji. Ocena egzaminatorów jest obiektywna. W teorii.

Wyniki matury powinny ułożyć się w krzywą Gaussa. Od czasu do czasu może być przesunięta lekko w prawo ze względu na generalnie lepsze wyniki, gdy egzamin był łatwy i w lewo (niższe wyniki), gdy był trudniejszy. W praktyce wyglądają one tak:

Wyniki matury z języka polskiego, poziom podstawowy, 2010. Wyniki na osi poziomej podane w punktach. Na osi pionowej znajduje się odsetek zdających, który osiągnął ten wynik.
Wyniki matury z języka polskiego, poziom podstawowy, 2010. Wyniki na osi poziomej podane w punktach. Na osi pionowej znajduje się odsetek zdających, który osiągnął ten wynik.

Z tym wykresem wiążą się dwa ciekawe fakty. Pierwszy z nich jest taki, że gdzieś tutaj jest mój wynik, bo w 2010 zdawałem maturę. Drugi to charakterystyczny uskok w okolicach 20 punktów. Dosyć łatwo się domyślić, jaki jest próg zdawalności, prawda?

Wyniki matury z języka polskiego, poziom podstawowy, 2011
Wyniki matury z języka polskiego, poziom podstawowy, 2011

Nie obwiniam tutaj kogokolwiek o cokolwiek. Żaden z nauczycieli nie chce oblać ucznia. Matura to całkiem ważny egzamin. Jeśli egzaminator widzi, że uczniowi brakuje dosłownie kilku punktów do zaliczenia, jest skłonny ocenić kilka zadań bardziej przychylnie (obstawiam ostatnie, czyli wypracowanie – daje największą zdolność manewrowania wynikiem).

Spostrzeżenie drugie: Mając wiele próbek, możemy dowiedzieć się, czy ktoś nie manipulował danymi, porównując je z odpowiednim rozkładem.

Ok, ale przecież każdy z uczniów – teoretycznie – mógłby napisać maturę na 100%. Jest to bardzo nieprawdopodobne, ale nie w tym rzecz. Żaden z uczniów nie musi odbierać innemu punktów. Jeśli natomiast traci punkty, nikt inny ich nie zyskuje. Co by było gdyby punkty na maturze zachowywały się tak, jak na przykład… pieniądze?

Rozkład Pareta

Rozkład finansów na naszych kontach opisuje rozkład Pareta, wymieniany jednym tchem z zasadą Pareta, nazywaną często zasadą 80/20. Jej druga nazwa świetnie opisuje jej “działanie”, bo:

  • 20% klientów generuje 80% przychodów w Twoim sklepie;
  • 20% pracowników w Twoim sklepie wykonuje 80% całej "pracy";
  • 20% działań podczas wdrożenia eCommerce stanowi 80% jego skuteczności.

Spoza eCommerce:

  • 20% tekstu przekazuje 80% informacji
  • 80% masy meteorytów, które spadły na ziemię pochodzi z 20% upadków
  • W 20% największych miast, mieszka 80% populacji ludzkości.

Prawo Benforda w nowym świetle

W końcu dotarliśmy do prawa, od którego zaczynaliśmy. Tym razem bogatsi o kilka spostrzeżeń. Przyjrzyjmy się im raz jeszcze.

  • Spostrzeżenie pierwsze: Mając wiele próbek, możemy przewidzieć, jak będą wyglądały zagregowane wyniki, na podstawie odpowiednio dobranego rozkładu.
  • Spostrzeżenie drugie: Mając wiele próbek, możemy dowiedzieć się, czy ktoś nie manipulował danymi, porównując je z odpowiednim rozkładem.
  • Spostrzeżenie trzecie: Zjawiska dotyczące alokacji wartości, najczęściej opisuje rozkład Pareta.

Mam nadzieję, że masz teraz mocne podstawy, dowiedzieć się jak działa prawo Benforda. Dowiedzmy się zatem czy (i dlaczego) rzeczywistość jest z góry ustalona...

Prawo Benforda wyjaśnione

Po pierwsze (i najważniejsze), prawo Benforda może być stosowane tylko dla wartości, które rozciągają się na kilka rzędów wielkości. Jeśli więc jest to zakres 1 do 10, nie ma szans na zaobserwowanie tego efektu. Wkrótce przekonasz się dlaczego to takie ważne.

Losy na loterię

Najlepsze wyjaśnienie jakie widziałem używa losów na loterię w której wygrywają te losy, których numer zaczyna się cyfrą jeden.

Wyobraź sobie, że obliczasz prawdopodobieństwo wylosowania numeru z "jedynką" na przedzie. Będziemy stopniowo dodawać kolejne losy i sprawdzali jak zachowuje się prawdopodobieństwo na wygraną.

Zaczynamy z jednym losem (nr 1). Szansa równa się 100%; zapiszmy to i zacznijmy dodawać kolejne losy. Mając w puli numer 2, obniżyliśmy prawdopodobieństwo do 50%. Po dodaniu trzeciego, prawdopodobieństwo spada do 33,(3) %

1 -> 1/1 = 1.00
2 -> 1/2 = 0.50
3 -> 1/3 = 0.30
[…]
9 -> 1/9 = 0.11

Gdy mamy dziewięć losów, szansa na wygraną wynosi już tylko 1/9, ale gdy dodamy dziesiąty los, zaczyna rosnąć:

10 -> 2/10 = 0.20
11 -> 3/11 = 0.27
12 -> 4/12 = 0.33
13 -> 5/13 = 0.38
[…]
19 -> 11/19 = 0.58

Gdy dojdziemy do 20 losów, szanse ponownie zaczynają spadać, aż do 100 losów w puli. W przedziale 100 – 199 losów, szanse znowu rosną. Następnie zaczynają spadać w przedziale 200 – 999. I tak dalej, i tak dalej.

Odległości między seriami wzrostów i spadków prawdopodobieństwa na wygraną są coraz większe, ponieważ mówimy o kolejnych potęgach 10. Gdy przedstawimy je na wykresie w skali logarytmicznej, prawdopodobieństwo będzie wyglądało jak piła.

Skala logarytmiczna używa kolejnych potęg dziesięciu zamiast kolejnych liczb jako jednego kroku. Zamiast 1, 2, 3, 4; mamy 1, 10, 100, 1000.

Teraz musimy tylko obliczyć wartość średnią, tego rozkładu i okazuje się nią być... 0,301.

Aby obliczyć prawdopodobieństwa wystąpienia innych cyfr (jaka jest szansa, że wartość koszyka w eCommerce będzie zaczynała się inną cyfrą), możemy skorzystać z następującego wzoru.

\[ {P(d)= \log_{10} (1+1/d) } \]

d - cyfra, którą analizujemy

Otrzymujemy następujące wartości.

1 -> 0.30103
2 -> 0.17609
3 -> 0.12494
4 -> 0.09691
5 -> 0.07918
6 -> 0.06695
7 -> 0.05799
8 -> 0.05115
9 -> 0.04576

Dane edrone
Dane edrone
Przewidywanie teoretyczne
Przewidywanie teoretyczne

Ale dlaczego właściwie to jedynka pojawia się najczęściej?

Dlatego że jeśli coś liczymy, zaczynamy zawsze od jedynki.

  • Za każdym razem przechodzimy przez ‘1’ gdy chcemy doliczyć do siedmiu.
  • Gdy liczymy do 40 zawsze przejdziemy przez “nastki”.
  • Przez setki, jeśli liczysz do 300.

Nie ma pewności, że wartość, do której liczymy, zatrzyma się na liczbie mającej z przodu cyfrę jeden, ale była taka szansa. Dziewiątka ma znacznie mniejszą szansę, a wystarczy nieznacznie zwiększyć wartość (z perspektywy rzędu wielkości), by 9 z przodu zamieniło się w zero, a na pierwszej pozycji pojawiła się ponownie jedynka, już w kolejnym rzędzie wielkości.

A jak ustaliliśmy wcześniej, w przypadku dystrybucji wartości obserwujemy mało dużych wartości, a dużo małych. Jedynka ma w tych warunkach fory.

Do czego może nam się przydać?

Jeśli wartości pasują do rozkładu Pareta i rozciągają się na kilka rzędów wielkości, można z dużą dozą prawdopodobieństwa zakładać, że obejmuje je prawo Benforda. Doskonałym przykładem jest liczba ludności w miastach na całym świecie. Dokładniej:

  • Gdy mediana jest mniejsza od średniej – innymi słowy, funkcja jest wypukła. W matematyce pojęcia wypukłości i wklęsłości są odwrotne do tego, co rozumieliśmy intuicyjnie. Kolokwialnie: wypukłość to “dołek”, wklęsłość to “górka”):
  • Gdy skośność rozkładu jest dodatnia – prawy ogon wykresu jest dłuższy niż lewy.

Więc do czego możemy to zastosować w praktyce? Do wielu rzeczy!

  • Księgowość i finanse, dane o kredytach;
  • Transakcje na kartach kredytowych, salda klientów, ceny akcji;
  • PKB poszczególnych krajów, populacje miast na całym świecie;
  • Zamówienia zakupu, ceny zapasów, transakcje, zwroty od klientów.

Ale także:

  • W informatyce: Prawo Benforda obejmuje na przykład rozmiary plików komputerowych.
  • W biologii: Prawo obejmuje długości białek.
  • W fizyce: Intensywność linii widmowych w spektroskopii złożonych przejść atomowych, czas życia hadronów, tempo utraty energii w procesie spowalniania samorotacji pulsara, prawo działania obiektów poza Układem Słonecznym w astronomii… wymieniać można naprawdę długo.

Bardziej przyziemne zastosowania:

  • W rachunkowości i finansach – wykrywanie oszustw podatkowych
  • W mikroekonomii – trening postrzegania prawdopodobieństwa
  • Eksperyment pt. "Prawo Benforda w klasie".

Założę się, że od dziś będziecie zupełnie inaczej patrzeć na liczby ;)

ColumnsBig dataStatistics

Marcin Lewek

Digital marketer and copywrier specialized in Artificial Intelligence, design, and digital marketing itself. Science, and holistic approach enthusiast, after-hours musician, and sometimes actor.