Metodologia - jak BuyerEyes oblicza oceny | SSR, debata agentów, 29 sub-scores

ρ=0.90 korelacja z oceną ludzkiego eksperta

14 wyspecjalizowanych agentów na audyt

29 atomowych sub-scores na stronę

1 294 testów walidacyjnych w produkcji

Problem z ratingami AI

Poproś dowolne AI o ocenę strony docelowej w skali od 1 do 10. Zrób to pięć razy bez zmiany strony. Wyniki będą się różnić o 2 do 3 punktów.

Ta wariancja nie jest błędem konkretnego narzędzia. Bezpośredni rating numeryczny jest strukturalnie zawodny, gdy wykonuje go model językowy. Punkt odniesienia dla słowa "7" zmienia się w zależności od długości kontekstu, sformułowania promptu, temperatury i wersji modelu. Maier et al. zmierzyli korelację między bezpośrednimi ratingami AI a oceną ludzkich ekspertów w systematycznych próbach. Wynik: ρ=0,26 do 0,39.

Oznacza to, że bezpośredni wynik AI zgadza się z oceną specjalisty CRO mniej więcej w jednej trzeciej przypadków. Reszta to szum. Każde narzędzie, które pyta AI "oceń tę stronę w skali 1-10" i podaje wynik jako scoring, działa na tym poziomie wiarygodności, niezależnie od tego, czy narzędzie to przyznaje.

Maier, S. et al. "Semantic Similarity Rating for Likert-Scale Evaluation with LLMs." arXiv:2510.08338v3, październik 2025. Artykuł, który ustanowił SSR jako skalibrowaną alternatywę dla bezpośredniego ratingu AI.

SSR: Semantic Similarity Rating

SSR zastępuje ocenę absolutną oceną porównawczą. Zamiast pytać AI "oceń tę stronę w skali 1-10", BuyerEyes prosi AI o opisanie strony w języku naturalnym: co działa, co nie, czego doświadczyłby odwiedzający.

Opis jest następnie porównywany z 150 skalibrowanymi zdaniami kotwiczącymi przy użyciu podobieństwa kosinusowego. Kotwice działają jak benchmarki: "Strona na tym poziomie skuteczności CTA wygląda tak", wyrażone w zwykłym języku. Sześć niezależnych zestawów kotwic jest porównywanych i uśrednianych. Ocena wynika z tego, gdzie opis AI ląduje względem tych benchmarków.

Wynik: ρ=0,90 korelacji z oceną ludzkiego eksperta. To 3,5-krotna poprawa względem bezpośredniego ratingu i przekroczenie progu, przy którym oceny stają się użyteczne, a nie dekoracyjne.

Kotwice zostały opracowane i skalibrowane dla kontekstów konwersji e-commerce i SaaS. "Social proof na tym poziomie" ma konkretną definicję: ile recenzji, jak widoczne, czy odnoszą się do obiekcji kupującego po raz pierwszy. Nie są to ogólne opisy jakości.

Korekcja błędów systematycznych

SSR samo w sobie nie wystarcza. Modele językowe niosą systematyczne błędy, które zniekształcają oceny w przewidywalny sposób.

Błąd pozycji: elementy blisko góry strony mają tendencję do uzyskiwania wyższych ocen niż równoważne elementy przy dole. Błąd długości: szczegółowe sekcje oceniane są wyżej niż zwięzłe, niezależnie od jakości. Anizotropia osadzania: przestrzeń wektorowa używana do porównania semantycznego nie jest równomiernie rozłożona, przez co pomiary podobieństwa są bardziej wiarygodne w niektórych obszarach niż w innych.

BuyerEyes koryguje wszystkie trzy. Kolejność ewaluacji jest losowana między wymiarami. Scoring copy jest normalizowany pod kątem długości treści. Wektory osadzania są centrowane średnią przed obliczeniem podobieństwa kosinusowego (zgodnie z Ethayarajh, arXiv:2403.05440). Korekcje są niewidoczne w wyniku. Bez nich strona z długą sekcją zaufania na górze systematycznie uzyskiwałaby wyższy wynik niż równoważna strona z krótszą sekcją zaufania na dole.

Debata wielu agentów

Jedno AI oceniające stronę potwierdza własne założenia. BuyerEyes uruchamia 14 wyspecjalizowanych agentów równolegle. Pięć agentów domenowych ocenia różne wymiary konwersji. Do 5 person kupujących ocenia stronę z odrębnych perspektyw. Agent odkrywania odbiorców wybiera, które persony uruchomić. Agent wyrównania sprawdza, czy strona odpowiada ruchowi przyciągającemu odwiedzających.

Gdy agenty domenowe nie zgadzają się ze sobą (odchylenie standardowe powyżej 1,5 lub rozrzut ocen powyżej 3,0), BuyerEyes uruchamia ustrukturyzowane rundy debaty. Każdy agent przegląda oceny i rozumowanie pozostałych. Rewizjonują lub bronią swoich stanowisk z jawnym uzasadnieniem. Do trzech rund, z detekcją zbieżności, która zatrzymuje debatę, gdy stanowiska się stabilizują.

Po debacie uruchamiana jest warstwa adversarialnego przeglądu. Każda ocena powyżej 7,0 mierzy się z wyzwaniem adwokata diabła: jakie słabości są pomijane? Każda ocena poniżej 4,0 przechodzi przegląd obrońcy: jakie mocne strony są niedoceniane? Korekty są ograniczone do plus lub minus 1,0, by role adversarialne nie zdominowały końcowego wyniku.

Mechanizm debaty opiera się na dwóch liniach badań: Hu et al. "Multi-Agent Debate for LLM Judges with Adaptive Stability Detection" (NeurIPS 2025, arXiv:2510.12697) oraz Du et al. "Improving Factuality and Reasoning in Language Models through Multiagent Debate" (ICML 2024, arXiv:2305.14325).

Hu, T. et al. "Multi-Agent Debate for LLM Judges with Adaptive Stability Detection." arXiv:2510.12697, październik 2025. NeurIPS 2025. Adaptacyjny mechanizm zbieżności używany w rundach debaty BuyerEyes.

29 sub-scores w 6 wymiarach

Ocena "Visual: 6.5" nie mówi deweloperowi, co naprawić. BuyerEyes rozkłada każdy z sześciu wymiarów ewaluacji na atomowe sub-scores, łącznie 29. Każdy sub-score ma własną liczbę, własną rubrykę i własną rekomendację do działania.

Projekt wizualny

Kontrast, hierarchia, białe przestrzenie, układ mobilny, widoczność CTA, jakość obrazów, spójność marki, kompozycja powyżej linii zgięcia

8 sub-scores

Copy i przekaz

Pierwsze wrażenie, klarowność propozycji wartości, konkretność korzyści, pilność, czytelność, pokrycie ram perswazji

6 sub-scores

Skuteczność CTA

Widoczność, siła copy, umiejscowienie, pilność, redukcja tarcia

5 sub-scores

Zaufanie i wiarygodność

Konkretność social proof, przejrzystość cenowa, sygnały autorytetu, autentyczność recenzji, wykrywanie dark patterns

5 sub-scores

Doświadczenie techniczne

Wydajność ładowania, stabilność layoutu, użyteczność mobilna, jakość formularzy, zgodność z dostępnością

5 sub-scores

Intencja zakupu (symulacja persony)

Równanie wartości, percepcja ryzyka, potrzeba walidacji społecznej, gotowość do zobowiązania, rozwiązywanie obiekcji

5 sub-scores via SSR

Każda rekomendacja w raporcie niesie tag nakładu pracy (niski, średni, wysoki) oraz szacunek wpływu. "CTA Prominence: 4.2. Przenieś główne CTA powyżej linii zgięcia na urządzeniach mobilnych. Wysoki wpływ, niski nakład." To gotowy ticket dla dewelopera, a nie sugestia "popraw swoje CTA."

Mapy uwagi wizualnej

Każdy raport zawiera mapę uwagi wizualnej wygenerowaną z jednego zrzutu ekranu. Bez ruchu. Bez kodu śledzącego. Bez rekrutacji panelu.

Mapa używa TranSalNet, transformerowego modelu saliencji wizualnej. Został zwalidowany na rzeczywistych danych eye-trackingowych z 640 stron internetowych, osiągając korelację CC=0,78 z ground truth. Czas przetwarzania: około 50 milisekund na zrzut ekranu.

Mapa odpowiada na jedno pytanie: gdzie trafia uwaga wzrokowa na tej stronie? Ta predykcja zasila system sub-scores. CTA Prominence jest oceniane częściowo na podstawie tego, czy CTA znajduje się powyżej przewidywanego progu uwagi. Jeśli mapa pokazuje spadek uwagi na pozycji Y=400 na urządzeniu mobilnym, a Twoje CTA jest na Y=720, raport sygnalizuje to z konkretną oceną i konkretną poprawką.

Lou, J. et al. "TranSalNet: Towards Perceptually Relevant Visual Saliency Prediction." arXiv:2110.03593, 2021. Zwalidowany na zbiorze danych WIC640. CC=0,78, NSS=2,42.

Przedziały ufności

Każda ocena w raporcie BuyerEyes zawiera zakres ufności. Nie "Copy: 7.1", lecz "Copy: 7.1 [6.8 - 7.4, wysoka stabilność]." Zakres pochodzi z wariancji scoringu między przebiegami. Gdy agenty zbiegają się ściśle, zakres jest wąski i można bezpośrednio działać na podstawie liczby. Gdy zakres jest szeroki, ocena jest punktem wyjścia wymagającym zbadania.

Gdy dowody są niewystarczające do wygenerowania wiarygodnej oceny, raport podaje "Niewystarczające dane" zamiast wymuszać niską liczbę. Ta różnica ma znaczenie. Niska ocena oznacza, że coś jest nie tak. Niewystarczające dane oznaczają, że system nie może stwierdzić, czy coś jest nie tak. Te sytuacje wymagają różnych reakcji.

Walidacja

System scoringu przeszedł 1 294 testy w produkcji w całym pipeline. Metodologia opiera się na ponad 30 recenzowanych artykułach naukowych z zakresu uwagi wzrokowej, nauki o perswazji, obciążenia poznawczego, kalibracji zaufania i wiarygodności ewaluacji LLM. Dokument SCIENCE.md w repozytorium BuyerEyes śledzi każdy artykuł ze statusem implementacji i konkretnymi plikami, w których stosowane są jego metody.

Zdania kotwiczące są kalibrowane, a nie tworzone przez prompt engineering. Ich zmiana zmienia cały system scoringu. Zostały opracowane przez iteratywną walidację na podstawie ocen specjalistów CRO dla stron e-commerce i SaaS w wielu branżach.

Wykrywanie dark patterns i deceptive design

Optymalizacja konwersji przestaje być uczciwa w momencie, w którym strona zaczyna używać deceptive design. Pre-zatwierdzone checkboxy subskrypcji, fałszywe countdown timery, ukryte koszty pojawiające się dopiero przy kasie, banery cookies w których "Odrzuć" jest schowane za dodatkowymi kliknięciami - to są wzorce, za które regulatorzy zaczęli nakładać kary liczone w setkach milionów dolarów. Sprawy takie jak FTC v. Epic Games ($520M), Arena v. Intuit ($141M), zwrot przed-zatwierdzonych dotacji recurring w kampanii Trumpa ($122M) i FTC v. Vonage za utrudnianie anulowania ($100M) sumują się do około $1,5 miliarda enforcement w ciągu ostatnich 36 miesięcy - dla wzorców, które BuyerEyes wykrywa w pojedynczym audycie.

Detektor działa jako deterministyczna warstwa przed syntezą, z 10 regułami pokrywającymi TOP 10 wzorców e-commerce z książki Harry'ego Brignulla i siedmiokategoryjną taksonomię Mathur et al. (Princeton 2019). Każda reguła ma jawne odniesienia prawne - który punkt Załącznika I UCPD, który artykuł GDPR, który obowiązek z Artykułu 25 DSA, który zakaz z Artykułu 5(1)(a) lub (b) AI Act, która sekcja FTC Act, który przepis ROSCA - dzięki czemu finding w raporcie to także trop dowodowy dla twojego zespołu compliance. Mapowanie opiera się na książce Marka Leisera _Dark Patterns, Deceptive Design, and the Law_ (Hart Publishing 2025), która klasyfikuje każdy wzorzec wobec luk regulacyjnych, których prawo jeszcze nie zamknęło.

Siedem z dziesięciu reguł wykrywa się w pojedynczej stronie (pre-zatwierdzony consent, fałszywy countdown, wymuszona rejestracja bez opcji guest checkout, confirmshaming w przyciskach opt-out, disguised ads, asymetria banera cookies, third-party aplikacje fake-activity typu Fomopop czy Beeketing). Pozostałe trzy (drip pricing z ukrytymi kosztami, sneak into basket, hard-to-cancel "roach motel") wymagają multi-step journey capture i wejdą wraz z warstwą journey-diff. Detektor obecnie pracuje w shadow mode - findings trafiają do telemetrii, pipeline nie blokuje. Po zweryfikowaniu współczynnika false-positive na korpusie audytowanych stron, te same reguły zasilą sekcję compliance w raporcie klienta.

Założenie jest takie, jak ujęli to Luguri i Strahilevitz: pojedynczy łagodny pattern łatwo zlekceważyć, ale wzorce kompoundujące się sumują do materialnego zniekształcenia wyboru konsumenta, a to właśnie regulator mierzy. BuyerEyes punktuje każdy finding po severity i kategorii, dzięki czemu raport pokazuje compounding exposure, a nie tylko pojedyncze trafienia.

Compounding score

Poza skanem reguła po regule, BuyerEyes agreguje findings z trzech niezależnych strumieni detekcji: deterministyczne reguły z legal_refs opisane wyżej, semantyczna weryfikacja agenta Trust przeciwko taksonomii Gray et al. (CHI 2024), oraz oznaczone obserwacje z agentów Visual i Copy. Agregator deduplikuje wzorce po kategorii, zapisuje które źródła corroborate dany finding, i oblicza compounding score po severity weight (1-4), cross-source corroboration (+15% za każde dodatkowe źródło), category diversity (1.5x gdy wzorce obejmują trzy lub więcej kategorii) oraz multi-step bonus (+25% za każdy journey-diff finding). Output to jedna liczba, jeden tier (clean / low / moderate / high / critical) i transparentny wzór, który twój zespół compliance może zreplikować. ADR-115 w repozytorium BuyerEyes dokumentuje stałe.

Multi-step Hidden Costs i Sneak Into Basket

Drip pricing i basket sneaking nie są widoczne w pojedynczym screenshocie. BuyerEyes capturuje journey mode (PDP -> koszyk -> checkout) i uruchamia dwa konkretne detektory: Hidden Costs (delta większa niż pięć procent między stroną produktu a finalnym checkout, flagged krytycznie gdy brak wcześniejszej fee disclosure) oraz Sneak Into Basket (cart contents diff po każdym kroku, flagged gdy items pojawiają się bez poprzedzającej akcji Add-to-cart). Findings zawierają dokładne delta percentage i snippet before-after, więc raport może pokazać rzeczywiste doświadczenie kupującego.

BuyerEyes 2.0 - multi-user observatory (preview)

Wzorce powyżej zakładają jednego użytkownika. Personalised dark patterns - inna cena dla różnych użytkowników, warianty A/B gdzie jedno ramię jest ciemniejsze, geo-restricted opt-outs, dark patterns zależne od cookie state - są niewidoczne dla single-user audits i większości inspekcji regulatora. Mark Leiser identyfikuje to jako centralną lukę enforcement w swojej książce z 2025: "Inspector views site as one user. Cannot detect personalised variants without warrant + platform's internal logs."

BuyerEyes 2.0 zamyka tę lukę. Moduł observatory (foundation shipped w ADR-116) capturuje ten sam URL pod wieloma user profiles - geo, device, signed-in versus guest, cookie state, traffic source - i uruchamia pairwise diff engine po capturach. Cztery detektory operują na diffs: personalised price, personalised UI variant, geo-restricted opt-out, oraz cookie-state-dependent dark pattern. Każdy finding niesie swój własny zestaw legal references (GDPR Artykuł 22 dla automated decisions, UCPD Artykuł 6 dla price disclosure, DSA Artykuł 25 dla material distortion, AI Act Artykuł 5(1)(a) dla subliminal technique). Multi-profile capture orchestrator shipuje osobno jako część rolloutu BuyerEyes 2.0.

Zbudowane przez Kamila Andrusza, który spędził 30 lat na budowaniu i optymalizacji infrastruktury internetowej, zanim zadał inne pytanie: co jeśli moglibyśmy zobaczyć stronę oczami kupującego, zanim wydamy złotówkę na ruch? Odpowiedź wymagała 30+ artykułów naukowych, 14 agentów i metodologii scoringu, która przetrwa własną wewnętrzną debatę.

Zobacz, jak BuyerEyes wypada na tle innych narzędzi Cennik i zamówienie raportu

Sprawdź w praktyce

29 sub-scores. Przedziały ufności. Mapa uwagi wizualnej. Priorytyzowane rekomendacje. Raport w 24-48 godzin.

Zamów raport

Jak BuyerEyes oblicza oceny

Problem z ratingami AI

SSR: Semantic Similarity Rating

Korekcja błędów systematycznych

Debata wielu agentów

29 sub-scores w 6 wymiarach

Projekt wizualny

Copy i przekaz

Skuteczność CTA

Zaufanie i wiarygodność

Doświadczenie techniczne

Intencja zakupu (symulacja persony)

Mapy uwagi wizualnej

Przedziały ufności

Walidacja

Wykrywanie dark patterns i deceptive design

Compounding score

Multi-step Hidden Costs i Sneak Into Basket

BuyerEyes 2.0 - multi-user observatory (preview)

Sprawdź w praktyce