Porównanie bije rubrykę: Stanford i Harvey publikują pierwszy publiczny benchmark dwóch metod oceny AI w prawie

24 maja 2026 zespół Stanford Law (Julian Nyarko i in.), Snorkel AI oraz Harvey opublikował na arXiv pracę JudgmentBench. To pierwszy publiczny zbiór danych, w którym te same wyniki modeli AI są równocześnie ocenione dwiema dominującymi metodami: rubryką punktową i porównaniem parami. Próbka: 30 zadań z BigLaw Bench Harvey'a (redagowanie odpowiedzi na pozew, kontrargumenty w summary judgment, due diligence, klauzule indemnifikacyjne, analiza prawa stanowego Delaware), 1539 ocen rubrycznych i 1530 ocen porównawczych od 51 praktykujących prawników (11 z dwóch dużych amerykańskich kancelarii, pozostali rekrutowani przez Snorkel AI; mediana 10 lat doświadczenia), ekwiwalent 242 godzin pracy o wartości godzinowej 242 000 USD. Wynik: porównania parami odtwarzają skonstruowany ranking jakości znacznie lepiej niż rubryki (Spearman 0.908 vs 0.150) i wymagają mniej niż połowy czasu (1.92 min vs 4.74 min na zadanie). Efekt utrzymuje się dla ludzi i dla autograderów LLM.

Aktualne na 2026-05-27. Jeżeli wewnętrznie oceniasz jakość pracy modelu AI w kancelarii rubrykami („czy odpowiedział na pytanie, czy zacytował przepis, czy struktura jest poprawna”), JudgmentBench mówi: tracisz większość sygnału. Porównanie parami jest tańsze i celniejsze - ale niesie własne kompromisy, które trzeba zrozumieć, zanim się je przyjmie.

Skąd ten benchmark

Branża LegalTech ma rosnący problem mierzalności. Modele językowe robią coraz więcej pracy prawniczej, a metody oceny ich jakości są albo zamknięte (Harvey BigLaw Bench, Thomson Reuters CoCounsel, Vals AI), albo nieporównywalne między sobą. Dotychczasowa literatura zna dwie dominujące metody: rubrykę punktową, w której wynik modelu jest oceniany według wcześniej spisanych kryteriów, oraz porównanie parami (comparative judgment), w którym oceniający wskazuje lepszą z dwóch wersji odpowiedzi. Wybór między nimi w istniejących benchmarkach był arbitralny.

JudgmentBench eliminuje tę arbitralność po raz pierwszy. Autorzy biorą 30 zadań z BigLaw Bench Harvey'a (zbiór 100 zadań stworzonych przez byłych prawników BigLaw do odzwierciedlenia realnej pracy litygacyjnej i transakcyjnej), generują dla każdego trzy poziomy jakości wyniku (excellent / good / intermediate) tym samym modelem Claude Opus 4.6 sterowanym promptem z sześcioma wymiarami jakości (analytical depth, precision, completeness, reasoning clarity, judgment, nuance), i każą tym samym 51 prawnikom ocenić te same wyniki obydwoma metodami. Tak skonstruowany zbiór pozwala wprost porównać, która metoda lepiej odtwarza wbudowany porządek jakości - i jakim kosztem.

Annotator-poziom 11 prawników pochodzi z dwóch dużych amerykańskich kancelarii, pozostali z platformy Snorkel AI. Mediana doświadczenia: 10 lat. 37.3% senior associates, 11.8% partners, 9.8% counsel. Deklarowane domeny praktyki: litygacja (70.6%), transakcje (62.7%), regulacje (43.1%), prawo pracy (33.3%). Każdy prawnik dostał wszystkie 30 zadań w losowej kolejności, naprzemiennie rubryka i porównanie (nie wolno było pominąć metodologii, można było pominąć zadanie spoza specjalizacji). Każde zadanie do 20 minut.

Co policzyli

Data publikacji

arXiv, 24 maja 2026

Zadań prawniczych

30 z BigLaw Bench Harvey'a

Rozkład tematyczny

14 litygacja / 16 transakcje

Annotatorów (prawników)

51, mediana 10 lat praktyki

Ocen rubrycznych

1539

Ocen porównawczych

1530

Czas pracy łącznie

242 h ≈ 242 000 USD wartości godzinowej

Korelacja z rankingiem (Spearman)

0.908 porównanie / 0.150 rubryka

Mediana czasu na zadanie

1.92 min porównanie / 4.74 min rubryka

Jedna liczba ustawia całą interpretację. Rubryki, które w literaturze edukacyjnej i benchmarkingu LLM uchodzą za narzędzie audytowalne i mierzalne, w domenie wysokospecjalistycznej (prawo BigLaw) odzyskują wbudowany porządek jakości na poziomie Spearmana 0.150 - statystycznie nieodróżnialnym od szumu. Porównania parami robią to samo na poziomie 0.908. Ta różnica utrzymuje się dla każdego poziomu doświadczenia annotatora, dla każdej kategorii zadania i nawet gdy porównanie odbywa się tylko między sąsiadującymi poziomami jakości (excellent vs good albo good vs intermediate).

Dlaczego porównanie bije rubrykę - dwie hipotezy autorów

Pierwsza hipoteza - obciążenie poznawcze. Człowiek lepiej dyskryminuje między dwoma bodźcami niż przypisuje bezwzględną wartość jednemu w izolacji. To obserwacja Thurstone'a z 1927 roku, wielokrotnie potwierdzona w pomiarze edukacyjnym i psychologicznym. Porównanie obniża obciążenie i daje bardziej stabilny sygnał między różnymi oceniającymi. JudgmentBench dodaje, że ten efekt utrzymuje się też wtedy, gdy oceniającymi są LLM-y (GPT-5.4 i GPT-5.4-mini): mean Spearman między oceną człowieka a oceną modelu wyniósł 0.200 dla rubryki i 0.375 dla porównania w wariancie GPT-5.4, oraz odpowiednio 0.242 i 0.611 dla GPT-5.4-mini.

Druga hipoteza - wiedza milcząca. Jakość pracy prawniczej ma wymiary trudne do wyliczenia w rubryce: głębia analityczna, siła perswazyjna, ocena strategiczna. Doświadczony prawnik je rozpoznaje, ale nie zawsze potrafi zapisać. Rubryka, ograniczając uwagę do z góry zdefiniowanych kryteriów, te wymiary systematycznie pomija. Autorzy wskazują na pośredni dowód: przewaga porównań jest najbardziej spójna u prawników z największym stażem - czyli tam, gdzie zasobu wiedzy milczącej jest najwięcej.

Dwie hipotezy nie wykluczają się wzajemnie i dane JudgmentBench nie pozwalają rozsądzić, która jest silniejsza. Ważne jest co innego: obie wskazują, że rubryka nie zbiera tego sygnału, dla którego była używana - mierzenia jakości jako całości.

Czego ten wynik nie mówi

Autorzy są ostrożni i ich ostrożność jest właściwym miejscem dla polskiego czytelnika. Trzy zastrzeżenia z dyskusji w pracy zasługują na podkreślenie.

Po pierwsze, porównanie zwija się do pojedynczego rankingu. Rubryka mówi dlaczego jeden wynik jest lepszy od drugiego (zabrakło cytatu z przepisu, struktura niespójna, nadinterpretacja faktów). Porównanie mówi tylko który. W faktycznym wdrożeniu, gdzie ktoś musi zrozumieć, co system mierzy - regulator, klient, prawnik kompetencyjny - audytowalność per-kryterium ma własną wartość. Autorzy formułują to wprost: „rubryki są słabsze jako podsumowanie ogólnej jakości, niż często się zakłada, ale pozostają wartościowe jako narzędzie analityczne”.

Po drugie, jakość była indukowana promptem, nie naturalna. Wyniki „excellent / good / intermediate” wygenerował ten sam model, sterowany różnymi promptami. Naturalna wariancja jakości pracy juniora wobec partnera może mieć inne wymiary niż ta sztuczna. Praca eksperymentalnie konstruuje sygnał jakości, by w ogóle móc go zmierzyć - to konieczność metodologiczna, ale to nie jest pomiar jakości w warunkach naturalnych.

Po trzecie, to U.S. BigLaw, nie polska kancelaria średnia. Stawka 1000 USD/h, zadania typu summary judgment, Delaware corporate law, anti-kickback statute. Konstrukcja zadań i kryteriów jakości odzwierciedla amerykańską praktykę dużych kancelarii. Mechanika porównania parami jest uniwersalna, ale konkretne wymiary jakości w polskiej kancelarii (zgodność z KPC, znajomość linii orzeczniczej SN, sposób cytowania orzecznictwa) wymagają własnej kalibracji.

Cztery wnioski dla polskiej kancelarii

Wniosek pierwszy - audyt jakości wyniku modelu AI rubryką jest słabszy, niż się powszechnie zakłada. Jeżeli kancelaria buduje wewnętrzny benchmark („oceńmy w skali 1-5, czy asystent dobrze odpowiada na zapytania klienta”), JudgmentBench mówi, że suma punktów rubrycznych słabo koreluje z faktyczną jakością. Lepiej zorganizować proces wokół porównań parami - dwa warianty odpowiedzi obok siebie, prawnik wskazuje lepszą. Tańsze (40% czasu rubryki), celniejsze, mniej obciąża psychicznie.

Wniosek drugi - rubryka pozostaje wartościowa do diagnozy, nie do oceny ogólnej. Tam, gdzie potrzebny jest audyt per-kryterium („czy odpowiedź zacytowała aktualny stan prawny”, „czy uwzględniła wszystkie strony umowy”, „czy nie zhalucynowała sygnatury orzeczenia”), rubryka jest nadal właściwym narzędziem. JudgmentBench nie zabija rubryk - przesuwa je w roli z „pomiar jakości” do „kontrola błędów”. To dwa różne pytania i dwa różne pomiary.

Wniosek trzeci - AI Act art. 15 wymaga „appropriate levels of accuracy”. Rozporządzenie 2024/1689 nakłada na dostawców systemów wysokiego ryzyka obowiązek utrzymania odpowiednich poziomów dokładności, odporności i cyberbezpieczeństwa przez cały cykl życia systemu. Pytanie „jak mierzymy accuracy w pracy AI dla kancelarii” jest pytaniem regulacyjnym, nie tylko technicznym. JudgmentBench sugeruje, że wybór metodologii pomiaru sam jest decyzją o tym, co uznajemy za jakość - i ta decyzja musi być udokumentowana w polityce wewnętrznej.

Wniosek czwarty - wiedzę milczącą partnera lepiej oddają porównania niż checklisty. To istotne dla opinii prawnych i due diligence, gdzie jakość pracy zawiera elementy oceny strategicznej, których juniorzy nie widzą. Jeżeli kancelaria chce skalibrować model AI pod własny styl pracy senioralnej, dieta porównań parami (dwa drafty, partner wskazuje lepszy) jest skuteczniejsza niż próba spisania listy „co robi dobry partner”. To zresztą jeden z fundamentów współczesnych metod trenowania dużych modeli językowych: uczenia ze wzmocnieniem na podstawie ludzkich preferencji (RLHF) oraz Direct Preference Optimization (DPO) - obie operują na parach, nie na rubrykach.

Interpretacja MateMatic, nie stanowisko PUODO, NRA ani KRRP.

Dla zarządu kancelarii w trzech zdaniach

Polityka korzystania z AI ma sens dopiero wtedy, gdy obok niej istnieje sposób mierzenia jakości pracy modelu - i ten sposób trzeba świadomie wybrać. JudgmentBench jest twardym sygnałem, że domyślna metoda branży (rubryka punktowa) w pracy prawniczej zaniża sygnał i kosztuje dwukrotnie więcej czasu od porównania parami. Pierwszy klient, który podważy wynik wygenerowany albo zweryfikowany przez asystenta AI, zapyta nie o regulamin - tylko o to, jak udokumentowaliście, że ten wynik jest dobry.

Powiązane materiały MateMatic

Otwieramy polskie prawo dla agentów AI - pięć MCP w open source i pilot Patrona: aktualność z 20 maja 2026. AI w polskiej administracji już pracuje, a zasad korzystania z niej praktycznie nie ma (raport Watchdoga): aktualność z 22 maja 2026. Anthropic wprowadza Claude for Legal Industry, MateMatic czyta to dwoma głosami: aktualność z 13 maja 2026. Czego governance AI nie mierzy - MIT liczy, o których ryzykach się milczy: TOM Bazy Wiedzy.

Co MateMatic wnosi

Punktem wyjścia jest audyt jakości AI - inwentaryzacja, jakimi metodami kancelaria dziś ocenia wyniki modeli (jeżeli w ogóle je ocenia), gdzie ten pomiar jest słaby i co warto przebudować w stronę porównania parami.

Z audytu powstaje Konstytucja AI: spisany, własny zestaw zasad korzystania z AI z imienną odpowiedzialnością - włącznie z polityką pomiaru jakości i ścieżką audytu zgodną z art. 15 AI Act. Całość na pillarach MateMatic Decyzja jako jednostka pracy oraz stack zero-cloud, by dane wrażliwe nie opuszczały kontrolowanego środowiska.

Oceny w tej aktualności są stanowiskiem MateMatic, nie zastępują doradztwa prawnego i nie stanowią stanowiska PUODO, NRA ani KRRP.

Źródła

Russell Yang i in., „JudgmentBench: Comparing Rubric and Preference Evaluation for Quality Assessment”, arXiv:2605.25240, 24 maja 2026: arxiv.org/abs/2605.25240
Dataset JudgmentBench: huggingface.co/datasets/judgmentbench/JudgmentBench
Kod ewaluacji: github.com/liftlab-SLS/JudgmentBench
Harvey Team, „Introducing BigLaw Bench” (zbiór bazowy): harvey.ai/blog/introducing-biglaw-bench
Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2024/1689 (AI Act) - art. 15 (accuracy, robustness, cybersecurity), baza EUR-Lex: eur-lex.europa.eu (CELEX 32024R1689)

Porównanie bije rubrykę. Stanford i Harvey publikują pierwszy publiczny benchmark dwóch metod oceny AI w prawie