AI bywa stronnicza?

Para badaczy przeanalizowała ocenę 13 000 esejów wykonaną przez AI, esejów napisanych przez uczniów z klas 8–12. Odkryto, że AI gorzej oceniało uczniów pochodzenia azjatycko-amerykańskiego niż innych nacji.

Uczniowie napisali te eseje w latach 2015–2019 w ramach państwowych egzaminów. Zadaniem uczniów było napisanie eseju zawierającego argumentację odpowiedzi na pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każdy z esejów został oceniony przez ekspertów w skali od 1 do 6 punktów, przy czym 6 oznaczało najwyższą ocenę. Następnie zadano zadanie ocenienia esejów przez GPT-4o w tej samej sześciopunktowej skali, korzystając z tego samego przewodnika. Ani człowiek, ani maszyna nie zostali poinformowani o rasie ani pochodzeniu etnicznym uczniów. Za to badacze mieli do dyspozycji dane demograficzne uczniów.

GPT-4o oceniło wypracowania prawie o punkt niżej niż ludzie: AI – 2.8, a eksperci -3.7. Oceniający eksperci przyznali Azjatom Amerykanom średnio – 4.3, podczas gdy GPT-4o przyznało im tylko 3.2, czyli mniej więcej 1.1 punktu mniej.

Dla porównania, różnica w wynikach między ekspertami a GPT-4o wyniosła tylko około 0.9 punktu dla uczniów białych, czarnych i latynoskich. Zadziwiająca jest różnica dla Azjatów – Amerykanów.

Dodatkowa „kara” dla Azjatów-Amerykanów nie była strasznie duża, ale jest na tyle duża, że nie należy jej ignorować przy korzystaniu ze wsparcia AI. Oczywiście, to jedno badanie nie jest dowodem na to, że AI stale jest stronnicza wobec Azjatów-Amerykanów, ale ograniczone zaufanie.

Inne wersje AI czasami dają inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.

Eksperci ocenili najwyższą ocena (6) 732 esejów, a ChatGPT wystawiło 6-tki tylko trzem esejom. ChatGPT nie posiłkował się przykładami ocen. Możliwe, że kilka przykładowych esejów lub niewielkie zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować uprzedzenia wobec Azjatów-Amerykanów. Być może maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.

Znane są przypadki pochodzące z innych badań, gdy AI faworyzuje Azjatów-Amerykanów. Na przykład, zautomatyzowany system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Mogło to wynikać z tego, że niektórzy azjatyccy uczniowie lepiej zapamiętywali dobrze oceniane akapity, co mogło wpłynąć na ocenę. Oceniający eksperci mogli częściej zauważać, że eseje były niezwiązane z tematem.

Azjatyccy Amerykanie uzyskali również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT. Informatycy poddali swój eksperymentalny robo-grader serii testów i odkryli, że dawał on wyższe noty niż ludzie w odpowiedziach otwartych Azjatyckich Amerykanów w teście czytania ze zrozumieniem.

Ważne jest zatem testowanie systemów oceniających w wykonaniu AI, przed wprowadzeniem jej do praktyki oceniania. W przeciwnym wypadku ta praktyka może szkodzić uczniom.

Te badania moim zdaniem stawiają pod znakiem zapytania ocenianie zewnętrzne prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa. To tak na pocieszenie w związku z wynikami matur i egzaminów po szkole podstawowej.

Notka o autorce: Danuta Sterna jest byłą nauczycielką matematyki i dyrektorką szkoły, ekspertką oceniania kształtującego. Współpracowała z Centrum Edukacji Obywatelskiej tworząc programy szkoleń i kursów. Jest autorką książek i publikacji dla nauczycieli, propaguje ocenianie kształtujące w polskich szkołach, prowadzi też swoją stronę: OK nauczanie. Inspiracja artykułem Jill Barshay w Hechinger Report.

Sylwia napisał/a komentarz do Co nowego w szkołach od września?

Szanowna Pani Minister, uprzejmie proszę o podjecie tematu zróżnicowania pensum. Jest to konieczne, ...

22 hours ago

Ppp napisał/a komentarz do Co młodzi sądzą o demokracji?

Wychodzi na to, że młodzież jest bardzo świadoma. Zatem: politycy - DO ROBOTY! Godzina tygodniowo no...

1 day ago

V-Waldi napisał/a komentarz do Nowa podstawa programowa WF, czyli przerost formy nad treścią

Nauczyciele wf nie pracują w domu, ich obowiązki zamykają się w szkole. Nie przygotowują się w domu ...

about 6 days ago

Gość napisał/a komentarz do Nauczyciel w oku cyklonu: między kreatywnością a presją na wyniki

Wygrywamy wszystkie bitwy a przegrywamy wojnę. Taka rozmowa podczas wywiadówki: Pani syn ma braki a ...

about 1 week ago

Ppp napisał/a komentarz do Nauczyciel w oku cyklonu: między kreatywnością a presją na wyniki

Sprzeczność niewątpliwie jest, ale myślący człowiek powinien zauważyć, co ważniejsze. A ważniejsze j...

Egzaminy to diabeł. I do tego sprawdzają wiedze, która nie będzie nikomu w przyszłości potrzebna i k...

Robert Raczyński napisał/a komentarz do ADHD: gdy mózg dziecka uczy się chronić

Z zainteresowaniem przeczytałem ten artykuł, który stara się przybliżyć środowiskowy wymiar ADHD. Ni...

Ppp napisał/a komentarz do ADHD: gdy mózg dziecka uczy się chronić

Po prostu to nie dzieci są złe, tylko system niedopasowany. Oczywiście dotyczy to nie tylko ADHD, al...

Sidebar

AI bywa stronnicza?

Typografia

Jesteśmy na facebooku

Rozmowy z uczniami o uczeniu się

Co młodzi sądzą o demokracji?

Netochron: cyberodporność w rytmie rocka

Edukacja STEAM w przedszkolu i klasach I–III

Od lenistwa do refleksji. Jak mądrze uczyć się z AI?

Sprawdzanie matur jako wyzwanie współczesności

Co nowego w szkołach od września?

Mylenie epok, mylenie przekazów czyli o tym, dlaczego tak wiele naszych prezentacji jest skazanych na porażkę

Raportem w płot

ADHD: gdy mózg dziecka uczy się chronić

Win-Win Barbary Nowackiej

Nauczyciel w oku cyklonu: między kreatywnością a presją na wyniki

Luka pomiędzy nauczaniem a uczeniem się

Zadłużenie poznawcze, czyli co ryzykujemy ucząc się z AI i jak temu zapobiegać

Ostatnie komentarze

E-booki dla nauczycieli

Portal

Organizacja