AI bywa stronnicza?

fot. Adobe Stock

Typografia
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Przeczytałam dość zadziwiającą wiadomość, że sztuczna inteligencja może być stronnicza w edukacji. Organizacja przeprowadzająca testy SAT przeanalizowała ponad 13 000 esejów uczniów i okazało się, że ocena ich przez AI nie była neutralna. W sumie nie jest to dziwne. Kiedy ChatGPT został udostępniony publicznie w listopadzie 2022, ostrzegano, że może być nacechowany uprzedzeniami rasowymi. ChatGPT został stworzony poprzez zebranie 300 miliardów słów z książek, artykułów i tekstów internetowych, które częściowo zawierają rasistowskie opinie i odzwierciedlają ukryte uprzedzenia autorów. Stąd też AI może wygenerować stronnicze dane i porady.

Para badaczy przeanalizowała ocenę 13 000 esejów wykonaną przez AI, esejów napisanych przez uczniów z klas 8–12. Odkryto, że AI gorzej oceniało uczniów pochodzenia azjatycko-amerykańskiego niż innych nacji.

Uczniowie napisali te eseje w latach 2015–2019 w ramach państwowych egzaminów. Zadaniem uczniów było napisanie eseju zawierającego argumentację odpowiedzi na pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każdy z esejów został oceniony przez ekspertów w skali od 1 do 6 punktów, przy czym 6 oznaczało najwyższą ocenę. Następnie zadano zadanie ocenienia esejów przez GPT-4o w tej samej sześciopunktowej skali, korzystając z tego samego przewodnika. Ani człowiek, ani maszyna nie zostali poinformowani o rasie ani pochodzeniu etnicznym uczniów. Za to badacze mieli do dyspozycji dane demograficzne uczniów.

GPT-4o oceniło wypracowania prawie o punkt niżej niż ludzie: AI – 2.8, a eksperci -3.7. Oceniający eksperci przyznali Azjatom Amerykanom średnio – 4.3, podczas gdy GPT-4o przyznało im tylko 3.2, czyli mniej więcej 1.1 punktu mniej.

Dla porównania, różnica w wynikach między ekspertami a GPT-4o wyniosła tylko około 0.9 punktu dla uczniów białych, czarnych i latynoskich. Zadziwiająca jest różnica dla Azjatów – Amerykanów.

Dodatkowa „kara” dla Azjatów-Amerykanów nie była strasznie duża, ale jest na tyle duża, że nie należy jej ignorować przy korzystaniu ze wsparcia AI. Oczywiście, to jedno badanie nie jest dowodem na to, że AI stale jest stronnicza wobec Azjatów-Amerykanów, ale ograniczone zaufanie.

Inne wersje AI czasami dają inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.

Eksperci ocenili najwyższą ocena (6) 732 esejów, a ChatGPT wystawiło 6-tki tylko trzem esejom. ChatGPT nie posiłkował się przykładami ocen. Możliwe, że kilka przykładowych esejów lub niewielkie zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować uprzedzenia wobec Azjatów-Amerykanów. Być może maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.

Znane są przypadki pochodzące z innych badań, gdy AI faworyzuje Azjatów-Amerykanów. Na przykład, zautomatyzowany system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Mogło to wynikać z tego, że niektórzy azjatyccy uczniowie lepiej zapamiętywali dobrze oceniane akapity, co mogło wpłynąć na ocenę. Oceniający eksperci mogli częściej zauważać, że eseje były niezwiązane z tematem.

Azjatyccy Amerykanie uzyskali również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT. Informatycy poddali swój eksperymentalny robo-grader serii testów i odkryli, że dawał on wyższe noty niż ludzie w odpowiedziach otwartych Azjatyckich Amerykanów w teście czytania ze zrozumieniem.

Ważne jest zatem testowanie systemów oceniających w wykonaniu AI, przed wprowadzeniem jej do praktyki oceniania. W przeciwnym wypadku ta praktyka może szkodzić uczniom.

Te badania moim zdaniem stawiają pod znakiem zapytania ocenianie zewnętrzne prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa. To tak na pocieszenie w związku z wynikami matur i egzaminów po szkole podstawowej.

 

Notka o autorce: Danuta Sterna jest byłą nauczycielką matematyki i dyrektorką szkoły, ekspertką oceniania kształtującego. Współpracowała z Centrum Edukacji Obywatelskiej tworząc programy szkoleń i kursów. Jest autorką książek i publikacji dla nauczycieli, propaguje ocenianie kształtujące w polskich szkołach, prowadzi też swoją stronę: OK nauczanie. Inspiracja artykułem Jill Barshay w Hechinger Report.

Jesteśmy na facebooku

fb

Ostatnie komentarze

Marcin Polak napisał/a komentarz do Szkolna klasa - dobre miejsce do współpracy
Świetny przykład, że każdą przestrzeń klasy da się łatwo zreorganizować, aby pobudzić aktywne uczeni...
Robert Raczyński napisał/a komentarz do Informacja zwrotna dla przyszłości
O informacji zwrotnej można długo... Przedstawione tu wskazówki są cenne. Niestety, problem w tym, ż...
Andrzej napisał/a komentarz do Informacja zwrotna dla przyszłości
Bardzo proszę o przykład idealnie napisanej informacji zwrotnej.
Ppp napisał/a komentarz do Informacja zwrotna dla przyszłości
Jeśli jestem w czymś dobry - wiem o tym, dodatkowy komentarz nie jest potrzebny.Jeśli jestem w czymś...
Piotr napisał/a komentarz do Déjà vu
Codziennie z ulgą odkrywam, że jestem emerytowanym nauczycielem
Marcin Polak napisał/a komentarz do Déjà vu
Jeśli podzielimy prace na kilkadziesiąt zespołów i każdy przygotuje PP dla przedmiotu na 20-parę str...
Marcin Polak napisał/a komentarz do Déjà vu
No niestety przedstawienie faktycznie jakby to samo. Obojętnie z której strony partyjnej, model dzia...
Marcin Polak napisał/a komentarz do Narracje w polskiej debacie o ochronie przyrody
Wydaje mi się, że ta "trzecia grupa" jest równo rozłożona i reprezentowana w dwóch opisanych w artyk...

E-booki dla nauczycieli

Polecamy dwa e-booki dydaktyczne z serii Think!
Metoda Webquest - poradnik dla nauczycieli
Technologie są dla dzieci - e-poradnik dla nauczycieli wczesnoszkolnych z dziesiątkami podpowiedzi, jak używać technologii w klasie