AI bywa stronnicza?

fot. Adobe Stock

Typografia
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Przeczytałam dość zadziwiającą wiadomość, że sztuczna inteligencja może być stronnicza w edukacji. Organizacja przeprowadzająca testy SAT przeanalizowała ponad 13 000 esejów uczniów i okazało się, że ocena ich przez AI nie była neutralna. W sumie nie jest to dziwne. Kiedy ChatGPT został udostępniony publicznie w listopadzie 2022, ostrzegano, że może być nacechowany uprzedzeniami rasowymi. ChatGPT został stworzony poprzez zebranie 300 miliardów słów z książek, artykułów i tekstów internetowych, które częściowo zawierają rasistowskie opinie i odzwierciedlają ukryte uprzedzenia autorów. Stąd też AI może wygenerować stronnicze dane i porady.

Para badaczy przeanalizowała ocenę 13 000 esejów wykonaną przez AI, esejów napisanych przez uczniów z klas 8–12. Odkryto, że AI gorzej oceniało uczniów pochodzenia azjatycko-amerykańskiego niż innych nacji.

Uczniowie napisali te eseje w latach 2015–2019 w ramach państwowych egzaminów. Zadaniem uczniów było napisanie eseju zawierającego argumentację odpowiedzi na pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każdy z esejów został oceniony przez ekspertów w skali od 1 do 6 punktów, przy czym 6 oznaczało najwyższą ocenę. Następnie zadano zadanie ocenienia esejów przez GPT-4o w tej samej sześciopunktowej skali, korzystając z tego samego przewodnika. Ani człowiek, ani maszyna nie zostali poinformowani o rasie ani pochodzeniu etnicznym uczniów. Za to badacze mieli do dyspozycji dane demograficzne uczniów.

GPT-4o oceniło wypracowania prawie o punkt niżej niż ludzie: AI – 2.8, a eksperci -3.7. Oceniający eksperci przyznali Azjatom Amerykanom średnio – 4.3, podczas gdy GPT-4o przyznało im tylko 3.2, czyli mniej więcej 1.1 punktu mniej.

Dla porównania, różnica w wynikach między ekspertami a GPT-4o wyniosła tylko około 0.9 punktu dla uczniów białych, czarnych i latynoskich. Zadziwiająca jest różnica dla Azjatów – Amerykanów.

Dodatkowa „kara” dla Azjatów-Amerykanów nie była strasznie duża, ale jest na tyle duża, że nie należy jej ignorować przy korzystaniu ze wsparcia AI. Oczywiście, to jedno badanie nie jest dowodem na to, że AI stale jest stronnicza wobec Azjatów-Amerykanów, ale ograniczone zaufanie.

Inne wersje AI czasami dają inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.

Eksperci ocenili najwyższą ocena (6) 732 esejów, a ChatGPT wystawiło 6-tki tylko trzem esejom. ChatGPT nie posiłkował się przykładami ocen. Możliwe, że kilka przykładowych esejów lub niewielkie zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować uprzedzenia wobec Azjatów-Amerykanów. Być może maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.

Znane są przypadki pochodzące z innych badań, gdy AI faworyzuje Azjatów-Amerykanów. Na przykład, zautomatyzowany system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Mogło to wynikać z tego, że niektórzy azjatyccy uczniowie lepiej zapamiętywali dobrze oceniane akapity, co mogło wpłynąć na ocenę. Oceniający eksperci mogli częściej zauważać, że eseje były niezwiązane z tematem.

Azjatyccy Amerykanie uzyskali również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT. Informatycy poddali swój eksperymentalny robo-grader serii testów i odkryli, że dawał on wyższe noty niż ludzie w odpowiedziach otwartych Azjatyckich Amerykanów w teście czytania ze zrozumieniem.

Ważne jest zatem testowanie systemów oceniających w wykonaniu AI, przed wprowadzeniem jej do praktyki oceniania. W przeciwnym wypadku ta praktyka może szkodzić uczniom.

Te badania moim zdaniem stawiają pod znakiem zapytania ocenianie zewnętrzne prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa. To tak na pocieszenie w związku z wynikami matur i egzaminów po szkole podstawowej.

 

Notka o autorce: Danuta Sterna jest byłą nauczycielką matematyki i dyrektorką szkoły, ekspertką oceniania kształtującego. Współpracowała z Centrum Edukacji Obywatelskiej tworząc programy szkoleń i kursów. Jest autorką książek i publikacji dla nauczycieli, propaguje ocenianie kształtujące w polskich szkołach, prowadzi też swoją stronę: OK nauczanie. Inspiracja artykułem Jill Barshay w Hechinger Report.

Jesteśmy na facebooku

fb

Ostatnie komentarze

Gość napisał/a komentarz do Na zastępstwach
W punkt.
Ppp napisał/a komentarz do Czas na szkołę doceniania
Pytanie podstawowe: PO CO oceniać? Większość ocen, z jakimi się w życiu spotkałem, nie miało żadnego...
Robert Raczyński napisał/a komentarz do Brak chętnych do nauczania w szkołach
W żaden sposób nie negowałem potrzeby, czy wręcz obowiązku kształcenia nauczycieli. Niestety, kontyn...
Generalnie i co do zasady ok. 30% ocen jest PRZYPADKOWYCH - częściowo Pani opisała, dlaczego. Jeśli ...
Maciej Sysło napisał/a komentarz do Brak chętnych do nauczania w szkołach
W odpowiedzi na sarkastyczny ton wypowiedzi Pana Roberta mam jednak propozycję. Jednym z obowiązków ...
Robert Raczyński napisał/a komentarz do Brak chętnych do nauczania w szkołach
Jeśli pominąć ideologiczne ozdobniki, problem z brakiem nauczycieli wynika z faktu, że wiedza przest...
Ci dorośli kiedyś chodzili do szkoły (niektórzy całkiem niedawno) i ktoś porozdawał im matury. Suger...
Sławomir napisał/a komentarz do Urządzimy młodym nowy, wspaniały świat
Ciekawa polemika. Zauważam, być może błędnie, kontrast między podejściem dialektycznym (Pana, Panie ...

E-booki dla nauczycieli

Polecamy dwa e-booki dydaktyczne z serii Think!
Metoda Webquest - poradnik dla nauczycieli
Technologie są dla dzieci - e-poradnik dla nauczycieli wczesnoszkolnych z dziesiątkami podpowiedzi, jak używać technologii w klasie