AI bywa stronnicza?

fot. Adobe Stock

Typografia
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Przeczytałam dość zadziwiającą wiadomość, że sztuczna inteligencja może być stronnicza w edukacji. Organizacja przeprowadzająca testy SAT przeanalizowała ponad 13 000 esejów uczniów i okazało się, że ocena ich przez AI nie była neutralna. W sumie nie jest to dziwne. Kiedy ChatGPT został udostępniony publicznie w listopadzie 2022, ostrzegano, że może być nacechowany uprzedzeniami rasowymi. ChatGPT został stworzony poprzez zebranie 300 miliardów słów z książek, artykułów i tekstów internetowych, które częściowo zawierają rasistowskie opinie i odzwierciedlają ukryte uprzedzenia autorów. Stąd też AI może wygenerować stronnicze dane i porady.

Para badaczy przeanalizowała ocenę 13 000 esejów wykonaną przez AI, esejów napisanych przez uczniów z klas 8–12. Odkryto, że AI gorzej oceniało uczniów pochodzenia azjatycko-amerykańskiego niż innych nacji.

Uczniowie napisali te eseje w latach 2015–2019 w ramach państwowych egzaminów. Zadaniem uczniów było napisanie eseju zawierającego argumentację odpowiedzi na pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każdy z esejów został oceniony przez ekspertów w skali od 1 do 6 punktów, przy czym 6 oznaczało najwyższą ocenę. Następnie zadano zadanie ocenienia esejów przez GPT-4o w tej samej sześciopunktowej skali, korzystając z tego samego przewodnika. Ani człowiek, ani maszyna nie zostali poinformowani o rasie ani pochodzeniu etnicznym uczniów. Za to badacze mieli do dyspozycji dane demograficzne uczniów.

GPT-4o oceniło wypracowania prawie o punkt niżej niż ludzie: AI – 2.8, a eksperci -3.7. Oceniający eksperci przyznali Azjatom Amerykanom średnio – 4.3, podczas gdy GPT-4o przyznało im tylko 3.2, czyli mniej więcej 1.1 punktu mniej.

Dla porównania, różnica w wynikach między ekspertami a GPT-4o wyniosła tylko około 0.9 punktu dla uczniów białych, czarnych i latynoskich. Zadziwiająca jest różnica dla Azjatów – Amerykanów.

Dodatkowa „kara” dla Azjatów-Amerykanów nie była strasznie duża, ale jest na tyle duża, że nie należy jej ignorować przy korzystaniu ze wsparcia AI. Oczywiście, to jedno badanie nie jest dowodem na to, że AI stale jest stronnicza wobec Azjatów-Amerykanów, ale ograniczone zaufanie.

Inne wersje AI czasami dają inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.

Eksperci ocenili najwyższą ocena (6) 732 esejów, a ChatGPT wystawiło 6-tki tylko trzem esejom. ChatGPT nie posiłkował się przykładami ocen. Możliwe, że kilka przykładowych esejów lub niewielkie zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować uprzedzenia wobec Azjatów-Amerykanów. Być może maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.

Znane są przypadki pochodzące z innych badań, gdy AI faworyzuje Azjatów-Amerykanów. Na przykład, zautomatyzowany system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Mogło to wynikać z tego, że niektórzy azjatyccy uczniowie lepiej zapamiętywali dobrze oceniane akapity, co mogło wpłynąć na ocenę. Oceniający eksperci mogli częściej zauważać, że eseje były niezwiązane z tematem.

Azjatyccy Amerykanie uzyskali również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT. Informatycy poddali swój eksperymentalny robo-grader serii testów i odkryli, że dawał on wyższe noty niż ludzie w odpowiedziach otwartych Azjatyckich Amerykanów w teście czytania ze zrozumieniem.

Ważne jest zatem testowanie systemów oceniających w wykonaniu AI, przed wprowadzeniem jej do praktyki oceniania. W przeciwnym wypadku ta praktyka może szkodzić uczniom.

Te badania moim zdaniem stawiają pod znakiem zapytania ocenianie zewnętrzne prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa. To tak na pocieszenie w związku z wynikami matur i egzaminów po szkole podstawowej.

 

Notka o autorce: Danuta Sterna jest byłą nauczycielką matematyki i dyrektorką szkoły, ekspertką oceniania kształtującego. Współpracowała z Centrum Edukacji Obywatelskiej tworząc programy szkoleń i kursów. Jest autorką książek i publikacji dla nauczycieli, propaguje ocenianie kształtujące w polskich szkołach, prowadzi też swoją stronę: OK nauczanie. Inspiracja artykułem Jill Barshay w Hechinger Report.

Jesteśmy na facebooku

fb

Ostatnie komentarze

Te "restrykcyjne zasady" w badanych szkołach polegały na tym, że uczniowie mieli "zakaz korzystania ...
Myślę, że to powinno być "na żądanie ucznia". Wyobraźmy sobie, że przedmiot X mnie nie interesuje, a...
Kazimierz napisał/a komentarz do Klauzula informacyjna - dane osobowe
Bardzo interesujące i pożyteczne artykuły
Taką ofertą dla nauczycieli, jakiej gwałtownie potrzebujemy, z całą pewnością nie jest pomysł aby do...
Ten pomysł jest wyśmienity i zasługuje na szerokie wdrożenie! Po 14 latach od pierwszego chyba wyraż...
Grażyna Uhman napisał/a komentarz do Refleksja nad wprowadzaniem technologii do nauczania
To jest strzał w dziesiątkę! Staram się sledzić nowosci technologiczne w edukacji, skończyłam kurs ...
Wynik jest oczywisty. Jeśli ktoś mało korzysta - nic nie zmieni kilkugodzinna przerwa. Jeśli ktoś du...
Danuta Sterna napisał/a komentarz do Nauczanie z technologią w tle
Właśnie o tym piszę, nie możemy się odwrócić od technologii, ale potrzeba bardzo dużego rozsądku i r...

E-booki dla nauczycieli

Polecamy dwa e-booki dydaktyczne z serii Think!
Metoda Webquest - poradnik dla nauczycieli
Technologie są dla dzieci - e-poradnik dla nauczycieli wczesnoszkolnych z dziesiątkami podpowiedzi, jak używać technologii w klasie