AI bywa stronnicza?

fot. Adobe Stock

Typografia
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Przeczytałam dość zadziwiającą wiadomość, że sztuczna inteligencja może być stronnicza w edukacji. Organizacja przeprowadzająca testy SAT przeanalizowała ponad 13 000 esejów uczniów i okazało się, że ocena ich przez AI nie była neutralna. W sumie nie jest to dziwne. Kiedy ChatGPT został udostępniony publicznie w listopadzie 2022, ostrzegano, że może być nacechowany uprzedzeniami rasowymi. ChatGPT został stworzony poprzez zebranie 300 miliardów słów z książek, artykułów i tekstów internetowych, które częściowo zawierają rasistowskie opinie i odzwierciedlają ukryte uprzedzenia autorów. Stąd też AI może wygenerować stronnicze dane i porady.

Para badaczy przeanalizowała ocenę 13 000 esejów wykonaną przez AI, esejów napisanych przez uczniów z klas 8–12. Odkryto, że AI gorzej oceniało uczniów pochodzenia azjatycko-amerykańskiego niż innych nacji.

Uczniowie napisali te eseje w latach 2015–2019 w ramach państwowych egzaminów. Zadaniem uczniów było napisanie eseju zawierającego argumentację odpowiedzi na pytanie: „Czy uczniowie powinni mieć prawo do korzystania z telefonów komórkowych w szkole?”. Każdy z esejów został oceniony przez ekspertów w skali od 1 do 6 punktów, przy czym 6 oznaczało najwyższą ocenę. Następnie zadano zadanie ocenienia esejów przez GPT-4o w tej samej sześciopunktowej skali, korzystając z tego samego przewodnika. Ani człowiek, ani maszyna nie zostali poinformowani o rasie ani pochodzeniu etnicznym uczniów. Za to badacze mieli do dyspozycji dane demograficzne uczniów.

GPT-4o oceniło wypracowania prawie o punkt niżej niż ludzie: AI – 2.8, a eksperci -3.7. Oceniający eksperci przyznali Azjatom Amerykanom średnio – 4.3, podczas gdy GPT-4o przyznało im tylko 3.2, czyli mniej więcej 1.1 punktu mniej.

Dla porównania, różnica w wynikach między ekspertami a GPT-4o wyniosła tylko około 0.9 punktu dla uczniów białych, czarnych i latynoskich. Zadziwiająca jest różnica dla Azjatów – Amerykanów.

Dodatkowa „kara” dla Azjatów-Amerykanów nie była strasznie duża, ale jest na tyle duża, że nie należy jej ignorować przy korzystaniu ze wsparcia AI. Oczywiście, to jedno badanie nie jest dowodem na to, że AI stale jest stronnicza wobec Azjatów-Amerykanów, ale ograniczone zaufanie.

Inne wersje AI czasami dają inne wyniki. Azjaci-Amerykanie mają tendencję do osiągania wysokich wyników w testach z matematyki i czytania i są średnio najlepszymi pisarzami w tym zestawie 13 000 esejów. Nawet z obniżoną oceną przez AI Azjaci-Amerykanie nadal mieli najwyższe wyniki esejów, znacznie wyższe niż biali, czarni, Latynosi, rdzenni Amerykanie lub uczniowie wielorasowi.

Eksperci ocenili najwyższą ocena (6) 732 esejów, a ChatGPT wystawiło 6-tki tylko trzem esejom. ChatGPT nie posiłkował się przykładami ocen. Możliwe, że kilka przykładowych esejów lub niewielkie zmiany w instrukcjach oceniania lub w podpowiedziach przekazanych ChatGPT mogłyby zmniejszyć lub wyeliminować uprzedzenia wobec Azjatów-Amerykanów. Być może maszyna byłaby bardziej sprawiedliwa wobec Azjatów-Amerykanów, gdyby wyraźnie poproszono ją o „przyznanie większej liczby idealnych 6”.

Znane są przypadki pochodzące z innych badań, gdy AI faworyzuje Azjatów-Amerykanów. Na przykład, zautomatyzowany system punktacji ETS opracowany ponad dekadę temu, zwany e-rater, miał tendencję do zawyżania wyników studentów z Korei, Chin, Tajwanu i Hongkongu. Mogło to wynikać z tego, że niektórzy azjatyccy uczniowie lepiej zapamiętywali dobrze oceniane akapity, co mogło wpłynąć na ocenę. Oceniający eksperci mogli częściej zauważać, że eseje były niezwiązane z tematem.

Azjatyccy Amerykanie uzyskali również wyższe noty w zautomatyzowanym systemie punktacji stworzonym podczas konkursu kodowania w 2021 i opartym na BERT, który był najbardziej zaawansowanym algorytmem przed obecną generacją dużych modeli językowych, takich jak GPT. Informatycy poddali swój eksperymentalny robo-grader serii testów i odkryli, że dawał on wyższe noty niż ludzie w odpowiedziach otwartych Azjatyckich Amerykanów w teście czytania ze zrozumieniem.

Ważne jest zatem testowanie systemów oceniających w wykonaniu AI, przed wprowadzeniem jej do praktyki oceniania. W przeciwnym wypadku ta praktyka może szkodzić uczniom.

Te badania moim zdaniem stawiają pod znakiem zapytania ocenianie zewnętrzne prac uczniów, gdyż wiele zależy od oceniającego, nawet bez jego świadomości. W tym świetle „sprawiedliwość”. Która jest uznana za pewnik w naszych zewnętrznych egzaminach jest całkowicie wątpliwa. To tak na pocieszenie w związku z wynikami matur i egzaminów po szkole podstawowej.

 

Notka o autorce: Danuta Sterna jest byłą nauczycielką matematyki i dyrektorką szkoły, ekspertką oceniania kształtującego. Współpracowała z Centrum Edukacji Obywatelskiej tworząc programy szkoleń i kursów. Jest autorką książek i publikacji dla nauczycieli, propaguje ocenianie kształtujące w polskich szkołach, prowadzi też swoją stronę: OK nauczanie. Inspiracja artykułem Jill Barshay w Hechinger Report.

Jesteśmy na facebooku

fb

Ostatnie komentarze

Ppp napisał/a komentarz do Zapominamy! Jak zatem zapamiętać?
Opis zjawiska bardzo dobry, brakuje tylko najważniejszego elementu: zaznaczenia konieczności REFLEKS...
Ppp napisał/a komentarz do Jak skutecznie się uczyć?
W wyniku pracy nad sobą człowiek może się zmienić, ale TYLKO DO PEWNEGO STOPNIA. Jak ktoś jest w jak...
Magdalena Korzeb napisał/a komentarz do Czasownik na plakacie
Fajny pomysł przetestuje w domu
Gość napisał/a komentarz do Uczeń przeszkadza w lekcji...
Teoria swoje a praktyka swoje
Ppp napisał/a komentarz do O poczuciu przynależności do szkoły
Jak człowiek uwierzy, że "przynależy", a potem zostanie wyrzucony - wtedy dopiero jest problem! Post...
Tadeusz napisał/a komentarz do Myślenie wolne i szybkie w praktyce edukacyjnej
Czytając ten artykuł nie mogę oprzeć się wrażeniu, że został wygenerowany przez sztuczną inteligencj...
Przypominam że oceny jeszcze nie zostały ze szkół usunięte, a bez tego te porady nie mają sensu, cho...
Stanisław Zbigniew Czachorowski napisał/a komentarz do Poczekajki dla uczniów
Dziękuję za wartościowe pomysły. Nie wszyscy pracują w tym samym tempie. Po przekształceniu chcę wyk...

E-booki dla nauczycieli

Polecamy dwa e-booki dydaktyczne z serii Think!
Metoda Webquest - poradnik dla nauczycieli
Technologie są dla dzieci - e-poradnik dla nauczycieli wczesnoszkolnych z dziesiątkami podpowiedzi, jak używać technologii w klasie