ChatGPT to narzędzie rozwijane od kilku lat przez laboratorium OpenAI z San Francisco w USA. Generując teksty odpowiadające na dowolne niemal zapytania, sztuczna inteligencja jest w stanie wykonywać coraz bardziej zaawansowane zadania. Z jej możliwości już dziś korzysta wiele branż, w tym także medycyna.
AI wspiera lekarzy między innymi w diagnostyce chorób nowotworowych i skomplikowanych urazów, naukowcom pomaga w pracy nad nowymi lekami. Liczne eksperymenty prowadzone w ostatnim czasie na świecie pokazują, że ChatGPT jest coraz bliższy doskonałości. Wciąż jednak ma bardzo poważne ograniczenia, które na dziś nie pozwalają traktować go jako realnej alternatywy dla lekarzy. Dowiedli tego właśnie polscy uczeni.
Jak wypadł ChatGPT na egzaminie specjalizacyjnym z interny?
Naukowcy z Collegium Medicum Uniwersytetu im. Mikołaja Kopernika postanowili przetestować ChatGPT sprawdzając, jak sztuczna inteligencja poradzi sobie z egzaminem specjalizacyjnym z „interny”, czyli działu medycyny zajmującego się schorzeniami narządów wewnętrznych, uznawanego za „królową nauk o zdrowiu”. Wniosek płynący z badania można streścić jednym zdaniem: Chat egzamin po prostu nie zdał.
- Było zaledwie kilka dziedzin, mniejszych gałęzi tego egzaminu, w których wyniki sztucznej inteligencji były w miarę akceptowalne, ale w dalszym ciągu gorsze od wyników ludzkich - mówi dr Szymon Suwała z Katedry Endokrynologii i Diabetologii Wydziału Lekarskiego Collegium Medicum UMK, jeden z autorów eksperymentu.
Rezygnując z części ustnej, naukowcy poddali narzędzie opracowane przez OpenAI egzaminowi pisemnemu, dodatkowo usuwając z niego zadania niewykonalne z powodów technicznych, czyli na przykład zawierające obrazki lub elementy powiązane logicznie z innymi pytaniami.
Łącznie w 10 sesjach ChatGPT otrzymał 1191 pytań. W żadnym przypadku nie udało się osiągnąć progu 60 procent poprawnych odpowiedzi, który na prawdziwym egzaminie pozwala lekarzowi uzyskać specjalizację bez konieczności stawania przed komisją i odpowiadania ustnie. Odpowiedzi poprawne uzyskane przez AI mieściły się w przedziale pomiędzy 47,5 a 53,3 procent (średnio 49,37 proc.). To znacznie poniżej dopuszczalnego pułapu i przeciętnych wyników notowanych przez lekarzy podchodzących do tych samych zadań.
Sztuczna inteligencja najlepiej radziła sobie z pytaniami z dziedziny alergologii (71.43 procent prawidłowych odpowiedzi) i chorób zakaźnych (55.26 proc.), najgorszej zaś w pytaniach z zakresu pulmonologii (46.71 proc.), diabetologii (45.1 proc.) i kardiologii (43.72 proc.).
Bardziej szczegółowa analiza wykazała, że ChatGPT odpowiedział poprawnie na 52,88 procent pytań o prostej konstrukcji i tylko 29,38 procent bardziej złożonych. Tego typu dysproporcję stwierdza się także w przypadku faktycznie odbywających się egzaminów specjalizacyjnych z „interny”, jednak u lekarzy jest ona zdecydowanie mniejsza, a uzyskiwane wyniki są znacząco lepsze (przeciętnie odpowiednio 70,16 oraz 66,39 procent).
Reklama
ChatGPT zdał egzamin lekarski w USA. Czy może zastąpić lekarzy?
Co ciekawe, inspiracją do wykonania badania przeprowadzonego w Polsce, był niedawny sukces ChatGPT w innym wyzwaniu o zbliżonym charakterze. Chodzi o egzamin USMLE (United States Medical Licensing Examination), będący trzyetapowym sprawdzianem dla przyszłych lekarzy, którzy chcą podjąć pracę w USA - jego zaliczenie pozwala uzyskać licencję na wykonywanie zawodu w Stanach. Sztuczna inteligencja zaliczyła ten egzamin, choć nie na szczególnie wysokim poziomie.
Inne eksperymenty, przeprowadzone w Europie wykazały, że Chat GPT był w stanie poradzić sobie również z egzaminami z kardiologii oraz okulistyki, aczkolwiek oblał testy z gastroenterologii czy ortopedii. Wszystko to pokazuje, że AI ma ogromny potencjał, jeśli chodzi o zastosowanie w medycynie, jednak droga do tego, by sztuczna inteligencja mogła zastąpić człowieka jest wciąż bardzo daleka.
- Nauki medyczne, wbrew pozorom, nie są naukami ścisłymi. One mają więcej wspólnego z naukami humanistycznymi. Nie bez kozery mówi się o sztuce lekarskiej. Bardzo często mając kontakt z pacjentem, widzimy pewne niuanse, których sztuczna inteligencja może nie zauważyć. Często mówimy studentom, że choroby książek nie czytają - komentuje dr Szymon Suwała z Collegium Medicum UMK.
Naukowiec zauważa, że pacjent może cierpieć na kilka różnych chorób, może mieć kilka innych schorzeń, może być genetycznie inaczej zbudowany niż ogół populacji. - I nagle się okazuje, że choroba, która wydawała się prosta, logiczna, dokładnie opisana, przebiega u pacjenta zupełnie inaczej. Czy sztuczna inteligencja będzie w stanie połączyć wszystkie składowe? Być może w przyszłości tak, natomiast nie sądzę, żeby to była kwestia najbliższych dni, tygodni, miesięcy czy nawet lat. Myślę, że to będą dekady - podkreśla dr Suwała.