• pon.. cze 5th, 2023

Egzamin ustny z neurochirurgii: ChatGPT-4 przewyższa GPT-3.5 i Google Bard pod względem wydajności

Egzamin ustny z neurochirurgii: ChatGPT-4 przewyższa GPT-3.5 i Google Bard pod względem wydajności

Badanie opublikowane na serwerze preprintowym medRxiv ujawniło wyższą wydajność GPT-4, najnowszego modelu językowego OpenAI, w porównaniu do GPT-3.5 i Google Bard w neurochirurgicznych egzaminach ustnych. Badanie zostało przeprowadzone przez badaczy w Stanach Zjednoczonych, którzy oceniali wydajność trzech ogólnych modeli językowych na pytania wyższego rzędu, reprezentujące egzamin ustny American Board of Neurological Surgery (ABNS).

Egzamin ustny z neurochirurgii ABNS uważany jest za bardziej wymagające niż jego pisemny odpowiednik i jest zdawany przez lekarzy dwa do trzech lat po ukończeniu stażu. Składa się z trzech sesji po 45 minut każda, a jego zdawalność nie przekraczała 90% od 2018 roku. Badanie oceniło wydajność GPT-3.5, GPT-4 i Google Bard na 149-pytaniowym module imitującym egzamin ustny z neurochirurgii.

Wszystkie trzy modele językowe ocenione w tym badaniu wykazały zdolność do zdawania egzaminów lekarskich z pytaniami wielokrotnego wyboru. Jednak żadne wcześniejsze badania nie testowały ani nie porównywały wydajności wielu modeli językowych na pytaniach wyższego rzędu z domeny medycznej o wysokim ryzyku, takiej jak neurochirurgia.

Badanie wykazało, że GPT-4 osiągnął wynik 82,6% na 149-pytaniowym module, przewyższając wynik ChatGPT-62,4%. Ponadto GPT-4 wykazał lepszą wydajność niż ChatGPT w specjalizacji Kręgosłup, zdobywając wynik 90,5% w porównaniu do wyniku ChatGPT-64,3%. Google Bard wygenerował poprawne odpowiedzi na 44,2% pytań, podczas gdy GPT-3.5 i GPT-4 nigdy nie odmówiły odpowiedzi na pytanie tekstowe.

Wyniki badania podkreślają pilną potrzebę, aby neurochirurdzy byli informowani o pojawiających się modelach językowych i ich różnych poziomach wydajności dla potencjalnych zastosowań klinicznych. Wraz z postępami w dziedzinie sztucznej inteligencji, przyszli chirurdzy mogą korzystać i polegać na modelach językowych do przygotowania się do egzaminów, dostarczając nowych klinicznych wglądów i służąc jako pomoc w rozmowie do ćwiczenia różnych scenariuszy klinicznych na trudne tematy na egzaminach.

Jednak istnieje pilna potrzeba rozwijania większego zaufania do systemów modeli językowych, dlatego należy kontynuować rygorystyczne walidacje ich wydajności w coraz bardziej zaawansowanych scenariuszach i pytaniami o otwarte zakończenie. Zapewniłoby to bezpieczną i skuteczną integrację tych modeli językowych do procesów podejmowania decyzji klinicznych. Badanie podkreśla znaczenie metod ilościowego i jakościowego zrozumienia halucynacji, a ostatecznie tylko modele językowe, które minimalizują i rozpoznają halucynacje, zostaną włączone do praktyki klinicznej.

Wyniki badania sugerują również, że schematy egzaminów wielokrotnego wyboru mogą stać się przestarzałe w edukacji medycznej, podczas gdy oceny werbalne nabiorą większego znaczenia. Ponadto badanie zauważa, że GPT-4 wykazał zmniejszoną liczbę halucynacji i zdolność do radzenia sobie z trudnymi koncepcjami, takimi jak deklarowanie nieskuteczności medycznej. Jednak miał trudności w innych scenariuszach, takich jak uwzględnianie cech pacjenta na poziomie indywidualnym, np. osłabienie.

Podsumowując, badanie opublikowane na serwerze preprintowym medRxiv pokazało, że GPT-4 przewyższa GPT-3.5 i Google Bard w egzaminie ustnym z neurochirurgii. Wyniki badania podkreślają potrzebę rygorystycznej walidacji wydajności modeli językowych w coraz bardziej zaawansowanych i otwartych scenariuszach. Ponadto badanie podkreśla znaczenie informowania neurochirurgów o pojawiających się modelach językowych i ich różnych poziomach wydajności dla potencjalnych zastosowań klinicznych.