POLECAMY
Czym właściwie jest sztuczna inteligencja dla współczesnej logopedii?
Od dawna nie są to już proste programy komputerowe z zapętlonymi nagraniami wideo. Mówimy tu o systemach opartych na uczeniu maszynowym oraz przetwarzaniu języka naturalnego (natural language processing, NLP). To aplikacje wykorzystujące zaawansowane systemy rozpoznawania mowy (automatic speech recognition, ASR), które mają za zadanie wychwycić, czy dziecko poprawnie wymówiło trudną głoskę szumiącą, czy nieświadomie ją zniekształciło. To inteligentne algorytmy analizujące spektrogramy i mikrozaburzenia akustyczne głosu, a także wirtualni asystenci, którzy przez mechanizmy grywalizacji motywują pacjentów do codziennych ćwiczeń w domowym zaciszu.
Choć język polski stanowił dla algorytmów ogromne wyzwanie, rodzimi twórcy i start-upy wzięli sprawy w swoje ręce. Oprócz aplikacji wspierających pacjentów z diagnozą afazji (np. Afapp, Afazja.net czy Dr Neuronowski – narzędzia skupiające się na rehabilitacji poznawczej i odbudowie funkcji językowych głównie u dorosłych po udarach) powstają platformy, takie jak:
- Mów AI – aplikacja w fazie beta (twórcy wyraźnie informują, że nie jest wyrobem medycznym ani zamiennikiem wizyty u specjalisty);
- Pogaduszki – platforma oparta na modelu hybrydowym (sztuczna inteligencja napędza grywalizację i zbiera nagrania z domowych ćwiczeń dziecka, ale ostateczna ocena i modyfikacja planu terapii spoczywa w rękach weryfikującego te dane logopedy);
- GlossaTrack – narzędzie, w którym podstawowe funkcje śledzenia artykulacji są bezpłatne, aplikacja utrzymuje się z reklam (twórcy podkreślają, że to narzędzie pomocnicze do wizualizacji, a w wypadku poważnych wad wymowy zalecają konsultację ze specjalistą).
Zderzenie marketingowych obietnic z twardą rzeczywistością kliniczną
Niestety, działanie tych aplikacji w praktyce nadal pozostawia wiele do życzenia. Aplikację GlossaTrack przetestowałam osobiście. Strona nieustannie proponowała mi osiem tych samych ćwiczeń i absolutnie nie radziła sobie z weryfikacją ich poprawności. System zaliczył mi mnóstwo skrajnie nieprawidłowych ruchów. Zamiast przygryźć dolną wargę, przygryzłam górną. Zamiast zostawić język płasko na dnie jamy ustnej, zaprezentowałam go w pozycji wertykalno-horyzontalnej („kobra”). Zamiast wyciągnąć spiczasty język, rozłożyłam go płasko i szeroko na dnie jamy ustnej i dolnej wardze. Cyfrowy asystent bez zawahania nagradzał te błędy. Radził sobie z rozpoznaniem poprawnego wykonania tych ćwiczeń, choć i tu ogromne wyzwanie stanowiła dla niego weryfikacja „miseczki”.
Z kolei aplikację Pogaduszki stosował miesiącami mój obecny pacjent (będący w zdalnej terapii logopedycznej). Efekt? Brak rezultatów i błędnie postawiona przez platformę diagnoza. Miesiącami nie było widać u dziecka żadnych postępów, nawet w wypadku głosek, które zostały prawidłowo zdiagnozowane jako zaburzone. Mama chłopca skarżyła się na poczucie zagubienia, brak odpowiedniej kontroli ze strony specjalisty i bezradność wynikającą ze zbyt słabego kontaktu z żywym logopedą.
Oczywiście to jednostkowy przypadek i trudno przez jego pryzmat przekreślać całą aplikację. Jednak po przejściu na standardową terapię zdalną (praca na kamerkach w czasie rzeczywistym z moimi autorskimi grami na Wordwall oraz domowe utrwalanie materiału na podstawie dobranych kart pracy i wspomnianych wcześniej gier) pacjent zanotował bardzo szybkie rezultaty. To dobitnie pokazuje, że technologia nie zastąpi uważności i elastyczności żywego terapeuty.
Co na to logopedzi?
Pojawienie się tak potężnych technologii budzi w środowisku medycznym i terapeutycznym zrozumiałe emocje – od ogromnego entuzjazmu po uzasadniony niepokój. Rodzi się naturalne pytanie: czy aplikacja w telefonie może zastąpić lata studiów, doświadczenie i kliniczną intuicję żywego specjalisty? Moja odpowiedź brzmi: nie. Sztuczna inteligencja nie odbierze pracy logopedom, ale logopedzi, którzy nauczą się z niej mądrze korzystać, z pewnością wyprzedzą tych, którzy tę technologię zignorują. Sztuczna inteligencja ma ogromny potencjał, by stać się najpotężniejszym sprzymierzeńcem w procesie terapeutycznym.
Warunek jest jeden – musimy być w pełni świadomi zarówno jej imponujących możliwości, jak i wciąż poważnych ograniczeń. Gdzie zatem algorytmy triumfują, a gdzie wciąż boleśnie brakuje im ludzkiej empatii? W dalszej części artykułu skupię się na ogólnych możliwościach sztucznej inteligencji, nie koncentrując się na języku polskim.
Blaski: jak algorytmy rewolucjonizują terapię mowy?
Wykorzystanie sztucznej inteligencji w logopedii i neurologopedii przynosi korzyści, o których jeszcze dekadę temu specjaliści mogli tylko marzyć. Główne atuty sztucznej inteligencji opierają się na jej zdolności do błyskawicznego przetwarzania ogromnych ilości danych oraz nieomylności matematycznych obliczeń, co w praktyce gabinetowej otwiera zupełnie nowe perspektywy.
Obiektywna i bezlitośnie precyzyjna diagnostyka
Ludzkie ucho jest niesamowitym narządem, ale ma swoje ograniczenia. Jest podatne na zmęczenie, a ocena brzmienia głosu bywa subiektywna. Algorytmy sztucznej inteligencji mogłyby zaś analizować mowę w czasie rzeczywistym z mikroskopijną precyzją. Wykorzystując zaawansowaną analizę akustyczną i spektrogramy (wizualne wykresy widma częstotliwościowego dźwięku), systemy te dosłownie „widzą” ludzki głos.
Sieci neuronowe potrafią wyłapać minimalne, niesłyszalne dla otoczenia odchylenia w częstotliwości podstawowej głosu (F0), zmiany częstotliwości (jitter) czy amplitudy (shimmer). Ma to kolosalne znaczenie nie tylko w korygowaniu wad wymowy, ale przede wszystkim we wczesnej diagnostyce chorób neurodegeneracyjnych (takich jak choroba Parkinsona, stwardnienie zanikowe boczne) czy mikrouszkodzeń krtani. Sztuczna inteligencja potrafi zaalarmować specjalistę o zbliżającym się problemie na długo przed tym, zanim objawy staną się ewidentne.
Hiperpersonalizacja dzięki uczeniu adaptacyjnemu
Tradycyjna terapia często opiera się na z góry przygotowanych scenariuszach i papierowych kartach pracy. Sztuczna inteligencja wprowadza tu rewolucyjne pojęcie adaptive learning – uczenia adaptacyjnego. Nowoczesne systemy logopedyczne na bieżąco analizują postępy pacjenta i w ułamku sekundy dostosowują do nich poziom trudności zadań.
Jeśli pacjent radzi sobie świetnie z wymową głoski w izolacji, system automatycznie i płynnie przejdzie do trudniejszych zbitek spółgłoskowych w zdaniach. Jeśli jednak utknie na jakimś etapie, algorytm natychmiast wygeneruje więcej ćwiczeń utrwalających, zapobiegając frustracji i demotywacji. Taka dynamiczna, szyta na miarę ścieżka terapeutyczna maksymalizuje efektywność czasu spędzonego na ćwiczeniach.
Generowanie pomocy dydaktycznych – bajki na życzenie i teksty bez barier
Warto wspomnieć o jeszcze jednym niezwykle praktycznym zastosowaniu sztucznej inteligencji, o którym coraz szerzej dyskutuje się podczas branżowych szkoleń (np. w ramach sieci eTwinning dla logopedów i pedagogów specjalnych). Sztuczna inteligencja to fenomenalny asystent w tworzeniu spersonalizowanych materiałów dydaktycznych. Zamiast spędzać godziny na poszukiwaniu odpowiednich tekstów, logopeda może w kilkanaście sekund wygenerować bajkę nasyconą konkretną głoską (np. szumiącą), w której głównym bohaterem jest ulubiona zabawka lub zwierzątko pacjenta. Taka personalizacja sprawia, że dziecko z wypiekami na twarzy angażuje się w żmudne ćwiczenia powtarzania.
Ponadto sztuczna inteligencja powoli rewolucjonizuje przygotowywanie interaktywnych gier (np. na platformach typu Wordwall, gdzie sztuczna inteligencja jest stopniowo wdrażana) przez błyskawiczne tworzenie baz do gier. Należy jednak pamiętać, że aby stały się one atrakcyjne dla dzieci, wymagają jeszcze ręcznej modyfikacji specjalisty (np. dodania odpowiednich grafik). Co więcej, generowanie precyzyjnych list wyrazowych z określonymi zbitkami spółgłoskowymi to obszar, który w języku polskim nadal stwarza algorytmom spore problemy. Mimo tych niedoskonałości modele językowe są nieocenione w pracy z pacjentami ze specjalnymi potrzebami edukacyjnymi (SPE). Potrafią natychmiast zaadaptować skomplikowany podręcznikowy tekst, upraszczając jego strukturę i słownictwo. Powstają w ten sposób materiały łatwe w czytaniu i rozumieniu (tzw. teksty ETR). To zdejmuje ze specjalisty ogromny ciężar „niewidzialnej pracy” i pozwala skupić pełnię energii na bezpośredniej interakcji z pacjentem.
Ciągłość terapii i przełamanie barier geograficznych
Największą zmorą każdego logopedy jest brak systematyczności pacjentów. Terapia nie kończy się po 45 minutach w gabinecie – kluczem do trwałego sukcesu jest codzienna, systematyczna praca w domu. Niestety, rodzice dzieci z wadami wymowy często nie potrafią obiektywnie ocenić, czy pociecha wykonuje ćwiczenie poprawnie.
Tutaj wkraczają wirtualni asystenci. Aplikacje oparte na sztucznej inteligencji mogą pełnić funkcję domowego „współterapeuty”, który za pomocą kamerki i mikrofonu w smartfonie czy komputerze monitoruje jakość ćwiczeń. Daje to pacjentom natychmiastową informację zwrotną, a logopedzie dostarcza szczegółowych raportów: ile czasu pacjent trenował, w które dni i z czym miał największe problemy. To również ogromny krok w stronę wyrównywania szans dla osób z mniejszych miejscowości, dla których regularne dojazdy do oddalonego specjalisty stanowią poważną barierę finansową i logistyczną.
Grywalizacja – koniec z nudą
Nie oszukujmy się, terapia logopedyczna bywa niezwykle monotonna. Mechaniczne powtarzanie dziesiątki razy sylab [sza], [szo], [sze] potrafi zniechęcić nawet najbardziej zmotywowane dziecko, a nie każdy specjalista przez całą swoją ścieżkę zawodową i każdego dnia czuje się ekspertem do spraw rozrywki, aby wystarczająco ten proces uatrakcyjnić. Sztuczna inteligencja, w połączeniu z mechanizmami znanymi z gier wideo (grywalizacją), całkowicie zmienia te reguły.
Aplikacje wykorzystują interaktywne awatary, które w założeniu reagują wyłącznie na poprawną wymowę. Wyobraźmy sobie grę, w której mały pacjent steruje statkiem kosmicznym lub karmi wirtualne zwierzątko tylko za pomocą wyraźnej artykulacji określonych głosek. Im precyzyjniejsza mowa, tym lepszy wynik w grze. Algorytmy potrafią nagradzać za starania, przyznawać wirtualne odznaki i utrzymywać zaangażowanie na poziomie, który przy wykorzystaniu tradycyjnych lusterek i obrazków jest po prostu nieosiągalny.
Cienie: gdzie algorytmy zawodzą i dlaczego maszyna nie zastąpi człowieka?
Mimo ogromnego entuzjazmu, jaki budzi wdrażanie sztucznej inteligencji do gabinetów i domów pacjentów, technologia ta wciąż zmaga się z fundamentalnymi ograniczeniami. Zachłyśnięcie się nowymi możliwościami nie może przysłonić nam faktu, że logopedia to nie tylko mechanika dźwięku, to przede wszystkim praca z żywym, czującym człowiekiem. Gdzie zatem leżą największe pułapki cyfrowej rewolucji?
Brak empatii i relacji terapeutycznej
Najpoważniejszym ograniczeniem sztucznej inteligencji jest jej całkowita ślepota emocjonalna. Terapia logopedyczna rzadko sprowadza się wyłącznie do mechanicznego wywoływania głosek. Bardzo często jest to praca z lękiem, frustracją, ze wstydem i z blokadami psychicznymi pacjenta. Dziecko zmagające się z jąkaniem czy pacjent po udarze, uczący się mówić od nowa w wyniku afazji, potrzebują czegoś więcej niż tylko algorytmu oceniającego poprawność fonetyczną.
Potrzebują wyrozumiałego spojrzenia, budowania zaufania, poczucia bezpieczeństwa i ludzkiego uśmiechu. Aplikacja nie zauważy, że pacjent ma dziś gorszy dzień, jest zmęczony, przebodźcowany lub bliski płaczu. Nie potrafi w odpowiednim momencie odpuścić, zmienić tematu na luźniejszą rozmowę czy po prostu położyć dłoń na ramieniu, dodając otuchy.
Brak relacji terapeutycznej, która stanowi fundament sukcesu w logopedii, sprawia, że sztuczna inteligencja zawsze będzie jedynie narzędziem, a nie pełnoprawnym terapeutą.
(źródło: ChatGPT)
Pułapka danych treningowych (algorithmic bias)
Z technologicznego punktu widzenia systemy rozpoznawania mowy (ASR) cierpią na poważną wadę, zwaną błędem algorytmicznym. Wynika to z faktu, że modele sztucznej inteligencji trenowane są na ogromnych bazach danych, w których dominuje mowa „normatywna” – wyraźna, płynna i poprawna.
Co się dzieje, gdy system zderza się z mową patologiczną? Często zupełnie sobie nie radzi. Algorytmy mają ogromne trudności z prawidłowym rozpoznawaniem i analizą mowy osób z dyzartrią, rozszczepem podniebienia czy porażeniem mózgowym. Głos o zmienionym rezonansie, innej barwie czy zaburzonym rytmie jest przez sztuczną inteligencję odrzucany jako „błąd”. Sztuczna inteligencja może również nie dostrzec, że pacjent walczy o wydobycie dźwięku i potrzebuje chwili na sformułowanie wypowiedzi. Zamiast dać mu czas, algorytm często brutalnie ucina nasłuch, uznając to za koniec komunikatu. Ponadto dla pacjenta, który wkłada tytaniczny wysiłek w wypowiedzenie słowa, ciągłe komunikaty z aplikacji o „niepoprawnej wymowie” mogą być dramatycznie demotywujące. Zamiast pomagać, technologia pogłębia poczucie porażki, ponieważ mierzy pacjenta miarą, do której z przyczyn anatomicznych czy neurologicznych nigdy nie dorośnie.
Dodatkowo na własnej skórze widzę ogromne ograniczenia komercyjnych aplikacji sztucznej inteligencji (zarówno tekstowych, jak i głosowych czy wideo). Sama korzystałam z płatnego programu uczącego języków obcych przez rozmowę na żywo z asystentem sztucznej inteligencji (w moim wypadku był to portugalski w odsłonie brazylijskiej). Algorytm naprawdę zawodził. Mój mąż – wielojęzyczny Brazylijczyk i zarazem naukowiec wykorzystujący zaawansowane analizy sztucznej inteligencji w tworzonych przez siebie urządzeniach medycznych – słysząc moje zmagania z wirtualnym tutorem, wielokrotnie alarmował, że notorycznie popełnia on błędy fonetyczne, gramatyczne i znaczeniowe w jego ojczystym języku. Dodam, że mój mąż jest również zaznajomiony z różnicami w wymowie w różnych regionach Brazylii, a asystent sztucznej inteligencji został wprost poproszony o nauczanie portugalskiego konkretnie z rodzinnego regionu mojego męża. Potknięcia algorytmu w żadnym razie nie wynikały jednak z akceptowalnych regionalizmów – to były po prostu czyste błędy systemu.
A przecież język polski błędów w wymowie nie wybacza. Zniekształcanie choćby głosek szumiących rodzi natychmiastowe wątpliwości co do znaczenia wymawianego słowa. W końcu między „kaszą”, „kasą” a „Kasią” jest kolosalna różnica. Niekiedy pacjent prawidłowo realizuje głoski ciszące, jednak szumiące deformuje w sposób, który dla ucha logopedy jest oczywisty, ale dla algorytmu sztucznej inteligencji stanowi niezrozumiały szum na pograniczu dwóch szeregów. Biorąc to wszystko pod uwagę, uważam, że specyfika języka polskiego i wad wymowy stanowi dla sztucznej inteligencji potężną barierę, której bez udziału człowieka te aplikacje po prostu nie przeskoczą.
Złudzenie poprawności i ryzyko „samoleczenia”
Kolejnym potężnym cieniem kładącym się na aplikacje logopedyczne jest ryzyko zrezygnowania z profesjonalnej diagnozy na rzecz tańszej subskrypcji. Złudzenie, że „telefon wyleczy moje dziecko”, może prowadzić do fatalnych w skutkach opóźnień w terapii. Sztuczna inteligencja, oceniając mowę przez mikrofon, słyszy jedynie efekt końcowy – falę akustyczną. Nie widzi jednak tego, co najważniejsze: mechanizmu powstawania dźwięku.
Dziecko może wymawiać głoskę w sposób, który dla algorytmu brzmi akceptowalnie, ale jednocześnie utrwalać groźne patologie, takie jak wsuwanie języka między zęby (seplenienie międzyzębowe) czy nieprawidłowe połykanie. Aplikacja nagrodzi pacjenta wirtualną odznaką za poprawny dźwięk, tym samym cementując zły nawyk, którego wyplenienie w późniejszym wieku będzie wymagało od logopedy (i pacjenta) miesięcy, a w skrajnych wypadkach nawet lat żmudnej pracy.
Wrażliwe dane i mroczne widmo inwigilacji
Nie można również zignorować kwestii cyberbezpieczeństwa. Terapia mowy wymaga ciągłego nagrywania i analizowania głosu. Głos z kolei jest unikalną daną biometryczną. W wypadku dzieci mówimy o niezwykle wrażliwych danych medycznych.
Gdzie trafiają próbki głosu rejestrowane przez aplikacje domowe? Czy są przetwarzane wyłącznie lokalnie na urządzeniu pacjenta, czy wysyłane na zewnętrzne serwery w chmurze, gdzie służą gigantom technologicznym do trenowania kolejnych generacji modeli językowych? Kwestia transparentności, zgód na przetwarzanie danych i zgodności z rygorystycznymi przepisami (takimi jak europejskie RODO) to wciąż szara strefa wielu komercyjnych rozwiązań opartych na sztucznej inteligencji. Oddając terapię w ręce algorytmów, musimy mieć absolutną pewność, że prywatność pacjentów nie jest w żaden sposób naruszana.
Przyszłość: model hybrydowy i nowe horyzonty technologii
Wiedząc już, jak ogromnym potencjałem dysponuje sztuczna inteligencja, a jednocześnie jak poważne ma ograniczenia, środowisko naukowe i medyczne skłania się ku jednemu, najbardziej racjonalnemu rozwiązaniu. Przyszłością logopedii nie jest zastąpienie specjalisty przez maszynę, lecz wdrożenie modelu hybrydowego.
Logopeda jako architekt terapii
W modelu hybrydowym rola terapeuty ulega ewolucji. Logopeda przestaje być jedynie osobą, która przez 45 minut pracuje na żywo z pacjentem, trenując wymowę kolejnych słów na danych etapach terapii. Zamiast tego staje się głównym architektem i reżyserem całego procesu. To człowiek stawia diagnozę początkową, ocenia uwarunkowania anatomiczne (np. budowę wędzidełka, zgryz, napięcie mięśniowe), buduje relację opartą na zaufaniu i wyznacza strategiczne cele.
Sztuczna inteligencja przejmuje z kolei rolę wykonawcy „czarnej roboty” – powtarzalnych, codziennych ćwiczeń domowych, których zazwyczaj zresztą nie mamy możliwości zweryfikować, oraz tworzenia atrakcyjnych materiałów. Aplikacja zbiera dane z całego tygodnia, analizuje postępy, a wygenerowany przez nią przejrzysty raport trafia na biurko logopedy. Dzięki temu specjalista nie traci czasu na sprawdzanie, czy pacjent w ogóle ćwiczył, lecz od razu widzi, w których obszarach algorytm odnotował regres i na czym należy skupić się podczas spotkania twarzą w twarz.
To optymalizacja, która w założeniu pozwala skrócić czas terapii, a tym samym przyjąć więcej pacjentów, nie tracąc przy tym na jakości samej terapii (nadal pacjent spotyka się z logopedą w formie stacjonarnej lub online, a wsparcie sztucznej inteligencji pomaga ograniczać błędy popełniane podczas utrwalania efektów terapii w domu).
(źródło: ChatGPT)
Wizja komputerowa, czyli kiedy sztuczna inteligencja odzyska wzrok
Największą rewolucją, która puka obecnie do drzwi gabinetów logopedycznych, jest integracja systemów rozpoznawania mowy (ASR) z algorytmami wizji komputerowej (computer vision). Jak wspomniałam wcześniej, dotychczasowa sztuczna inteligencja potrafiła jedynie „słuchać”. Najnowsze modele, wykorzystując zaawansowane kamery w naszych smartfonach czy tabletach, uczą się również „widzieć”.
Algorytmy analizy obrazu potrafią w czasie rzeczywistym mapować twarz pacjenta, nakładając na nią trójwymiarową siatkę punktów (facial landmarks). Dzięki temu aplikacja może nie tylko ocenić, czy wygenerowany dźwięk brzmi poprawnie, ale także zweryfikować, czy usta ułożyły się w dzióbek, czy żuchwa opadła na odpowiednią odległość, a symetria twarzy została zachowana. To rozwiązanie bezpośrednio uderza w problem błędnego utrwalania nawyków – nowa generacja sztucznej inteligencji będzie w stanie ostrzec pacjenta, gdy ten wyda prawidłowy dźwięk, ale zrobi to np. przy nieprawidłowym, asymetrycznym układzie warg.
Oprócz tego do głosu dochodzi wirtualna rzeczywistość. Wykorzystuje się ją już m.in. w terapii jąkania – pacjent w bezpiecznym, kontrolowanym przez algorytmy środowisku wirtualnym może ćwiczyć techniki płynnego mówienia, symulując stresujące sytuacje, takie jak wystąpienie publiczne przed awatarami na sali wykładowej czy rozmowę o pracę.
Zainteresowanych tym tematem odsyłam do materiałów i publikacji Centrum Badań nad Jąkaniem i Giełkotem, w ramach którego dr hab. Katarzyna Węsierska, prof. UŚ, wraz z zespołem rozwija innowacyjne metody wspierania pacjentów przy wykorzystaniu m.in. wirtualnej rzeczywistości i sztucznej inteligencji.
(źródło: ChatGPT)
Polskie podwórko: dlaczego nasz język to koszmar dla algorytmów?
Kiedy czytamy o zachodnich sukcesach sztucznej inteligencji w medycynie, łatwo ulec złudzeniu, że te same narzędzia można z dnia na dzień wdrożyć w polskich gabinetach. Niestety, implementacja sztucznej inteligencji w rodzimej logopedii zderza się z potężnym murem. Murem, którym jest specyfika języka polskiego oraz polskiego systemu ochrony zdrowia.
ryzyka dysleksji (źródło: ChatGPT)
Szeleszczące pole minowe
Z technologicznego punktu widzenia język polski to dla globalnych algorytmów prawdziwy koszmar. Systemy rozpoznawania mowy (ASR) gigantów technologicznych są trenowane głównie na języku angielskim, który fonetycznie jest znacznie uboższy. Tymczasem w polskim gabinecie logopedycznym królują tzw. głoski dentalizowane, podzielone na trzy wymagające szeregi: szumiący (sz, ż, cz, dż), syczący (s, z, c, dz) i ciszący (ś, ź, ć, dź).
Dla ludzkiego ucha polskiego logopedy różnica między prawidłowym „sz” a jego wadliwą boczną realizacją jest oczywista. Dla sztucznej inteligencji – to wciąż akustyczna czarna magia. Zbudowanie algorytmu, który bezbłędnie wychwyci, czy dziecko sepleni międzyzębowo, bocznie, czy wargowo-zębowo, wymaga stworzenia potężnych modeli przeznaczonych wyłącznie dla naszej mowy. Angielskie czy amerykańskie aplikacje, choćby nie wiem jak zaawansowane, są na polskim gruncie całkowicie bezużyteczne w diagnozowaniu dyslalii (wad wymowy).
Głód danych i polskie ośrodki badawcze
Aby sztuczna inteligencja nauczyła się rozpoznawać wadliwą wymowę, musi najpierw wysłuchać tysięcy godzin nagrań pacjentów z konkretnymi zaburzeniami. Nazywa się to korpusami mowy zaburzonej. O ile w Polsce mamy już świetne bazy mowy wzorcowej, o tyle zorganizowane nagrania mowy zniekształconej stanowią deficytowy towar.
Walkę z tym podejmują polskie ośrodki akademickie. Zespoły badawcze z takich instytucji, jak AGH w Krakowie (słynące z inżynierii akustycznej) czy instytut NASK, od lat pracują nad cyfrową analizą polskiej mowy i algorytmami mogącymi wspierać diagnostykę medyczną. To właśnie z polskich uczelni i rodzimych grantów badawczych wykluwają się pierwsze modele, które zaczynają „rozumieć” polskie wady wymowy.
Od programów na CD do algorytmów w chmurze
Jak w takim razie wygląda rynek komercyjny w Polsce? Przez lata polska logopedia opierała się na potężnych multimedialnych programach instalowanych z płyt CD (jak kultowe pakiety z serii Logopedia Pro od firmy EduSensus/Nowa Era). Te tradycyjne programy oferowały interaktywne ćwiczenia, ale... to logopeda musiał siedzieć obok dziecka i zaznaczać w programie, czy pacjent wymówił słowo poprawnie.
Obecnie rodzimi twórcy oprogramowania stopniowo wdrażają moduły oparte na sztucznej inteligencji. Świetnym przykładem polskiej myśli terapeutycznej, która wyprzedziła swoje czasy i przetarła szlaki dla cyfryzacji terapii, jest wspomniany wcześniej Dr Neuronowski – innowacyjne oprogramowanie stworzone przez polskich naukowców, wspierające rehabilitację poznawczą i językową (wykorzystywane m.in. u pacjentów z afazją). Choć początkowo opierało się na klasycznych algorytmach komputerowych, pokazuje kierunek, w którym idzie polski rynek: tworzenia zaawansowanych, zgamifikowanych narzędzi skrojonych pod polskiego pacjenta, które w niedalekiej przyszłości będą w pełni zasilane sieciami neuronowymi.
Są zatem narzędzia, którymi możemy się pochwalić, jednak nadal odczuwamy poważne niedobory w zakresie dyslalii. Dzięki najnowszym polskim projektom badawczym zaczynamy wypełniać również i te braki. Zespół pod kierownictwem dr. inż. Michała Kręcichwosta z Katedry Informatyki Medycznej i Sztucznej Inteligencji Politechniki Śląskiej rozwija system SpeechCAD, mający wspierać logopedów we wstępnej diagnozie dzieci w wieku przedszkolnym. Projekt ten wykorzystuje tzw. skaner logopedyczny do rejestracji przestrzennego sygnału mowy oraz tworzenia dynamicznych, trójwymiarowych modeli twarzy (tzw. modeli 4D mówców). Zaawansowane algorytmy sztucznej inteligencji, analizując te wielomodalne dane, będą oceniać ruchy aparatu mowy i wskazywać, czy konkretne głoski są wymawiane poprawnie, czy wymagają korekty. Platforma ma nie tylko przyspieszyć badania przesiewowe w placówkach, lecz również umożliwić współdzielenie wygenerowanych modeli z innymi specjalistami, na przykład ortodontami.
Sztuczna inteligencja jako plaster na niewydolność Narodowego Funduszu Zdrowia
Jest jeszcze jeden powód, dla którego rozwój polskich narzędzi sztucznej inteligencji jest tak kluczowy: systemowy kryzys polskiej ochrony zdrowia. Czas oczekiwania na wizytę u logopedy „na NFZ” w wielu miastach mierzony jest w miesiącach, a prywatne wizyty to często wydatek rzędu 150–250 złotych za spotkanie. W tych realiach sztuczna inteligencja zyskuje zupełnie nowy wymiar społeczny.
Dla tysięcy polskich rodzin inteligentna aplikacja domowa, która w przyszłości być może z w miarę wysoką trafnością poprowadzi pacjenta przez proste ćwiczenia utrwalające, nie będzie zagrożeniem dla specjalistów, lecz jedyną deską ratunku, by zapobiec pogłębianiu się wady w czasie oczekiwania na miejsce w kolejce. W polskich warunkach sztuczna inteligencja to nie tylko technologiczna nowinka – to szansa na demokratyzację dostępu do podstawowej opieki logopedycznej.
Okiem praktyka: codzienność ze sztuczną inteligencją w polskim gabinecie – raport z pola walki
Teoria teorią, ale jak wygląda zderzenie tych technologii z codzienną praktyką logopedyczną w Polsce? Wnioski płynące z wielomiesięcznych testów płatnych najpotężniejszych modeli na rynku wspomagających wielu logopedów już teraz (takich jak ChatGPT w wersji Plus czy Gemini Pro) są słodko-gorzkie. Pokazują one, że sztuczna inteligencja to narzędzie o dwóch twarzach: genialnego analityka i... niebezpiecznego ignoranta.
Zmienność, „lenistwo” i walka o aktualne dane
Pierwszą lekcją, którą odbiera każdy zaawansowany użytkownik, jest to, że sztuczna inteligencja nie jest stała. To nie jest program w stylu Microsoft Word, który zawsze działa tak samo. Modele sztucznej inteligencji ewoluują, ale, niestety, nie zawsze na lepsze.
W codziennej pracy zauważalne jest zjawisko okresowego „lenistwa” modeli. Bywają dni, gdy chatboty, prawdopodobnie w celu oszczędzania zasobów obliczeniowych, traktują zadania powierzchownie, generują zdawkowe odpowiedzi i – co najgorsze – korzystają z nieaktualnych danych. Wymaga to od logopedy ciągłej czujności.
Doświadczenie pokazuje wyraźny podział kompetencji: do zadań wymagających precyzyjnej analizy, pracy na dokumentach czy weryfikacji aktualnych przepisów prawnych zdecydowanie lepiej sprawdza się Gemini w wersji Pro. Zdarza mu się znacznie mniej tzw. halucynacji (zmyślania faktów) niż konkurentom. Kluczowe jest jednak każdorazowe wydawanie precyzyjnego polecenia (promptu): „przeanalizuj to na podstawie najnowszych dostępnych danych prawnych na rok 2026”. Bez tego cyfrowy asystent potrafi utknąć w przeszłości.
Testy kliniczne i czerwona linia prywatności
Gdzie leży granica zaufania? Jako logopedzi jesteśmy szkoleni do krytycznego myślenia. Testowanie sztucznej inteligencji na twardych danych medycznych przynosi fascynujące rezultaty.
Przykładowo modele, takie jak Gemini, potrafią fenomenalnie poradzić sobie z analizą wyników badań słuchu (audiogramów), precyzyjnie opisując rodzaj i stopień niedosłuchu. Tu jednak pojawia się najważniejsze „ale”. Fenomenalne wyniki nie zwalniają nas z odpowiedzialności. Sztuczna inteligencja w tym procesie służy jedynie jako druga para oczu, przyspieszacz analizy, ale ostateczna weryfikacja zawsze musi należeć do człowieka, który ukończył studia kierunkowe. Co więcej, obowiązuje nas żelazna zasada: nigdy, pod żadnym pozorem, nie wrzucamy do publicznych modeli sztucznej inteligencji danych wrażliwych czy osobowych pacjentów. Testy wykonujemy na danych zanonimizowanych.
Graficzny doktor Jekyll i pan Hyde
Sztuczna inteligencja w roli grafika to historia o dwóch skrajnościach. Z jednej strony mamy „dobrego Jekylla” – kreatywne grafiki. Narzędzia takie jak DALL-E (zintegrowany z ChatGPT) są fantastycznym wsparciem w budowaniu zaangażowania. Wspólne tworzenie z dzieckiem na zajęciach wizualizacji „groźnego smoka, który syczy”, albo generowanie unikalnych kart pracy (do uzupełnienia słownictwem do utrwalania w domu) przynosi świetne efekty terapeutyczne i buduje więź.
Z drugiej strony czai się „zły Hyde” – anatomia. Próba wygenerowania przez sztuczną inteligencję poprawnego anatomicznie obrazu narządów mowy kończy się katastrofą. Niestety, internet zalewany jest obecnie generowanymi przez sztuczną inteligencję grafikami, które bezrefleksyjnie udostępniają nawet niektórzy specjaliści, wprowadzając w błąd pacjentów i studentów.
Święty Graal logopedii – idealna grafika przedstawiająca prawidłową pozycję spoczynkową języka – wciąż nie istnieje. Sztuczna inteligencja nie potrafi poprawnie zwizualizować tak subtelnych niuansów, jak „przestrzeń Dondersa” (niewielka przestrzeń między środkiem języka a podniebieniem twardym) przy jednoczesnym zachowaniu prawidłowego uszczelnienia boków języka. Nawet płatne medyczne atlasy 3D mają z tym problem, a co dopiero generalne modele sztucznej inteligencji. W kwestii anatomii sztuczna inteligencja, póki co, oblała egzamin.
Podobnie zresztą z umieszczaniem na generowanych grafikach tekstów. Zdecydowanie prościej zadbać o wygenerowanie karty pracy wyłącznie z grafiką, a tekst uzupełnić później samodzielnie. W przeciwnym razie nasze próby w większości wypadków zakończą się niepowodzeniem.
Niewidzialna praca: sztuczna inteligencja jako asystent biznesowy
Na koniec aspekt, o którym mówi się najmniej, a który spędza sen z powiek wielu terapeutom prowadzącym prywatne praktyki: biurokracja. Studia logopedyczne nie przygotowują do roli przedsiębiorcy, a polski system podatkowo-księgowy potrafi zmieniać się dynamicznie. W tym obszarze sztuczna inteligencja staje się nieocenionym sojusznikiem. Szybka analiza zmian w Nowym Ładzie, interpretacja pism urzędowych czy przygotowanie się do rozmowy z księgową – to zadania, w których sztuczna inteligencja błyszczy. Pozwala logopedzie zaoszczędzić godziny frustracji i przyjść na spotkanie z księgowym jako partner, który rozumie swoją sytuację biznesową. To też jest część prowadzenia gabinetu – ta najmniej wdzięczna, w której technologia zdejmuje nam z barków ogromny ciężar.
Przeciwdziałanie wykluczeniu – sztuczna inteligencja jako tłumacz i twórca materiałów
W dyskusjach o sztucznej inteligencji często zapominamy o jej fundamentalnej funkcji – przełamywaniu barier. Zdarza się, że sztuczna inteligencja staje się jedynym pomostem w sytuacjach, w których pacjent balansuje na krawędzi wykluczenia terapeutycznego ze względu na miejsce zamieszkania czy ograniczenia ruchowe. Doskonałym tego przykładem jest wykorzystywanie modeli językowych do błyskawicznej transkrypcji i tłumaczenia zagranicznych filmów instruktażowych oraz specjalistycznych artykułów.
Wyobraźmy sobie starszego pacjenta z chorobą postępującą, który ze względów logistycznych nie jest w stanie dotrzeć na stacjonarną terapię. Rodzina dopiero organizuje dla niego transport, jednak choroba nie poczeka – pacjent wymaga natychmiastowego wdrożenia ćwiczeń oddechowych, aby przeciwdziałać jej postępowaniu. Z pomocą przychodzi terapia online i trenażer oddechowy (typu breather). Problem polega na tym, że dla osoby starszej kilkukrotne przećwiczenie zadania z logopedą przed kamerką to często za mało, by w pełni opanować prawidłową technikę, a dostępne w sieci oficjalne filmy instruktażowe są wyłącznie w języku angielskim, co stanowi barierę nie do przejścia.
Właśnie w takich krytycznych momentach sztuczna inteligencja pokazuje swoją największą moc. Za pomocą sztucznej inteligencji logopeda jest w stanie w kilka chwil wykonać transkrypcję anglojęzycznego wideo, przetłumaczyć ją na język polski i wygenerować na tej podstawie w pełni zrozumiały, spersonalizowany instruktaż w formie tekstowej lub przystępnego skryptu dla pacjenta. Dzięki temu pacjent otrzymuje wsparcie asynchroniczne – może w każdej chwili, bezpiecznie i we własnym tempie, wrócić do przetłumaczonych zaleceń, nie zostając sam na sam ze swoimi obawami i postępującą chorobą między kolejnymi konsultacjami online. To oszczędność czasu dla terapeuty, ale dla pacjenta to po prostu bezcenna ciągłość opieki.
Etyka, RODO i odpowiedzialność prawna: kto odpowiada za błędy maszyny?
Wprowadzenie innowacji technologicznych do gabinetu to jedno, ale logopeda korzystający ze sztucznej inteligencji stąpa po bardzo kruchym lodzie prawnym. Kwestie ochrony danych i odpowiedzialności za ewentualne błędy to obecnie jeden z najgorętszych tematów na styku medycyny, prawa i technologii.
Głos pacjenta jako dana biometryczna (RODO)
Z perspektywy unijnego rozporządzenia o ochronie danych osobowych (RODO) ludzki głos nie jest po prostu zwykłą informacją. Kiedy nagranie lub próbka głosu jest przetwarzana w celu analizy stanu zdrowia (np. oceny płynności mowy czy specyficznych wad wymowy) lub do unikalnej identyfikacji, zyskuje status danych biometrycznych oraz danych „szczególnej kategorii”, czyli danych wrażliwych. Prawo bezwzględnie wymaga w takim wypadku uzyskania od pacjenta (lub jego opiekuna prawnego) wyraźnej, świadomej zgody na przetwarzanie tego typu informacji. Logopeda musi mieć absolutną pewność, gdzie aplikacja przechowuje te nagrania, czy są one odpowiednio szyfrowane i – co najważniejsze – czy nie służą zewnętrznym korporacjom do dalszego trenowania ich algorytmów bez wiedzy pacjentów.
AI Act i wyroby medyczne wysokiego ryzyka
Unijne prawodawstwo stara się dotrzymać kroku cyfrowej rewolucji. Zgodnie z nowymi przepisami europejskiego aktu w sprawie sztucznej inteligencji (AI Act) oraz unijnym rozporządzeniem o wyrobach medycznych (MDR) zaawansowane systemy sztucznej inteligencji wykorzystywane w celach diagnostycznych i terapeutycznych są klasyfikowane jako systemy „wysokiego ryzyka”. Oznacza to, że oprogramowanie wspomagające diagnozę logopedyczną nie może być zwykłą aplikacją ze sklepu w telefonie – musi przejść rygorystyczne procedury oceny zgodności i uzyskać odpowiednią certyfikację, zanim w ogóle zostanie legalnie dopuszczone do użytku profesjonalnego w gabinecie.
Kto poniesie winę za błąd algorytmu?
Wyobraźmy sobie najgorszy scenariusz: algorytm błędnie ocenia mowę pacjenta, utrwala zły nawyk artykulacyjny lub przegapia wczesne objawy afazji, co prowadzi do drastycznego opóźnienia kluczowej terapii. Kto w takiej sytuacji odpowiada prawnie: firma technologiczna, która stworzyła aplikację, czy logopeda?
W świetle obecnych interpretacji prawnych odpowiedź jest bezwzględna: sztuczna inteligencja jest kwalifikowana wyłącznie jako narzędzie wspierające, a nie podmiot uprawniony do samodzielnego podejmowania decyzji klinicznych. Całkowita ostateczna odpowiedzialność za proces diagnostyczny i przebieg terapii spoczywa na specjaliście (czyli na logopedzie). To terapeuta korzystający ze sztucznej inteligencji musi zachować pełną kontrolę nad narzędziem (tzw. zasada human in the loop – człowiek w centrum pętli decyzyjnej) i weryfikować jego podpowiedzi własnym akademickim doświadczeniem, mając możliwość w każdej chwili odrzucić błędną sugestię maszyny.
Obowiązek transparentności
Kolejnym niezwykle ważnym obowiązkiem nałożonym na specjalistów jest przejrzystość. Pacjent musi zostać jasno i zrozumiale poinformowany o tym, że w procesie jego diagnozy lub terapii wykorzystywane są algorytmy sztucznej inteligencji. Logopeda ma obowiązek wyjaśnić, jak dokładnie działa wdrażane rozwiązanie, jaki jest cel jego użycia i jakie niesie za sobą ograniczenia.
Współpraca z rodzicem dzięki sztucznej inteligencji – koniec z domysłami
Oprócz twardego prawa, warto spojrzeć na jeszcze jeden ogromny atut, jaki sztuczna inteligencja wnosi w gabinetowe relacje międzyludzkie. Jednym z największych wyzwań w terapii dziecięcej jest systematyczne egzekwowanie ćwiczeń domowych. Rodzice często czują się zagubieni, nie wiedzą, czy ćwiczą z dzieckiem poprawnie, co budzi w nich frustrację i niepotrzebne poczucie winy. Z kolei logopeda, widząc brak postępów na kolejnej wizycie, często musi się „bawić w detektywa” i zastanawiać, czy zalecany zeszyt ćwiczeń w ogóle opuścił plecak. Aplikacje oparte na adaptacyjnej sztucznej inteligencji mają szansę całkowicie zmienić tę dynamikę, działając jako „neutralny asystent” i analityk. Generując precyzyjne obiektywne raporty z postępów domowych, pokazywałyby czarno na białym, ile minut dziecko ćwiczyło danego dnia, z którymi głoskami radziło sobie świetnie, a na których utknęło. Dla rodzica oznacza to zdjęcie z barków odpowiedzialności za profesjonalną ocenę poprawności dźwięku. Rodzic staje się jedynie wspierającym kibicem i motywatorem, a maszyna (podłączona do wytycznych terapeuty) obiektywnie weryfikuje poprawność. Logopedzie daje to dostęp do twardych danych. Zamiast zadawać krępujące pytanie: „Czy udało się państwu w tym tygodniu poćwiczyć?”, logopeda otwiera raport i mówi: „Widzę w systemie, że we wtorek i w czwartek zrobiliście świetną robotę z utrwalaniem głoski [sz] w nagłosie, ale system zanotował trudności w wypadku jej sąsiedztwa ze spółgłoskami. Skupmy się więc dzisiaj na tym w gabinecie”.
To buduje relację opartą na zaufaniu i partnerstwie, drastycznie redukuje stres u rodziców, a samą terapię czyni mierzalną i przewidywalną jak nigdy dotąd.
Podsumowanie: inteligentne lustro, które wciąż potrzebuje człowieka
Historia zatacza koło. Lustro w gabinecie logopedycznym, od którego zaczęliśmy nasze rozważania, nie znika i w tym modelu – ono po prostu staje się w pełni cyfrowe. Sztuczna inteligencja to narzędzie o niewyobrażalnej mocy. Dzięki obiektywnej analizie akustycznej, błyskawicznej personalizacji i mechanizmom grywalizacji algorytmy potrafią przyspieszyć proces terapeutyczny i ułatwić dostęp do codziennych ćwiczeń, wyrywając je z murów gabinetów prosto do domów pacjentów.
Jednakże te imponujące blaski nie mogą oślepić nas na tyle, byśmy zignorowali wyraźne cienie. Systemy sztucznej inteligencji nadal nie potrafią współodczuwać, nie rozumieją złożoności psychologicznych blokad pacjenta, potrafią być niesprawiedliwe dla osób z ciężkimi zaburzeniami neurologicznymi i niosą za sobą pytania o prywatność naszych najbardziej unikalnych danych – naszego głosu.
Zastosowanie sztucznej inteligencji w terapii logopedycznej to ostatecznie opowieść nie o rywalizacji człowieka z maszyną, ale o potężnej synergii. Algorytmy mogą dostarczyć nam niesamowicie precyzyjnych map, mogą pomóc nam nawigować i monitorować trasę. Ale to zawsze logopeda – wyposażony w empatię, kliniczną wiedzę i ludzkie ciepło – musi trzymać ster i decydować o ostatecznym kierunku tej podróży. Tylko takie połączenie technologii z humanizmem gwarantuje, że na końcu tej drogi pacjent odzyska swój pełny, niczym nieskrępowany głos i prawidłową artykulację.