AI communiceert nog niet zo menselijk

Artificiële ofwel kunstmatige Intelligentie heeft het afgelopen decennium een stormachtige ontwikkeling doorgemaakt. Patroonherkenning, prognoses maken met algoritmen, diagnostiek, gamen, robotbesturing, mediaproductie (AI storytelling), zelfs artificiële spraak gaan AI al goed af.

Echt menselijk zoals vanuit de Sciencefictionliteratuur en de singularity-voorspellingen van Ray Kurzweil werd het echter tot op heden nog niet. Met name bij emoties, het inleven in gevoelens (empathie) en natuurlijke spraak wil het allemaal nog niet zo vlotten. Bij e-health schort het hem daaraan bijvoorbeeld bij de zorgrobots en AI-triage voor doktersposten.

Aandoenlijke zorgrobots

Ze ogen vaak ronduit schattig, de gezelschaps- en zorgrobots voor ouderen, kinderen en geïsoleerde patiënten. Maatjes voor het leven zijn zij echter beslist nog niet. Meer dan een leuke licht motiverende en adviserende robotpartner zit er voorlopig nog niet in.

Gezien de menselijke personeelstekorten en hoge kosten bij de thuiszorg zou een AI-mantelzorger een aantrekkelijke optie vormen. Stofzuigen, de vaat wassen, het bewaken van vitale kenmerken, controleren of de medicatie werd ingenomen plus een wat oppervlakkig babbeltje zit er wel in. Helaas geen diepgaandere en empathische conversaties.

Alice vormde een veelbelovend robotbegin. Die gezelschapsrobot kan weliswaar het een en ander doch moest wel voortdurend door mensen achter de schermen geholpen worden. Onder meer bij emoties en meer diepgaande hulpvragen. Alice sloeg aan bij de gebruikers, zie de documentaire “Ik ben Alice” uit 2015. Sluimerende eenzaamheid en lichte dementie vinden er duidelijk baat bij.

Idem het zeehondenrobotje Para met een hoog aaibaarheidsgehalte. Het beestje wekt belangstelling en initiatief op bij dementerende ouderen en zieke kinderen. Daar houdt het echter bij op.

AI-triage

Een enigszins bedenkelijke ontwikkeling vormt de AI-triage-assistent (chatbots) bij huisartsenposten. De redenering is dat huisartsen en zorgposten overbelast worden met telefoontjes. Dat geeft opstoppingen in de dienstverlening en medische vertragingen. Er van uitgaande dat het bij 70 procent van de telefoontjes om relatief eenvoudige vragen en daarbij passende antwoorden gaat zou een AI-triagesysteem dat efficiënt en vooral goedkoop moeten kunnen afhandelen.

Het begint al bij die 70 procent eenvoudig en niet ernstig. Dan is nog altijd 30 procent wel ernstiger of zelfs levensbedreigend. Is de beller klip en klaar over hetgeen er speelt, dan zou een AI-chatbot daar best uit kunnen komen. Maar hoe signaleert kunstmatige intelligentie nu net die kleine veelbeduidende signalen?

Een mens gaat mede af op emoties die uit het gesprek zijn op te maken (angst, boosheid, ongerust of paniek) en onderbuikgevoel. Hoe vaak komt het wel niet voor dat een ervaren huisarts of doktersassistente uit een face to face, videovisite of in ieder geval een uitgebreider telefoongesprek verborgen ernstiger zaken haalt. Bij AI is dat veelal nog net een e-health-brug te ver.

Waar zit het hem in?

Feitelijk gezien in drie zaken:

Het puur begrijpen van taalopdrachten. Bijvoorbeeld Alexa in het smart home. Daar gaat regelmatig wat mis met de communicatie. Alex snapt het niet.
De kunst van de echt menselijke taalbeheersing. Actief bouwen, kunnen interpreteren en spelen met creatieve antwoorden. Met een voorgeprogrammeerd vocabulaire en standaard antwoorden val je als humanoïde robot snel door de mand. In een apart hoofdstukje straks meer over AI en linguïstiek.
Het begrijpen van menselijke gevoelens en je het kunnen inleven bij anderen. Als jou dat niet lukt gaat communiceren verre van goed. SF-films en literatuur staan bol van robots die de mens willen begrijpen doch vaak de plank misslaan op essentiële emoties en betekenissen.

Met beiden heeft AI het nog moeilijk. Machineleren en deep learning zijn alvast een klein stapje op de goede weg, maar we zijn er nog lang niet. Een realistische androïde thuiszorgzuster en begripvolle doktersassistente aan de triagetelefoon blijven voorlopig nog ver weg.

Taalproblemen en -emoties

AI is heel goed in patroonherkenning en daarmee ook heel wel in staat om gesproken taal te ontleden. Zitten de juiste woorden, zinsnede, taal / dialect en woordbetekenissen in de database, dan komt kunstmatige intelligentie met correct uitgesproken woorden een heel eind.

Lastiger word het al als de gesprekspartner onduidelijk of op een laag niveau spreekt. Wat het AI-taalsysteem niet kent, snapt het ook niet. In het gunstigste geval trekt de AI-spraakmodule aan de bel bij een mens op de achtergrond. Er is in deze al voortuitgang geboekt bij het signaleren van boosheid, angst, paniek en het herkennen van spraakproblemen bij een (beginnende) beroerte.

Duidelijke, begripvolle antwoorden

De tweede tak van sport, het genereren van duidelijke en begripvolle antwoorden, staat nog deels in de kinderschoenen. Om een menselijk te antwoord te kunnen genereren, zijn er ruwweg twee mogelijkheden:

Het knippen en plakken met vooraf in de database geprogrammeerde geluidsfragmenten en/of complete zinnen. Dan echter wel een flink stapje verder dan het doorsnee navigatiesysteem in de auto doet.
Voice cloning: het gebruik van software om een synthetisch acceptabele copy van iemands stem te maken. Dat gaat het stuk verder dan het zojuist genoemde knip & plakwerk met echte stemfragmenten. Voice cloning zet een herkenbare menselijke stem in elkaar die je bijna niet van echt kunt onderscheiden. Desgewenst op met emoties, stemmingen en empathische zinsbouw. Deze techniek kan goed helpen om de zorgrobots en triageassistenten natuurlijk te vermenselijken.

Een aardig voorbeeld van zogenaamde conversational AI is Amelia. Volgens de bouwers een complete kunstmatig intelligente digitale employeebouwer die nog democratisch werkt ook. Of dat ook voor e-health lukt valt nog te bezien.

Gezichtsherkenning

Zoals bekend kunnen slechthorenden de spraak ook deels aflezen aan de mondmotoriek van hun gesprekspartners. Biedt dat nu ook mogelijkheden voor AI spraakherkenning? Tot op zeker hoogte ja. Face detection is al heel normaal bij tal van videosystemen. Dat valt goed uit te breiden met het herkennen van uitgesproken woorden. Een aantal van dergelijke systemen kan tevens emoties interpreteren.

Lastig wordt dit echter als gezichten bedekt (mondkapjes) zijn of het uiterlijk door een ziekte of beschadiging is vervormd. In ieder geval vallen audio- en gezichtsregistratie goed in te zetten bij spraakherkenning en -interpretatie.

Het begin is er, maar voor een echt menselijke zorgcommunicatie op basis van AI-taalgebruik bij robots en andere e-health systemen, moet nog veel gebeuren. We zullen echter wel moeten, bij gebrek aan mankracht en astronomisch oplopende kosten.