Afgelopen periode is discussie ontstaan over berichten dat gemeenten gebruik maken van algoritmes om bijstandsfraude op te sporen. Er zijn zelfs kamervragen over gesteld aan Staatssecretaris van Ark.(1)
Alvorens hier wat over te zeggen is het aardig om eens te kijken wat de leverancier van het systeem, hierover geïnterviewd, zegt.
‘Een vrouw met een bijstandsuitkering komt regelmatig een kop koffie drinken met haar klantmanager bij gemeente X. Ze toont een gezonde motivatie om aansluiting te behouden bij de arbeidsmarkt en de maatschappij. Bij niemand bij de gemeente komt de gedachte op dat zij de boel misschien wel voor de gek houdt. Wanneer Totta data lab de door de gemeente beschikbaar gestelde data gebruikt om te voorspellen welke burgers met een uitkering een verhoogde kans hebben op uitkeringsfraude, wijst het algoritme haar aan als iemand in de top 10 kans op fraude. De klantmanager roept de vrouw op om dat te komen bespreken, maar ze komt niet meer opdagen.’(1)
Hoera, we hebben nu eindelijk een oplossing gevonden voor de ict-problemen bij de overheid. Bestanden kunnen nu zonder problemen worden gekoppeld, het algoritme haalt feilloos de fraudeur eruit. Dat lijkt een beetje de teneur te zijn van de berichten, ook de staatssecretaris ziet het eenvoudig: ‘als je gecheckt wordt of je terecht een uitkering ontvangt, is dat een kans om te laten zien dat daarvan inderdaad sprake is.’
Bij nadere bestudering blijkt het echter een slag anders te liggen. Er is geen sprake van koppeling van bestaande bestanden of oplossing van softwareproblemen. In plaats daarvan wordt een parallelle database ingericht, met allerlei data van uitkeringsgerechtigden. Welke dat precies zijn is niet duidelijk en kan per gemeente verschillen. Het systeem berekent de kans dat iemand bijstandsfraude pleegt. Bijv. bij een vrouw met 2 kinderen, van 30 jaar, 2 jaar geleden gescheiden, wonende in straat x, met opleiding y, die al 2 jaar in de bijstand zit, en ook al een eerder huwelijk achter de rug heeft, is de kans *%. Het systeem zal wel wat gesofisticeerder zijn, want er kunnen wel 200 tot 300 variabelen worden ingevoerd, aldus NRC van 9 april 2018, maar het komt neer op dergelijke kansberekening.
Het systeem zegt (en weet) dus niet welke fraude er gepleegd is, wat de aanwijzingen er voor kunnen zijn of wat bewijsstukken zijn. Er is alleen statistisch een grote kans. Welke variabelen precies ingevoerd worden is onbekend.
De anekdote van hierboven kan dan ook verschillend geïnterpreteerd worden. Het kan natuurlijk zijn dat deze mevrouw stiekem samenwoonde. Maar het is ook heel goed mogelijk dat zij te goeder trouw is. Ze wordt dan uitgenodigd ‘om over fraude’ te praten, aldus de anekdote, en voelt zich daardoor zo beledigd dat ze verder maar van een beroep op bijstand afziet. De staatssecretaris stelt zich zo voor dat iemand in zo’n situatie er trots op is om te vertellen dat er niets aan de hand is, maar dat kan heel anders liggen, zeker bij mensen in de bijstand, die zich toch al vaak gestigmatiseerd voelen. Bovendien, ze moet nu aantonen dat er geen fraude is, dus dat ze niet samenwoont of zwart werkt. Dat is nogal moeilijk als er verder geen concrete aanwijzingen zijn die weerlegd kunnen worden en dit kan een grote inbreuk op de persoonlijke levenssfeer maken.
Laten we nu een gemeente nemen die zo’n zaak wat anders aanpakt en een fraude-onderzoek start. En laten we aannemen dat het systeem een suggestie doet dat de fraude in de sfeer van samenwonen ligt. Het risico bestaat dan dat het algoritme een tunnelvisie bevordert. Het heeft immers aangegeven dat er een grote kans is op fraude, dus nader onderzoek zal dat ook willen aantonen. En aangezien nader onderzoek vaak moeilijk is en gebeurt op basis van vage, op de persoonlijke levenssfeer inbreuk makende onderzoeken, zoals tandenborstelonderzoek, aanwezige kleding in een woning, waterverbruik, bezoek aan anderen, interviews in de buurt, bestaat het risico dat naar de uitkomst toegewerkt wordt.
Het kán natuurlijk wel dat mevrouw uit onze anekdote stiekem samenwoont. Maar wat nu als een nieuwe liefde voor de eerste keer blijft slapen, er op dat moment gepost wordt en het algoritme grote kans op fraude blijkt. En wat als de liefde wat kleding heeft laten liggen en mevrouw helaas weinig zuinig met water is? Uit de jurisprudentie weten we dat het vaak moeilijk is om samenwonen echt aan te tonen, zodat mensen soms opgehangen worden aan hun eerste verklaring bij de verhoorambtenaar, ook al komen ze er later op terug. En soms verklaren ze maar wat, om weer snel bij de kinderen die alleen thuis gebleven zijn en medicijnen nodig hebben te kunnen zijn. Dat is allemaal niet de schuld van het algoritme, en gelet op de bewijsnood is het soms nodig wat ruimte te geven aan de gemeente om dingen aan te tonen, maar dan moeten we er ook extra op bedacht zijn dat een algoritme een extra rol kan spelen in deze problematiek.
‘Hoe de algoritmes precies komen tot een voorspelling, is moeilijk te vatten voor een mens. Het is één grote combinatie van invloeden, waar een patroon in zit’, merkt Luk op, medeoprichter van Totta data lab, dat de diensten aanbiedt. ‘Van veel gegevens die fraude aan het licht kunnen brengen, is het onduidelijk of we die mogen gebruiken. Water- en energieverbruik bijvoorbeeld, dat biedt duidelijke patronen van hoeveel mensen er in een huis wonen. In geval van onzekerheden kiezen we ervoor om aan de veilige kant van de medaille te zitten en de data niet mee te nemen’, aldus uit het bericht waarin ook de anekdote staat.
De citaten tonen aan dat het gebruik van algoritmen niet zo onschuldig is. Uit het NRC-artikel van 8 april 2018 (Algoritme voorspelt wie fraude pleegt bij bijstandsuitkering) blijkt dat er wel twee- tot driehonderd variabelen over een periode van 25 jaar worden opgenomen. Het zouden alleen gegevens mogen zijn die betrokkenen zelf hebben aangeleverd of die door andere diensten (belastingdienst) zijn aangeleverd. Toch is het bij deze aantallen moeilijk na te gaan of dit daartoe beperkt is. De leverancier van het systeem geeft immers toe dat bij veel data onduidelijk is of ze gebruikt mogen worden. Hij stelt dat hij aan de veilige kant blijft, maar er is geen zicht op welke data worden ingevoerd, en het is ook niet duidelijk wie de gegevens mag invoeren. Dit kan per gemeente verschillen.
Zou er ook een app zijn die de aanbieders van algoritmesystemen analyseert en er de twijfelachtige uithaalt? En wat doet zo’n algoritme met een uit de context gehaald citaat dat de leverancier zegt dat bij veel data onduidelijk is of ze gebruikt mogen worden? Vanzelfsprekend zegt dit niets over deze leverancier, die ongetwijfeld te goeder trouw is. Maar het is wel goed de zaak eens te kantelen, want dan blijkt dat sommige benaderingen problematisch zijn als ze jezelf treffen.
Overigens is er voor dit bedrijf wel degelijk interessant en veel werk te doen. Het stelt dat het algoritme ook mensen kan vinden die nu ten onrechte geen uitkering krijgen. Hier zouden de algoritmen in een leemte kunnen voorzien, aangezien hier weinig beleid op wordt gevoerd en er weinig informatie over is. Ik ben benieuwd of deze stelling ook hard gemaakt kan worden en of er belangstelling voor is bij gemeenten. Het zou echter een al lang bestaand, maar moeilijk op te lossen knelpunt oplossen.
(1) Kamervragen
(2) 'Algoritmes voorspellen bijstandsfraude', Van der Wiele, redacteur bij het Centrum voor Criminaliteitspreventie en Veiligheid (6 november 2018), geraadpleegd 12 november 2018