G.J.C. Lokhorst. Filosofische aspecten van het connectionisme. In D. Tiemersma, ed., Filosofie van de informatica, pp. 21-58. Stichting syllabi Erasmus Universiteit Rotterdam, Rotterdam, 1991.
De hersenen bestaan uit tientallen miljarden zenuwcellen. Deze cellen zijn op zichzelf tamelijk eenvoudig, maar ze werken op zo'n manier samen dat hun gezamenlijke gedrag één van de grootste wonderen in de natuur vormt. De theorie van `neurale netwerken' tracht erachter te komen hoe dergelijke vormen van interessant collectief gedrag kunnen ontstaan in netwerken van zenuwcel-achtige elementen die op ongeveer dezelfde manier met elkaar verbonden zijn als de cellen in de hersenen.
Gedurende de laatste halve eeuw hebben talloze onderzoekers zich beziggehouden met het bestuderen van modellen van neurale netwerken. Hun beweegredenen waren velerlei: sommigen wilden het zenuwstelsel begrijpen, anderen wilden apparaten bouwen die de prestaties van de hersenen op sommige gebieden zouden evenaren. Sommige onderzoekers waren vooral geïnteresseerd in de wiskundige aspecten, terwijl andere de ambitie hadden een brug te slaan tussen de hersenwetenschappen en de psychologie.
De studie van neurale netwerken werd druk beoefend in de jaren veertig, vijftig en zestig. Aan het eind van de jaren zestig stagneerde het onderzoek. Dat had twee oorzaken, een interne en een externe. Ten eerste wist men simpelweg niet meer hoe men verder moest gaan. Ten tweede kwamen rond deze tijd computertalen als Lisp en Prolog op, die de verwachting wekten dat men misschien kunstmatige intelligentie programma's zou kunnen schrijven zonder ook maar iets van de hersenen te weten. Het netwerk-onderzoek verdween uit de algemene belangstelling; slechts een handjevol onderzoekers zette het onderzoek in het verborgene voort.
In het begin van de jaren tachtig brachten de weinige overgebleven onderzoekers diverse fundamentele doorbraken tot stand. Daardoor is het netwerk-onderzoek gedurende de laatste tien jaar weer sterk opgebloeid. Wiskundigen, technici, hersenonderzoekers, kunstmatige-intelligentie onderzoekers en psychologen hebben zich er allen met frisse moed op geworpen, en daardoor is het nu sterker in beweging dan ooit tevoren.
Tot voor een paar jaar hebben filosofen nooit enige interesse kunnen opbrengen voor neurale netwerken. Ze hebben daar in hun publicaties althans nooit een blijk van gegeven, ook niet in de tijd dat het onderzoek druk beoefend werd. Nu is het tij echter gekeerd: filosofen struikelen haast over elkaar in hun pogingen om als eerste iets te zeggen over de nieuwste ontwikkelingen in het netwerk-onderzoek.
In het onderstaande zal ik een beknopt overzicht geven van de verschillende neurale netwerken en van de filosofische bespiegelingen waartoe zij aanleiding hebben gegeven.
Neurale netwerken zijn, grof gezegd, geïdealiseerde wiskundige modellen van stukjes zenuw-achtig weefsel. Ze bestaan uit talloze elementjes die via vele verbindingen met elkaar in contact staan. Via de verbindingen, die verschillende gewichten (sterkten) kunnen hebben, activeren de elementen elkaar of remmen ze elkaar juist af. De activiteit in een elementen is een functie van de prikkels die het element via de verbindingen bereiken. In de meeste modellen is de activiteit een functie van de som van de prikkels. Deze functie kan lineair zijn of een sigmoïde vorm hebben (hoe meer prikkeling, hoe meer activiteit), zij kan een bepaalde drempelwaarde hebben (het element wordt alleen activiteit als de som van de prikkeling een bepaalde waarde overschrijdt), of ook een stochastisch karakter dragen (hoe groter de prikkeling, hoe groter de kans op activiteit). De activatietoestand waarin een element op een bepaald moment verkeert bepaalt op haar beurt hoe actief de verbindingen worden die aan haar ontspringen.
Gedurende de laatste halve eeuw zijn er tal van interessante netwerken ontworpen. Het eerste precieze voorstel kwam van McCulloch en Pitts in 1943.1 In hun model mogen alle elementen (`zenuwcellen') op alle mogelijke manieren met elkaar verbonden zijn. De verbindingen werken slechts één kant op. Ieder element heeft een bepaalde drempelwaarde; als de binnenkomende stimulatie boven de drempelwaarde uitkomt, wordt het element actief en anders blijft het inactief. McCulloch en Pitts bewezen dat iedere willekeurige functie uit de klassieke tweewaardige propositielogica in zo'n netwerk ingebouwd kan worden; voor iedere formule uit de propositielogica kun je een netwerkje maken waar de juiste waarheidswaarde van de formule uitkomt als je de waarheidswaarden van de subformules van die formule er in stopt.
Een simpel voorbeeld is de functie `en. Deze functie kan worden berekend door een netwerk dat uit twee invoerelementen en één uitvoerelement bestaat. De gewichten van de verbindingen van het invoerelement naar het uitvoerelement zijn 1, en de drempelwaarde van het uitvoerelement is 2. Het uitvoerelement zal nu alleen vuren als beide invoerelementen actief zijn; alleen dan overschrijdt de prikkeling de drempelwaarde. Als we de invoer met `A' en `B' markeren, kunnen we het uitvoerelement met `A en B' markeren: de activiteiten van de elementen van het netwerk geven dan altijd een mogelijke waarheidswaarde-toedeling weer. (Het geval voor `of' is analoog: we hoeven alleen de drempelwaarde te veranderen in 1.)
McCulloch en Pitts dachten dat hun model een aanvaardbare idealisering gaf van het zenuwstelsel. Zo kwamen ze tot uitspraken als `de psychiatrie is niets anders dan tweewaardige propositielogica'. Zoals we zullen zien, was deze veronderstelling niet terecht; het zenuwstelsel werkt op een veel ingewikkelder manier. Niettemin had de McCulloch-Pitts theorie van `logische neuronen' een grote invloed. De huidige electronische computer, die in de jaren veertig ontwikkeld werd, is voor een belangrijk deel door deze theorie geïnspireerd. Omdat men dacht dat de theorie een redelijk beeld gaf van de werking van de hersenen, meende men er goed aan te doen om haar als leidraad te nemen als men zelf een `denkende machine' wilde bouwen.
Er zijn verschillende redenen waarom het McCulloch-Pitts model biologisch niet realistisch is. Het zenuwstelsel is bijvoorbeeld bijzonder goed bestand tegen beschadigingen. Iedere dag gaan er in de hersenen tienduizenden cellen en verbindingen dood, zonder dat dit onze geestelijke vermogens merkbaar aantast. En als we caffeïne of alcohol consumeren verandert de drempelwaarde van iedere cel, alweer zonder dat dit tot een algehele verandering in de invoer-uitvoer transformaties leidt. Deze gegevens kunnen niet worden verklaard met de netwerken van McCulloch en Pitts. In deze netwerken kan iedere verandering van de parameters van de verbindingen en de elementen in principe tot radicaal ander gedrag leiden.
De grote wiskundige Von Neumann deed enige voorstellen voor netwerken die niet aan dit gebrek lijden: hij introduceerde netwerken met een grote mate van redundantie, die blijven werken als een deel van de elementen uitvalt.2
Maar ook zijn netwerken hadden een belangrijke tekortkoming: in tegenstelling tot `echte' neurale netwerken konden ze niet leren. Hun gedrag lag voor eens en altijd vast.
In 1958 bedacht Frank Rosenblatt een netwerk, het `perceptron' (`waarnemings-apparaat') geheten, dat de twee hierboven genoemde bezwaren onderving.3 Het was goed bestand tegen beschadigingen van de elementen en de verbindingen, en het kon uit zichzelf leren.
Hoe zou men een netwerk willekeurige invoer-uitvoer transformaties kunnen laten leren? Dat is geen eenvoudig probleem. Rosenblatt werd geïnspireerd door de ideeën van de psycholoog Hebb, die in 1949 de eerste suggesties gaf voor leerregels voor neurale netwerken.4 Hebbs doel was veel ambitieuzer: hij probeerde een globale schets te geven van de wijze waarop de activiteiten van de netwerken in de hersenen aanleiding kunnen geven tot psychologische verschijnselen. Hij slaagde er niet in dit doel te bereiken. Zijn theorie (waarin het begrip `cell-assembly' een grote rol speelt) bleek simpelweg niet te werken. Dit werd in het begin van de jaren vijftig duidelijk toen men haar op de computer ging testen. De theorie bleek niet alleen veel te vaag te zijn, maar ook aanzienlijke revisie te behoeven voor er redelijke lopende modellen konden ontstaan.
Maar de leerregel die Hebb voorstelde was een gouden greep. Alle leerregels voor neurale netwerken die sinds zijn tijd zijn verzonnen, gaan terug op die van hem.
De leerregel van Hebb is heel simpel, en is eigenlijk ook al bij Descartes en William James te vinden. Hebb stelde voor om een verbinding een groter gewicht te geven (sterker te maken) naarmate de elementen aan weerszijden van de verbinding vaker gezamenlijk actief zijn, en anders langzaam zwakker te laten worden. Op deze manier zullen er geleidelijk vaste voorkeursbanen voor de uitbreiding van activiteitspatronen in het netwerk ontstaan.
We kunnen deze wijze van leren vergelijken met de manier waarop rivieren in een landschap als gevolg van neerslag ontstaan. De beddingen waar veel water doorheen stroomt zullen geleidelijker dieper worden, de andere zullen daarentegen dichtslibben. Zo ontstaat er door de jaren heen een vast patroon van vertakkingen. Zo is het ook met een netwerk: de regen is te vergelijken met de invoer, de rivieren zijn te vergelijken met de banen waarlangs de activiteit zich uitbreidt.
De leerregel van Hebb werd de grondslag voor het leervermogen van het perceptron van Rosenblatt. Het perceptron was een eenvoudig tweelagig netwerk van McCulloch-Pitts-achtige eenheden waarbij de verbindingen in slechts één richting liepen (van invoerlaag naar uitvoerlaag), en dat er aldus in slaagde om het ene patroon in een ander patroon om te zetten. Het kon gebruikt worden om patronen te herkennen en te classificeren. Stel bijvoorbeeld dat het erom zou gaan om postcodes te lezen. De met een `Z' gemarkeerde eenheid in de uitvoerlaag zou in dit geval precies dan actief moeten worden, als een van de vele handgeschreven vormen van de letter Z pixel-bij-pixel aan de invoerlaag zou worden aangeboden. Dergelijke opgaven kon het perceptron goed aan.
Om het juiste gedrag te vertonen, moesten de verbindingen en elementen in het perceptron natuurlijk precies de juiste sterkten en drempelwaarden hebben. Rosenblatt verzon een variant van de leerregel van Hebb waarmee het perceptron de juiste waarden zelf kon instellen. Veranderen de sterkten van verbindingen bij de leerregel van Hebb als functie van de activiteiten van de elementen aan weerszijden van de verbinding, Rosenblatt stelde voor om de sterkte te laten veranderen als functie van de fout die het element achter de verbinding vertoont. Om deze fout te bepalen, wordt de activiteit die het uitvoerelement vertoont vergeleken met de activiteit die het element zou moeten vertonen; het verschil is de fout. (We moeten het netwerk dus zelf een voorbeeld voorhouden van correct gedrag.) Is een element ten onrechte actief dan worden de sterkten van de verbindingen die er naar toe leiden verlaagd, en anders worden ze verhoogd. Dit gaat net zo lang door tot de activiteiten overal goed zijn (binnen een bepaalde marge van tolerantie). Deze leerregel wordt ook wel `Delta-regel' genoemd. In de jaren zestig bewees men dat dit leerproces altijd werkt: alles wat het perceptron überhaupt kan leren, kan het leren met de Delta-regel. (Dit is het zogenaamde `perceptron-convergentie theorema'.)
Het perceptron vertoont eigenschappen die men bij de McCulloch-Pitts netwerken node mist. Het kan zelf leren en het is goed bestand tegen beschadingen. (Rosenblatt ontdekte op een gegeven dag dat 40% van de elementen van het model waarmee hij zijn succesvolle demonstraties gaf defect was. Dat had geen invloed omdat immers steeds `de meeste stemmen winnen'.) Bovendien is het bliksemsnel; er vindt immers slechts één bewerking van de invoer plaats (een summatie en vergelijking met de drempelwaarde in alle elementen in de uitvoerlaag tegelijk). Het perceptron is in één verwerkingsslag klaar.
Zo had Rosenblatt een intrigerend mechanisme gemaakt, dat bij iedereen de hoogste verwachtingen wekte. Een krant uit die tijd schreef er zelfs over onder de kop `Frankenstein Monster Designed by Navy Robot that Thinks'!5 De gespannen verwachtingen kwamen gedeeltelijk uit. De zogenaamde `adaptieve filters' van Woodrow en Huff waren bijvoorbeeld gebaseerd op de Delta-regel; deze filters, die zichzelf steeds aan de omstandigheden in een electrisch circuit aanpassen, zijn tegenwoordig in iedere hoge-snelheidsmodem en satelliet-antenne te vinden.
Toch leidde het perceptron-onderzoek niet tot de universele zelf-lerende machine. Het bleek namelijk, dat perceptrons grote inherente beperkingen hebben. Ze kunnen weliswaar alles wat ze überhaupt kunnen leren met de Delta-regel leren, maar helaas, ze kunnen lang niet alles leren.
De capaciteiten en tekortkomingen van het perceptron werden gedurende de hele jaren zestig intensief bestudeerd door Marvin Minsky (een klasgenoot van Rosenblatt op de high-school in New York) en Seymour Papert. Ze deden uitvoerig verslag van hun bevindingen in hun boek Perceptrons uit 1969.6 Ze lieten zien dat een perceptron onder andere niet eens in staat is tot het berekenen van een zo eenvoudige functie als exclusief-of (óf A óf B, maar niet beide). Hun boek luidde een periode van rust in het neurale netwerk onderzoek in, dat eind jaren zestig trouwens toch al in een impasse was geraakt.7
De negatieve resultaten van Minsky en Papert gelden echter alleen voor het perceptron. Doordat het slechts twee lagen heeft, is het perceptron wel zo ongeveer het eenvoudigste netwerk dat men zich kan voorstellen. Zoals we hebben gezien, gaan zijn beperkingen bijvoorbeeld niet op voor de netwerken van McCulloch en Pitts; deze kunnen wel degelijk iedere logische functie, inclusief exclusief-of, berekenen. Zo hoeft men ook slechts één `verborgen' laag elementen tussen de invoer- en uitvoer eenheden aan een perceptron toe te voegen, en het zal iedere logische functie kunnen berekenen.
Het probleem was echter, dat men voor zulke ingewikkelder netwerken geen leerregel had. Men wist niet hoe men de gewichten in de verborgen lagen moest bijstellen. Als het netwerk een fout maakt, hoe moet men de schuld dan over de verschillende elementen verdelen? In het begin van de jaren tachtig ontdekte men dat men hiervoor een algorithme kon gebruiken dat al sinds de jaren vijftig bestond, maar nog nooit op neurale netwerken was toegepast: de zogenaamde `backpropagation' leerregel.8 De ontdekking van het belang van deze regel voor neurale netwerken heeft sterk bijgedragen tot de recente opleving van de belangstelling voor neurale netwerken.9
De `backward propagation of error', of kortweg `backprop', regel werkt volgens hetzelfde principe als de Delta-leerregel voor het perceptron en heet daarom ook wel de `gegeneraliseerde Delta-regel'. Het komt er op neer, dat de gewichten van de verbindingen veranderd worden als functie van de fout die ze een laag verder in het netwerk veroorzaken. Als je begint bij de uitvoerlaag, kun je de fouten in de eerdere lagen successievelijk berekenen. De gewichten in alle lagen kunnen vervolgens naar evenredigheid met de gemaakte fout bijgesteld worden, en zo gaat het gedrag van het hele netwerk steeds meer op het gewenste gedrag lijken. Dit alles wordt door het netwerk zelf gedaan: alle elementen kunnen zelf bepalen in hoeverre ze er naast zitten en de gewichten overeenkomstig veranderen.
Het backpropagation-algorithme heeft beperkingen: het werkt alleen maar in netwerken waarin er een éénrichtingsverkeer is van invoer- naar uitvoerlaag, en bovendien moet de activatiefunctie van de elementen om technische redenen differentieerbaar zijn (anders weet je niet hoe een fout over de verschillende lagen gedistribueerd moet worden, en kun je niet bewijzen dat de leerregel tot een vermindering van de fout leidt). Men heeft echter verscheidene oplossingen gevonden voor het eerste probleem en werkt nog aan het laatste.
Tachtig procent van de netwerken die op het moment worden gemaakt werkt via backpropagation. Men heeft tal van spectaculaire resultaten geboekt. Zo hebben Sejnowski en Rosenberg een netwerk, NetTalk geheten, gebouwd, dat de uitspraak van iedere taal kan aanleren.10 Het model krijgt geschreven tekst aangeboden en stoot als gevolg daarvan klanken uit (of althans fonetische transcripties daarvan). Het vergelijkt deze klanken nu steeds met de correcte klanken, de klanken die het zou hebben moeten uitspreken; deze voorbeeldklanken worden aangeboden in de vorm van een fonetische transcriptie van de uitspraak van een Engels kind van de aangeboden tekst. De uitvoer wordt via de backpropagation-leerregel telkens bijgesteld, en begint zo steeds meer te lijken op de correcte uitspraak. Al na één nacht is de uitspraak heel goed verstaanbaar, zoals de films die van NetTalk zijn gemaakt bewijzen--zelfs als we het netwerk kwellen met het Engels, een taal met één van de ongelukkigste spellingen ter wereld. (`Ghoti' zou bijvoorbeeld kunnen staan voor `fish': de `gh' uit `tough', de `o' uit `women', en de `ti' uit `nation'.)
Het resultaat is des te indrukwekkender als men bedenkt dat Sejnowski en Rosenberg hun model in slechts drie maanden schreven en dat het toepasbaar is op iedere taal. De meest directe concurrent van NetTalk, DecTalk geheten, werd op een conventionele manier vervaardigd. Dat proces ging veel moeizamer in zijn werk: tientallen deskundigheden op het gebied van de Engelse uitspraak deden er zes jaar over om de fonetische regels van één dialect van het Engels op te stellen en de tientallen uitzonderingen in lange lijsten vast te leggen. Bovendien had het resultaat maar een beperkt nut: voor het Duits en Koreaans, of zelfs voor een ander dialect van het Engels, zou men helemaal opnieuw moeten beginnen.11 En op zulke prettige bijkomstigheden van NetTalk als het automatisch goed generaliseren naar de uitspraak van woorden die het nooit eerder had ontmoet, en het goed bestand zijn tegen beschadigingen (pas na aanzienlijke lesies traden er vormen van `afasie' op), hoefde men bij de conventionele benadering al helemaal niet te rekenen.
NetTalk heeft geen enkele inwendige representatie van de uitspraakregels van het Engels. Het gedraagt zich slechts alsof het die regels kende. Maar wat voor soort kennis is er dan in wel opgeslagen in de verbindingen? Daar is veel onderzoek naar verricht. In ieder geval is er een wijd verspreide distributie van wat het netwerk heeft geleerd (vandaar ook de ongevoeligheid voor locale beschadigingen). Er blijkt echter ook wel het één en ander te kunnen worden gelocaliseerd. Klinkers bijvoorbeeld blijken in een andere diffuse regio van het netwerk te zijn gerepresenteerd dan medeklinkers. Een zo grove onderscheiding als die tussen klinkers en medeklinkers blijkt ook het eerst te worden aangeleerd. Voor de rest kan er echter niet veel gelocaliseerd worden - evenmin als dat in de taalgebieden van onze eigen hersenschors het geval is.12
De lijst van succesvolle toepassingen van backpropagation kan ad libitum uitgebreid worden. De marine van de VS heeft bijvoorbeeld jarenlang geprobeerd om langs conventionele weg een expert-systeem te bouwen dat de sonar-echo's van mijnen op de zeebodem zou kunnen onderscheiden van de echo's van andere voorwerpen. Het resultaat was bedroevend. Op een dag las een technicus een beschrijving van NetTalk, en binnen een paar weken had hij een werkend systeem. Na verbeteringen overtrof dit zelfs de prestaties van mensen.
Het merkwaardige in al deze gevallen is niet dat de backpropagation-leerregel werkt: het is immers te bewijzen dat deze regel altijd tot fout-vermindering leidt (hetgeen echter niet wil zeggen dat het netwerk altijd convergeert tot de juiste oplossing). Het merkwaardige is eerder dat allerlei vaardigheden waarvan men dat aanvankelijk niet vermoedde, blijken te kunnen worden gezien als vormen van patroonherkenning.
De explosieve toename van de belangstelling voor neurale netwerken in de jaren tachtig is niet alleen te danken aan de ontwikkeling van de backpropagation-leerregel, maar ook aan die van de Hopfield-netwerken door de fysicus John Hopfield in 1982.13 In tegenstelling tot wat bij backpropagation-netwerken het geval is, gaat de voortplanting van de activiteit hier niet in slechts één richting. Ieder element is met ieder ander element (behalve zichzelf) verbonden; de signalen kunnen dus in lussen en cirkels reizen. Aanvankelijk nam Hopfield binaire eenheden met drempelwaarden aan (net zoals in de McCulloch-Pitts netwerken) en symmetrische gewichten van de verbindingen. Deze eisen bleken later niet essentieel te zijn. De leerregel is die van Hebb.
Hopfield-netwerken werken heel anders dan backpropagation-netwerken. We beginnen met het inbouwen van de gewichten van de verbindingen (via de regel van Hebb of met de hand). Als dit eenmaal is gebeurd, wordt (een gedeelte van) het netwerk in een bepaald activatiepatroon gebracht. De activiteiten van de elementen worden nu in een willekeurige volgorde bijgesteld. Bij binaire netwerken luidt de regel: maak de activiteit 1 als de som van de gewogen invoer de drempelwaarde overschrijdt, en maak haar anders 0. (Bij netwerken waarin de elementen reële waarden kunnen aannemen is de regel ingewikkelder.) Hopfield bewees dat het toepassen van deze regel tot gevolg heeft dat het netwerk tendeert naar stabiele eindtoestanden. Als je maar lang genoeg doorgaat, verandert het totale activiteitspatroon niet meer.
Wat is het nut van dergelijke netwerken? In de eerste plaats kunnen ze worden gebruikt als associatieve geheugens (een vorm van geheugen die we in de tegenwoordige computers missen; computers kunnen gegevens alleen maar terugvinden aan de hand van de adressen waar deze gegevens zijn opgeslagen). De stabiele toestanden waarnaar het netwerk streeft zijn namelijk op een interessante manier afhankelijk van de ingebouwde gewichten. Het zijn de toestanden die zo goed mogelijk in overeenstemming zijn met de `kennis' die in de verbindingen is vastgelegd. Deze `kennis' kan bestaan uit stelsels van hypothesen of simpelweg uit patronen. We kunnen elementen laten staan voor hypothesen of voor pixels uit een patroon. Een verbinding tussen twee elementen is positief als twee hypothesen elkaar ondersteunen of als twee pixels dezelfde waarde hebben, en anders negatief. Als we nu een bepaalde invoer aan het netwerk aanbieden, zullen er doorgaans elementen actief zijn die elkaar inhiberen, terwijl er anderzijds paren van elementen zullen zijn die elkaar ondersteunen, maar waarin toch een van beide partners inactief is. De regel die bepaalt hoe de activiteiten worden bijgesteld zorgt er voor dat precies deze elementen hun activiteit in de juiste richting veranderen. De inactieve die actief zouden moeten zijn, wórden dat ook, en andersom. Het resultaat is dat één van de stelsels van hypothesen of pixelpatronen die aanvankelijk in de gewichten waren ingebouwd steeds actiever wordt, en wel dat stelsel of patroon dat zo goed mogelijk correspondeert met de aangeboden invoer. Door de continue afweging wordt de discrepantie, disharmonie, of spanning tussen de ingebouwde hypothesen (patronen) en de opgelegde hypothesen (patronen) allengs minder, een proces dat men `relaxeren' of `ontspannen' noemt.
Dit is precies wat we onder associatieve patroonherkenning verstaan. Zijn bijvoorbeeld de pixel-patronen van de letters E en O in het netwerk vastgelegd, dan zal het netwerk in toestand E terechtkomen als een F wordt aangeboden en in toestand O als een U wordt aangeboden. Die patronen passen het best bij de invoer.
Een tweede toepassing van Hopfield-netwerken is de oplossing van problemen die moeten voldoen aan een groot aantal gelijktijdige randvoorwaarden. Deze randvoorwaarden worden aan het netwerk opgelegd; het zal dan vanzelf een oplossing zoeken die zo goed mogelijk overeenstemt met de ingebouwde desiderata. Het befaamde `handelsreiziger' probleem, waarin een reiziger een bepaald aantal steden langs een zo kort mogelijke route moet bezoeken, is een voorbeeld van zo'n probleem. Met Hopfield-netwerken kan men snel zeer acceptabele oplossingen bereiken, zelfs wanneer het om duizenden steden gaat. Ook als de randvoorwaarden tamelijk vaag zijn, kunnen Hopfield-netwerken worden gebruikt.14
Hopfield zag in, dat zijn binaire netwerken wiskundig beschreven worden met de spin-glas theorie in de natuurkunde (die betrekking heeft op collecties van electronen die ieder twee spintoestanden kunnen hebben). De hierboven tamelijk vaag omschreven `mate van discrepantie' is natuurkundig gezien niets anders de `energie' van het systeem; het systeem streeft naar lage energietoestanden. Dit inzicht was uiterst vruchtbaar. Omdat Hopfield de netwerk-theorie terugbracht tot een bekend gebied in de fysica en zelf een gerespecteerd fysicus was, wierpen vele fysici zich onmiddellijk na zijn publicatie op het netwerk-onderzoek.
Tot slot van onze beschrijving van vier belangrijke typen van netwerken noemen we nog een door het Hopfield-netwerk geïnspireerd model: de Boltzmann-machine.15
Een probleem met Hopfield-netwerken (en trouwens ook met backpropagation-netwerken) is dat ze vaak in locale minima belanden: oplossingen die wel redelijk goed zijn (beter dan de begintoestand), maar die toch niet de best denkbare zijn. Om dit probleem te overwinnen, is men er toe overgegaan een nuttig gebruik te maken van ruis. Elementen worden niet zomaar meer actief als hun activatie een drempelwaarde overschrijdt. De kans dat ze actief worden hangt ook af van een grootheid die `temperatuur' genoemd wordt. Hoe hoger de temperatuur, des te geringer het verband tussen de prikkeling en het al dan niet actief worden van een element.
De Boltzmann-machine ontvangt haar invoer bij een hoge temperatuur. Omdat alleen de grootste energieverschillen er dan iets toe doen, worden eerst globaal relatief gunstige dalen in het energielandschap opgezocht. De temperatuur wordt vervolgens steeds lager; op deze manier komt het systeem tenslotte in locale kuiltjes in het energielandschap terecht. Het proces is te vergelijken met de manier waarop men metalen in zeer laag-energetische toestanden brengt: men smelt het metaal eerst, en laat het dan langzaam afkoelen. Bij metalen noemt men dit proces `uitgloeien' of `ontharden', en daarom heet het bij netwerken `gesimuleerd uitgloeien' (`simulated annealing').
Het toepassingsgebied van de Boltzmann-machine is hetzelfde als dat van het Hopfield-netwerk. Men heeft een leerregel afgeleid die ervoor zorgt dat het netwerk statistische regelmatigheden in zijn omgeving leert weerspiegelen.
Sejnowski en Rosenberg hebben NetTalk ook met deze leerregel getraind. De resultaten kwamen op hetzelfde neer als met de backpropagation regel, alleen duurde het leren veel langer. Een interessant gegeven dat uit dit soort netwerken voortvloeit, is dat ze suggereren dat ruis in de hersenen niet alleen maar lastig is: misschien vervult ruis een nuttige rol.
Met het bovenstaande zijn de belangrijkste vier soorten netwerken besproken, maar er zijn er nog veel meer. Er bestaat een ware wirwar van netwerken. De variëteit komt voor het grootste deel voort uit de uiteenlopende drijfveren die de uit tal van disciplines afkomstige onderzoekers bewegen.
Hersenonderzoekers bijvoorbeeld zullen niet tevreden zijn met het backpropagation algorithme, dat een biologisch implausibele meting van fouten verderop in het netwerk veronderstelt. Hun netwerken doen meer recht aan het zenuwstelsel, maar zijn daardoor wiskundig vaak veel minder handelbaar.16
Een voorbeeld van een op de hersenen georiënteerde benadering is het werk van Stephen Grossberg.17 Grossberg is vooral geïnteresseerd in de vraag hoe een netwerk kan ophouden met leren. Het is een bezwaar van de hierboven beschreven leerregels dat ze altijd maar doorwerken. Een netwerk dat daarmee is uitgerust kan nooit selectief zijn en goede leermeesters van valse profeten onderscheiden. Grossbergs modellen ondervangen dit bezwaar. Zijn wiskunde wordt door zijn meeste collega's echter niet begrepen.
Aan het andere uiterste van complexiteit liggen bepaalde lineaire modellen, die bij het visuele systeem vaak verrassend goed blijken te voldoen.18
Ingenieurs laten zich uiteraard niet veel aan de biologische realiteit gelegen liggen. Het gaat hun er om of hun modellen gemakkelijk in electronische of optische schakelingen implementeerbaar zijn, of ze snel werken, betrouwbaar zijn, en dergelijke. De ingenieurs gebruiken de natuur alleen als algemene inspiratiebron.19
Het brein is technologisch gezien een wonder van vernuft. Geen supercomputer in de wereld benadert zelfs maar het rekenvermogen van de hersenen van een vlieg. Een zenuwcel is op zichzelf wel een miljoen maal langzamer dan een electronische schakeling. Maar doordat het zenuwstelsel bestaat uit een gigantisch aantal cellen die parallel aan elkaar werken, is het een conventionele computer, die slechts één processor heeft die iedere opgave stapje voor stapje moet afwerken, bij complexe opgaven altijd te snel af. Mensen kunnen bomen en huizen op foto's in een tiende seconde van elkaar onderscheiden; een grote computer met een slim programma heeft daar al gauw een halve dag voor nodig. (En dit is dan nog een gunstig voorbeeld, want vaak hebben we er geen idee van hoe we het programma zouden moeten schrijven.) De grenzen aan de snelheid van de huidige één-processor computers zijn nagenoeg bereikt. Wil men verder gaan, dan zal een netwerk van processoren nodig zijn. Daar komt nog bij, dat het zenuwstelsel wel tegen een stootje kan; chips en computers vallen al uit als er maar één schakeling defect is. Zo is men, als men snellere en robuustere electronica wil ontwikkelen, wel gedwongen netwerk-theorieën van relatief eenvoudige processoren, in meerdere of mindere mate gelijkend op neurale-netwerk theorieën, te ontwikkelen.
De `chip-goeroe' Carver Mead is het verst op deze weg gevorderd.20 Hij heeft een indrukwekkend boek geschreven over analoge chips, waarin onder andere kunstmatige netvliezen en gehoororganen voorkomen die qua prestaties en werkingswijze enigszins in de buurt komen van de overeenkomstige biologische organen. Deze netwerken lijken slechts globaal op de netwerken die we hierboven beschreven hebben. Behalve aan neurocomputers van halfgeleiders denkt men tegenwoordig overigens ook aan optische (onder andere holografische) en biomoleculaire implementaties van neurale netwerken.
Tenslotte zijn ook de kunstmatige-intelligentie onderzoekers die zich met netwerken bezighouden tamelijk pragmatisch geöriënteerd. Tot nu toe lukte het vaak helemaal niet om programma's te schrijven voor allerlei vaardigheden die mensen geen enkele moeite kosten. Dit komt meestal doordat de problemen zo vaag en slecht omschreven zijn. Mensen bedienen zich bijvoorbeeld niet van expliciet geformuleerde regels bij het herkennen van bomen en huizen, en ze slagen er ook niet in om de kennis die er voor nodig is om dit te kunnen doen uitputtend te beschrijven. Minsky gaf al in 1977 een aardige beschrijving van de geweldige moeilijkheden waarvoor de onderzoekers zich geplaatst zien:
Ons eerste uitstapje in de Kunstmatige Intelligentie was een programma dat er behoorlijk goed in slaagde om vraagstukken uit de differentiaal- en integraalrekening op universitair niveau op te lossen. Gewapend met dat succes wierpen we ons op de middelbare school algebra; tot onze verbazing bleek die veel moeilijker te zijn. Op het moment houden we ons bezig met lagere school rekenkunde, die te maken heeft met het begrip getal en dergelijke. Een verkenning van de kinderwereld van blokken bleek onoverkomelijk moeilijk te zijn, behalve onder de strengst ingeperkte omstandigheden. Het drong uiteindelijk tot ons door dat het leeuwedeel van wat wij intelligentie noemen tegen het eind van het eerste levensjaar ontwikkeld wordt.21
Er lijkt een grote toekomst weggelegd te zijn voor de netwerk-benadering op het gebied van expert-systemen voor slecht in regels vast te leggen domeinen. (NetTalk was hier al een voorbeeld van.) Als de regels duidelijk en onveranderlijk zijn, zoals bij optelling, kun je natuurlijk een gewoon computerprogramma schrijven dat ze correct toepast. (Ook hier kan een neuraal netwerk echter voordelen hebben, bijvoorbeeld als het aanzienlijk sneller werkt. Deze situatie treft men regelmatig aan in de robotica.) Maar anders ben je haast wel gedwongen een zelf-lerend, flexibel systeem te gebruiken. Neurale netwerken lijken in dergelijke gevallen een uitkomst te bieden: je hoeft ze, net zoals brave kinderen, maar voldoende voorbeelden te laten zien van correct gedrag, en ze volgen dat vanzelf na.
In het algemeen kan gezegd worden, dat er een haast onuitputtelijke diversiteit van netwerken bestaat. Daarom moeten de filosofen die zich over deze benadering uitlaten, bijzonder voorzichtig zijn in hun algemene uitspraken.22
Neurale netwerken hebben soms typisch menselijke trekjes. Ze kunnen omgaan met vage, conflicterende en onvolledige gegevens; ze kunnen grote hoeveelheden informatie tegelijkertijd verwerken; ze werken associatief; en ze kunnen generaliseren en van hun fouten leren, zonder dat er expliciete programmering nodig is.
Dit alles heeft de aandacht van veel psychologen getrokken. Zou de mens psychologisch gezien misschien ook een neuraal netwerk zijn? Hebben we een neurale geest in een neuraal brein? Vele psychologen hebben deze vragen gedurende de laatste vijf jaar bevestigend beantwoord.23 Zo heeft de netwerk-benadering--die in psychologische kringen vaak `connectionisme' wordt genoemd, als eerbetoon aan Hebb, die deze term in 1949 introduceerde--de cognitieve psychologie binnen een luttel aantal jaren geheel van karakter doen veranderen. Ontleende men zijn inspiratie vroeger geheel aan de `computermetafoor' uit het kunstmatige- intelligentie onderzoek, tegenwoordig is men volkomen in de ban van de `hersenmetafoor'.
We kunnen evenwel kort zijn over de psychologische toepassingen. Netwerk-theoretisch gezien voegen ze namelijk tamelijk weinig toe aan wat we hierboven al hebben gezien.
Neem bijvoorbeeld het veelbesproken model van Rumelhart en McClelland voor het leren van de verleden tijd van Engelse werkwoorden.24 Dit model wordt getraind met de fonetische weergave van stammen van Engelse werkwoorden aan de invoerzijde, en met de fonetische representatie van de verleden tijd van het betreffende werkwoord aan de uitvoerzijde. Het moet het juiste verband leren leggen, en als het leerproces voltooid is zelf correct leren generaliseren naar verleden tijden van stammen die het nog niet eerder heeft gezien. Het slaagt hier redelijk in, hoewel het ook eigenaardige fouten maakt.
Dit is een aardig resultaat, maar het is netwerk-theoretisch niet interessant. Het hart van het model wordt gevormd door een simpel perceptron (waaraan een kanselement is toegevoegd); bijna 100% van het artikel van Rumelhart en McClelland is verder gewijd aan de kwestie hoe men de invoer en uitvoer handzaam kan coderen, zodat het netwerk niet onhandelbaar groot gemaakt hoeft te worden. Ook de kritiek op het model gaat uitsluitend over de fonetische codering.25 Men vraagt zich af of de codering niet bedrieglijk is: hebben Rumelhart en McClelland hun kennis over de regels van de Engelse verleden-tijdsvorming er al niet in een slinkse vorm in ondergebracht, zodat het netwerk het veel te gemakkelijk krijgt? Ook vraagt men zich af of zuiver fonetische informatie ooit voldoende kan zijn om de juiste verleden tijd te genereren. Zijn semantische categorieën bijoorbeeld niet ook noodzakelijk? Is een zekere context om het woord niet noodzakelijk?
De kritiek is grotendeels terecht, maar zegt toch weinig over de psychologische potentie van de netwerk-benadering, omdat het model veel te primitief is. Men kan niet veel meer verwachten van het perceptron, de `deux chevaux' onder de neurale netwerken, dat niet eens kan omgaan met reeksen tekens die elkaar in de tijd opvolgen. (Een perceptron kan een eenmaal aangeboden teken immers op geen enkele manier onthouden; de signalen worden direct verwerkt en zijn dan verloren.)
Het algemene probleem met het connectionisme in de psychologie lijkt te zijn dat psychologen hun theorieën veel te luchthartig opstellen. Hun netwerken bestaan uit elementen, maar die elementen moeten volgens hen niet gezien worden als zenuwcellen. Zij staan voor gehele `begrippen', en vallen hooguit samen met grote groepen van zenuwcellen. Het is echter maar de vraag of ideeën die in eerste instantie betrekking hebben op het niveau van zenuwcellen, zomaar toegepast mogen worden op groepen van zenuwcellen, of op psychologische entiteiten die daar zelfs nog verder van zijn verwijderd.
Een goede psychologie zal moeten aansluiten bij wat de hersenwetenschappen ons leren. Iedere wetenschap voldoet aan de voorwaarde dat het ongeveer duidelijk is hoe haar randgebieden overgaan in aangrenzende wetenschappen. Als de psychologie niet aan deze voorwaarde voldoet, is ze geen wetenschap.26 De psychologen uit de vorige eeuw (Ebbinghaus, Wundt, James, enz.) waren zich hier heel goed van bewust. Hun handboeken beginnen steevast met een uitleg van de basisprincipes van de neuroanatomie en -fysiologie, waarna ze geleidelijk opklimmen tot de hoogste cognitieve vaardigheden. De op het kunstmatige intelligentie onderzoek geënte benadering in de cognitieve psychologie uit de jaren zeventig en tachtig voldeed niet aan die voorwaarde; men hield zich opzettelijk verre van de neurale `wetware'. De tegenwoordige connectionistische psychologen hebben dit isolationistische standpunt in ieder geval verworpen; ze willen wel degelijk aansluiten bij wat de hersenwetenschappen ons leren en hun boeken lijken qua indeling weer op die van hun negentiende-eeuwse voorgangers. Zo getuigt hun benadering van een prijzenswaardige mentaliteit.
Maar in de praktijk is de aansluiting bij de hersenwetenschappen vaak ver te zoeken. Men is er al te zeer aan gewend geraakt om klakkeloos computermodellen op tafel te gooien, en dat deze nu toevallig connectionistisch zijn maakt in feite weinig verschil.
Een psychologie die in het verlengde ligt van de hersenwetenschappen zal tot op zekere hoogte connectionistisch moeten zijn. De hersenen vormen immers per definitie een soort neuraal netwerk; men hoeft trouwens maar door de microscoop te kijken om zich daarvan te overtuigen. Theorieën over het visuele systeem en het associatieve geheugen zullen zelfs misschien grotendeels in connectionistische termen kunnen worden geformuleerd. Maar het gaat te ver om te zeggen dat de hele psychologie uit netwerk-theorieën moet bestaan. Het is nog maar helemaal de vraag in hoeverre de min of meer connectionistische architectuur van het neurale substraat terug te vinden zal zijn op een hoger psychologisch vlak. Misschien spelen heel andere principes daar een rol. Het overhaaste toepassen van netwerk-principes op psychologische verschijnselen heeft de connectionisten al het verwijt opgeleverd dat ze teruggevallen in de primitiefste vormen van achttiende-eeuws associationisme, en dit verwijt bevat zeker een kern van waarheid.
De toekomst zal ons leren hoe ver men kan komen met het connectionisme in de psychologie; dit is geheel en al een empirische kwestie.
In tegenstelling tot wat de afgelopen halve eeuw het geval is geweest, tonen filosofen tegenwoordig een grote belangstelling voor neurale netwerken. Hoe kan dat? De verklaring luidt misschien als volgt. In de eerste fase van het neurale netwerk onderzoek leidde de filosofie van het mentale een tamelijk geïsoleerd bestaan. Ze was in de ban van de `gewone taal' filosofie en had weinig oog voor de zich gelijktijdig in de wetenschap afspelende ontwikkelingen. In de jaren zestig nam de invloed van de gewone taal filosofie af, maar men richtte de blik toch nog niet naar buiten. Men hield zich bijvoorbeeld bezig met het weerleggen van het logisch behaviorisme en het verdedigen van de theorie dat de mentale verschijnselen contingent identiek zijn met verschijnselen in de hersenen. In de jaren zeventig nam de belangstelling voor wat in de wetenschap gaande was toe. Maar in deze tijd zat het neurale netwerk onderzoek juist in een dal. De filosofen beijverden zich dan ook om filosofische rechtvaardigingen te geven van de aan het kunstmatige-intelligentie onderzoek gerelateerde `computermetafoor'-opvatting in de psychologie. Nu deze niet meer het alleenrecht heeft, zien de filosofen hun horizon ook verbreden. Sommigen vinden de nieuwe benadering op zichzelf zo interessant dat zij het al voldoende vinden om haar te popularisaren.27 De filosofen van de `oude garde' zitten lelijk in hun maag met hun vroegere argumenten. Zij hebben maar twee keuzen: óf zij nemen stelling tegen de nieuwe mode, óf zij wijzen hun oude opvattingen af, het liefst natuurlijk op grond van nieuwe redeneringen. De oudere filosofen kiezen natuurlijk doorgaans voor het eerste, terwijl de jongeren en degenen die het eigenlijk altijd oneens waren met de heersende filosofie van de psychologie nu de kans schoon zien om eens flink van leer te trekken tegen de traditie.28
Laten we eerst eens zien hoe het pact dat filosofen de afgelopen twee decennia hebben gesloten met cognitieve psychologen eruit ziet. We kunnen geen systematisch overzicht geven, omdat het hier niet om één monolithische theorie gaat, maar om een bundel van slechts min of meer met elkaar samenhangende thesen. We kunnen enige van de belangrijkste gedachten eruit lichten als we een recent artikel van Fodor en Pylyshyn als leidraad nemen.29
A. Er bestaat een `taal van het denken'. De kennis en de overtuigingen die mensen er op na houden zijn in de vorm van zinnen in hun hoofd of geest opgeslagen. Deze zinnen lijken op zinnen uit de dagelijkse omgangstaal. Wanneer ik bijvoorbeeld geloof dat het regent is er een zin in mijn hoofd of geest die zegt dat het regent. Mijn geloof bestaat er uit dat ik in een bepaalde `computationele relatie' sta tot deze mentale zin: de zin speelt een bepaalde rol in mijn verdere cognitieve functioneren. (De term `computationeel' wordt hier gebruikt omdat cognitief functioneren wordt gezien als het uitvoeren van logische berekeningen, zoals we nog zullen bespreken). Als ik bang ben dat het regent sta ik in een andere computationele relatie tot dezelfde zin.
B. Cognitieve activiteit bestaat uit het uitvoeren van manipulaties op mentale zinnen. Stel dat ik er een mentale zin van de vorm (A en B) op na houdt. Uit deze zin kan ik de zin A afleiden. Wat ik dan doe, is net zoiets als wat in natuurlijke-deductie systemen uit de logica gebeurt: en-eliminatie. Ik voer een syntactische bewerking uit op een zin op grond van de vorm van die zin. Volgens de orthodoxe filosofen van de psychologie is dit een goed voorbeeld van wat er in het algemeen gebeurt bij cognitieve activiteit: zij bestaat uit het uitvoeren van syntactische bewerkingen op talig materiaal. Psychologie is `toegepaste bewijstheorie'. We hoeven ons niet altijd bewust te zijn van de gevolgtrekkingen die we maken; maar of we het ons realiseren of niet, we zijn logische automaten.
C. Mensen werken net zoals computers. Zoals het voorgaande voorbeeld laat zien, is de cognitieve activiteit van mensen te vergelijken met de bewerkingen die computers uitvoeren. Computers voeren ook syntactische bewerkingen uit op zinnen; in een taal als Prolog wordt ook geconcludeerd tot P op grond van (P & Q). Je kunt de werking van de geest het best simuleren met computerprogramma's in een hogere-orde programmeertaal.
D. De theorie van de computer is een theorie van de geest. Computers worden beschreven met de theorie van Turing machines: deze theorie legt voor eens en altijd vast wat computers wel en niet kunnen. Als wij psychologisch net zo functioneren als computers, geldt die theorie ook voor ons. Deze opvatting leidde tot het zogenaamde `Turing machine functionalisme'.30 Turing machines kunnen in bepaalde functionele toestanden verkeren, die hun reacties op een gegeven input bepalen. Mentale toestanden van mensen zouden gelijksoortige functionele toestanden zijn. Er is in het verleden veel nadruk gelegd op het feit dat Turing machines op allerlei verschillende manieren te verwezenlijken zijn; verschillende apparaten kunnen dezelfde software afdraaien. Zo is het ook met mentale toestanden: allerlei verschillende stukken wetware (verschillende breinen) en hardware (computers en robots) kunnen in principe dezelfde programma's afdraaien, en dus dezelfde psychologie hebben.
E. Ons psychologisch taalgebruik is een goede afspiegeling van wat er in onze psyche gebeurt. In de omgangstaal worden de psychologische toestanden waarin mensen verkeren weergegeven met zogenaamde `propositionele attitude toeschrijvingen'. Een voorbeeld van zo'n toeschrijving is de zin `Piet gelooft dat het regent'. Volgens de filosofen van de cognitieve psychologie geeft deze zin een tamelijk directe weergave van wat er in Piet gebeurt: het deel van de zin achter `dat' is een rechtstreekse vertaling in de omgangstaal van de mentale zin die zich werkelijk in Piet bevindt. Deze mentale zin zegt hetzelfde als de zin `het regent'; Piet houdt er werkelijk een equivalent van die zin op na.
Ook de structuren van complexe overtuigingen worden direct in de psychologische zinnen uit de omgangstaal weerspiegeld: als Piet gelooft dat de zon schijnt en de maan schijnt, dan staat hij in een computationele relatie tot de mentale pendant van de conjunctieve zin `de zon schijnt en de maan schijnt', en deze mentale pendant heeft zelf ook weer een conjunctieve vorm: het is de conjunctie van de mentale vertaling van `de zon schijnt' en de vertaling van `de maan schijnt'. De Nederlandse zin gunt ons een directe blik in deze inwendige representatie. Er is een isomorfie tussen inwendige en uitwendige taal.
F. De huis-, tuin- en keukenpsychologie is ongeveer correct. Volgens de bedoelde filosofen bestaat er zoiets als een `volkspsychologie', een folkloristische huis-, tuin- en keukenpsychologie die we er allemaal zo ongeveer op na houden. Volgens deze filosofen is deze volkspsychologie ongeveer correct. De wetenschappelijke psychologie kan in haar verlengde liggen. Een voorbeeld van een wet uit de volkspsychologie zou bijvoorbeeld kunnen zijn: Als X gelooft dat P en Q, dan gelooft X dat P. De wetenschappelijke psychologie kan op dergelijke wetmatigheden verder bouwen. Zo is onze alledaagse psychologie een bijzonder gelukkig geheel: niet alleen zijn de zinnen waarin wij haar bedrijven bijzonder informatief (de structuren van propositionele attitude toeschrijvingen zijn glasheldere, transparante afspiegelingen van de structuren van onze innerlijke representaties), de wetmatigheden die wij met behulp van deze zinnen formuleren zijn doorgaans ook een juiste beschrijving van wat er in ons gebeurt.
Om kort te gaan, de orthodoxe filosofie van de psychologie postuleert een trias van isomorfismen: computerprogramma's, intentionele uitdrukkingen in de omgangstaal en cognitieve verrichtingen weerspiegelen elkaar.
Het connectionisme geeft op het eerste gezicht een heel ander beeld te zien dan de bovenstaande opvatting.
Ten eerste is er geen sprake van een `taal van het denken'. Zelfs in modellen als NetTalk, die expliciet zijn toegerust voor het werken met taal, is geen kennis opgeslagen in de vorm van zinnen. De kennis is impliciet aanwezig in de gewichten. De bewerkingen die in het model worden uitgevoerd lijken dan ook niet op logische bewerkingen; er zijn geen expliciete regels waarmee talige conclusies uit talige premissen worden getrokken op grond van de syntactische vormen van die premissen.
Ten tweede werken de modellen anders dan de tegenwoordige seriële computers. Ze kunnen op de laatste wel gesimuleerd worden (en vice versa), maar ze zijn op zichzelf veel rijker. Een computer bestaat uit maar één processor; een computer is te vergelijken met een netwerk dat uit één element (of een klein aantal elementen) bestaat.
Ten derde gaat de connectionistische benadering er niet van uit dat de huis-, tuin- en keukenpsychologie een bij benadering juist beeld geeft van onze inwendige processen. Ze neemt aan dat deze hooguit een heel grove beschrijving geeft van fenomenen die in werkelijkheid veel ingewikkelder zijn, precies zoals dat bij bijvoorbeeld de folkloristische land- en tuinbouwkunde het geval is. De moderne wetenschap is veel dieper doorgedrongen in de mechanismen die de groei en bloei van gewassen bepalen dan de volkslandbouwkunde, en de terminologie van de laatste bleek ook niet het laatste woord te zijn; sommige termen bleken gemist te kunnen worden, andere bleken misleidend te zijn, en ook moesten er talloze nieuwe begrippen geïntroduceerd worden. Volgens de connectionisten staat de volkspsychologie er niet beter voor dan de traditionele landbouwkunde. We kennen alleen nog maar de top van de neurale ijsberg in onszelf.
Welke benadering biedt nu meer perspectieven voor de psychologie, de traditionele of de connectionistische? Moeten we wel kiezen? Voor een gedeelte betreden we hier natuurlijk in ieder geval een empirisch terrein. Beide benaderingen zullen beoordeeld moeten worden naar hun vruchten.
Er zijn echter ook aprioristische kwesties in het geding. De verdedigers van de oude stroming hebben hun aandacht vooral hierop gericht. Het geruchtmakendste artikel is dat van Fodor en Pylyshyn uit 1988.31 We zullen dat artikel hier dan ook onder de loupe nemen.
Fodor en Pylyshyn beginnen met een verdediging van de orthodoxe opvatting. Laten we hun argumenten daarvoor eerst eens bekijken.
A. Talen zijn compositioneel. Ze bestaan uit kleinste elementen (atomaire zinnen) die in steeds wisselende configuraties grotere zinnen kunnen vormen (moleculaire zinnen). Grammaticale regels bepalen welke zinnen goed en fout zijn.
Commentaar. In principe geen bezwaar. Zoals Fodor en Pylyshyn zelf opmerken is het echter wel de vraag in hoeverre natuurlijke talen zoals het Engels compositioneel zijn.
B. Er bestaat een taal van het denken. (Zie boven voor een uitvoeriger uitleg van deze these.)
Commentaar. Het is niet nodig om een talige structuur voor gedachten aan te nemen. Filosofen zijn eeuwenlang tegen deze opvatting te hoop gelopen (Hegel was de laatste die haar voor onze tijd verdedigde), en ze is introspectief gezien ook niet plausibel. Het wordt wel gezegd, dat alleen filosofen verbaal denken (en zelfs dromen!)
Field geeft nog een argument voor een `taal van het denken' theorie dat Fodor en Pylyshyn niet noemen.32 Hij meent dat we wel zo'n theorie moeten aannemen, omdat we anders geen causale verklaring van intentionaliteit kunnen geven. Dat een gedachte een intentionele inhoud heeft betekent volgens de `taal van het denken' opvatting niets anders dan dat een mentale zin een betekenis heeft. Omdat Field geen moeilijkheden zag in het geven van een causale betekenistheorie, was het probleem van een causale analyse van intentionaliteit daarmee voor hem opgelost.
Fields argument lijkt niet erg steekhoudend te zijn. Waarom zouden we alleen maar een causale betekenistheorie voor zinnen kunnen ontwerpen? Zouden we geen directe theorie voor mentale toestanden kunnen geven, zonder de omweg via de taal te hoeven maken?
C. Zinnen in de taal van het denken zijn isomorf aan Engelse zinnen. Net zoals zinnen hebben mentale representaties een combinatoriële syntaxis en semantiek. Net zoals in logische talen zijn er eenvoudige atomaire representaties; via operaties zoals conjunctie en disjunctie kunnen daaruit moleculaire representaties worden gevormd. De betekenis van moleculaire representaties is een functie van de betekenissen van de atomaire representaties waaruit ze zijn opgebouwd, en van de manier waarop ze daaruit zijn opgebouwd. Syntaxis en semantiek gaan hand in hand.
Commentaar. De stelling lijkt volkomen uit de lucht gegrepen. Ik heb geen duidelijk onderscheiden atomaire en moleculaire gedachten. Geen gedachte is een eiland. De inhoud van een gedachte is een functie van het geheel waarvan ze een deel uitmaakt, precies zoals de betekenis van een woord een functie is van de zin waarvan ze deel uitmaakt--zoals Frege in de vorige eeuw al benadrukte. Misschien treden er soms dezelfde thema's, leitmotiven en ideeën op, maar deze zijn juist door de verschillende samenhangen waarin ze optreden toch niet steeds precies hetzelfde. Je kunt niet tweemaal in dezelfde bewustzijnsstroom stappen. Trouwens, hoe zit het met de mentale representaties van kinderen, dolfijnen en chimpansees? Zijn die ook isomorf aan het Engels? Net zoals de compositionaliteit van natuurlijke talen is de compositionaliteit van een taal van het denken een dubieuze zaak.
D. Mentale verrichtingen zijn vergelijkbaar met operatoren uit de logica. Ze werken op een representatie met een bepaalde structuur en maken daaruit representaties met een andere vorm.
Commentaar. Fodor en Pylyshyn dwepen met de logica; volgens hen is psychologie gewoon toegepaste bewijstheorie. Maar ze laten na te zeggen welke logica ze dan wel op het oog hebben. Deze logica moet in ieder geval uiterst zwak zijn. Uitdrukkingen die volgens de klassieke logica bewijsbaar equivalent zijn, zoals 1=1 enerzijds en het vier-kleuren theorema anderzijds, kunnen dat volgens hen niet zijn, omdat het mogelijk is dat je de ene stelling wel gelooft en de andere niet. Ook zoiets eenvoudigs als `mentale conjunctie' mogen zij niet aannemen, want dat is een vermogen dat split-brain patienten bijvoorbeeld overduidelijk heel vaak niet hebben. Maar welke logica bedoelen zij dan wel?
Het enige voorbeeld dat Fodor en Pylyshyn van een mentale operatie geven is absurd: uit Piet gelooft dat (P & Q) kun je afleiden dat Piet gelooft dat P. (Het voorbeeld dat we hierboven al gaven.)
Misschien gelooft Piet inderdaad dat de zon schijnt als hij gelooft dat de zon schijnt en de maan schijnt. Maar zelfs als we de opvatting van Fodor en Pylyshyn aangaande `mentale zinnen' accepteren, dan berust deze wetmatigheid niet op een of ander mentaal vermogen, maar simpelweg op de inhoud van de mentale representatie.
`Piet gelooft dat de zon schijnt en de maan schijnt' betekent, in de theorie van Fodor en Pylyshyn, dat Piet een mentale representatie heeft van de toestand dat de zon schijnt en de maan schijnt. Hij staat in een zekere `computationele relatie' tot een zin die de laatste situatie beschrijft. Maar een situatie waarin de zon schijnt en de maan schijnt is automatisch een situatie waarin de zon schijnt. Zo is Piets representatie automatisch een representatie van de situatie dat de zon schijnt, en gelooft hij zonder daar zelf verder iets voor te hoeven doen automatisch dat de zon schijnt. Dit komt door de situatie, en is niet afhankelijk van gevolgtrekkingen van de zijde van Piet. Zo spreken Fodor en Pylyshyn een artikel lang van mentale operaties die analoog zouden zijn aan logische operaties, zonder er een enkel steekhoudend voorbeeld van te noemen.
Het klinkt misschien respectabel om met termen als `logica' en `inferentiële mechanismen' te schermen, maar echte logici zijn daar allerminst van onder de indruk. Barwise bijvoorbeeld heeft Fodor in niet mis te verstane bewoordingen ter verantwoording geroepen.33 Als er al een logica van het denken is, dan is dat er één die we in ieder geval nu nog niet kennen. Logici zijn druk bezig om `natuurlijke' logica's te construeren, die de rationele redeneerpatronen van mensen weergeven als ze bijvoorbeeld met conflicterende of incomplete gegevens worden geconfronteerd (men denke aan `niet-monotone' en `default' logica's). Maar deze onderneming is nog lang niet tot een geslaagd einde gebracht. Het connectionisme kan op dit gebied zelfs een formidabele concurrent worden. In het geval van `default' redeneringen is de theorie van `semantische netwerken' bijvoorbeeld een aantrekkelijk alternatief; en het is nu reeds zo, dat niets gemakkelijker is dan daar een connectionistische implementatie van te geven.
Tot zover de verdediging die Fodor en Pylyshyn hebben gegeven van de klassieke theorie. Dan komen we nu bij hun kritiek op het connectionisme.
A. Connectionisten beschouwen iedere mentale representatie als primitief. Representaties hebben geen syntactische structuren, die het aangrijpingspunt vormen voor formele operaties.
Hierop hebben we drie replieken.
George Miller heeft geschat dat het aantal welgevormde Engelse zinnen van twintig woorden in dezelfde orde van grootte ligt als het aantal seconden in de geschiedenis van het universum. Toch kunnen mensen al die zinnen begrijpen. Als iedere representatie van zo'n zin primitief is, zouden wij mensen dus tien tot de achttiende mogelijke primitieve representaties toe moeten dichten. (We nemen aan dat het heelal 35 miljard jaar oud is.) Is dat niet erg veel?
Antwoord: Nee, dat is het niet. Als ieder element van een netwerk correspondeert met een zin, zoals Fodor en Pylyshyn menen dat de connectionisten beweren, dan zouden we inderdaad wel een erg groot netwerk in ons hoofd moeten hebben. Maar geen connectionist neemt zo'n netwerk aan; Fodor en Pylyshyn geven hiermee alleen maar te kennen dat zij niet begrijpen wat een gedistribueerde representatie is.
In een connectionistisch model is een representatie een bepaalde activatietoestand van een groep elementen. Laten we aannemen dat ieder element in twee toestanden kan verkeren (aan en uit). Hoe groot moet een groep cellen dan zijn om tien tot de achttiende activiteitspatronen te kunnen vertonen? Het antwoord is verrassend: zestig zijn genoeg (twee tot de zestigste is tien tot de achtiende). Dat we meer dan zestig cellen in de hersenen hebben zal toch wel niemand willen ontkennen.
B. Productiviteit. Een klassiek systeem kan in principe met een onbeperkt aantal representaties overweg. Door het recursief toepassen van de regels op de atomaire representaties krijg je een `onbegrensde competentie' met eindige middelen.
Repliek. Connectionistische systemen hebben een onbegrensde competentie op hún gebied. Soms heeft deze competentie slechts een eindig bereik. NetTalk bijvoorbeeld, kan van ieder geschreven zeven-letterig woord, of het dat nu eerder heeft gezien of niet, een uitspraak genereren. Maar er bestaat slechts een eindig aantal zeven-letterige woorden. In andere gevallen kan het echter wel degelijk om oneindige competentie gaan. Als eerste voorbeeld nemen we een netwerk waarin de elementen reële waarden aannemen. Zo'n netwerk zal in het algemeen een functie van de reële getallen naar de reële getallen berekenen; stop je er een reëel getal in, dan komt er een ander reëel getal uit. Het zal duidelijk zijn dat zo'n netwerk met oneindig veel signalen overweg kan (zelfs als de invoer binnen een bepaald interval moet liggen). We hebben hier dus een oneindige competentie. Een tweede voorbeeld van oneindige competentie met eindige middelen zullen we hieronder nog tegenkomen. We zullen zien dat een McCulloch-Pitts netwerk, net zoals een Turing machine, een bepaald soort talen kan herkennen en produceren. Deze talen hebben een oneindig aantal zinnen, en hier hebben we dus weer een eindig netwerk met een oneindige competentie.
C. Systematiciteit. Je kunt zinnen (inclusief mentale zinnen) met zekere vormen alleen begrijpen dan wel produceren als je ook zekere andere kunt begrijpen of produceren. Het is bijvoorbeeld onmogelijk dat er mensen zijn die de gedachte `Jan houdt van het meisje' wel kunnen hebben, maar de gedachte `het meisje houdt van Jan' niet kunnen hebben. We hebben hier te maken met dezelfde vormen en slechts een verschillende plaats van constituenten. Als je aanneemt dat representaties atomair zijn hoeft deze systematiciteit niet te bestaan. Ze geldt ook voor dieren: een dier dat aRb kan representeren, moet ook bRa kunnen representeren, `tenzij het een uitzondering is die de regel bevestigt' (een formulering die ik niemand ooit zo veel heb zien gebruiken als Fodor en Pylyshyn!).
Repliek. Het gaat hier slechts om vaak waargenomen regelmatigheden. Er zijn uitzonderingen, zoals Fodor en Pylyshyn zelf ook erkennen. Deze uitzonderingen vormen voor hun theorieën een groot probleem, omdat ze niet in termen van die theorieën kunnen worden begrepen; hier moeten we nu opeens naar een ander soorten verklaringen grijpen. In de connectionistische opvatting vormen uitzonderingen op waargenomen onregelmatigheden geen probleem. Het is bijvoorbeeld voorstelbaar dat connectionisten een model maken waarin de overtuiging dat P vaak uit de overtuiging dat (P & Q) volgt, maar niet altijd. Voor classici is dat uitgesloten. Zo is het ook met een gevolgtrekking als (P[0] & P[1] & ...& P[1000]) ==> P[323]. Fodor en Pylyshyn verwijten de connectionisten dat ze een model kunnen maken waarin deze gevolgtrekking niet gemaakt wordt. Dat lijkt mij helemaal geen bezwaar. Mensen zijn lang niet altijd zo logisch als Fodor en Pylyshyn ons willen doen geloven.
Tot zover Fodors en Pylyshyns argumenten tegen het connectionisme. Zoals we hebben gezien zijn ze nauwelijks steekhoudend. Het connectionisme kan niet op aprioristische gronden worden afgewezen als onvruchtbaar voor de psychologie. Misschien zal ze ons niet het gehele verhaal vertellen over het menselijk denken, maar dat zou ook te veel gevraagd zijn.
Fodor en Pylyshyn lijken in het algemeen te lijden aan een te sterke fascinatie door de taal. Al hun voorbeelden zijn gebaseerd op de taal. Maar het is maar de vraag of de taal zo'n centrale rol moet spelen in de psychologie.
Al zou de taal een belangrijke spelen bij het bewuste nadenken, dat wil niet zeggen dat alle psychologische verschijnselen een linguïstische aard hebben. De zintuigen, de verwerking van zintuigelijke informatie, de gehele motoriek--daarover zeggen Fodor en Pylyshyn niets, en het is ook een raadsel hoe cognitieve verrichtingen uit deze `lagere' sferen ooit zouden kunnen worden verklaard in termen ontleend aan de grammatica of zouden kunnen aansluiten op `centraler' gelegen processen als die laatste alleen maar geschikt zouden zijn voor taalverwerking.
Juist op deze `lagere' gebieden, die de mens gemeen heeft met alle dieren, en die evolutionair en ontwikkelingspsychologisch gezien de grondslag vormen voor ons hele psychologische functioneren, is het praktische succes van de klassieke benadering altijd nogal beperkt gebleven; de meest eenvoudige fenomenen kunnen niet eens worden verklaard. De `computermetafoor' psychologen zien er geen been in om modellen voor ingewikkelde verschijnselen als `emotionaliteit' te maken, terwijl ze nog niet eens kunnen verklaren hoe mensen een `A' van een `I' kunnen onderscheiden, zoals Hofstadter eens sarcastisch opmerkte.34 Het is vreemd dat Fodor en Pylyshyn niet op dergelijke tekortkomingen van de klassieke benadering in gaan.
Het lijkt erop dat Fodor en Pylyshyn het paard achter de wagen spannen. Taalverwerking is één van de hoogste, verst geëvolueerde verschijningsvormen van het menselijk intellect, een manifestatie van de meest ingewikkelde onderliggende processen, en trouwens ook een vaardigheid die men pas vrij laat in het leven beheerst. Misschien zullen we er nooit achter komen hoe taalverwerking precies in haar werk gaat. In ieder geval is het de zaak op zijn kop zetten om alle cognitieve verschijnselen in termen van hun culminatie, de taal, te willen beschrijven. Zelfs als bepaalde cognitieve verrichtingen wat hun wijze van uitvoering betreft op taalverwerking lijken, is dat misschien eerder een uitvloeisel van onze linguïstische vaardigheden, dan een manifestatie van eenzelfde onderliggend, in wezen linguïstisch, proces.35
David Marr merkte iets gelijksoortigs op voor rekenen:
Het onderzoek naar het oplossen van problemen heeft altijd de neiging gehad om zich te richten op problemen die we intellectueel goed begrijpen maar zelf niet goed kunnen oplossen. [...] Het is mijn overtuiging dat er uitzonderlijk goede redenen zijn om nog niet te gaan bestuderen hoe wij zulke taken uitvoeren. Ik twijfel er niet aan dat er iets is dat wij goed doen wanneer wij bijvoorbeeld uit ons hoofd rekenen, maar het is geen rekenen, en we lijken er nog totaal geen idee van te hebben van wat het wel is. Laten we daarom de eenvoudiger problemen eerst te lijf gaan.36
De geweldige kloof tussen de `orthodoxe' cognitieve psychologie en de rest van de wetenschap berust ook op de fascinatie door de taal. Niet voor niets verdedigt Fodor een extreme `autonomie' van de psychologie ten opzichte van de rest van de wetenschappen. Zoals we hierboven al hebben gezien, is een dergelijk isolationisme verwerpelijk.
Daarom is het connectionisme in de psychologie een welkom alternatief. Zoals we al hebben gezien, is het niet zo, dat alles reeds in kannen en kruiken is; de tegenwoordige psychologische connectionistische modellen maken vaak een onmiskenbaar frivole indruk. Maar er is hoop; filosofen die dit ontkennen zijn alleen maar reactionair. (In dit verband is het aardig om op te merken dat Pylyshyn--veel meer een practiserende wetenschapsbeoefenaar dan Fodor--op congressen een uitgesproken teneergeslagen indruk maakt. Weemoedig merkt hij op dat hij vroeger een van de `jonge Turken' was, maar nu als uitgerangeerd wordt beschouwd.)
Wat de `volkspsychologie' ten slotte betreft: daar hoeven we ons helemaal niet veel aan gelegen te laten liggen. Het is een uitermate magere theorie; er zijn bijna geen psychologische wetmatigheden waar niemand bezwaar tegen zal maken. Voor zover ze juist is, zal ze dat maar bij benadering zijn, precies zoals bijvoorbeeld de `volksgeneeskunde'. De toekomst zal ons meer leren over de complexe verschijnselen waar ze in feite maar een ruw beeld van geeft, precies zoals dat bij de volksgeneeskunde is gebeurd.
Tegelijkertijd is de omgangstaal zo flexibel, dat alle correcties door een wetenschappelijke psychologie er gemakkelijk in geaccomodeerd zullen kunnen worden. Er zijn bepaalde `eliminatieve materialisten' die dit ontkennen; volgens hen zit onze omgangstaal er té ver naast. Zij zouden propositionele attitude toeschrijvingen het liefst uitgebannen zien. Maar geen enkele wetenschappelijke ontwikkeling heeft ooit een dergelijke ingrijpende verandering van de taal met zich meegebracht. Waarom zou de psychologie opeens zo'n apart geval zijn?
Er zijn niet alleen maar tegenstanders van het connectionisme onder filosofen te vinden. Velen dragen de stroming wel degelijk een warm hart toe. Ook zij vallen echter vaak ten prooi aan twee grote misvattingen waar Fodor en Pylyshyn eveneens het slachtoffer van zijn.
De eerste misvatting is de betiteling van de `klassieke', door de computer geïnspireerde benadering, als de `symbolische'.37 De connectionistische wordt daarentegen `niet-symbolisch' of zelfs `sub-symbolisch' genoemd. Als er iets mystificerend is, is dit het.
Men kan niet genoeg benadrukken dat de betiteling van een signaal als een `symbool' puur conventioneel is. Wat is een symbool, en wat niet? Dat hebben wij geheel in eigen hand. Alles kan alles representeren. Zoals Wittgenstein al in 1913 zei: `That this inkpot is on this table may express that I sit in this chair'.38 Als ik de inktpot optil, symboliseert dat mijn opstaan uit de stoel. Als ik hem van tafel laat vallen, kan dat de toedracht representeren dat ik uit mijn stoel val. Niets is uit zichzelf symbool of niet; iets is alleen maar symbool doordat wij het in een semantische betrekking tot iets anders laten staan. Dit geldt voor alle woordbetekenissen. Er is niets in de woorden dat hen een betekenis geeft; de betekenis wordt van buitenaf opgelegd.
Iets dergelijks ook voor regels, zij het in minder sterke mate. Computers worden wel regel-geleid genoemd, neurale netwerken zouden daarentegen geen expliciete regels hebben. Het laatste is in zoverre waar, dat er vaak geen duidelijke domein-specifieke regels in een netwerk aanwezig zijn; in NetTalk bijvoorbeeld zijn geen duidelijke uitspraakregels aan te wijzen. Een ander soort regels is daarentegen wel overduidelijk aanwezig, namelijk de regels die het dynamische en leergedrag van het netwerk bepalen. Als we wiskundig slim genoeg zijn, kunnen we uit deze regels het totale invoer-uitvoer gedrag van het netwerk berekenen; we kunnen dan bijvoorbeeld tot de conclusie komen dat het de identiteits-afbeelding uitvoert. (Meestal zal het emergente gedrag natuurlijk minder gemakkelijk te omschrijven zijn.)
Regel-toekenning is minder arbitrair dan symbool-toekenning; alles kan alles symboliseren, terwijl regels vaak overduidelijk niet opgaan. Toch hebben ook regels geen absolute status. Vaak zal een opeenvolging van gebeurtenissen compatibel zijn met meerdere regels. In zulke gevallen is er verder niets in de opeenvolging dat kan uitmaken welke regel `echt' gevolgd wordt. Vooral Kripke heeft, geïnspireerd door Wittgenstein, onlangs uitgebreid geschreven over de speelruimte die we bij regel-toeschrijving hebben.39 Zijn conclusies gelden ook voor programma-toeschrijvingen aan computers, en hij trok ze zelfs door naar mentale toestanden: er is niets in mensen dat bepaalt in welke mentale toestand ze verkeren, de maatschappij schrijft zulke toestanden toe.
Of we Kripke helemaal moeten volgen zullen we hier in het midden laten, maar de moraal is duidelijk: wantrouw alles wat over `symbolen' en `regels' in connectionistische contexten wordt gezegd. Alle signalen die netwerken bereiken en uitzenden kunnen we, als we dat willen, als symbolen van wat dan ook bestempelen, en er is niets op tegen om bijvoorbeeld te zeggen dat een signaal dat de ene element naar de andere element zendt, de boodschap `ik ben blij' overbrengt--`hoewel het signaal ook niet méér zegt dan de uitdrukking `ik ben blij' wanneer die in volkomen isolatie van de rest van de taal beschouwd wordt'.40
In de praktijk zal het vaak moeilijk zijn om een zodanige symbolische interpretatie te verlenen aan groepen van elementen in een netwerk dat het totale gedrag van het netwerk een zinvol omgaan met de betekenissen van die symbolen blijkt te zijn. De meeste symbolische stelsels die zich gedragen volgens de regels van de natuurlijke deductie zullen bijvoorbeeld niet op een willekeurig netwerk passen.
Maar er is in ieder geval niets op tegen om dergelijke symbolische interpretaties te proberen, want symbolen zijn niets anders dan dergelijke arbitraire toekenningen. Fodor en Pylyshyn geven blijk van een magische visie op betekenissen als ze de labels in neurale netwerken wegwimpelen als `niets meer dan' labels. `Echte' symbolen zijn ook labels.
Een geslaagd voorbeeld van een interpretatie van een netwerk als een symbool-verwerkend systeem zullen we hieronder nog tegenkomen bij de bespreking van de linguïstische competentie van McCulloch-Pitts netwerken.
Tot zover de mystiek rond het begrip `symbolisch'. Gelukkig geeft het begrip niet alleen maar aanleiding tot verwarring. Er is ook een ander debat gaande over de kwestie `symbolisch of niet-symbolisch?'.
Hierbij gaat het om de vraag: in hoeverre is het mogelijk om het specifieke begrippenapparaat en de specifieke afleidingsregels van klassieke cognitief-psychologische theorieën op neurale netwerken in de connectionistische zin te projecteren? In het bijzonder: in hoeverre is de traditionele opvatting van de mens als een symbool-verwerkend systeem te combineren met de connectionistische opvatting dat hij uit een stelsel van netwerken bestaat? Dennett meent dat beide benaderingen niet alleen heel goed samengaan, maar zelfs even correct zijn. Hij denkt dat wij een connectionistische fijnstructuur hebben, maar globaal gezien een (virtuele) Von Neumann computer vormen, waar seriële computerprogramma's op draaien.41 Fodor en Pylyshyn gaan ook in deze richting; zij beschouwen het connectionisme als niets anders dan een implementatie-voorstel voor modellen uit de traditionele cognitieve wetenschap. Smolensky meent dat de beschrijving van de mens als een symbool-verwerkend systeem (waarbij symbolen van de traditionele soort bedoeld worden) slechts in grote trekken juist kan zijn; we zullen de symbolen volgens hem op zijn minst in `subsymbolen' moeten opdelen wil er een ordentelijke aansluiting kunnen ontstaan.42 Anderen (zoals mevrouw Churchland) zijn skeptisch. Volgens hen zijn de traditionele categorieën ronduit misleidend; iedere `introjectie' op ons connectionistische cognitieve systeem is tot mislukken gedoemd. De fysische realiteit verschilt teveel van de tradtionele cognitief-psychologische ontologie.
We zullen het er voor het moment maar op houden dat het toeschrijven van symbool-verwerkend en regelgeleid gedrag aan netwerken zélf een symptoom is van het patroon-herkennend gedrag van mensen. Ook als we zeker weten dat het systeem in kwestie niet in eerste instantie door de toegeschreven wetmatigheden wordt gereguleerd, is de neiging om een dergelijke interpretatie te geven vaak groot. Zelfs bij het bekijken van een leerproces in een eenvoudig programma als Brainmaker43 ontkom je er niet aan te gaan zitten speculeren welke hypothetische regels het programma nu weer aan het uittesten is. Zo kan het ook bij mensen zijn: zelfs als de wetenschap mocht uitwijzen dat we geen symbool-verwerkende systemen in een interessante zin zijn, dan kan de aanvechting om mensen zo te beschouwen toch weleens te sterk blijken te zijn. Misschien heeft een dergelijke wijze van beschrijven zelfs nut: misschien leidt ze tot de meest beknopte (hoewel grove) beschrijvingen van complexe entiteiten als netwerken. Daarom is er wellicht nog een lange toekomst voor haar weggelegd. We kunnen de situatie vergelijken met teleologische toeschrijvingen in de natuurkunde en evolutiebiologie: ze zijn strikt genomen onjuist, maar leiden vaak tot handzame korte beschrijvingen van complexe processen. Het zijn geen verklaringen, maar als het goed is kunnen ze wel omgezet worden in verklaringen.
Dit alles is in ieder geval een empirische kwestie. Misschien zijn er in sommige gevallen inderdaad structuren in ons te vinden die met bijvoorbeeld bepaalde grammaticale grootheden corresponderen--net zoals NetTalk intern bleek te onderscheiden tussen klinkers en medeklinkers, zoals uit moeizaam statistisch onderzoek bleek. In andere gevallen zal misschien ook niet zo'n isomorfie worden gevonden. Fodor en Pylyshyn gaan er veel te lichtvaardig van uit dat ze altijd aanwezig is.
Behalve de mening dat netwerken absoluut niet `symbolisch' zijn, leeft er nog een tweede, wijd verbreide misvatting over de aard van netwerken. Zij zouden het qua logische vermogens namelijk in de verste verte niet halen bij Turing machines. Fodor en Pylyshyn en andere critici van de netwerk-benadering hebben deze verkeerde voorstelling van zaken, maar ook de voorstanders van de netwerk-benadering in de psychologie (zoals Rumelhart en McClelland) menen er niet onder uit te kunnen komen.
We zullen hier kort zijn over dit argument.44 Het komt erop neer, dat de vergelijking gewoonweg oneerlijk is. Turing machines zijn abstracte automaten die uit twee onderdelen bestaan: een eindige automaat, en een (onbegrensde) band die beschreven is met symbolen die de automaat kan lezen en veranderen.
Een eindige automaat is een apparaat dat in een eindig aantal toestanden kan verkeren. Er is een invoerkanaal en een uitvoerkanaal; als er een bepaalde invoer wordt aangeboden, gaat het apparaat in een toestand over die wordt bepaald door de vorige toestand en door de invoer. De nieuwe toestand kan al dan niet tot uitvoer leiden.
Neurale netwerken zijn over het algemeen inderdaad zwakker dan Turing machines in hun geheel. Ze kunnen bijvoorbeeld niet onbeperkt vermenigvuldigen: als de opgave te groot wordt, kan de automaat het tussenresultaat niet meer onthouden.45
Maar neurale netwerken zijn over het algemeen niet zwakker dan eindige automaten. McCulloch-Pitts netwerken bijvoorbeeld zijn eindige automaten, en het is niet moeilijk te bewijzen dat het omgekeerde ook geldt: voor iedere eindige automaat (ongeacht het aantal inwendige toestanden en aantal invoerkanalen) kun je een McCulloch-Pitts netwerk bouwen dat hetzelfde doet. Een dergelijk resultaat geldt niet voor alle netwerken: netwerken zonder lussen (zoals perceptrons en feedforward backpropagation netwerken) zijn over het algemeen zwakker dan eindige automaten. Maar zodra er lussen (teruglopende verbindingen) worden toegelaten, lijkt het wel te gelden.
Voor neurale netwerken geldt dan ook in het algemeen, dat ze, mits voorzien van een onbegrensde omgeving die ze als extern geheugen kunnen gebruiken, equivalent zijn met Turing machines. Dit is de reden dat de vergelijking hierboven als `oneerlijk' werd betiteld: waarom zouden we een netwerk niet, net zoals onze hersenen, in een omgeving mogen plaatsen? Dan krijgen we meteen een Turing machine.
Een netwerk hoeft niet eens groot te zijn wil men er een Turing machine mee maken. Een universele Turing machine, die het gedrag van alle andere Turing machines kan simuleren, kan men al maken met een eindige automaat die in zeven toestanden kan verkeren en een papierstrook met vier typen symbolen.46 Een McCulloch-Pitts netwerk dat hetzelfde gedrag vertoont als deze eindige automaat hoeft niet meer dan 32 elementen te bevatten.47 Hiermee hebben we al een `universeel' netwerk.
De hele vergelijking is overigens misplaatst. Turing machines zijn namelijk tamelijk irrelevant in de studie van het menselijke cognitieve gedrag. In de eerste plaats kunnen ze niet in ons eindige heelal bestaan: daarin is geen plaats voor een onbegrensde band. In de tweede plaats zijn mensen geen Turing machines, zelfs als het heelal oneindig was. Ze zijn op zijn hoogst een beperkt soort eindige automaten. Mensen zijn immers sterfelijk. En het is te bewijzen dat ieder in de tijd begrensd input-output gedrag kan worden gesimuleerd door eindige automaten zonder lussen in hun toestandsdiagram. Dergelijke automaten zijn niets anders dan een soort tabellen die alle outputs gegeven de inputs bevatten. Iedere eindige levensloop kan in zo'n tabel samengevat worden.48
Kortom, de tegenstelling tussen een zogenaamde Turing machine en netwerk metafoor voor het denken is illusoir. Ze getuigt gewoonweg van onbegrip. Met deze simpele constatering kunnen we een groot deel van de zogenaamde filosofische weerleggingen en verdedigingen van de netwerk-benadering naar de prullemand verwijzen.
Het Turing machine functionalisme hebben we hierboven al genoemd: het is de opvatting dat mentale toestanden dezelfde status hebben als de functionele toestanden van Turing machines. De implicaties van het zojuist vertelde verhaal voor deze opvatting zullen duidelijk zijn: de functionele toestanden waar het in deze theorie om gaat, zijn immers de toestanden van de eindige automaat in het koppel papierstrook-automaat waaruit de Turing machine bestaat. Anders gezegd: het zijn de toestanden van het neurale netwerk in dit duo. Turing machine functionalisme geldt dus onverkort voor neurale netwerken; ja, het is eigenlijk altijd al neuraal-netwerk functionalisme geweest!
Zal het connectionisme een radicale omwenteling teweeg brengen in de `philosophy of mind'? Zal het het centrale probleem van deze tak van de filosofie, het aloude geest-lichaam probleem, eindelijk tot een oplossing brengen? Sommigen menen van wel. Zo stelde Smolensky:
It is likely that connectionist models will offer the most significant progress of the past several millenia on the mind-body problem.49
Met Lockwood ben ik echter van mening dat dit een veel te optimistische voorstelling van zaken is.50 Ik voorzie geen enkele vordering op het gebied van het geest-lichaam probleem als gevolg van het connectionisme. We weten al honderd jaar hoe de hersenen ongeveer in elkaar zitten, en hoe ze in de allergrofste trekken verantwoordelijk zijn voor psychologische verschijnselen. Het is geen toeval dat de connectionistische boeken lijken op de psychologische handboeken uit de vorige eeuw en soms zelfs dezelfde afbeeldingen bevatten; de algemene zienswijze heeft geen dramatische veranderingen ondergaan.
Wat er hooguit zal gebeuren, is dat oude opvattingen in een connectionistisch jasje zullen worden gestoken. Jeff Foss heeft daar al een voorbeeld van gegeven.51 Hij laat zien hoe het connectionisme ingepast kan worden in een materialistische theorie van de geest zoals die vanaf de jaren vijftig herhaaldelijk is verdedigd.
Deze verdediging liep grofweg als volgt.52 In de eerste plaats betoogden de voor deze theorie verantwoordelijke filosofen dat overtuigingen, gewaarwordingen en andere mentale toestanden in de omgangstaal worden gebruikt als toestanden die een bepaalde causale rol spelen in het reilen en zeilen van een organisme. Het zijn toestanden die zekere causale antecedenten en gevolgen hebben. Mijn overtuiging dat het regent is bijvoorbeeld veroorzaakt door het nat worden van mijn huid, het horen van regendruppels, of het beluisteren van de mededeling dat het regent. Dit zijn de typische causale antecedenten van de overtuiging. De overtuiging heeft op haar beurt ook weer verscheidene typerende causale gevolgen: als ik naar buiten ga zal ik bijvoorbeeld een regenjas aantrekken of een paraplu opzetten, ik zal de ramen dichtdoen, of ik zal `ja' antwoorden als men mij vraagt of het regent. Zo is de overtuiging een toestand die een causaal verschil maakt; ik zou mij anders gedragen als ik haar niet had. Hiermee is een typologie van mentale toestanden gegeven.
In de tweede plaats nu stelden de verdedigers van de identiteitstheorie dat de wetenschap ons heeft geleerd dat de toestanden van ons zenuwstelsel in feite die causale rol spelen; zij bezetten de beoogde plaats in het functioneren van het organisme. Het principe van wetenschappelijke zuinigheid (Occams scheermes) gebiedt ons dan vervolgens om aan te nemen dat mentale toestanden en hersentoestanden geen verschillende fenomenen zijn die precies dezelfde posities bezetten in de natuur; nee, zij zijn identiek.
Deze materialistische theorie is door vele filosofen aanvaard. De netwerk-theorieën stellen ons in staat om in meer detail aan te geven met welke hersentoestanden mentale toestanden identiek zijn. In netwerk-theorieën worden hersentoestanden gezien als vectoren in een ruimte met een zeer groot aantal dimensies (één voor iedere zenuwcel; de projectie van de vector op de coördinaat behorende bij een zenuwcel geeft de activatie van de cel weer). De conclusie is dan ook: mentale toestanden zijn vectoren. Het bewustzijn is een vector, en de stroom van ons bewustzijn correspondeert met het draaien, trillen, langer en korter worden van die vector in de vectorruimte. (Door de tijd heen gezien is de bewustzijnsstroom een worm in de vectorruimte.)
Dit klinkt allemaal misschien interessant, maar een wezenlijke toevoeging aan wat we al wisten is het niet; een oud idee wordt hier alleen maar in een nieuwe omhulling verpakt.
Is er meer van het connectionisme voor de filosofie te verwachten? Wat het geest-lichaam probleem betreft twijfel ik daar aan; dit vraagstuk staat toch te ver van de empirische feiten af, hoe die ook precies mogen luiden. Hier is in de eerste plaats conceptuele verheldering geboden.
Maar de `philosophy of mind' bestaat uit meer dan alleen het geest-lichaam probleem. Er is immers van oudsher ook veel gedebatteerd over fenomenen als `emergentie'. Hoe kan het dat sommen van delen soms eigenschappen lijken te vertonen die geen van de delen heeft? In het connectionisme is het ontstaan van quasi-regelgeleid gedrag uit de interacties van eenvoudige elementen die zelf aan die regels gehoorzamen een voorbeeld van het soort emergentie dat de deelnemers aan de discussie voor ogen stond. Het is voorstelbaar dat het connectionisme hier stof te bieden zal hebben voor de filosofie; nu hebben we immers voor het eerst de beschikking over situaties waarin we alle feiten precies kennen.
Is een denkende connectionistische computer vanuit een filosofisch oogpunt gezien mogelijk? Hierover heeft onlangs een kort debat gewoed in Scientific American.53 Het echtpaar Churchland beweerde daarin dat connectionistische modellen immuun zijn voor het zogeheten Chinese-kamer argument van Searle. Dit is een gedachtenexperiment dat aantoont dat een simulatie van het denken zelf nog geen denken is. Zoals een computersimulatie van een auto niet kan rijden en je een computermodel van water niet kunt drinken, zo is een perfecte computersimulatie van het menselijk denken niet automatisch behept met een bewustzijn. De aanhangers van `sterke AI' hebben daarom ongelijk. Zij denken dat je een computer met bewustzijn kunt maken door programma's te maken die de menselijke vaardigheden steeds beter simuleren. Maar zo is het niet: het blijven maar imitaties.
De Churchlands meenden dat Searle's betoog niet opgaat voor connectionistische modellen. We hoeven niet op hun redenering in te gaan, want het is al bij voorbaat duidelijk dat ze op een denkfout of een misverstand moet zijn gebaseerd. Je kunt je heel gemakkelijk een connectionistische Chinese kamer voorstellen. Een connectionistische computersimulatie van cognitieve activiteit is natuurlijk ook maar een simulatie; hoe die simulatie precies in elkaar zit is niet relevant.54
Dit impliceert echter niet de denkende neurale computer onmogelijk is. Zoals we een nabootsing van een auto kunnen maken die echt rijdt en een chemische substantie kunnen maken die we echt kunnen drinken, zo kunnen we misschien ook een kunstmatig stel hersenen maken dat echt denkt. Die hersenen zullen uit meer dan software-matige netware moeten bestaan; net zoals de auto en het water ze zullen in hardware of wetware moeten zijn gerealiseerd, en bovendien zullen in fysisch contact met hun omgeving moeten staan. (Ze zullen bijvoorbeeld in een robot met zintuigen en een bewegingsapparaat moeten zijn ingebouwd.) Maar als aan de laatste voorwaarden is voldaan, dan is er weinig reden meer om aan te nemen dat er geen sprake kan zijn van echt bewustzijn.55
De filosofie bestaat (gelukkig) niet alleen uit de `philosophy of mind'. Ik zal hier tot slot nog in het kort aangeven op welke andere terreinen de netwerk-benadering van belang kan zijn.
Ten eerste is daar de logica. Zoals we al hebben gezien, lossen netwerken soms problemen op waarmee de logica heden ten dage nog danig worstelt.
Netwerken kunnen omgaan met tegenstrijdige, incomplete en vage gegevens; in de klassieke logica is dit niet goed mogelijk. Ook vertonen netwerken vormen van niet-monotonie: een vergroting van het aantal premissen leidt niet automatisch tot meer conclusies, zoals in de klassieke logica wel het geval is. (In de netwerken kunnen eerder wel getrokken conclusies later door andere elementen `weggestemd' worden.) Om tot redelijke, min of meer zoals mensen redenerende expert-systemen te komen, gebruikt men tegenwoordig de formele, analytische aanpak. Men is druk doende om `niet-klassieke' alternatieven voor de klassieke logica aan te dragen. Deze systemen zien er echter altijd erg star, onnatuurlijk, onelegant en gekunsteld uit. Bovendien zijn er al heel veel voorstellen. Hoe zou je moeten kiezen? Het connectionisme suggereert hier een andere aanpak, net zoals het dat in de kunstmatige intelligentie onderzoek in het algemeen doet. Waarom zouden we niet instrueren in plaats van programmeren? Waarom zouden we geen modellen maken die de gewenste redeneerpatronen uit zichzelf leren, aan de hand van voorbeelden, in plaats van te trachten om deze redeneerpatronen in formele termen te analyseren? Zou dat niet genoeg zijn? Hier ligt zeker stof voor overdenking in de filosofie van de logica.56
Verder lijkt het connectionisme een nieuwe inspiratiebron te kunnen zijn voor de epistemologie en voor de wetenschapsfilosofie. Netwerken zijn in staat tot kennisverwerving, tot het classificeren van patronen in categorieën en vertonen zoiets als het vermogen tot inductieve generaliseringen. Dit zijn stuk voor stuk onderwerpen die de kennis- en wetenschapsleer altijd hebben geboeid. Het kan geen kwaad eens te kijken naar concrete modellen die deze onderwerpen illustreren. Ook de kwestie in hoeverre de psychologie een autonome wetenschap mag of zelfs dient te zijn ligt op het terrein van de wetenschapsfilosofie.
Tenslotte is er de ethiek. Van tegenwoordige expertsystemen wordt altijd verwacht dat zij hun beslissingen kunnen motiveren: zij moeten rekenschap kunnen afleggen van de redenen die hen tot hun conclusies dreven. Connectionistische expert-systemen kunnen dat niet zomaar doen, omdat dergelijke redenen op zichzelf geen causale rol spelen in hun functioneren. Zij moeten hun motieven gaan reconstrueren. Zijn zulke expertsystemen wel gewenst, ook als zij het beter doen dan traditionele, redenerende expertsystemen? Of telt alleen het resultaat, en moeten we van computers evenmin als van mensen verwachten dat zij hun daden kunnen verantwoorden? Hier ligt weer een nieuw terrein braak voor de tegenwoordig sterk in opkomst zijnde `computer-ethics'.
Dit zijn zomaar enige overwegingen, die ik de lezer graag ter verdere overdenking meegeef. Ik hoop in ieder geval te hebben aangetoond dat het connectionisme de aandacht van filosofen waard is. De filosofische besprekingen die er tot nu van zijn gegeven stellen misschien nog niet zo veel voor, maar in deze situatie kan nog heel goed verandering komen.
gjclokhorst@gmail.com || July 17, 2015 || HTML 4.01 Strict