Onder de motorkap

Serie: Zin en onzin van numerieke analyse in de archeologie

Deel 3b

Wat gebeurt er nu in grote lijnen met de berekeningen om de beste ordening in de set gegevens te krijgen? We duiken even onder de motorkap van ons vehikel: factor analyse.

Allereerst kijken we naar onze set gegevens. We hebben die in een tabel staan, met als rijen de objecten (in het voorbeeld van de blokjes staat per rij de identificatie van het blokje gevolgd door de getallen van de zeven eigenschappen) We krijgen dus een tabel met een aantal rijen en kolommen.

De rekenaars onder ons herkennen dit onmiddellijk als een matrix.

Daar gaat mee gerekend worden, en dus zitten we in de afdeling ‘matrix-rekenen’. …

Nu heeft zo’n matrix ook een aantal eigenschappen. Met betrekking tot ons ordeningsprobleem en onze methode ‘factor analyse’ is er één eigenschap die van bijzonder belang is, ja die karakteristiek is voor de set gegevens – de matrix, en dat is de zogenaamde ‘Eigenwaarde‘.

Je kunt de matrix rekenkundig zodanig manipuleren dat je daarmee de beste ‘hoek’ kan vinden om een scheiding tussen al die (meerdimensionale) gegevens te vinden, zodat je daarmee een ordening kan aanbrengen. In dat verband speelt de ‘eigenwaarde’ een rol. Waarom ik dit zeg?

Wel, eigenwaarden en de daarbij behorende ‘eigenvectoren’ spelen een rol in de begripsvorming rond het idee ‘hoe vinden we de beste invalshoek…

Handig als je verder rondsnuffelt in de beschrijvingen op het gebied van factoranalyse. Het helpt als je al vast een beetje van sommige begrippen op de hoogte bent.

Waar het eigenlijk over gaat is dat je met je nieuwe positie – kijk op de zaak – in feite een nieuw er bij behorend stel richtingen (‘assenstelsel’) hanteert om naar de gegevens (laten we zeggen ‘de blokjes’ of wat aanschouwelijker ‘de paaltjes’ te kijken.

We kijken dus met een frisse hernieuwde blik naar onze gegevens, langs nieuwe zicht-assen. Dat zijn de ‘factoren’ die de belangrijkste informatie bevatten omtrent de verschillen tussen de objecten. Zo’n factor is dus op te vatten als een (specifieke) combinatie van de originele eigenschappen.

Oei, dat is ingewikkeld. In het geval van de blokjes is er nu dus een nieuwe set factoren, waarvan er zelfs een paar zijn die de verschillen tussen de blokjes maximaal verklaren. Als je dat in getallen uitdrukt en in een grafiek laat zien, ziet het er als volgt uit:

Er blijken in dit ‘blokjes’-geval twee factoren te zijn die samen de verschillen al voor meer dan 95% verklaren: Factor 1 en factor 2.

En we kunnen ook zien uit de uitslag van onze rekenarij, dat bijvoorbeeld Factor 1 in feite een samenraapsel is van de originele eigenschappen X1 t.m. X7 van de blokjes.

Als je het echt wilt weten dus:

Met die wetenschap kunnen we ook naar de blokjes zelf kijken! Hoe ziet dat er dan uit? We herberekenen de Eigenschappen X1 – X7, en ‘toveren ze om’ naar Factor 1 – Factor 7. Het resultaat is dan als volgt;

Wat je nu kunt doen is de volgorde van de tabel veranderen, door bijvoorbeeld te sorteren volgens de kolom Factor 2 en daarna Factor 1, laten we zeggen van hoog naar laag..

Hiermee rangschik je de set blokjes. Daar krijg je orde mee in de zaak!👍

Je kunt nu bijvoorbeeld een grafiek maken met langs de X-as Factor 1, en langs de Y-as Factor 2.

…en kijk eens aan: zo komen we bij ons gewenste resultaat.

In bovenstaande grafiek zijn de factor scores geplot, met op de X-as Factor 1, en op de Y-as Factor 2.

Wat in de getoonde grafiek opvalt is een gestippeld assenkruis. Dat assenkruis is geroteerd ten opzicht van het XY-assenkruis. Het is namelijk zodanig geroteerd dat er ten opzichte van dit gestippelde assenkruis de verschillen tussen de blokjes maximaal zijn, dus in feite nóg een beter standpunt dan de er aan ten grondslag liggende factoranalyse.

🤔 Hoe kan dat nou? De hele exercitie was toch bedoeld om de optimale gezichtshoek te bepalen? Jazeker! Maar dan heb je alle zeven factoren nodig, en die kan je niet in een enkel diagram laten zien. We hebben zojuist gezien dat de eerste twee factoren voor het grootste gedeelte de verschillen tussen de blokjes verklaren. Dus logisch om die in de grafiek te zetten. Gewoon een XY-grafiek. Maar dan moeten we wel onthouden dat de overige vijf factoren er niet inzitten. Dat ‘verlies’ kan worden gecompenseerd door opnieuw een kleine draaiing van ons standpunt te realiseren zodat we daarmee toch een optimale scheiding/rangschikking kunnen realiseren. Zie het als een correctie op het niet tonen van de overige factoren. …

Tot slot: de hele truc is bedoeld om een oplossing te vinden voor het grote aantal dimensies die ons gewone voorstellingsvermogen te boven gaan. Daarom brengen we het probleem terug tot twee nieuwe assen (Factoren) want die kunnen we gemakkelijk in een grafiek zetten en interpreteren. Zie het dus als een vorm van data-reductie. …

Enfin, je kunt hier weer terug naar de uiteenzetting over de list; welke rekenprogramma’s kan ik nu gebruiken? …