De list: Factoranalyse, Tabel, Numeriek, Tsjeempie…

Serie: Zin en onzin van numerieke analyse in de archeologie

Deel 3

Als we ons niet meer goed kunnen voorstellen hoe we in een berg gegevens de juiste positie in kunnen nemen om de zaak te kunnen ordenen, moeten we echt een list verzinnen. …

Gelukkig zijn we niet de eerste of de enige met dit soort probleem. Knappe koppen hebben een rekenarijtje bedacht om dit probleem op te lossen.

Wij kunnen dus dankbaar gebruik maken van die numerieke trukendoos! En daar gaat het dus om: het lijkt er op dat we het goede zoekwoord in Google moeten stoppen, om die rekenmethode te vinden.

We kunnen bedenken dat we een probleem hebben omdat we meervoudige dimensies in onze set gegevens hebben. In het geval van de blokjes hebben we zeven dimensies (eigenschappen / kolommen in de tabel). Iets met ‘multidimensionaal‘ en ‘analyse‘ dan maar?

En jawel hoor! Er blijkt weer een waterval aan informatie te vinden te zijn. We zitten dus in de goede hoek… Nu verder.

Wat we nodig blijken te hebben is: multivariate statistiek, en wel in het bijzonder: factor analyse. Welke (combinatie van) factoren spelen de grootste rol om een goede ordening te kunnen aanbrengen?

Tsjeempie! Dat klinkt ingewikkeld…

Nou, dat hangt er ook een beetje van af hoe ingewikkeld je het voor jezelf wilt maken. Als je auto wilt rijden hoef je tenslotte ook niet te snappen wat er allemaal onder de motorkap gebeurt.

Als we dus het juiste rekenprogramma hebben die de tabel met gegevens als invoer heeft, kunnen we aan de slag!

(👉Wat er onder de motorkap gebeurt? Een kleine simpele inleiding vindt je hier.🚗)

OK! Goed, waar vind ik zo’n rekenprogramma? Nou, er zijn er heel veel, maar een gratis programma is PAST. Onder het menu-item ‘Multivariate’ zijn onder het item ‘Ordination’ een aantal rekenmethoden voorhanden, met als eerste ‘Principal Component Analysis’ (PCA). Daar kunnen we flink mee vooruit!

NB! PAST kan een standaard MS Excel file inlezen, dus dat is handig!

Wat kunnen we er mee? Wel, in feite kijken we niet langer naar de eigenschappen (in het blokken-voorbeeld X1 – X7), maar naar nieuwe ‘Factoren’ die de beste mogelijkheid geven om de set gegevens te ordenen.

In het blokken-voorbeeld blijkt dat twee factoren voor meer dan 95% de onderlinge verschillen tussen de blokjes verklaren. Dat is handig! Orden de herberekende nieuwe tabel met ‘Factoren’ 1 – 7 (die in de plaats komen van de originele eigenschappen X1 – 7), door de tabel volgorde te sorteren van bijvoorbeeld hoog naar laag volgens Factor 2 en Factor 1.

We kunnen nu de blokjes plotten in een grafiek, met langs de X-as Factor 1, en langs de Y-as Factor 2, en zie hier het resultaat:

Dat ziet er indrukwekkend uit, het lijkt wel goochelen…😂 Maar goed, in feite komt het er op neer dat als we een rommelige set gegevens hebben, we er een prachtige ordening in kunnen aanbrengen door op een paar knoppen te drukken. Dàt is pas indrukwekkend!

Leuk allemaal, maar wat heeft dat met archeologie te maken?

👉 Dat komt in de volgende aflevering aan de orde …

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *