EDA - ETT KRAFTFULLT GEOLOGISK VERKTYG

Av Göran Kjellström

EDA - akronym för eller förkortning av begreppet Exploratory Data Analysis - är ett litet annorlunda verktyg än de geologiska redskap vi i allmänhet brukar använda oss av såsom hammare, spade och mikroskop. Explorativ dataanalys är ett värdefullt instrument för identifiering av systematiska mönster och relationer mellan olika slags variabler, och utvecklades på allvar under 1960-talet av en amerikansk statistiker vid namn John Tukey. Under 1970-talet publicerade Tukey i läroboksform sina erfarenheter av EDA (Tukey, J. W. 1977: Exploratory Data Analysis.- Addison-Wesley), och under senare år har hans arbete utvecklats i hög grad till följd av datorteknikens expansion, som medgivit möjligheter att hantera och visualisera stora datamängder.

Vi skall i det följande presentera ett område inom ämnet historisk geologi lämpat just för explorativ dataanalys. Låt oss ta ett exempel från naturresursområdet och då välja den nisch inom berggrundsgeologin som handlar om prospektering av krossberg.

Som kanske är allmänt bekant avses med krossberg sådant grus- och stenmaterial som kan användas till betong-, järnvägs- och vägbyggen. För att skona våra grusåsar, som ju är känsliga icke förnyelsebara naturresurser, har under senare år intresset fokuserats på ett utnyttjande av berggrunden såsom leverantör till krossmaterial. Eftersom bergarternas tekniska egenskaper varierar högst väsentligt, t ex hårdhet, sprödhet, sprickighet, deformationsgrad, vittringsbenägenhet, ställs stora kvalitetskrav på det material som skall komma till användning. Bär- och slitlager i vägar kräver sitt speciella material, järnvägars banvallar fordrar sitt. Behovet av meningsfulla bergtekniska analysmetoder liksom kvalitetsklassning av berg är med andra ord synnerligen stort.

Prospekterande bergtäktsinnehavare har goda möjligheter erhålla hjälp med bergteknisk laboratorieanalys. Denna inskränker sig som regel till att endast redovisa mätvärden för varje inlämnat prov, varför det ej alltid är lätt att bedöma huruvida de provtagna stuffernas bergtekniska mätvärden kan sägas vara representativa för hela täkten eller ej. Följande fiktiva fall önskar illustrera EDA-teknikens möjligheter att vara en täktinnehavare behjälplig vid sådan bedömning.

Antag att tjugo bergartsstuffer provtagits från ett mycket begränsat område inom en bergtäkt, bestående av en till synes homogen, ensartat utbildad bergart. Stufferna skall nu bli föremål för s k kulkvarn-analys, en analysmetod som mäter en viss bergteknisk egenskap. Vi skall för våra syften ej närmare gå in på själva metodiken för kulkvarn-analysen utan nöjer oss här endast med att nämna att varje bergartsstuff i en kulkvarnanalys tilldelas ett värde på sin bergtekniska egenskap. Tre kvalitetsklasser har definerats, (1) hög kvalitet, (2) medelgod kvalitet samt (3) dålig kvalitet. Stuffer som har ett kulkvarnvärde mindre än 9 tillhör klass 1, stuffer med värde 10 - 18 tillhör klass 2 och stuffer med värden större än 18 tillhör klass 3. Låt oss i vårt exempel anta att de tjugo bergartsstufferna erhållit följande kulkvarnvärden:11, 16, 7, 15, 8, 24, 8, 12, 13, 11, 10, 19, 17, 21, 10, 11, 16, 7, 12, 13.

Vi kan här se att fyra stuffer erhållit siffervärden under 9 (klass 1), tretton stuffer värden mellan 9 och 18 (klass 2) samt tre stuffer värden över 18 (klass 3). De aktuella tjugo proverna ger ett medelvärde på 13,05. Detta värde säger emellertid ingenting om hela det provtagna områdets medelvärde utan redovisar naturligtvis endast just de tjugo provens medelvärde. Med kännedom om det lägsta respektive högsta kulkvarnvärdet (i vårt fall 7 respektive 24) samt den s k standarddeviationen (ett mått på hur kulkvarnvärdena ligger spridda från de tjugo provens medelvärde), kan man beräkna det uppskattade medelvärdet av kvaliteten för hela det undersökta provområdet. Begreppet konfidensintervall -95% och +95% betyder att vi med 95% säkerhet kan säga att den totala bergtänktens uppskattade kulkvarn-medelvärde ligger mellan 10,8 och 15,23.

Medelvärde: 13,05
Standarddev: 4,66
Konfid -95%: 10,87
Konfid +95%: 15,23
Lägsta värde: 7
Högsta värde: 24

Bergtäktinnehavaren kan alltså nu på basis av sina tjugo provtagna bergartsstuffer få en preliminär uppfattning om bergkvaliteten inom det aktuella begränsade området.. Hade han nöjt sig med att undersöka endast ett par prover hade han löpt stor risk erhålla en icke-representativ bild av täktens kvalitet. I det nu redovisade fallet (som i verkligheten givetvis måste bestå av fler provtagningspunkter) kan han visserligen ej stoltsera med att erbjuda krossberg tillhörande högsta kvalitetsklassen, men ej heller rör det sig om krossberg av sämsta klassen.

Det är angeläget att kunna visa hur krossmaterialet i bergtäkten ifråga fördelar sig i förhållande till medelvärdet, dvs hur de olika kulkvarnvärdena är distribuerade i förhållande till medelvärdet. I följande figur finner vi sålunda att fördelningen av värdena ej är symmetriskt ordnade på var sin sida om medelvärdet utan grafen redovisar en skev distributionskurva, dvs huvuddelen av materialet - tacksamt nog för bergtäktinnehavaren - ligger snarare under än över medelvärdet.

Fig 1.

Ytterligare ett sätt att belysa ovan resonemang är att visualisera data i en s k Box & Whisker Plot:

Fig 2.

Box & Whisker Plot-tekniken illustrerar den aktuella fördelningen av kulkvarnvärdena. Den undre respektive den övre horisontella korta linjen markerar lägsta respektive högsta kulkvarnvärde, medelvärdet är markerat som en liten kvadrat, vars omgivande rektangel representerar det kulkvarnvärdeområde som 50% av bergtäktens material tillhör.

Låt oss nu vidga vårt intresse för bergtäkten ifråga och betrakta dess datamaterial i ett två- och ett tredimensionellt perspektiv. Med hjälp av en analysteknik inom EDA kallad terrängmodellering kan vi skapa två- och tredimensionella bilder av kulkvarnvärdena, dvs vi kan i kartografisk form se var i bergtäkten höga respektive låga kulkvarnvärden förekommer. För en sådan applikation skall vi utöka vårt tidigare dataförråd om 20 analyserade kulkvarnvärden till att omfatta även tillhörande geografisk longitud och latitud för respektive analyserat prov.

Fig 3.

Figur 3 ovan visar sålunda en två-dimensionell kartbild med kulkvarn-isolinjer, dvs linjer som sammanbinder provpunkter med samma kulkvarnvärden. I vårt fall är antalet provpunkter egentligen alldeles för litet för en trogen interpolation: ju fler provpunkter desto säkrare interpolation. Men som ett demonstrationsexempel för vårt fiktiva fall kan vi acceptera ett glest provtagningsnät. Av kartan framgår var i bergtäkten låga respektive höga kulkvarnvärden föreligger. Önskar vi på ett kanske litet mer visuellt sätt illustrera var i bergtäkten höga respektive låga kulkvarnvärden finns, kan vi modellera en tre-dimensionell karta enligt nedan figur 4.

Fig. 4

Kartans höjdpartier illustrerar här områden med höga kulkvarnvärden under det att flacka partier och sänkor betyder låga kulkvarnvärden.

De exempel som kortfattat behandlats i denna artikel torde rätt väl illustrera EDA-teknikens kraftfullhet. För den intresserade läsaren finns en rikhaltig dokumentation att finna på Internet. Läsaren inbjuds sålunda att försöka botanisera själv ute på nätet, och som en lämplig startpunkt pröva om sådana sökord som Explorative Data Analysis, Statistical Data Analysis, Data Mining, Data Exploration, Geographical Information Systems (GIS) kanske kan visa sig fruktgivande.

© 1999 Göran Kjellström



©2001- GeoNord