Der er en lang og solid tradition for at lave kalibreringsmodeller i analytisk kemi ved hjælp af univariat lineær regression. Denne klumme forklarer hvilke problemer, der kan være ved at anvende sådanne kalibreringsmodeller – og præsenterer et multivariat alternativ kaldet PCR.
Artiklen har været bragt i Dansk Kemi nr. 5, 2008 og kan læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.
Af Rasmus Bro, Lars Nørgaard & Søren Balling Engelsen, Institut for Fødevarevidenskab, Det Biovidenskabelige Fakultet, Københavns Universitet
En traditionel analytisk-kemisk kalibreringsmodel kunne fremkomme på følgende vis: ti prøver med varierende koncentration af 2-hydroxy-benzaldehyd analyseres ved en absorbansmåling (328 nm), og absorbansen afbildes mod koncentrationen. Ved univariat lineær regression opnås en kalibreringsmodel, der kan benyttes på nye prøver. Ved at måle absorbansen af en ny prøve, kan koncentrationen aflæses eller beregnes ud fra absorbansen.
Ligningen for univariat kalibrering er
hvor b0 er skæring (offset) og b1 er hældning (slope). Indeks angiver den i’te prøve og f er residualet. Ud fra de ti kendte prøver kan b0 og b1 estimeres ved hjælp ad mindste kvadraters metode. Dette kan gøres på næsten enhver lommeregner. Normalt skrives ligningen
Når b0 og b1 er bestemt, kan de direkte anvendes til estimering, ofte kaldet prædiktion i kemometri, af koncentrationen i nye prøver. b0 og b1 kaldes også for regressionskoefficienter.
Fordele og ulemper ved univariat kalibrering
De statistiske forudsætninger for mindste kvadraters metode er særdeles velbeskrevne for univariat kalibrering, hvilket udnyttes til at beregne f.eks. konfidensintervaller for estimater og prædiktionsintervaller for koncentrationen i nye prøver. Dette er en absolut fordel!
En væsentlig ulempe er, at man skal være helt sikker på at nye prøver, som måske er af en mere kompleks beskaffenhed, skal kunne oprenses, så det målte absorbanssignal er selektivt (baseliniesepareret). Det vil sige at ingen andre kemiske stoffer i prøven må bidrage til den målte absorbans. Et andet problem ved univariat kalibrering kan være matrix-effekter, som kan have en indirekte effekt på absorbansen. Dette kan være af stor betydning ved nogle typer af industrielle målinger, hvor fx. ionstyrke, pH og ikke-signalgivende kemiske stoffer kan variere betydeligt.
Af mere fundamental betydning er det imidlertid at uforudsete interferenser ikke kan kompenseres for, når man kun måler absorbansen ved én bølgelængde. Dette er illustreret i figur 1, hvor absorbansen ved 328 nm for prøven med høj absorbans i det høje bølgelængdeområde er fuldt sammenlignelig med de øvrige prøvers absorbans ved 328 nm samtidig med at hele det spektrale mønster afviger. Etablerer man en univariat kalibreringsmodel baseret på bølgelængden ved 328 nm, vil man begå en fejl, da der er en uforudset interferens i prøven som bidrager til absorbansen målt ved 328 nm (figur 2).
Multivariat kalibrering
Univariat kalibrering kan udvides til at anvende mere end blot én bølgelængde. Den direkte udvidelse af den univariate model til en oligovariat model kan skrives
I ovenstående ligning anvender vi absorbansen ved 5 udvalgte bølgelængder fra 250 til 450 nm. Skrevet på matrix-form skal man finde den regressionsvektor b, der minimerer residualet f i mindste kvadraters forstand.
hvor y (antal prøver × 1) er koncentrationen af standardprøverne, X (antal prøver × 5) indeholder spektrene, b (5 × 1) er regressions-koefficienterne, og f (antal prøver × 1) er residualet (fejlen i koncentrationen) som ønskes minimeret ved kalibreringsmodellen. I ligningen indgår b0 ikke, da man modellerer på centrede X og y data (se tidligere klumme om PCA i Dansk Kemi, nr. 2, 2008). Hvis man ikke centrerer, skal b0 inkluderes i ligningen.
Løsningen til ligningen er givet ved
hvor -1 betyder den inverse matrix. Så længe de spektrale X-variable ikke er stærkt korrelerede, og antallet af variable er mindre end eller lig med antallet af prøver, giver ovennævnte løsning mening. Metoden kaldes Multiple Linear Regression (MLR).
Hvis man nu ønsker at inkludere alle målte bølgelængder ud fra den forudsætning, at man ikke a priori ønsker at eliminere variable for sin regressionsmodel, så fås følgende ligning
Her har vi som eksempel målt absorbansen ved 101 bølgelængder fra 250 til 450 nm. Skrevet på matrix-form skal man igen finde den regressionsvektor b, der minimerer residualet f i mindste kvadraters forstand.
hvor y (antal prøver × 1) er koncentrationen af standardprøverne, X (antal prøver × 101) indeholder spektrene, b (101 × 1) er regressions-koefficienterne, og f (antal prøver × 1) er residualet (fejlen i koncentrationen) som ønskes minimeret ved kalibreringsmodellen.
Mindste kvadraters løsning til ligningen indebærer, at man skal finde den inverse til en X matrix med f.eks. dimensionen 10 prøver × 101 spektrale variable. Det vil sige 10 ligninger med 101 ubekendte, og da dette som bekendt ikke kan løses umiddelbart, må man gå alternative veje for at finde en løsning.
PCA som redning
I stedet for at arbejde direkte på X matricen kan man anvende principal komponent analyse (PCA), til at komprimere X matricen ifølge ligningen
hvor X er de centrerede spektre, og indeks a angiver antal principale komponenter, der er beregnet i modellen.
Hvis man nu lader Ta (antal prøver × a), vi har tidligere kaldt dem scores, repræsentere de kvantitative variationer i X, kan man i stedet løse ligningen
hvor b* (a × 1) angiver, at vi arbejder med score-matricen. Denne ligning kan løses med mindste kvadrater, da søjle-vektorerne i Ta er ortogonale og antal søjler er mindre end eller lig med antal prøver (vi har altså igen opnået et fordelagtigt forhold mellem ligninger og ubekendte). Den matematiske løsning til at finde regressionsvektoren ser således ud
Vi ønsker nu at finde en regressions-vektor som kan ganges direkte på et målt absorbans spektrum, og denne kan estimeres som følger
Metoden, der er udledt her, hedder Principal Component Regression (PCR) og er en fundamental regressionsmetode i kemometrien.
Outro
Det var måske en rimelig hård omgang, men nu er banen kridtet op til at anvende PCR på virkelige data, hvilket vi vil gøre i næste klumme.
Den opmærksomme læser vil måske have overvejet om ikke de præsenterede data ser konstruerede ud, og vi må gå til bekendelse og indrømme dette. Meget mod kemometriens væsen er der anvendt simulerede data til at illustrere principperne i denne klumme; dette er således undtagelsen, der bekræfter reglen om, at rigtige kemometrikere analyserer rigtige data.
Figur 1. Absorptionsspektre for fem prøver i det spektrale område 250-450 nm målt med 2 nm’s interval; dvs. i alt 101 spektrale variable er registret. Maksimumsintensiteten er ved 328 nm, som anvendes ved univariat kalibrering. Én prøve har en afvigende form, som kun kan afsløres ved at måle ved flere bølgelængder.
Figur 2. Den afvigende prøve er sammensat af bidrag fra to kemiske komponenter. Den interfererende komponent (blå) bidrager til absorbansen målt ved 328 nm, og dermed opnås et fejlagtigt estimat i den univariate kalibrering.