Med matematisk kromatografi kan man løse kromatografiske problemer forårsaget af brug af uegnet kolonne, uhensigtsmæssig instrumentindstilling eller formindsket analysetid.
Artiklen har været bragt i Dansk Kemi nr. 9, 2009 og kan læses uden illustrationer, strukturer og ligninger herunder. Se relaterede artikler nederst på siden.
Af adjunkt Thomas Skov, professor Rasmus Bro og cand.scient. Birger Pedersen, Institut for Fødevarevidenskab, KU
Gaskromatografi er en vigtig teknik til at fastlægge indholdet og fordelingen af flygtige forbindelser i fødevarer. Derved kan smags- og lugtkarakteristika dokumenteres. Ved vellykket brug af gaskromatografi kan man således isolere de enkelte aromastoffer og analysere dem kemisk, dvs. kvantificere og identificere dem. Men ofte går det ikke så let: bestanddelene lader sig ikke adskille og man ser overlappende toppe, der indeholder signaler fra to eller flere aromastoffer. I sådanne tilfælde må man tage til takke med upræcise kvantificeringer samt en usikker identifikation. Dette er illustreret i figur 1.
Et afsluttet ph.d.-projekt [1] udført af Thomas Skov (Kvalitet og Teknologi, Institut for Fødevarevidenskab (IFV), Københavns Universitet – KU-LIFE) har sat fokus på dette problem. I projektet anvendes nyere matematiske metoder til at adskille de kemiske bestanddele. Dette kaldes også matematisk kromatografi, da man matematisk adskiller toppene; toppe som ikke kunne adskilles ved den fysisk/kemiske kromatografi.
Datastruktur/arrangement
Når man snakker kromatografi, må man også snakke datadimensioner. Det afhænger naturligvis af, hvor mange kromatografiske separationer og hvilken detektortype, der anvendes. Disse kan kombineres på mange måder med moderne teknologi.
Den mest anvendte teknologi er at kombinere en enkelt kromatografisk separation (f.eks. GC) og en detektor, der giver et fingerprint af, hvad der eluerer fra kolonnen (f.eks. MS) – figur 1. Det giver automatisk data i tre dimensioner (prøvenummer, elueringstid og massefragment).
Når data er arrangeret i tre dimensioner, kan man ikke som normalt bruge de klassiske statistiske metoder, beregnet til data i tabelform (f.eks. i et Excel-ark).
Det kan der dog gøres noget ved. Det man oftest gør er at tage summen af en af dimensionerne – oftest MS-dimensionen. Herved fås Total Ion Kromatogrammet (TIC) – figur 1. Tricket virker, når toppene er fuldt adskilte (f.eks. den røde og sorte top i figur 1), men man mister informationen fra massespektret. Dermed besværliggøres muligheden for at identificere selv velseparerede toppe, og den efterfølgende kvantificering bliver fejlbehæftet.
Her bruges GC-MS som eksempel på matematisk kromatografi. Andre flerdimensionale teknologier kan med fordel anvende de samme principper (f.eks. LC-UV, fluorescens).
Matematisk kromatografi ”uden formler”
De metoder, der ofte anvendes til matematisk kromatografi, kaldes for faktormodeller. I faktormodeller udtrækkes en eller flere faktorer fra data ved hjælp af matematik; faktorer der beskriver de vigtige dele i data (ideelt set lig med kemi). Den store forskel på faktormodeller er, hvordan faktorerne findes, og hvad de egentlig beskriver.
Traditionel metode
Den simpleste faktormodel der anvendes til kromatografiske data (f.eks. på TIC-signalet) er Principal Component Analysis (PCA) (figur 2A).
PCA er en faktormodel, der finder og udtrækker mønstre fra data; et mønster pr. faktor. Dvs. PCA beskriver og udtrækker bestemte variationer i data. Disse variationer findes blandt samspillet mellem de indgående variable. I figur 2A ses det, at mønstret er samspillet mellem de variable, der udgør den kromatografiske top. Systemet er meget simpelt (en top, ingen støj eller andre afvigelser på signalet), og den kromatografiske top beskrives med en enkelt faktor indeholdende mønstret (loading) og et tal, der beskriver, hvor meget der er af dette mønster i de enkelte prøver (scoreværdier).
PCA er ikke velegnet til data, når der er flere toppe inden for det område, der analyseres (figur 3). Det skyldes, at PCA udtrækker faktorerne efter princippet om mest varians. Den første faktor er det mønster, der beskriver mest varians (i figur 2A kan en faktor beskrive 100% af variansen), den næste faktor indeholder mønstret, der beskriver næstmest varians, men en varians, der ikke allerede er forklaret i den første faktor osv. Det betyder, at PCA ikke beskriver kemien i data, men blot de mønstre der beskriver mest varians (figur 3A).
Når der er overlappende toppe, så er de individuelle mønstre ikke entydige. Det betyder, at det overordnede mønster bliver en blanding af de to toppe (figur 3A). Et andet minus ved PCA er, at massespektret ikke bruges aktivt i modellen (da massespektret er summeret væk).
Avanceret metode
For at kunne bruge massespektrene aktivt i modellen er det nødvendigt at anvende mere avancerede metoder. Metoder, der trods den komplicerede bagvedliggende matematik, giver samme letforståelige og fortolkelige modelparametre som en PCA-model. Samtidig er massespektrene inddraget i modellen. De bliver nu også anvendt og beskrevet.
Den ekstra dimension i data håndteres vha. metoden PARAllel FACtor analysis (PARAFAC). Det er en videreudvikling af PCA til data i flere end to dimensioner (her i tre dimensioner som vist i figur 2 og 3). PARAFAC benytter også andre matematiske principper i udtrækningen af de enkelte faktorer. Det betyder, at modellen fokuserer mere på den enkelte tops kemi (elueringsprofil og massespektrum), end på hvad det overordnede mønster i data er. PARAFAC kan simpelt illustreres som vist i figur 2B for en enkelt top og for to overlappende toppe i figur 3B.
På figur 3B ses det, at PARAFAC udtrækker kemi; en beskrivende elueringsprofil samt et massespektrum for hver af de to kemiske komponenter samt en relativ mængdeangivelse i scores. Da hver kemisk komponent nu er beskrevet i en individuel faktor, er resultatet en forbedret form for kromatografi: de to komponenter er adskilt, men vha. matematik (matematisk kromatografi).
PCA kan ikke beskrive systemet vha. den underliggende kemi. Her opnås en løsning, der i den første faktor beskriver det overordnede mønster (en slags vægtet gennemsnit), mens den anden faktor så naturligt kompenserer for det første ikke specielt gode estimat af de to komponenters indhold i prøverne. Selvom begge modeller beskriver systemet perfekt (al varians er forklaret i to faktorer, da vi ikke har støj eller andet afvigende på signalet), så gør PARAFAC det meget mere bekvemt og brugbart. Ved PARAFAC kan man bruge modelparametrene mere aktivt f.eks. til at sammenligne massespektrene med biblioteker, hvorved de kemiske komponenter måske kan identificeres. Man kan ligeledes bestemme det faktiske indhold af hver enkelt komponent i alle prøverne ud fra relationen mellem scoreværdierne, når man blot kender en enkelt koncentration i en prøve.
Outro
Introduktionen og brugen af de mere avancerede metoder er mere teoretisk krævende for brugeren, især hvis man skal helt ud i hjørnerne af den bagvedliggende matematik.
For den gængse bruger er dette dog langt fra en nødvendighed. Som demonstreret i ph.d.-projektet [1], kan man relativt simpelt forklare principperne bag metoderne og endnu vigtigere visualisere den kemi (her kromatografiske toppe), der findes i data.
Herved er banen kridtet op, så andre forskningsområder end blot det kemometriske kan begynde at anvende disse metoder i dagligdagen og derved opnå en endnu bedre beskrivelse af egne data.
Reference
1. Skov, T. (2008). Mathematical Resolution of Complex Chromatographic Measurements. Ph.d. afhandling, Kvalitet & Teknologi, Institut for Fødevarevidenskab, Det Biovidenskabelige Fakultet for Fødevarer, Veterinærmedicin og Naturressourcer, Københavns Universitet.
Figur 1. Illustration af den kromatografiske proces hvor to toppe (blå og gul top) ikke er resolveret i tilstrækkelig grad. Til venstre er simplificeret vist, hvordan ostens aromastoffer adskilles på kolonnen, mens det nederst er vist, hvordan detektorsignalet (her vist som Total Ion Kromatogrammet) ser ud for sådan en adskillelse.
Figur 2. (A) Illustration af PCA-modellen anvendt for en enkelt kromatografisk top. PCA kan kun håndtere data i tabelform, og derfor anvendes TIC-signalet ofte. Toppen kan nu beskrives ved en fælles loading; p (elueringsprofil) og med individuelle scores; t. Scores bliver derved et estimat for den relative koncentration af denne top i hver prøve. (B) PARAFAC- model for samme top, men med tilhørende massespektrum så der kan udtrækkes endnu en fælles loading: massespektret.
Figur 3. Samme system som i figur 2, men med en tilføjet overlappende top i alle fire prøver; dvs. nu består systemet af to kemiske komponenter. (A) PCA-model; scoreværdien er her angivet som indicerede t’er; t11 (prøve 1, faktor 1) og (B) PARAFAC-model. For PCA- og PARAFAC-modellen gælder for hver prøve, at summen af produktet af scoreværdien, elueringsprofilen (og massespektret) for hver faktor resulterer i en perfekt gengivelse af de oprindelige data.