TELKOM NIKA Indonesia n  Journal of  Electrical En gineering   Vol.12, No.4, April 201 4, pp. 2683 ~ 2 6 8 9   DOI: http://dx.doi.org/10.11591/telkomni ka.v12i4.4060          2683     Re cei v ed Au gust 6, 201 3; Re vised O c to ber 18, 20 13;  Accept ed No vem ber 7, 20 13   Comparision of Several Preprocessing Algorithms  Based on Near Infrared Spectroscopic Measurement of  Glucose in Aqueous Glucose Solutions      Yan Zhang*,  Ya w e n Deng , Jin w e i  Sun,  Chunling Ya ng, Guoliang  Zhang, Dan  Liu  Schoo l of Elect r ical En gin eeri ng an d Auto ma ton, Harbi n  Instit ute of T e chnolog   92, W e st Dazhi  Street, NanGang District, Har b in 1 5 0 001, Ch ina   *Corres p o ndi n g  author, e-ma i l : z y hit@ hit.ed u .cn       A b st r a ct   Glucose  conc entratio n   me a s ure m e n t is t he  basis   of n oni nvasiv e det ection   of blo o g l ucos e   conce n tratio n. It is significant  in scie n ti fic research. In this study, Near Infrared  Sp ectrosc o p y   ( NIRS a nd  regressi on  ana lysis metho d o l ogy w e re co mbin ed to  me as ure the g l uc os e conce n trat io n. T he spectru m  of   gluc ose s o luti o n s w a s obta i n ed w i th the  F o urier T r a n sfor me d Infrare d   Spectro m eter,  and th en t he  data   w a s used for  r egress i on  an al ysis. In ad ditio n , the  meth od  of Partia l L e a s t Squar es  ( PL S wa s u s ed to  achi eve pr inci p l e co mp on ents  and var i o u s spectral  prepr oc essin g  metho d s  w e re discuss ed. Duri ng P L mo de lin g, the  Savit z ky-Go lay  coul d i m pr ove  the  Pre d i c ti on  R e si du al   Erro r Su m  o f   Sq ua res  ( PRESS )  wi th in  6%. T h e  exp e r iment res u lts  de mo nstr ate t hat NIRS  has   t he p o tenti a l f o r the  m eas ur ement of  gl uc ose  soluti on.      Ke y w ords : n e a r-infrare d s p e c trum, p a rtial  l east sq uares,  s pectral  pre p ro cessin g , pre d ic ted resi du al  er ror   sum of sq uare s      Copy right  ©  2014 In stitu t e o f  Ad van ced  En g i n eerin g and  Scien ce. All  rig h t s reser ve d .       1. Introduc tion  Glycuresi s  is one kind of  global  illne sses an d it seri ously ha rm th he althy of human  being s. Seri o u sly dia betic  patients m u st  measur e th eir blo od gl u c o s conte n ts several tim e one d a y in th e presently u s ed th erapy. Instrum ents  now  used fo r the self-mo n i toring  of blo o d   glucose are  almost all i n vasive  types that req u ire  a drop of  b l ood to b e  withdra w n fro m  a  fingertip o r  ot her me asure m ent site on t he body by  a  needl e pun ct ure. Thi s  re q u ire s  the dia b e tic   patient to suffer pain  an also i n volves a ri sk  of  infection. M o re  freque nt or  continuo us  blo o d   glucose mo ni toring  is ne ce ssary fo disti n ct bl ood   glu c o s e co ntrol, whi c h wo uld more   effectiv ely  reduce the ri sk of compli cations  from diabetes m e llitus. For thi s  purpose, a n oni nvasive method  for blood gl ucose mo nitori n g  is highly de sire d.  Nea r  inf r ared  sp ectrosco p y  (NIRS )  h a bee n kno w n  to have th e  potential to   reali z noninva s ive  blood  glu c o s e mo nitorin g , and  the r h a ve be en  ma ny trial s  fo monitori ng  bl ood  glucose cont ents u s ing  NIRS over  these years. In the stoich iom e tri c  analysi s  field, the  resea r chers  have take n up the relate d resea r ch . Gary W.Sma ll team from America [1] and   Kasem s um ra n S team from Japa n [2] and other  re se arche r strive  to be the first one to dig de ep  in  th appli c at ion area of n ear-infra re d   spectrum. The  Chin ese re s earche r s like  Xu Ke-Xin  in  the  Tianjin  University [3],  Hua ng L a n  in Sh angh ai [4]  al so  have  som e  relate  studi es i n   develop ing   instru ment s b a se d on  nea r infrared  spe c troscopy.  Ho wever, th ere  are  som e  p r o b lems whi c h   are  difficult to de sovle  and thi s  imp ede  the  devel op men t  of non -inva s ive me asurement of  blo o d   glucose.  In the p r e s e n t study, n e a r inf r ared  spectra  of different glu c o s con c entrations  were  colle cted  with  a FT -IR  sp ectromete r . The n  seve ral  spe c tral  preproce ssi ng m e thod s a nd th e PL algorith m  were used to  an alyse the  dat a. Finally , the  experim ental  re sults  we re  evaluated  wi th   the Predi ction  Resi dual Error Sum of Square s .           Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2683 – 2 689   2684 2. Theor y   2.1. Absorp ti on Char ac te ri stics of  Ch emical Bond   A molecul a r bond vibrat ion ab sorsb  near infrare d  light and it is the principl e of   appli c ation  o f  NIRS. In t h is  study, t he mo st  n o table  point i s  a  freq uen cy-do uble d  a nd  combi nation - t one bo nd vib r ation of met h yl in gl uco s e mole cule s.  As a re sult, the absorpti o n   pea k of wate r sho u ld be  avoided. Thi s  abso r pti on b and is initiall y selected o v er the 4200  to   4800 cm -1  spectral ran g e  with sam p les mai n tai ned at roo m  temperatu r e. The different  preprocessing algo rithms were eval uated by judging  the ability to determine glucose  con c e n tration s  from a set of predictio n spectra.     2.2. Lambert-Be er La w   The continu ous wave spectrosco py  wa u s ed  to reali z glucose con c entratio n   measurement , Lamb e rt-Be e Law is  th e ma cro b a se of the  ab orption p r o c e s s. The  Lamb e r t- Beer La w [5] coul d be defi ned a s   1 () n ii i Ac L                                                                                                                            (1)    Whe r A  is  the vector  o f  abso r ba nce ,   n  is the n u mbe r  of variou s solute s being  observed,  α   is  th c oeffic i ent related to the  s p ecific  wa velength  λ   an L  is the opti c al di stan ce.   Acco rdi ng to   the La mbe r t-Beer  La w, gl uc os e co nc en tr a t io n ca n   b e  ac qu ir ed   o n c e  th spe c tru m  is  obtaine d. The absorb a n c e of near in f r ared spe c tro s copy is po si tively related to   glucose co ncentration, whi c h is  the b a si s of the mea s urem ent of gluco s con c e n tration.       3. Experiments   3.1. Instrum e nts   Nea r-i nfra red  sp ect r o s c opi c d a ta  we re   m easured wit h   a   JAS C O FT-IR spe c trometer.  Sample s we re co ntained i n  1mm qu art z   col o rim e tric  dish.The  ele c troni c b a lan c e Sa rtoriu BS  224S wa s u s ed to quantify the gluco s e.     3.2. Reage n ts  For the NI R data, reage nt-grad e  crystall ine  glucose was di ssolved in deioni zed  water to   configure 12 sampl e s of  di fferent  glucose concentrati on. Electroni c balance has  the range ability  of 220 g a n d   the me asure m ent a c cura cy is ±0.1mg . A 500 mL v o lumetri c  fla s wa used f o mother liqu o r  and the 1 00mL on es  for sam p le s.  Durin g  dilut i on, measuri ng cylinde with   accuracy of ±0.2mL wa s u s ed. Ta ble 1 sho w s the co nce n tration of  sample s.       T able 1. Numb er of Samples  and C o rresp on din g  Conc entra tion   n u m b e o f   samp l es          1 2 3 4 5  6 7  10   11   12   co n cen tr atio n () mg/dL   100  400  420  550  350   250  270  30  450  150   80  300       3.3. Procedu r es   Firstly, spectrum  of the em pty  infrasil glass cell and ce lls filled with  sam p les  were  colle cted  se perately. Se con d ly, spe c trum data  were imp o rted  to the com puter an d were  cal c ulate d  wit h  the Matlab  softwa r e. Th e  band b e twe e n  4200 ~4 800 cm -1  we re  sel e cted a nd u s ed   to gene rate the targ et array. Finally, gluco s e a b sorption ability can b e  cal c u l ated by usin g   averag e valu e from  hom o l ogou data.  For exampl e, K i   is th averag spe c trum  of the   n th  sampl e ,   K 0i   is the average  spe c tru m  of the  n th empty glass cell, then the corre s p ondin g  gluco s absorptio n ca n be define d  as:      0 ln / ii i A KK                                                                                                                                                       (2)          Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Com pari s ion  of Several Prepro c e s sing  Algorit hm s Base d on Near Infrared … (Y an Zhan g)  2685 4. Spectral Data Prepr o ce ssiing  Nea r-i nfra red  spect r um reflect the informat ion abo ut the chemical  compo s ition  and the  con c e n tration  of substan c es. It also ca n be affe cted  by material visco sity, particle den sity and  stray light, etc. Therefore, the  eliminatio n of these factors  coul d im prove the pe rforman c e of the   measurement . The original  spe c trum  col l ected  wi th the JASCO FT -IR spe c tro m e t er is sh own in  Figure 1. Several p r ep ro ce ssi ng metho d o logie s  were i n trodu ce d to analyse the spectrum.       Figure 1. Orig inal Spect r um       4.1. Standar d ization   Con s id erin the obviou s   spe c tru m  differen c e  amo n g  the differe nt wavele ngt hs, the  nonlin earity o f  the dete c tor  coul cau s different m e a s ureme n t error.  Stand ardi zation  is  used  to   degrade its  effects on th e model. Autoscalin g is  o ne kin d  of standa rdi z ation .  Centerin g a nd  norm a lization  are two  step s of this process.  Duri ng  ce nte r ing, the  ab sorba n ce  spe c trum  data  a t  the same   wavele ngth  p o ints  but  from different  sample s sub t ract the average value, in dicate d as ex pre ssi on (3):     XX                                                                                                                                                                    (3)     And the norm a lizatio n re sul t    X z  can be e x presse d as:     1 1 1 1 zi m ij j XX x m                                                                                                                     (4)    i X is the d a ta on  the  i th wavel ength,  σ  i s  th e stan dard d e viation of th i th wavelength,  m  is   the numbe r o f  sample s,  ij x  is the absorptio n of the  j th sa mple at the  i th wavele ngth  points. After  the stan da rdi z ed  processi ng, the  spe c t r um  can  be  acq u ire d . Fig u re  2 sho w the sp ect r a a fter  stand ardi zati on .      Figure 2. Spectra after Sta ndardization       4.2. Sa v i tzk y -Gola y   The  appli c ati on of  Savitzky-Golay i s   ba sed  on  the  a s sumption  th at the  noi se  containe in the spe c trum is  white  noise, whi c h  can  be  d e g r ade d by cal c ulatin g the  spe c tral  data  of  4 100 4200 4300 440 0 4500 46 00 4700 4800 4900 1. 5 2 2. 5 3 cm - 1 Ab so r p t i o n     4100 4200 4300 44 00 4500 4600 4700 4800 4900 -2 -1 0 1 2 cm - 1 Ab s o r p ti o n Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2683 – 2 689   2686 adja c ent wavelength p o int s . Du ring thi s  pro c e ssi ng, the data in th e mobile  win dow i s  sm oot hed  by different p o lynomial se quen ce s. Ho wever, the  wi dth of the mo ving wind ow  must be  ca re fully  cho o sed, oth e rwi s so me  useful i n form ation c ould  b e  lost a nd th e pro c e s sing  method  can  not  obtain the ide a l re sults. Fig u re 3  sho w s the sp ect r um  pro c e s sed u s ing win d o w  width of 10 an 100 wavelen g th points in t u rn.           Figure 3. a) Spectrum processed u s in Savitzky-G ol ay with Wind ow of 10  Wavele ngth p o ints.   Figure 3. b) Spectrum processed u s in Savitzky-G ol ay with Wind ow of 100  Wavele ngth p o ints      4.3. Direct O r thogo nal Signal Corr ection (DOS C)  The above  spectral pre p roce ssing me thods  carry out the data processin g  without   c o mputing dens i ty matrix, only relating to s p ec tr a dat a. Duri ng  DO SC metho d , the spe c tral a r ray  vary co rre sp o ndingly an d is orthog onal to  the con c e n tration [6]. Afte r the multivari a te calib ratio n the model p r e s ent mo re ro bust  and  p r e d iction a b ility [7].      Figure 4. Spectra Proces se d by DOSC  Method       If Y prese n t the con c entration an d X prese n t the sp ectral  array DOSC can b e  divided   into the following four ste p s.  (1) Projec t Y on X,  T1 T ˆ (( ) ) X PY X X Y Y     (2)  1 ˆ ˆ (( ) ) Z XY Y X  , the step ensure that Z  is orthog onal  to Y and  ˆ Y (3)  Z is proce s sed by P r in cipal Compo n ent Analysi s (PCA) a nd the  score matrix  t  can  be  acq u ire d . Th e weig ht vector  1 wX t  , then we ca n cal c ul ate score ve ctor  s t X w ,and the  loadin g  vecto r   T T s s s s Xt t p t (4)  T DO S C s s XX t p    In the above  step s, there  are two mai n  co mp one nts were u s ed  d u ring P C A. After the  DOSC, mo st  information  about the  sa mple charac t e risti cs i s  lo st and the sp ectru m  abo ut the  con c e n tration s  ca n be arra nged. The  sp ectra p r o c e ssed by DOSC  method is  sh own in Fig u re  4.    41 00 42 00 43 00 44 00 45 00 46 00 47 00 48 00 2 2. 5 3 cm - 1 Ab s o r p t i o n a)     W = 10 410 0 4 200 43 00 4 400 4 500 46 00 47 00 480 0 49 00 1. 5 2 2. 5 3 cm - 1 Ab s o r p t i o n b)    W = 10 0 41 00 4 200 4300 440 0 45 00 4 600 4700 4800 4 900 0 1 2 3 4 cm - 1 Ab s o r p t i o n Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Com pari s ion  of Several Prepro c e s sing  Algorit hm s Base d on Near Infrared … (Y an Zhan g)  2687 5. NIRS and  PLS  5.1. PLS Theor y   PLS is a method combini n g factor a nalysis  a nd re gre ssi on an alysi s . It has two steps.   Step 1: Facto r  analysi s . De comp ose X and Y.    T X VP E                                                                                                                                               (5)     T YU Q F                                                                                                                                           (6)     W h er e   s u p e rs cr ip t T me ans  tr an sp os e d   ma tr ix,  V  is th e sco r matri x  of  X U  i s  th e sco r matri x   of  Y P  is loading m a trix of  X Q  is lo ading m a trix of  X E  and  F  are the error matrix. It is  importa nt to  note that  T  i s  ortho gon al to  P . And  i t  refl ects the info rmation of  sp e c trum  matrix  X   whe n  it wa c onv eyed by v e ctors  i p .The remainin g info rmation i s   co nsid ere d  to b e  incl ude d i n   the error mat r ix [8-9]. In a s i milar way,  Y  is  de comp osed.  Step 2:  Regression a nalysis.  B  is the co rrel a tion coefficient matrix.     UV B                                                                                                                            (7)    T1 T () BV V V U                                                                                                                               (8)    The predi cted  value of  unknown co ncen tration  Y can  be defined a s   PP YT B Q                                                                                                                                                 (9)    Whe r P T is got from the sp ectrum of unkno wn sample s a nd the loadi n g  matrix  P   5.2. Dete rmination th e Number of PL S Compone nts   Duri ng the  PLS modeli ng,  the num ber of com pon e n ts is  an im portant  elem ent. At  pre s ent, the  most commo n method to  determi ne th e numb e r of  PLS comp on ents i s  Predi ction   Re sidu al Error Su m of S quares (P RE SS). The  cro s s validatio n  method  i s  u s ed  to a naly s PRESS [10].    Negl ectin g  th i th  wavele n g th poi nts every time,  buil d  PLS m odel  with   h  com p onent by using th rest d a ta. Th en plug th e  i th wavele ngth  points into  regre s sion  eq uation an d g e () () ˆ ij xh . The forecast ing error  squ a re sum of  x i   can b e  define d  as:      2 () 1 () ˆ () ji j n i ij PRESS h x x h                                                                                          (10)    Whe r j  = 1 , 2, ……,  p The fore ca sti ng error  squ a r e su m of X= ( x 1 x 2 ,, …… x p ) T  ca n be  defined a s :     1 () () p j j P RES S h P RES S h                                                                                                       (11)    At the sam e  time, we  build  the PLS mo del with  h   co mpone nts  by usin g all d a ta , pi j x is  the redi cted  value of  the  i th  wavel engt poi nt.  The  forecastin g e rro r sq uare sum  of  x i  ca be   defined a s :     2 1 , () ( ) jp i j i j n i SS h x x                                                                                                                      (12)  Evaluation Warning : The document was created with Spire.PDF for Python.
                               ISSN: 23 02-4 046                     TELKOM NI KA  Vol. 12, No. 4, April 2014:  2683 – 2 689   2688 The fore ca sti ng error  squ a r e su m of   x p  can b e  define d  as:     1 () () j p j SS h S S h                                                                                                                                (13)    When the  minimum PRESS( h ) i s   a c hieve d , the  app rop r iate  num ber of  the PLS  comp one nts  can b e  determined. It is defined a s :     2 1( ) / ( ) h Q P RESS h SS h                                                                                                                (14)    If the condit i on that 2 0.0975 h Q ca n be achieved  by using h  comp onent s, the  comp uting p r oce s s stop ed     6. Results   This pap er di scusse sev e ral  metho d s for  sp ectral  prep ro ce ssin g. Tabl e 2  sh ows the   experim ent result s. From t he table s , it can be o b taine d  that Savitzky-Golay dimi nish ed the  ro ot  mean squa re  resi dual a nd  maximum rel a tive erro r.      Table 2. Para meters of Th e First Pre d iction Set  Processin g  Met hod   Num b er o f  Co m pone nts   Maximu m Rel a ti v e  Error   RMSE  (mg/ dL )   not hin g   4 0.0539   11.85875   A u t o scali n g   5 0.0671   12.64839   DOSC   3 0.0725   17.77251   S-G  4 0.0524   11.59880       In this study, The DOS C  and auto s cali ng  method did not exhibi t good perfo rmance.   This may  be  denp ende nt on  the ch ara c teri stics  of  t he dat a. Savitzky-Golay  showed the  b e st  result in our  experim ents  whe n  the wid t h of  moving wind ow was  15 wavele ngt h points an d the  numbe r of PLS comp one nts wa s 4. T he re sult s pr ese n ted in th e table dem o n strate d that the   maximum rel a tive erro r is l e ss than 8% and the maxi mum RMSE i s  less than 1 8 mg/dL.       7. Conclusio n   In this  study,  several p r ep roce ssing  met hod s an d PL S were  comb ined to m e a s ure th glucose  con c entration. We  discu s sed  several  pr eproce s sing  me thods in  adv ance. By u s i n g   autoscali ng,  DOSC, Savit zky -Golay, th e  PRESS  is  calcul ated. Th e maximum  relative erro wa confin ed to 8 % . The experiment re sult s co uld  dem onstrate that the appi l c atio n of NIRS a n d   PLS has the  potential for the mea s u r em ent and an alysis of glu c o s e  solution.        Ackn o w l e dg ements   The a u tho r are  grateful f o r the  supp ort from the  National S c ien c e  Foun dation   of Chi n a   (No.  6120 10 17, 613 780 4 6 ), China P o stdo ctor al Scien c F o u ndation (No.  2013 M531 0 27),   Heilo ngjian g  Postdo ctoral Fund (No.  L B H-Z1 209 3),  the Fund ame n tal Re se arch Fund s fo r the  Central Unive r sitie s  (No. HI T.NS RIF.20 1 3010, No. HIT.NSRIF.20 1 146).       Referen ces   [1]    Mark AA, Gary  WS Determ inati on  of Ph ys iolo gic a Leve l s of Glucos e i n  al l Aq ue ous  Matrix  w i t h   Digita l l y  Filter e d  Fourier T r ansform Near-Infrared Sp ectra.  Analytic al Ch e m istry.  199 0; 6 2 (14): 14 57 146 4   [2]    Bai G.  T he Measurem ent an d  Anal ysis of Gl ucose  C once n t r ation C han ges  in Bloo w i th  Near-i nfrare Spectrosco p y W uhan: HUST .  2008.   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046     Com pari s ion  of Several Prepro c e s sing  Algorit hm s Base d on Near Infrared … (Y an Zhan g)  2689 [3]    Li QB, W a n g   Q, Xu  K X , W a ng B.  Ne ar-Infrared  Sp ectros copic  Assa of  Princ i pa l Mi lk  Constitu ents.   F ood Scie nce.   200 2, 23(6): 12 1–1 24.   [4]    Hua ng L, D i ng  HS W ang GZ T he Prelimi nar y Stud on  Noni nv as ive  D e tection Usin g NIR  Diffusio n   Reflecta nce S pectrum for Monitor i ng Bl oo d Glucose.  Sh ang hai Institut e of Metall urg y , Acad em y   o f   Scienc es of Ch ina.  Materials  Physics and Chem istry.  2 0 00.  [5]    Yuan  HF , Lu  W Z . Near i n frared s pectr al a nal ys is te chno log y   is r api dl y marc hi ng i n to th e   petroch emica l  field.  Oil R e fini n g  and C h e m ic a l  Industry . 199 8; 29(9): 47 –50 [6]    Joha n AW , S deJo ng, Smil d e  AK.  Direct o r thogo nal s i g n a l correcti on.  Che m om. Inte l l . Lab. Syst 200 1; 56: 13– 2 5 [7]   Liu  GJ Dai D M Gao HT T he al gorit hms of orthog ona l sign al co rrecti o n  and its ap plic a t ion in sp ectr a   process i ng J. Shan do ng Un i v . Arehit. Eng.,  2005; 2 0 (2): 8 5 [8]   Gao J, Z e n g   XP, Z h ang   X, Ch en  X, Z h eng   DT . Cavity V e rte x   Reg ener ation  thro ugh  Opti m a l   Energ y M ode for Restorati o n of W o rn P a rts.  T E LKOMNIKA Indon esia n Jour na l  of Electrica l   Engi neer in g.  2013; 11( 5): 249 0–2 50 1.  [9]    Z hang  XS, W ang M H , Ma  J. Sparse R e prese n tati o n  for Detecti on  ofMicrocalc i fic a tion  Clusters.   T E LKOMNIKA Indon esi an Jou r nal of Electric al Eng i ne eri ng.   2013, 1 0 (3): 5 45-5 50.   [10]    Rajkum ar P, W ang N, EIma sr y  G, Rag hav an G SV, Garie p y  Y. Stud ies  on b ana na frui t qualit y a n d   maturit y  sta ges  using h y p e rs p e ctral ima g in g.  Journ a l of F o o d  Engi ne erin g . 201 2; 108( 1): 194– 20 0.   Evaluation Warning : The document was created with Spire.PDF for Python.