TELKOM NIKA , Vol.11, No .2, Februa ry 2013, pp. 63 0 ~ 63 6   ISSN: 2302-4 046           630     Re cei v ed Au gust 20, 20 12 ; Revi sed  De cem ber 2 2 , 2012; Accepte d  Jan uary 11,  2013   Discrimination of Chinese Her b al Med i cine by Machin Olfaction      Deha n Luo*, Ya w e n Shao   Schoo l of Information En gi ne erin g, Guang d ong U n ivers i t y  of  T e chnol og y,   Guangzh ou 5 100 06, P.R Chi na.   *Corres p o ndi n g  author, e-ma i l : deha nl uo@ g dut.edu.c n       A b st r a ct  “Sm a ll Sample Si z e  (SSS)  problem  would occur wh ile using linear dis c ri minant analysis (LDA )   alg o rith m w i th   traditio nal  F i sh er criteri o n  if t he w i th i n -class  scatter  matrix  is s i ng ul ar. T he c o mbi nati o n o f   m a x i m u m  sc atter difference ( M SD) criterion and LDA  algorithm for solve SSS prob lem  is descr ibed. It is   empl oyed to d e tect three kin d s of Chin ese  herba l m edic i nes fro m  differ ent grow ing  ar eas by  mach in e   olfactio n. Co mpare d  w i th PCA or PCA +  L D A alg o ri th m, the classific a ti on resu lt w a enh anc ed. It  works   out that on ly a  few  sampl e s of  Anhu i Atractyl odes  are cl assi fied i n correctly,  how ever, the  classificati on r a te   reach e s 97.8 %    Ke y w ords li n ear discri m in a n t analys is; maxi mu m scatte r difference cri t erion; Ch ines e herb a med i cine;   mac h i ne olfacti o n     Copy right  ©  2013 Un ive r sita s Ah mad  Dah l an . All rig h t s r ese rved .        1. Introduc tion  Atractylode s i s  an a s teraceae me dicin e  with sp ec ial  smell, an d their qu ality is affected   by pla c of o r igin, h a rve s time, bre ed  a nd oth e r fa ct ors,  amo ng t he o r igin  fact ors is on e of  the   most impo rta n t criteri a  in judgin g  the quality.  With people’ s incre a sin g  quality requi rem ents of  Chin ese herb a l medici ne, the i dentification of medici n a l herb s  is p a r ticula rly imp o rtant.   Re sea r ch of  electroni c no se b ega n in t he 19 90 s,  it is a p a rt of th e sp ecifi c ity with the  comp ositio n of the gas sensor a rray  and patte rn recognitio n  system is co mposed of the   approp riate i n strum ents,  m a inly u s ed  to i dentify sim p le  and  compl e x odo rs [1]. Th ere  are a  lot  of  resea r che s  a nd so cial a p p licatio ns in  the food ind u stry [2-4], medical diag nosti cs [5 -7], and  environ menta l  monitori ng  [8-10] at h o m e an d ab road, but in   the fiel d of  Chin ese he rbal  medici ne s are rarely repo rted in the current.  The Chi n e s e herb a l medi ci ne Atractylod es is the obj ect in this pa per, and d e te cted by  electroni c no se. In pattern re cog n ition  with the el ectro n ic  no se, the prin ci pal co mpo n e n Analysis  (Pri ncip al Co mp onent Analy s is,  PCA) a n d  LDA h a been  widely  use d  [8]. The  outstan ding f eature  of LDA is it can e n su re t hat af ter the proje c tion, mod e l sampl e  ha s the  smalle st  wit h in-cl a s s  di st a n ce a nd max i mum  betwe en-cla ss dist ance  in  the new spa c e,  that  model ha s th e best sepa ra bility in the space. Ho wev e r, there i s  al so not ap plicable in the "small   sampl e  probl em" and othe r sh ortcomin g s . In respon se to this sh ort c omin g, man y  schol ars ha ve   use d  a meth od of combi n ation with PCA and L D A  [9],  the advantage s of the PCA and L D together fully integratio n, a nd it  can  not  only solve  th e problem  of  PCA algo rith m is  not sen s itive   to the different training sa mple data problem,  but al so L D A algo rithm wh en the within -cl a ss  scatter matri x  is singul ar,  and obtain  a better cla s sificatio n  re sults. In this pape r, maximum  scatter  difference  crite r ion  and  L D wil l  be  integ r ate d  togeth e r, it  solve d  th e p r oble m  of  sm all  sampl e s, an d  there is a bet ter cla s sificati on re sult than  PCA and PCA + LDA.       2. Rese arch  Metho d   2.1. Electron i c nose (E-n ose)  Experiment were pe rform ed with  a co mmercia l E-n o se  (PEN3 ) . It is provid ed  by WMA  AIRSENSE Analyse n techni k Gm bH  (Schwe rin, Ge rm any). Tabl e 1 .  summa ri zes the se nsitivity  of different se nso r s in PEN3.  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046       Discrim i natio n of Chine s Herbal Me di ci ne by Ma chi n e Olfaction  (Dehan L uo)  631 PEN3 in clu d ed a n  a r ray  of 10  differe nt MOS  se n s ors,  and  th e sen s o r  respon se i s   defined a s  th e ratio of co n ducta nce: G/G0. Whe r e,  G rep r e s ent s the resi stan ce of each  se nso r   in the ch amb e r after  expo sing to the ta rget ga s a n d  G0 re pre s e n t s t he re si st a n ce  while  ea ch  sen s o r  i s  exp o se d to th zero  ga s filtere d  by a c tive  carbo n . Th e el ectro n ic no se  co nsi s ts mai n ly  of the followin g  se ction s : co mputer 、、 sam p ling chann el sen s o r  ch a nnel, as  sho w ed in Figu re 1 .       Table 1. The  sen s itivity list  of 10 sen s o r s in PEN3  Number in a rra Sensor name   Sensitive to   S1 W1C  Aromatic  components  S2  W5S  Nitrogen o x ides, ver y  sensitive  S3  W3C  Ammonia and ar omatic components  S4  W6S  Mainly  h y d r ogen,  selective l y ,   (bre ath gases)   S5  W5C  Alkanes and aro m atic components  S6 W1S  Propane   S7  W1W  Sulfur organic compounds  S8 W2S  Ethanol  S9 W2W  Aromatic  component s and org anic-sulfides  S10 W3S  Propane  (selective  sometimes)          Figure 1. Dia g ramm atic La yout of Electronic  No se       2.2. Experimental sample    This medi cin e  sampl e  i s   suppo rted  by  Guan gzhou  University  of Ch in ese Me di cine.  They  are i r regul ar clum ps of  hypertr ophy,  ga s fra g ra n c e,  sweet a nd  slightly a c rid. Atractyl ode s   sampl e we re provid ed from thre e ki n d s of O r igin:  Baoding  of Heb e i provin ce, Hao z ho u  of  Anhui province, Shaoxing o f  Zhejiang p r o v ince.     2.3. Experiment pro cedur The expe rim ents were carrie d out  in an air-co nditione d la borato r y wh ere the  temperature  wa s ke pt at 25±1 an d the  humidit y at 54±2%. Static head sp ace sampling meth od   wa s used be cause of its ac ce ssi bility and stability [10].  The sample s with different  origin  were put into four  bea kers (500 ml) label ed Hebei, Anhui a n d   Zhejian g , re spectively. Th e amou nt of e a ch  sam p le i n  the be aker  wa s 10 0g. Th en thre e be akers  were h e rm etically  cap ped  with  pla s tic wrap fo 70  minute s  in   orde r to  ge n e rate  stea dy  head sp ace re spe c tively. The samplin g time for e a ch  sampl e  is  60  se con d s,  whi c h i s  en oug for  each se nso r   to reach a st able value. T he rin s ing tim e  is set as 1 10 se co nds,  durin g whi c th e   sen s o r s a r e ri nse d  with ch arcoal filtere d  to force  the  sign als of se nso r s to b a se line. The interva l   for data  colle ction  wa s on e se co nd. On e mea s u r eme n t cycle  wo ul d last fo r abo ut three mi nu tes.   Whe n  the m easure m ent  wa s co mplet ed, the obt ai ned data  wa s sto r ed in a  comp uter for later  analysi s . Th e  head sp ace  gas  of ea ch  bea ker of Atractylode sa mple  wa s me asu r ed  30 ti mes  Computer   Sample volatile   Built-in pump  Sensor arr a Clean air   Clean air   Built-in pump  Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 23 02-4 046   TELKOM NIKA   Vol. 11, No. 2,  Februa ry 2013 :  630 – 636   632 respe c tively. Thus 90  data  set s   were  co llected  fo r all three group s of  Atractylod e s  sampl e s. T he  90 sa mple were divided  into two gro ups: 45  sam p les  (15  sa mples  of each gro up) fo the  training  set a nd the re st 45  sample s (15  sampl e s of e a ch g r ou p) fo r the testing  set.    2.4. Patter n  recognitio n   LDA is  one  of the wid e l y  used  cla ssification te ch nique s. However, wh en t he total  number of s a mples  is  s m all or  the number of selec t ed features  is  large, SSS problem would  occur  while  u s ing LDA alg o rithm with  traditional Fish er  crite r ion if  the within -cla ss scatter ma trix  is  singul ar. T herefo r e, a n   optimize d  di scrimi nant crit erion   called maximum scatter  differen c e   (MSD) criteri on wa s ad opt ed [11].  Suppo se th numbe of kn own  pattern  classe s i s  N a s   1 G , 2 G , , N G  , pattern  d x R is d - dime nsi o nal real ve cto r i N  is th e nu m ber  of traini n g  sa mple s in  i t h  cla ss,   i m  is t he me an  feature ve cto r  of trai ning  sample s in  i th  c l as ,b e t w een - c la ss   sc atter matrix is b S , within-c lass  s c atter matrix  is   W S ,and they defined a s  fol l owin g re spe c tively:   Mean of sa m p les i m :  1 i i xG i mx N  , 1, 2 , , iN                            (1)                                     within-c lass  sc atter mat r ix  S :   1 i N T ii ix G Sx x                            (2)     1, 2 , , iN      betwe en-cla s s scatter mat r ix   b S :  1 () () N T bi i i Sm m m m                              (3)                        among, 1 1 N i i mm N                                   (4)                                           Fishe r   crite r i on i s  that th e choi ce m a ke s the  maxi mum of th gene rali zed   Rayleig h   quotient a s  the proje c tion d i rectio n vecto r      T b F T w S J S                              (5)        The b a si c id ea of MSD  crite r ion i s  tr y to find an  optimal p r oje c tion ve ctors  .It is   different from  Fishe r  criterion be cau s in MS D, the  differen c e of  betwee n -cla ss  scatter a n d   within-cla ss  scatter is emp l oyed  a s   discrimina n t crite r ion  rath er th an thei ratio.  Thu s   we  ca n   define maxim u m scatter dif f eren ce criteri on functio n  a s  belo w :     () T b M T SC S J                              (6)                                               Whe r e, C  i s  a  con s tant,  f o r co nvenien ce,  thi s  articl is set  to   1, to  bala n ce  m a ximizing   the  betwe en-cla ss scatter and  minimi ze   the divergen ce bet wee n  cl asse s.  b SC S  is call ed matri x  of generali z ed diverg en ce differen c e a s  paramete r for the  C Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046       Discrim i natio n of Chine s Herbal Me di ci ne by Ma chi n e Olfaction  (Dehan L uo)  633 It can p r oved  that the opti m al proje c tio n  dire ction   is to make the maximum  scatter  differen c e cri t erion  fu nctio n   () M J to take th e maximum   value of th e  sol u tion,  wh ich th followin g  gen erali z ed ei ge nvalue proble m  is solved:     () b SC S                                      (7)                                                  So, maximum scatte r difference crite r io n  can  be attrib uted to the sa ke of eige nve c tor  probl em of the gene rali zed  divergen ce d i fference matrix b SC S     3. Results a nd Analy s is  3.1. Sensors  respons e    Figure 2 sho w s the typical  resp on se cu rves of  10 se nso r s to the three  sele cted  sampl e   grou ps. T he  hori z ontal  axis is the  sam p ling time,  a nd the ve rtical axis i s  the  sen s o r   re sp onse   value.   It shows  rapi d ch ang e at t he be ginni ng  of t he sampl i ng time  whil e the respon se valu es  rea c h to th steady  state  soo n . After a pproxim ately 60 second s a l most all th sen s o r s re ached  to stable resp onse value s . This Fig u re cl early s hows  different re sp onse sig nal s of sen s o r s a r ray  to Atractylod es  sampl e with differe nt gro w ing  a r e a s. Each sen s or  ha s re sp onse to different  varieties of Chine s e he rbal  medicin e s.            Figure 2. The  resp on se curves of Atractylode s sam p le     3.2. Featur e selectio n   Feature  sele ction i s   of g r eat im porta nce,  whi c h requires  the conve r si on o f   sampl e   feature s  to  pattern s that  have  con d ense r epresentation s , id eally co ntain i ng only  ma in  information.  In this  study,  initially eight  different  su b - f eatures were sele cted a s  the  ori g inal  feature  vector fro m  the sen s o r  re sp onse sig nal s:    10 40 60 ,,, , m a x , v a r , , T f f f avg s t d diff           (8)     whe r e   i f  re pre s ent s the  re spo n se value  at i se con d  of sen s o r  a rray  (i=1 0, 4 0 , 60);  avg rep r e s ent s the averag e va lues of ea ch  res pon se  cu rve for the du ration of 60  se con d s;   max 0 20 40 60 0 0. 5 1 1. 5 2 2. 5 3 3. 5 4 4. 5 A n hui  A t rac t y l od es S a mp li n g  t i me ( s ) R e s pons e v a l ue[ G / G 0 ( G 0/ G ) ] 0 20 40 60 0 0. 5 1 1. 5 2 2. 5 3 3. 5 4 4. 5 Hebe i  A t rac t y l o des S a m p l i ng t i m e (s ) R e s pons e v a l ue[ G / G 0 ( G 0/ G ) ] 0 20 40 60 0 0. 5 1 1. 5 2 2. 5 3 3. 5 4 4. 5 Z h ej i a n g  A t rac t y l od es S a mp li n g  t i me ( s ) R e s pons e v a l ue[ G / G 0 ( G 0/ G ) ]     W1 C W5 S W3 C W6 S W5 C W1 S W1 W W2 S W2 W W3 S Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 23 02-4 046   TELKOM NIKA   Vol. 11, No. 2,  Februa ry 2013 :  630 – 636   634 rep r e s ent s th e maximum  values  of ea ch re spo n se curve for th duratio n of 6 0  se co nd s;  va r rep r e s ent s th e varian ce  of respon se  da ta for the du ration of 60  seco nd s;  st d repres ents  the   stand ard  dev iations  of th e re sp on se  sign als,  p r e s enting the  fluctuatio n a r o und the  average  values of ea ch respon se  curve;  diff  rep r esents the differentiati on of the respon se  si gnal s.    3.3. Discriminant cla ssifi cation   There is  15  sampling tim e s for Atractyl ode s tr aini ng  sam p les of  each growi n g  are a , so   the total of Atractylod es t r a i ning  sampl e s with  three dif f erent g r o w in g are a s is  45,  and PEN3 h a 10 sen s o r s,  e a ch   se nsor m easure m ent s are extrac t e d eight  c h arac teris t ic  parameters , thus the   total charact e risti cs ve cto r  dimen s ion  are 80 -d im e n sio nal, then , clearly the total number of  training  sam p les a r e le ss than the feature vect o r   dimen s ion, a  "small sa mp le" probl em that  arise, at thi s   time LDA  alg o rithm  can  n o t pro c e ed at  this time. Fi gure  3 i s  the   PCA and  PCA +  LDA analy s is  cha r t of three  Atractylode s training  sam p les.                      Figure 3. Analytic result of three g r o u p s       It can be see n  from Figure 3 (a) that the cla ssi fi cati on re sults of three sets of training   sampl e with  a sepa rate  PCA algorit hm are not  satisfa c to ry, the batch of  sample p o i n ts   intertwin ed, a nd indistin gui sha b le. The reason is  whe n  the differen c e of sam p le quality grad e is  small, the r e i s  a bi g ove r l ap of info rma t ion or  releva nce i n  the dif f eren ce s in t he sample  th at  reflect by el e c troni c n o se  sen s o r  , PCA algorithm t o  find only th e data di strib u tion of spin dle   orientatio n [1 2], retaine d  a fter dimen s io nality red u cti on by the i n formatio is n o t necessa ril y  the  mos t  effec t ive for  c l as s i fication .  Figu re  3 (b can  be  see n  that th e distin gui sh  result of PCA  +  LDA m e thod  is b e tter th an u s ing  PCA algorith m   alone  betwe en three  gro ups of trai ni ng  sampl e s, a n d  interspe rse d  with the  origin al traini ng sa mple  points h a ve all been  cle a rly  sep a rate d. This is be ca u s e the main  idea of LD A  algorithm is to minimize  the within-cl a ss   distrib u tion a nd maximize the spread b e t ween  cla s se s.  To avoid the  small sampl e  proble m , we  use L D A alg o rithm ba se d  on maximum  scatter   differen c e crit erion. Th e re sults  sho w n i n  Figure 4:  As can b e  se en from Figu re 4 that the d i sti ngui sh result of LDA algorithm is b e tter than  PCA an d P C A + L D A algo rithm.  While  He bei  Atractylod e s   sampl e  p o ints  are  m a inly  con c e n trated  in the lower h a lf of the feature sp a c e, Zhejian g  Atractylodes sa mp le points mai n ly  in the upp er l e ft part and  Anhui Atra ctylode s samp le  points  are  concentrate d i n  the up per  ri ght  part. Vari ou training  sa mp le point s can  be cl ear ly  distinguished, a nd compa r e d  to PCA +  LDA  method, th distrib u tion  o f  sam p le  poi nts  with in  a  cla s s is eve n  mo re  con c entrated,  mo re  obviou s  the interface between the cl asses.   (a) Analytic  result of three  grou ps by  P CA   (b) Analytic  result of three  grou ps by  PCA+ LDA   Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  2302-4 046       Discrim i natio n of Chine s Herbal Me di ci ne by Ma chi n e Olfaction  (Dehan L uo)  635     Figure 4. Analytic result of three  g r o u p s  by LDA base d  on MSD crit erion       3.4. Discriminant cla ssifi cation   Table 1  sho w s the  cla s sification re sul t  of each test sam p le in  the two-dim ensi ona l   feature spa c e, and the accura cy rate  wa s cal c ul at ed by the ratio of the number of correctly  predi cted  sa mples a nd th e numbe r of total testing sample s.      Table2.  Pred icted re sult s of three testin g sets      The  re sults  shows th at, fo r the  45   sam p les teste d , t here  i s  o n ly  an e r ror to b e  carried  out to d e termine, the  re cog n ition  rat e  of  An hui Atractylode s wa 9 3 .3%,while    Heb e i   and   Zhejian g  Atra ctylode s reco gnition  rate  wa s 10 0%. T he di scrimin a n t re sults re a c he d 97.8%   o f   c o rrec t c l ass i fic a tion rate for all tes t  s a mples .       4. Conclusio n   More an d mo re studi es ha ve shown tha t  the  use of electro n ic n o se technol ogy for odor  analysi s  i s   no t only obj ecti ve and  a c curate, but  also   rep r od uci b le  and  co nvenie n t. In this pa p e r,  PEN3 ele c tro n ic n o se u s e d  to test Atra ctylode sam p les of  thre e gro w ing area s,  data analy s is  method  usi n g  LDA al gorith m  ba sed  on  MSD criteri o n to solve th e problem  of small  sa mpl e s,  also  distin gui sh  with three  Atractylode s from  three  different g r o w ing  are a s correctly, and  the  corre c t re cog n ition rate of  all testing sample rea c hes 9 7 .8%, furthe rmo r e, the cla s sificati on  results  clea rly supe rio r  to the use of PCA or PC A +  LD A a l g o r i th m. T h is  pr o v id es  th e  as su ra nc for the quality of Chine s e h e rbal m edi cin e  an effective  way.      Referen ces   [1]    Gardner JW , Bartlett PN. A Br ief Histor y  of Electron ic Nos e Sensors a n d  Actuators B . 199 4; 15(1 8 ):   211- 220.   [2]    Ghasemi-V a rn amkhasti M, Mohtase b i SS.  Meat Qualit Assessment b y  El ectronic N o se.   Sensors .   200 9; 9(8): 605 8-60 83.   [3]    Brezmes J, F r u c tuoso M LL. E v alu a tion  of A n  Electro n ic  Nos e  to Ass e ss F r uit Ri pe ness.  I EEE Sens ors   Journ a l.  20 05;  12 (8): 97 –1 08.     Testing sets  Correctl y   predict ed  Wrongl y  p r edicted  Accuracy  Hebei Atract y l od es  15  15  100%   Anhui Atract y l od es  15  14  93.3%   Zhejiang Atract y l odes  15  15  100%   Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 23 02-4 046   TELKOM NIKA   Vol. 11, No. 2,  Februa ry 2013 :  630 – 636   636 [4]    W ang YW , W ang J. Mon i torin g  Storag e T i me an Qual it y   Attribute of Eg g Base d on E l ectronic N o se .   Analytic a Chi m ica Acta . 200 9; 16(3): 183- 18 8.  [5]    T haler ER, H anso n  CW . M edic a l A ppl icat ions  of El ectronic  Nos e  T e chno log y Expe rt R e vie w  of  Medic a l Dev i ce s . 2005; 2(5): 5 59-5 66.   [6]    Mazzone, PJ.  Analy s is of Volatile Organic  Co mp oun ds in  the Exh a l ed  Breath for the  Diag nosis  of   Lun g Ca ncer.  Journ a l of T hora c ic Oncolo gy . 200 8; 3(7): 774 -780   [7]    Kateb B, Ry a n  MA. Sniffing Ou t Canc er  Using  the JP L  Electron ic N o se: A pil o t stu d y  of a  nov el  appr oach to d e t ection an d diff erenti a tion  of brain ca ncer.  Ne uroi ma ge . 2 0 0 9 ; 7(4): 5-9.  [8]    Szczurek A,  S z eco w k a  PM.  Application  of  Sensor  Array   and Neural Net w orks  for Quantification  of  Organic So lve n t Vapours i n   Air.  Sensors a nd Actuators B . 1999; 8(5): 42 7-43 2.  [9]    Martin MA, Santos JP, Vasq uez H, et al.  Stud y   of the Interferenc es o f   NO and CO in Sol i d Stat e   Commercial S ensors.  Sens or s and Actuator s B . 1999; 8(5) : 469-47 3.  [10]    Martinel li E, Z a mpetti E. De s i gn  and T e st o f  An Electron ic  Nose for M oni toring th e Air  Qualit y i n  th e   Internatio na l Space Statio n.  Micrograv ity Scienc e an d T e chno l og y. 2 007;  19(8):60- 64.   [11]    AZ  Berna, J  La mmert y n  S. El ectronic  Nos e   S y stem s to Study  Shelf Life  and Cu ltivar Effect on T o mato  Aroma Profil e.  Sensors a nd A c tuators B: Chemical . 2 004; 9 ( 7): 324-3 33.   [12]    A Martin ez, A  Kak. PCA  V e rsus  LDA .  IEEE Transact i ons  on Patte rn Analysis  and M a chine  Intelli genc e . 20 01; 23(2): 2 28- 233.   [13]   MP Marti, R Boque O. Electro n ic Nos e s in  th e Qualit y Co ntrol of Alcoh o lic  Bevera ges.  T r ends i n   Analytic al Ch e m istry . 200 5; 2 4 (7): 57-6 6 [14]   F X  Son g , D Z hang JY. Ada p ti ve Classific a ti o n  Algor ithm Ba sed on Ma ximu m Scatter Difference  Discrimi nant C r iterion.  Acta Automa tica Sinica . 2006; 3 2 (4) : 541-5 49.   [15]   Scott SM, James D, Ali Z .  Data ana l y sis for e l ectron ic nose  s y stems.  Microchim i ca Acta . 2 006;  15(6):1 83-2 07.         Evaluation Warning : The document was created with Spire.PDF for Python.