TELKOM NIKA , Vol. 11, No. 12, Decem ber 20 13, pp.  7290 ~72 9 4   e-ISSN: 2087 -278X           7290      Re cei v ed  Jun e  18, 2013; Revi sed  Jul y  1 2 , 2013; Acce pted Augu st 12, 2013     Multidimensio n al Data Mining using a K-mean  Algorithm based on the Forest Management Inventory  of Fujian Province, China      Yanrong Gu o 1 ,   Baog uo Wu* 1 , Yang Liu 2      1 Schoo l of Information Sci enc e and T e chno l o g y  of Beij in g F o restr y  Un ive r sit y , Beij in g 10 008 3, Chi n a   2 Ke y  L abor ator y for Silvic ultur e  and C ons erv a tion of Mi n i stry of Educ atio n, Beiji ng F o restr y  Un iversit y Beiji ng 1 0 0 083 , China   *Corres p o ndi n g  author, e-ma i l w b ao gu o@ yeah.n e     A b st r a ct  T o  deter mi ne r e lati onsh i ps b e t w een stand vo lu me a nd  s i te factors in th e a b senc e of infor m ati o n   abo ut stand a ge an d de nsit y, a classifica tion patte r n  w a s establ ish e d  using  a clus tering a n a l ysis   alg o rith m an d app lie d to Chi na fir in F u ji an  Province . T h e  results show e d  that slope  p o sitio n , elevati on,   elev ation a nd  hu mus d epth  w e re imp o rtan t factors  affecting the stand  volu mes of youn g/i m mature   forests, near- m atur e for e sts, and   matur e /o vermature  f o re sts, respective l y . T he K- mea n  alg o rith m c oul be use d  to eva l uate the i n flue nces of site fact ors on stand volu me und er different stand  age gr oups a n d   dens ity cond itions.     Ke y w ords   da ta min i n g , K-means a l g o rith m, site  factor, forest ma nag e m e n t inventory     Copy right  ©  2013 Un ive r sita s Ah mad  Dah l an . All rig h t s r ese rved .       1. Introduc tion  Fore st re so urce d a ta play i m porta nt role s in forest m anag ement a nd de ci sion  makin g .   Gene rally, the fore st resource  data  mainly con s i s t of nation a l fore st inventory, fore st  manag eme n t inventory  and inve stig ation of fixe d sa mplin g. The s e d a ta co ntrib u te  to  su staina ble fore st manag ement, but ru les fo r hu ge datasets hav e not been d e fined. Existing   data ca nnot  be mined fo r rule s, preve n t ing the pre d i c tion of future trend s. Ra pid and effici ent  data mining h a s be com e  n e ce ssary to e nable forest h a rvestin g Knowle dge i s  mined an d  then analyzed from mul t iple angle s , aiding in deci s ion   sup port, process co ntrol,  and info rmati on ma n agem ent [1]. Beca use of the s e  benefits, dat mining is u s e d  in many ind u strie s . It has been ap plied  to urban resi dential load [2], ecologi ca environ ment  comp en satio n  [3], intelligent desig n sy stems [4], and  forest ry [5]. In fore stry, da ta   mining techni que s ben efit long-te rm fore st manag eme n t.  Chin a fir i s  a n  impo rtant  conifero us pla n ta tion tre e  speci e s i n  Fuji an Provin ce,  whe r e   the cli m ate i s  ari d  a nd  su b - tropi cal.  Chi na fir play s a n  imp o rtant  role b e cau s e i t  is th e mai n  t r ee   spe c ie s for a fforestation,  providin g wo od that ec on omically be n e fits the regi on. We expe ct to  improve  Chi n a fir growth  and effici en cy. The  relati onship s  bet ween  stand v o lume a nd  si te   factors mu st be define d  cl early to ena bl e pro per  man ageme n t. Pre v ious pa pe rs  have re porte d   relation shi p betwe en t r ee  growth  an site  con d ition s  [6 -8], but  these a nalyse s h a ve b een   unidime nsi o n a l.  Ho wever, in the real p r o c e ss of China fir  gro w th, the stand volum e  is affected b y  the  age, den sity and site  con d ition. Determining the  p r odu ctivity level of China  fir is import ant  becau se it p r ovide s  a  ba sis for thi nni ng ma nag em ent. To u nde rstan d  tree g r owth,  re alize   multidimen sio nal data a nal ysis, an d find  out t he rul e s, we int r od u c ed  data min i ng to fore stry  and fo re st m anag ement. I n  this  pap er,  we  so ught  to identify re lationship s  b e twee n sta n d   volume a nd  site facto r s un der  differe nt  stand  ag e a n d  de nsity  con d itions.  The  result s p r ovid more a c curate deci s io n su pport for tree  gro w th evalu a tion in fore st reso urce ma nagem ent.          Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   e-ISSN:  2087 -278X       Multidim ensio nal Data Mini ng usi ng a K-m ean Algorithm  based on  the Fore st… (Yanro ng Gu o )     7291 2.  Materials  and Method 2.1. Data  Col l ection   In this study, plots we re i dentified u s in the forest  manag eme n t inventory of Fujian  Province. Plo t s of China  fir through out  the provin ce  were  sele cte d  u s ing th e f o llowin g   su rvey  data requirements: availability of  data  on the different site condit ions and afforestation times,   con s i s tent st and man age ment measu r es, an d re l a tively little  destructio n  o f  the stand by  human s. Threefold stan da rd deviation  wa s use d   to eliminate ab n o rmal data, a nd 52,920  Ch ina  fir sampl e  plo t s we re chosen for ra ndo m sampli ng a nalysi s . Annu al data for th ese pl ots were  distrib u ted a s  uniformly as  possibl e.  The m a in  su rvey facto r were the  co mpartme n t, subplot,  stand  age,  domin ant tre e   spe c ie s, tre e  sp ecie co mpositio n, a nd  stand  averag e h e ight . The  comp onent s of th e   environ menta l  variabl es were  co ntaine d. The s va riable s  were l andform; ele v ation; slo p e ,   slop e dire ctio n, slope po sit i on; soil type, textur e, and structu r e; hu mus  thickn ess; stand ag e;  manag eme n t measure; hea lth level; site  type; and afforestation time  (195 6–2 006 ).       2.2. Data Min i ng Frame w ork   Figure 1 d e p i cts the  de si gn of the a s se ssm ent sy stem, incl udi ng data mi ni ng. The  asse ssm ent pro c e ss wa s divided  into  t he  followi ng st ep s: (i) d a ta pre paration ,  (ii) clu s teri n g   analysi s  fo data mini ng,  and  (iii) cate gori z ation  of  volume a nd  site  con d ition s  fo r differen t   stand a g e s  a nd den sitie s         Figure 1.   Flow Ch art of Ch ina Fir Data Mining       2.3. Data Pre p aratio n   2.3.1. Data  Cleaning   The data  cont ained  some o u tliers, noi se,  and mi ssing  or incon s iste nt values. In su ch  ca se s, we re placed data p o ints with me an  value s  of the co rrespon ding varia b le s.    2.3.2. Data T r ansformatio n   In this stud y, data tran sform a tion  consi s ted of  gene rali zati on and  normalize d   pro c e ssi ng.  Gene rali zatio n  processin g  repl aced  th e lo wer level s  of  data  obj ects with  mo re   abstract  con c epts. Stan d a ge  wa s d e fin ed a s  yo ung   gro w th, mid d l e -ag e d  fore st , nea r-m ature  forest a nd m a ture. In no rmalize d  processing,  attrib ute data were proj ecte d p r opo rtion a lly onto  a sp ecifi c  sm all scale. T h is pro c e s s was use d  in  data  mining to  eli m inate d e viations  amon g t he  different  attribute d a ta. T he di men s ion s  of  the  attributes were n o t co nsi s tent  or compa r a b le .   The stan da rd ization meth o d  wa s applie d to solve  the  proble m  of non-u n ified di mensi o n s  in all  indicators an d then com p a r ed with the a s sessme nt index:    H ij  =  H ij  H ijm i n   H ij m a x   H ij m i n                                          ( 1 )   Evaluation Warning : The document was created with Spire.PDF for Python.
                               e-ISSN: 2 087-278X   TELKOM NIKA  Vol. 11, No . 12, Dece mb er 201 3:  729 0 – 7294   7292 Whe r H ij   is the stan da rdization value,  H ij  is the ob served value,  H ijm ax  is the maximu m   of all obse r ve d values, an d   H ijm in  is the minimum of all observed val ues.     2.3.3. Data  Reduc tion   Much tim e  is wa sted o n  the an alysi s   of  large  and  compl e x data s ets. T o  avoi d this  probl em, d a ta redu ction   method s m u st be  re searche d . Compl e x data s ets  contai ning  so me  correl ation  ca n be redu ce d  to a few indi cators that  ful l y reflect the  origin al information an d a r e   indep ende nt of one anoth e r. In other  words, thi s   techn o logy can  maintain the  integrity of the   dataset while  allowin g  effici ent data mi ni ng and imp r o v ing the quali t y of results.   Extensive re search ha s be en perfo rme d  on e fficient algorith m s th at can man a ge high  dimen s ion a lity [9-12]. High-dime nsi onal  data are o fte n transfo rme d  into lower-d i mensi onal d a ta   by princi pal compon ent de comp ositio n [13]. Principal  compo nent analysi s  wa s used for dat a   redu ction in t h is stu d y.    2.4. Cluste r Algorithms   The dista n ce  measu r was u s ed to  comp ute clu s ter  similarity  for most cl usteri ng  algorith m s. In  data mining, clu s terin g  is  a disc overy p r ocess that g r oup s o r  com partme n talize s   a dataset to maximize intra-cl uste r and  minimize  int e r-clu s ter  sim ilarity. In cluster analysi s , the   K-mean al go rithm is one of  the most efficient an d wid e ly used met hod s in pra c ti ce [13, 14].  The K - mea n  algo rithm  is initialized f r om  some  ra ndom  or a p p r oximate  sol u tion, a s   follows [15, 16]: (i) K obj ects  are  sel e cted rand oml y  as initial cl uster  ce nters from n data   obje c ts, (ii) th e distan ce of each obje c t from the  mean  of each clu s tering o b ject (clu ster center)  was calculat ed and a  new  partition i s  created  usi n g the mini m u m distance, (iii) new  cluster   cente r are  computed, a n d  (iv) ste p (ii) and  ( iii) a r e iterated u n til no ch ang e occurs in a n y   clu s t e r.   The  spe c ifics of the K-m e ans  algo rithm  ar e  de scrib e d  belo w . Ea ch re petition a ssi gn each point to  its nea re st cl uster, a nd p o i n ts bel ongin g  to the sam e  clu s ter a r e th en average d to  derive   ne w cl uster cente r s.   Each repetiti on su cces siv e ly improves  the cl us te ce nters u n til the y   become sta b l e  [10, 13]. The algorith m  u s e s  the equ ation:    2 1 i K i iP C Ep m                                                 ( 2 )     Whe r E  i s  the sum of squared e r rors for all  obje c ts in th e dat aba se,  p  i s  the dat a   matrix, and  m i   is the cent roi d  of cluste C i . In the K-mean method, th e k clu s te r must be kept a s   c o mpa c t as  po ss ib le  in  the in te r i or  o f  the  c l us te r, a n d  clu s ters mu st be ke pt as d i stant from  on anothe r as p o ssi ble.       3. Results of Expression  and Visualization   3.1. Dete rmination of Site Factors   The p r in cipal  com pon ent  decompo sitio n  metho d  wa s u s ed  for  d a ta re du ction  in this  study.  Th e eigenvalue s of  the eight main co m pone nts excee d e d  1, and the accu mulativ e   contri bution  rate rea c he 86.17% (T abl e 1). The  ma in comp one nts we re la ndf orm, elevatio n,  slop e, slop e positio n, exposu r e, soil  type, humu s  de pth, and soil t h ickne s s.      Table 1. Statistics of the Main Com pon e n ts  Main component   Eigenvalue  Contribution r a te   Accumulative co ntribution rate   1 2.98275402   18.64   18.64   2 2.35229036   14.70   33.34   3 2.11518018   13.22   46.56   4 1.88209686   11.76   58.33   5 1.63179546   10.20   68.53   6 1.23453778   7.72  76.24   1.02892308   1.00982300   6.43  3.50  82.67   86.17     Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   e-ISSN:  2087 -278X       Multidim ensio nal Data Mini ng usi ng a K-m ean Algorithm  based on  the Fore st… (Yanro ng Gu o )     7293 3.2. Classific a tion Dete rmination   Acco rdi ng to importa nt level, the orders in  which the  eight main compon ents a ffected  stand  volume  we re:  slop positio n, sl op e, expo sure,  soil thi c kne ss, elevation, h u mus de pth,  soil type, an d landfo r m fo r young fo re sts; elevati on,  slop e po sitio n , soil thi c kn ess, expo sure,  humu s  d epth ,  slop e p o siti on, lan d form,  and  soil typ e  for i mmatu re timb er; el evation, hum us  depth,  soil  thickne ss,  soil  t y pe, landfo r m ,  slop po sition, expo su re,  and   slope  fo r n ear-matu r e   forest s; an humu s  d epth ,  elevation, soil thickn e s s, slop e p o sitio n , soil type, l andform, slo pe,   and expo su re  for mature a nd overm a ture forest s (T a b le 2).       Table 2. Cate gori z ed  Re sul t s of Relation ship s bet wee n  Site Factors and Volu me  for Different  Ages an d De nsitie Age  groups   Densit (tree · ha - 1 Landform  Elevation   Slope  Slope  position  Exposure   Soil  ty p e   Humus  depth   Soil  thickness  Y oun forest  1000- 4500   — -0.025   -0.073   -0.076   -0.049   -0.005   0.013   0.037   Immature  timber  600- 4200   -0.068  -0.257   -0.069   -0.241   -0.158   -0.029   0.076   0.237   Near- mature  forest  450- 3600   -0.169  -0.345   -0.010   -0.100   -0.097   -0.222   0.317   0.249   Mature/   overmature  forest  450- 3300   -0.185  -0.419   -0.144   -0.230   -0.123   -0.189   0.505   0.390       4. Discussio n  and concl u sion   Stand den sit y  was  neg atively correlat ed with  fo re st illumination  and temp erature in   forest s of different de nsitie s, but tree growth  was p o sitively asso ci ated with the s e compo nen ts.   Becau s e th den sities  of young fo re sts  and imm a ture  timber  were  high, growth  of Chin a fir was  limited mainl y  by illuminat ion and temperature. Co nsistent with t h is  situation,  exposure and  slop e po sitio n  impa cted f o re st illumin a t ion and  phot osynthe s i s , there b y affecti ng tre e  growt h Although  gen tle slop es (<25°) were  co ndu cive to  China fir  growth [17], sam p le plot with  slop es  >25 °  accou n ted fo r 83.23% of  young fore st s. Thus, slo p e  may be a key factor in the  stand volum e  of young fore st.  The density of  immature timber was  suffici ently high and then  result  in  illumi nation  affected the t r ee g r o w th. T he illumin a tio n  of uppe sl ope s was a d equate,  whi c h pro m ote the   tree g r o w th  (Tabl e 2). Sl ope p o sition  wa s a  key  factor influ e n cin g  the  stand volum e   of  immature timber.   The  den sitie s  of  ne ar-ma t ure, matu re,  and  ove r ma ture fo re sts  were  relativel y  low.  Such sta n d s  sho u ld have  adeq uate illu mination an d  abunda nt sh rub s , herb s , and fore st litter.  The  soil  co nd ition is t he m o st imp o rta n dire ct fa cto r   b e ca use  soil t h ickne s s influ ences the  roo t   sy st em  ca pa cit y  and  f e rt ili zer  ab so rpt i o n .  Thu s ,  s o il t h ic kne s wa s  a  key  f a ct or  inf l uen cing t h stand volum e s of nea r-mat ure, matu re, and overmatu re fore sts.   The elevatio ns of youn g forest s, i mmature tim ber, nea r-m ature fore st s, and  mature/ove rmature  fore st were 1 40– 990 m,  108 1225  m, 15 0 –111 5 m, a n d  15 0–12 25  m,  respe c tively. There a r sig n ificant  differences in  th stand  volume  amon g the  fore st types f o four age g r o u p s (T able 2 ) . Thus, a n  elevation had a la rge imp a ct on  the growth of  China fir.   In this study,  because all  plots  were in  low an d mid d le mou n tain  area s, lan d form did   not signifi can t ly influence tree g r o w th. If the study  plots had b een  in different a r ea s, su ch  a s   hills  and l o w,  middle,  and  high  mou n ta in area s,  the  re sults woul d have  differed. In lo an middle m ount ain a r ea s, pl ant re sid u e s   decompo se d rapidly und er  mild conditio n s,  p r od uci n g   loose an d fert ile soil. Th ese are a had  greate r  a nnu al rainfall s, which  enh ance d  tree g r o w th . In  high m ountai n area s, tre e   gro w th  wa s i nhibited  by lo wer temp erat ure s  a nd  hig her  evapo rati on   rates.   In con c lu sion , under  different stan d ag e gro u p s  an d  den sity cond itions, sta nd  volume   wa s influen ce d by the different com pone nts of si te factor for the yo ung, immatu re, near-matu r and matu re/o vermature forests of China  fir. Giv en the relation ship s betwee n  sta nd volume an d   basi c  tree fa ctors, su ch a s  diamet er, tree heig h t, crown  width, a nd bra n ch he ight, we sh ou ld  Evaluation Warning : The document was created with Spire.PDF for Python.
                               e-ISSN: 2 087-278X   TELKOM NIKA  Vol. 11, No . 12, Dece mb er 201 3:  729 0 – 7294   7294 con s id er th at  site fa ctors al so  affected  th ese  ba si c fact ors.  To fu rthe r evalu a te the  influen ce s of   site facto r o n  tree h e ight  and dia m et er un der th e  same  age  grou ps  but d i fferent den si ty  con d ition s , stand de nsity should b e  divided into mo re  classe s.       Ackn o w l e dg ement  This stu d y was supp orted  by the national  natural scien c e foun d a tion-fun ded  proje c (No. 31170513) and  the  national high tec h nology res e arc h   and development program (863  prog ram )  (2 0 12AA102 003 ).      Referen ces   [1]  PN T an, Steinbach M, Kumar V. In troduction  to data mini ng.  W P  Co. 2006.  [2]  Y He, Y W ang,  T  Luo, A He, J W ang. Urba n  Resi d entia l Lo ad Com b in ed  F o recast Mode l Based  on   Data Mi ni ng T e chn i qu es  and  Pan e Data T heor y.  J ourn a l  of Co mputati ona l Inform ation System s 201 0; 6(6): 180 1-18 08.     [3]  JQ Xi an g. Res earch  on  min i n g  d e vel opm ent  in  yu n nan  u n d e r ec olo g ica l  e n viro nment c o mpens ation.   T E LKOMNIKA Indon esi an Jou r nal of Electric al Eng i ne eri n g .  2013; 1 1 (5): 2 853- 285 9.   [4]  T  Jing, Y Yuan. Intelli ge nt desig n s y ste m  of  mechan i c al pro ducts  base d  on  dat a mini ng a nd  kno w l e d ge ba sed eng in eeri n g.  Jour nal  of  T heoretic al  an d Ap pli ed I n fo rmati on T e chn o lo gy . 20 12;   46(1): 23 7-2 4 4 .   [5]  CP Ch en, BG  W u , YG Jia , D D  Lu.  A Stud on A ppl yi n g  T e chni ques  of D a ta Mini ng  in  F o rest in F r om   Ati o n  Ma na geme n t.  He Bei J ourn a l of F o res t ry and Orchar d Rese arch . 20 04; 19(2): 1 49- 153.   [6]  JC Lu. Affection of terrain fac t ors on gro w th  of  Plantation  Chin ese fir in  hig h  altitud e  mounta i ns i n   eastern F u j i an  Provinc e Jour nal of F u ji an F o restry Scienc e and T e ch no l ogy . 200 6; 33( 2): 120-1 28.   [7]  J Hua ng, W  M i n, CC  Ca i, S H  Lu. Effects  of di ffere nt  de nsities on  t he cunn ing ham ia lanc eol ata  i n   middl e ag e.  Ap plicati on of Sta t istics and Man age ment . 200 6 ;  25(1): 111-1 1 6 [8]  JH Men g . Buil din g  forestr y  d a ta  w a r eho use  fo r forest man agem ent e n ter p rise  and th eir  app licati o n   PhD diss ertatio n .Chi na: Beij in g F o restr y  U n iv ersit y , Bei j i ng. 201 1.  [9]  CC Ag gar w a l,  PS Yu. F i ndi ng  gen era lize d  proj ected  cl u s ters in  hi gh  dime nsio nal  s paces. A C M.  200 0.  [10]  Hinn e b u rg, K e i m  DA. Optima l  gri d -cluster ing :  T o w a rds  br ea king  the  curse   of dim ensi o n a li t y  i n   hi gh- dime nsio nal cl usterin g . Cites eer. 199 9.  [11]  C Ordonez. Cl usterin g  bin a r y  data streams w i t h  K-means.  In, Proceedi ng s of the 8th ACM SIGMOD   w o rksh op on R e searc h  issues  in data min i n g  and kn o w l e d g e  discover y . 20 0 3 ; 12-19.   [12]  H W e i, XJ Li, Y Guan, et  al. On the model  checki ng of th e space w i r e l i n k  interface.  TELKOMNIKA  Indon esi an Jou r nal of Electric al Eng i ne eri n g .  2013; 1 1 (2): 7 40-7 46.   [13]  C Ding,  X He.  K-means cl usterin g  via pri n ci pal  com pon ent  anal ys is. In, Procee din g s of the t w ent y- first internatio n a l confer enc e on Mach ine l e a r nin g . ACM. 2004.   [14]  JA Hartiga n , MA W ong. Algori t hm  AS 136: A k-means clust e rin g  alg o rithm .   Applie d statistics . 1979;   100- 108.   [15]  AK Jain, Dub e s  RC. Algorith m s for clus terin g  data. Prentic e-Hal l , Inc. 198 8.  [16]  AK  Jain. Data clusteri ng:  5 0  ye ars  b e y o nd K-means.  Pattern Recogni tion Letters 201 0 ;  31(8): 6 51- 666.   [17]  HB Z hang. F u ji an F o rest. Be iji ng: Chi na F o re str y  Press.19 9 3 Evaluation Warning : The document was created with Spire.PDF for Python.