TELKOM NIKA , Vol.12, No .2, June 20 14 , pp. 511~5 1 8   ISSN: 1693-6 930,  accredited  A  by DIKTI, De cree No: 58/DIK T I/Kep/2013   DOI :  10.12928/TELKOMNIKA.v12i2.2036    511      Re cei v ed Fe brua ry 26, 20 14; Re vised  Ap ril 28, 201 4; Acce pted  May 15, 20 14   A Decision Tree Based  on Spatial Relationships for  Predicting Hotspots in Peatlan d s        Imas Sukaes ih Sitanggan g * 1 , Razali Yaakob 2 , Norw ati Mustapha 3 , Ainuddin A. N. 4   Department o f  Computer Sci ence, F a cult y o f  Natu ral Scie n c e and Math e m atics, Bogor  Agricult ural  Univers i t y , Ind ones ia   2,3  F a cult y  of C o mputer Sci e n c e and Inform a t ion T e c hnol og y, Univ ersiti Pu tra Mala ysi a , Mala ysi a   Institute of  T r opic a l F o restr y  and  F o rest Products (INT ROP), Universiti P u tra Mala ys ia, Mala ysi a   *Corres p o ndi n g  author, e-ma i l : imas.sitang g ang @ip b .ac.id 1 , razali y@fsktm.upm.edu.m y 2 nor w a t i @fsktm.upm.edu.m y 3 , ain udd in@f orr.upm.ed u .m y 4       A b st r a ct     Predicti ng h o tspot occurre nc e as an ind i cat o r of fo rest and lan d  fires is essenti a l in d e v elo p in an ear ly warning system  for fire prev ention.  This work  applied  a spatial decision  tree algorithm  on spatial  data of forest fi res. T he alg o rit h m is th e i m pr ove m e n t of the conventi o n a decisi on tre e  a l gorit hm  in w h i c the d i stance  a nd to pol og ical  relati ons hips   are i n cl ude d t o  grow  u p  s p atial  dec isio n t r ees. Sp atial  d a ta  consiste d of a target layer  an d t en exp l an atory layers re pr esenti ng p h ysi cal, w eather, socio- econ o m ic  an d   peatl a n d  ch ara c teristics i n  th e  study  are a  R o kan  Hil ir  D i stri ct, Indon esia.  T a rget o b j e cts  w e re hots pots  of  200 8 a n d  no n- hotspot  poi nts.  T he r e su lt w a s a  pru n e d  s patia l d e cisi on  tree w i th  122  leav es  and  th e   accuracy  of 7 1 . 66%.  T h e sp atial tr ee  has  p r oduc ed  hi gher  accur a cy tha n  the  non-s pati a l trees th at w e r e   created  usin g the ID3 an C4.5 al gorit h m . T he ID3  dec ision tre e  ha d  accuracy of  49.02 % w h ile  the  accuracy of C4 .5 decisi on tree  reache d   65.2 4 % .      Ke y w ords : sp atial d e cisi on tree al gorith m , s patia l rela ti ons hip, hotsp ot, forest fires, peatl and       1. Introduc tion  Predi cting ho tspots  occu rrence is  con s i dere d  a s  one  of activities for fire p r eve n t ion in   orde r to red u ce d a mag e s  be cau s e of  f o r e s t   a n d   la n d   f i r e s .   Hotspot s (a ctive fires) indicate  spatial di strib u tion of forest and land fires.   Hotspots occurren ce  model s have  been devel op ed  in seve ral stu d ies u s in g ge ogra phi cal inf o rmatio n syst ems a nd re m o te sen s in g tech nolo g ies.   In   addition,  data  mining  a s  o ne of  growin g  areas in  co mputer scie n c ha s b een   applie d to  sp atial  forest fire s da tasets to obta i n cla ssifi cati on model s for hotspot s occurren ce.   De cisi on tree  is a famous  method for  cl assi ficatio n  tasks a nd it has be en appl ied to a  broa d ra nge  of application s . Some of deci s ion tre e  a l gorithm s are  ID3, C4.5 as a succe s so r of  ID3, and CA RT (Cla ssifi cation and Re gre ssi on Tre e ). The s e alg o rithm s  are d e sig ned for n on- spatial  data s ets.  T he  different  bet wee n  spatial  and  non -spatial  deci s io n d a ta  is th at in  th spatial d a ta, an obje c t ma y have a sig n ificant influe nce o n  neigh borin g obje c t s .  Therefo r e ,   improvem ent  of the n o n - spatial  de cisi on tre e   al gorithm ha s b e en d one  by  involving spa t ial  relation shi p betwe en two  spatial o b je cts.         Several  studi es h a ve be e n  co ndu cted   on s patial d e c isi on tree al gorithm s. Th e sp atial  deci s io n tree  algorithm  was introdu ce d  in [1]  base d  on the ID3  algorith m  involving the sp atial  relation shi p   Dista n ce. Th e spatial  bina ry tree al g o rit h m wa s p r op ose d  in [2] that works on t he  dataset conta i ning p o int, li ne, and  polyg on featu r e s .   An extensi o n  of the  CART  method,  call ed  the SCART (Spatial Cla ssi fication an d Reg r e ssi on T r ee s), was d e v eloped in [3] .   In the SCART,   topologi cal a nd  di stan ce relation ship s are used  to  t e st  whethe r a  pre d ictive att r ibute  belo n g s  to  the nei ghbo table. The  S C ART  was a pplied  to an a l yze traffic ri sk u s in g a c cid ent informati o n   and the m ati c  info rmatio n abo ut ro a d  netwo rks, popul ation  cen s u s , buil d ing s , and  other  geog rap h ic n e ighb orh ood   details [3].   A spatial  de cision  tree  ba sed  on  the I D algo rithm  that  works on pol ygon feature s  wa s intro d u ce d in [4].  The algo rith m was a ppli ed to cla ssif y  the  averag e (p er  farm) ma rket value of sold  agri c ul tu ral produ cts ba se d  on c limate, the distri butio of the princip a l aquifers, crop s cultivate d , and  the numbe r of cattle and calve s  per are a .  The  spatial e n trop y-based de ci sion tree met hod was p r op os e d  in [5] which u s e s  the  spatial relati on   Dista n ce to relate poi nt an d polygo n  fea t ures.  T he al gorithm  wa use d  to cl assify gross valu es  of agricultural  output [5] and the air pollu tion index in main citie s  in Chin a [6].  A  new formula for  Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 2, June 20 14:  511 – 51 8   512 spatial i n form ation gai n wa s p r op ose d  i n  [7] by  incl u d ing  spatial  a u toco rrelation  (nei ghbo rh o o d   split a u tocorrelation  ratio )  The  alg o rith m was ap plie d to th ra ste r  format that  i s   rep r e s ente d  in  a set of pixels.  This work de veloped a cl assifier for predict in g hotspots occu rre n ce u s ing th e spatial   cla ssifi cation  algorith m  n a mely the spatial de ci sio n  tree  algo rithm [8]. The  algorith m  is an   extensio n of t he  covention a l ID3  algo rithm [9]. The  n e w al go rithm  prop osed i n  [8]  ca work  on   spatial d a tasets co ntainin g  point, line a nd polygo n   feature s  as  rep r esentation s   of spatial obj ects.     The form ula  of entropy an d informatio n gain in t he ID3 algorith m  were mo dified  by involving two  types of spati a l relation shi p s nam ely metric an d t opo logical to rela te two spatial  object s  [8].   The  spatial  data s et used i n  thi s   work contai ns fo re s t  an d la n d  fir e s  data  fo r  the   s t ud y a r ea   R o ka n   Hilir  distri ct i n  Ria u  Province  Indon esi a .  In  ad dition to p h ysi c al, so cio - e c o nomic,  we athe cha r a c teri stics of the stud y area [8], th is wo rk  in clu des p eatland  types and p eatland de pth to   predi ct fire s o c curren ce in  peatlan d s.     A peatland fire is cla ssifie d  as a gro u n d   fire because the fire burn peat soil in side the   peatlan d s an d we  can  onl y see  smo k visible  on th e  su rfa c e.   Th erefo r e, p eatl and fires a r not  easy to handl e comp ared to the fires in non-peatla nd [10,11].  A  study in [12] report s  that Ri au   is on e of province s in S u matra th at has  high  d e f o re station b e cau s of forest fire s.  Ri au  provin ce had   about 4.044   million  h e ct are s  (56. 19   %) of pe atla nd in  200 and it m ade  the  provin ce a s  the larg est area of peatlan d  in Su matera Island an d Kalimantan Islan d .  For that,  influen cing fa ctors for fire e v ents in peatl and s are  con s ide r ed in thi s  study.       2. Rese arch  Metho d   2.1. Stud y  Area and For e s t Fires  Data   This  work d e v eloped the  predi ction m o del for  hot sp ots o c curren ce based o n  the fore st  fires dataset for the  study  area  Roka Hilir di stri ct in Riau P r ovince  in Indonesia.  Rokan Hilir  is  locate d in the  area  betwee n   100° 16'  - 1 01°2 1' Ea st Longitud e  and  1°14'  - 2° 30'  North  Latitud e.    It covers a n  a r ea of 8,881. 59 km 2  or a b out 10 perce n t  of Riau’s total land area [13].     The sp atial fore st fires d a ta includ e p h ys ical, soci o - econo mic, weather a nd p eatland  cha r a c teri stics of th e stu d y are a  that m a y influenc e fo rest  and  lan d  fire eve n ts.  The d a ta a n d  its  sou r ce are provided in Tab l e 1.      Table 1. Data  and its so urce  Data  Source  Spread and coo r dinates of hotspo t s 2008 (for cr eat ing models  for hotspots occurrence p r ediction)  FIRMS M O DIS F i re/Hotspot, NAS A /University   of Mar y lan d     Spread and coo r dinates of hotspo t s 2010 (for m o d e evaluation)   FIRMS M O DIS F i re/Hotspot, NAS A /University   of Mar y lan d     Weather data  20 08 (in the Net C D F  format ): ma ximum daily  temperatu r e, daily rainfall, and sp eed of  w i nd   Meteorological Climatological and   Geoph ysical Agency (BMK G)    Digital maps for r oad, rivers,  cit y  centers, land cover, and  administrative border    National Coordin a ting Agenc y  fo Surve y  and  Mapping (BAKOSURTANAL   Digital maps for peatland depth a nd peat land t y pe s   Wetland Internati onal   Inhabitant’s income source   BPS-Statistics In donesia       2.2. Spatial Relationship, Spatial En trop y  and Spatial Informati on Gain   Spatial data s ets fo cla ssif i cation  tasks  ar co mpo s e d  by  some  e x planatory l a yers and   one target la yer.  Each l a yer re pre s e n ts a set  of  spatial o b je cts whi c h i s  chara c te rized  by  several spati a l and  non -spatial attribut es.  On e of  n on-spatial  attributes i n  an  explanato r y layer  is the  explan atory attrib ute that ide n tifies  obje c ts  i n  the laye r.   The ta rget la yer ha a target   attribute that store s   class l abel s of the target obj ect s .       All obje c ts i n  a laye have  a p a rti c ula r   geomet ry type that m a y b e  eithe r  p o int ,  line o r   polygon.  The geometry type of object s  is pre s e n te d in a spatia l attribute of  the layer.  For  instan ce, in t h is  study the  road l a yer re pre s ent s a ro ad network in  which ea ch  road segm ent  has   the geometry  type of line.   Other layers in t he dataset are the land cove r layer and the ta rget   layer.  Spatial  obje c ts i n  th e land  cover l a yer  a r poly gon featu r e s ,  whe r e a obj ects in the ta rget  layer are poin t  features indi cating h o tsp o t s and no n-h o t spots.    Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  1693-6 930       A Deci sion T r ee Based on  Spatial Relati onships  for Predi cting .... (Im a s Sukaesi h  Sitanggang)  513 Relatio n  bet wee n  spatial  obje c ts of t w o diffe rent  layers i s  essential in  spat ial data   mining sy ste m s.  In our  study, for example, hot sp ots occu rren ce in the target layer ma y be  influen ced by  the existence of road s b e ca us e roa d s open a c cess for human t o  enter a forest   and th eir  acti vities may tri gger forest fi re ev e n ts.   More over, dif f erent la nd  cover type s m a provide  different risk level s  of fire s occurren ce.   For  inst an ce,  f i re s ar e mo re li kely  t a ke  pla c e in   plantation a r e a s than tho s e  are in settlement are a s b e ca use farme r s may u s e fires to ope n n e plantation s .   Spatial relati onship s  allo w us to in cl ude relation s betwee n  two spatial o b j e cts in a  dataset for a  cla ssifi catio n  task.  The s relation shi p can  be to pologi cal  su ch as  meet a n d   overlap, a s  well as metri c , for example d i stan ce.   In spatial databa se s, a layer is rep r e s ente d  as  a rel a tion a n d  applyin g  a  spatial  rel a tion bet wee n  two laye rs  results  a ne w relation. T he  st ru ct ur e S p a t ial Join I n de x  (S JI wa s in t r odu ced  in  [1 4] to impleme n t spatial  rel a tionshi ps i n  the   relation al d a taba se frame w ork.   The  SJI is a  ne rel a tion a s  th result  of join  in dex bet wee n   two   relation s that  consi s ts of i ndices pai rs each refe ren c ing a tuple  of each rel a tion.  The pairs of  indices refer t o  obje c ts that  meet the join criteri on.    The co ncept of SJI was a dopted in ou r previou s  wo rk [8]. The work in [8] co mputed   quantitative v a lue s  resulte d  from  topol ogical a nd m e tric rel a tion ships.   A top o logical relatio n   betwe en two  spatial o b je cts is  cal c ulat ed by pe rf orming the ove r lap o peratio n.  In additio n  to   topologi cal  re lationship s , the al gorith m   involves  m e tric rel a tion ship n a mely d i stan ce f r om  a   spatial  obje c t  to an other spatial o b ject.   Fo r exampl e ,  applying  th e spatial  rela tionshi ov er la p   on two p o lyg ons result a n  ove r lappi n g  a r ea  with   a certai n ext ent.  Mo reov er,  we m a also   cou n t how m any hotsp ot points in  a certain p o lygo n or calculat e distan ce  b e twee n hotspot  points to  a n eare s river segment.   We  den ote th ese qu antitative value s , i.e.  area,  count  a n d   distan ce, a s   spatial  mea s ure s  of  spatia l relatio n shi p s betwe en t w o  obje c ts.  In stead of  usin g t h e   SJI, our  work propo se what we  ca lled  Spatial Joi n  Relation  (S JR),   as the  re sult of  a  sp atial  relation  b e tween t w o  laye rs [8].  T he  SJR contain s  sp atial  obje c ts fro m  the  t w o l a yers  an d its  asso ciated  sp atial measure s .  The SJR o f  a new layer  R is defin ed a s  follows [8]:    SJR  = {(p, Sp atMes(r), q |  p in layer L i ,   q in layer L j , and   r is a featu r e in R a s soci ated to  p and q}.   (1)     The spatial measure  of a  layer R,  S patMes(r) , is  use d  in the  spatial entrop y  formula  whi c h repla c es the n u mb er of tuple s  i n  a par tition  in the non -spatial entrop y  formula.  The   spatial  entro py is d e fined  as follows [ 8 ]. Let t he ta rget attri bute  C in  the ta rget layer S h a l   dist in ct  cla s s e s (i. e .  c 1 , c 2 , …, c l ), entro py for S represe n ts the ex pecte d inform ation nee ded  to  determi ne the  class of tuple s   in the data s et and define d  as    SpatMes(S) ) SpatMes(S log SpatMes(S) ) SpatMes(S H(S) i i c l 1 i 2 c      (2)     SpatMes(S)  rep r e s ent s the spatial m e asu r e of  lay e r S that may be either area, count  or  distan ce.   The spatial d e ci sion tre e  a l gorithm p a rtitions  o b je cts i n  the target l a yer S based  on the   explanato r y (non-ta rg et) la yer L. This  step re sult s a n e w layer  L(v j , S) for each possibl e valu e v j   in L.  Each new layer is a s sociate d  to a new pa rt ition.   The expe cted  entropy value for splitting is  defined a s  fol l ows:    S)) , L(v H( SpatMes(S) S)) , v SpatMes(L( L) | H(S j q 1 j j , (3)    Spatial inform ation gain for  the layer L  is  given by the followin g  form ula.    Gain ( L ) =  H ( S   H ( S | L ) ( 4   whe r H ( S ) a nd  H ( S | L ) are given in Equation 2 an d Equation  3 re spe c tively.  The layer L wi th  the highe st in formation g a i n Gain ( L ), is  sele cted a s  the splitting la yer to partitio n  the dataset.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 2, June 20 14:  511 – 51 8   514 2.3. Spatial ID3 Algo rith The ID3 de ci sion tre e  alg o rithm was d e velope d by J. Ro ss Q u i n lan du ring t he late   1970 s an d ea rly 1980 s.  This algo rithm h a s the pri n ci p l e that it builds the tree in  gree dy mann er  starting  fro m   the root, an sele cting  mo st info rmat ive  features at e a ch  st e p  [15].   Th e al gorith m   use s  inform ation gain t o  sele ct the  best f eature at each  step for  spli tting a dataset.    Furthe rmo r e,  the ID3 alg o r ithm is  desi gned fo r n o n - sp atial data s ets in  wh ich  the input of the  algorith m  i s   a rel a tion  co ntaining  so m e  obj ect s   of intere st.    All obje c ts are   chara c te rized by  several featu r es.   One  of t he featu r e s  i s  a ta rget  fe ature  that  con s i s ts  of  class la bels of o b je cts,  whereas other features are expl anatory features that will be us ed to cl assif y  an object to a  certai n cla s s label.    The ID3  algo rithm has  bee n improve d  in  [4] such th at the algo rithm  can b e  ap plie d on a  spatial d a taset containi ng  polygon feat ure s .  On  th e other h and , spatial data s ets m a y involve  not only poly gon featu r e s   but also poi nt and lin e feat ure s .  The r ef ore in  ou r previous  wo rk [ 8 ],  we exten ded  the ID3 alg o r ithm ba se d on several  a ppro a che s  in  [4] so that the ne w alg o rithm  can  wo rk on  point, line  and p o lygon  feature s .   Our  pro p o s e d  algo rithm  use s  the  sp atial   informatio n gain provide d  in Equation 4 to se le ct the best splitting laye r from a set  of  explanato r y layers.     Cre a ting  a sp atial de cisi on  tree u s in g th e sp atial de ci sion t r ee  alg o rithm [8] foll ows the  basi c  lea r ni n g  pro c e s s in t he algo rithm I D 3 [9].   The  algorith m  wo rks  on spatial  data sto r ed i n   a   spatial d a tab a se. Befo re  the algo rithm  is ex ecuted , the databa se  contain s   only a set o f   explanato r y layers  and o n e  target laye r. When t he al gorithm  wo rks on the d a ta base, som e  n e layers  are  produ ced a s  th e re sult of sp atial relatio n s betwe en two  distin ct layers.  The s e n e w   layers  are  cre a ted from exi s ting expla n a t ory layers, a nd the value  v j  of predictiv e attribute in  the  best splitting  layer.   The   value  v j  i s  a  selectio crite r ion in  the  qu ery to  rel a te  an expl anato r layer a nd the  best l a yer.   Each  ne w lay e r i s  a s soci ated with  a  set  of tuples that  relate  obje c ts in  a layer to o b j e cts i n  an oth e r laye r.  Thi s  work  con s i ders  this set of  tuples as a  small e r sp atial  dataset if on e of two  relat ed laye rs is t he ta rget  layer.  Eac h  tuple in the datas e t has a  s p atial  measure whi c h is st ore d  in the Spatial Join  Rela tion  (SJR). Inputs of t he spati a l ID3 algo rithm   are a spatial  dataset, a set of explanatory layers , a  target layer and a SJR.  Output of the  algorith m  is a  spatial d e ci si on tree.  Th e tree ha the  same st ru cture  as that of th e cla ssi cal  on in whi c h  the t r ee  co nsi s ts  of a ro ot no d e , intern al no des  and  leav e nod es.   Th e ro ot nod e a nd  internal n ode s have the b e st splitting l a yers a s   its l abel s. Mean while, the lab e ls of leave n ode s   are ta rget  cla s ses  of the target laye r.   Ther e a r so me edg es ou tgoing fro m  the ro ot nod and   internal n ode s.  The label  of each e dge  is one of  po ssible valu es i n  the best spl i tting layer.    2.4. Tree Pru n ing  Overfitting i s   one  of issu es that may  be  encount e r ed   whe n  a  de ci sion tre e  al go rithm is  applie d on  real data s et s. In this situ ation,  as th e de cisio n  tree b e come  too larg e, the   gene rali zatio n  error of de cisi on tree  starts to in cre a s e while its resu bstitution  error continu e s to   d e c r e as e [1 6].  R e s u bs titutio n  er r o r s  are  mis c l as sification e r rors  on the  trai nin g  set, wh ere a gene rali zatio n   erro rs are miscl assification  e rro rs  on   the testing  se t.  Leaves i n   large  tree s m a reflect n o ises or outlie rs th at can in crea se ge ne raliza t ion errors when the tre e  is appli ed on t h e   testing  set.  One of meth ods to ove r come overfi ttin g  is po st-p ru ning in  whi c h  the tree is f u lly  gro w at first, and th en  al l su btree s   of the tr ee at   given n ode are  prune d b y  removin g  it bran ch es a n d  repla c ing it with a leaf [17].  The new  leaf is labele d  with the ma jority class in  the   subtree.       3. Results a nd Discu ssi on  3.1. Spatial Decision Tr e e  for Ho tsp o t s Predic tion   Applying the  spatial ID3 al gorithm o n  th e fore st fires  dataset re su lt s a spatial d e ci sion  tree  whi c h  ha s 2 10 l eave s .  Accu ra cy of  the tre e   o n  th e trai ning  set  is 7 6 .51% m e aning  that 2 3 8   of 1013 targe t  objects  are i n co rrectly cla ssifie d   by the tree. Target o b ject s are hot spot s and  no n- hotsp ot poi nts in  the  study  are a . Non - h o tspot  point were g ene rat ed o u tsid e bu ffers  of hot sp ots.    The ra dius of  a buffer for a hotsp ot is 0.9073 74  km .  It was defined by pro c e ssi ng bu rn area extracted  fro m  the  Lan dsat TM im age.   Th e first te st laye r of  th e tre e  i s  in co me  sou r ce.   Thi s   work  prepa re d a te sting  set from th spatial d a t aba se  by ap plyin g  several  sp atial op eratio ns.  The te sting  set co nsi s ts of  561  obj ect s   (235  po sitive  example s  a n d  32 6 n egativ e exam ples).   A  Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  1693-6 930       A Deci sion T r ee Based on  Spatial Relati onships  for Predi cting .... (Im a s Sukaesi h  Sitanggang)  515 positive  exa m ple i s  a n  o b j ect  with the  true  cla s s,  wh erea a n ega tive example  is a n  o b je ct  with  the false  cla s s. Accuracy o f  the tree on t he test in g set  is 71.12% m eanin g  that 3 99 of 561 ta rget  obje c ts are correctly cla s si fied by the tree.   The  spatial  d e ci sion  tree  a s  a  p r edi ction  model  for ho tspots o c currence h a s the  si ze  of  613.  Size of  a tree i s   nu mber  of nod e s  in cludi ng a  root n ode, int e rnal  and  lea v es no de s. T he  numbe r of cl assificatio n  rules g ene rate d from the tre e  is 134.  A rule is obtai ne d from a tree  by  cre a ting a  pat h from the  ro ot to a leaf.  In ord e r to  obt ain a  simple tree  with the  highe r a c cura cy,  the post - prun ing method  was ap plied to  the tree.  In  this metho d , the tree i s  fully grown  at first,  and then all subtree s  at given node s are prun ed by  re moving its branche s and repla c ing it with a  leaf [17]. Thi s   work im ple m ented th e p o st-p ru ning  method  up to  16 ite r ation s . The la st p r u ned   tree h a s th accuracy  of 71.66% an its si ze i s  4 8 5 . Starting from the  se co nd iteration, the  highe st accu racy of pru n e d  tree s for all  iterati ons a r e the sam e  i.e. 71.66%. Howeve r, the size   of tree  de cre a se s f r om  59 9 in th se co nd iteration t o  48 5 in  the  16 th  iteratio n. The r efore, t he  numbe r of  rul e gene rate d  from th e tre e  also de clin es.  The r e a r e  1 08 rule s g ene rated f r om th s i mp le  pr un ed  tr e e .   Se ve ral rule s are the followin g 1.  IF income _so u rce = Planta t ion  AND di stance to the neare s t ro ad (m)    250 0 AND 1 500  distan ce to th e nearest rive r (m)    3000  THEN  Hotsp o t Occurren ce = Tru e    2.  IF income _so u rce = Fo re st ry  AND lan d _ c over  = Bare _land AND  1    wind_ sp ee d (m/s) < 2  THEN Hotspot  Oc cu rr ence =  Tr ue   3.  IF income _so u rce = Fo re st ry AND lan d _ c over  = Swa m p  THEN  Hotspot O c currence =  TRUE   4.  IF income _so u rce = Fo re st ry  AND lan d _ c over  = Bare _land AND  0    wind_ sp ee d (m/s) < 1  AND 29  scre en temp erature (K ) < 2 98 AND p eat l and_ depth  = D4 (Ve r y dee p/Very thick  > 400  cm) T H EN Hot s pot  Occu rre nce =  False    5.  IF income _so u rce = Fo re st ry A ND lan d _ c over  = Padd y_field AND 0    wind_ sp ee d (m/s) < 1  THEN  Hotspot Oc currence =  Fals   6.  IF income _so u rce = T r adin g_re s tau r a n t THEN  Hotsp o t Occurren ce = Fal s   7.  IF income _so u rce = Fo re st ry A ND lan d _ c over  = Mix_ gard en  AND 0   wind _spe ed (m/s)     1 THEN  Hotspot Occu rre n c e = FALSE   8.  IF income _so u rce = Fo re st ry A ND lan d _ c over  = Plant ation  AND 0   wind _spee d (m/s)    1  AND pe atlan d_de pth = Sh allow/Thi n  (5 0- 10 0 cm )T HEN Hot s pot  Occu rre nce = FALSE  9.  IF income _so u rce = Fo re st ry AND la n d _ c over  = Uni rri gated_ agri _ field AND 2   pre c ipitation  (mm/day)    3 THEN  Hotspot Occu rre n c e = FALSE   10.  IF income _so u rce = Fo re st ry A ND lan d _ c over  = Padd y_field AND 0    wind_ sp ee d (m/s)     1  THEN Hotspot O c curre n ce  = FALSE    3.2. Compari s on bet w e e n  Spatial and Non - Spatial  Classifie r s   For compa r ison, the non-spatial de ci si on  tree algo rithms namely  C4.5 and ID3 have  been  applie on the forest  fires d a taset [18]. Thes e al gorithm s a r available in t he data mi nin g   toolkit  We ka  3.6.6.  J48 i s   a mod u le i n   We ka  as  Java imple m enta t ion of the  C4 .5 algo rithm.  The   accuraci es of  cla s sifiers  g enerat ed  by t hese two al g o rithm s   we re  determi ned  u s ing  the  10 -folds  cro s s validati on method.  In addition to  non-sp atial  d e ci sion tre e  a l gorithm s, a logisti c  reg r e s sion  model  wa calcul ated to  predi ct h o tsp o ts o c curren ce [18].  Hot s pots o c cu rre nce i s   co nsi d ered   as th e de pe ndent va riab le and  dete r mina nt  fact ors (enviro n m ental a nd  human  facto r s)  influen cing fire events are  the indepe nd ent variabl e s .   Table 2 summari ze s the  accu ra cy of the  spatial a nd n on-spatial  cla ssifie r s a s  we ll as  the num ber of rul e s g enerated fro m  the trees.        Table 2. Accu racy of the cl assi fiers and  numbe r of ge nerate d  rul e Classifier  Accur a cy   Number of  generated  rules    Spatial decision t r ee     The Ext ended S patial ID3 Decision Tree   w i thout  pruning   71.12%  134  The Ext ended S patial ID3 Decision Tree   w i th pru n ing  71.66%   108  Non-spatial classifier    ID3 Decision Tre e    49.02%   270  C4.5 Decision Tr ee   65.24%   35  Logistic regression  68.63%     Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 2, June 20 14:  511 – 51 8   516 Table 2  sh ows that the p r o posed alg o rit h m nam ely the sp atial de ci sion tree al go rithm is  sup e rio r  amo ng other met hod s i.e. non-sp atial de cisi on tree algo ri thms and lo gistic re gressio n .     The spatial  I D 3 without  p r uning perfo rms well  on   the testin g se t with the a c curacy  of 71. 12%  comp ared to  the  cla ssi cal  ID3  (n on-sp atial ID3 )   wit h  the  accu ra cy of  49.02 %.  Furth e rmore ,   Table 2  sh ows that the  spa t ial ID3 de ci sion tree  with p r unin g  outp e rforms th e C4.5 de cisi on tre e   with 6.4 2 % o f  accu ra cy hi gher tha n  the  C4.5  d e ci sio n  tre e .    Mo reover, l ogi stic  reg r e ssi on  ha been u s e d  in seve ral st udie s  to det ermin e  the relation bet ween hot spot s occurren ce  and  influen cing fa ctors of fi re e v ents.  Applyi ng thi s  me thod to the forest fire datas et  results  the bes reg r e ssi on m odel  with th accuracy  of 6 8 .63%  wh ich  is n o t bette r t han th spati a l de ci sion  tree   algorith m  tha t  has the a c curacy g r eat er than 7 1 %.  According  to these re sults, this  work  concludes that involving spatial relations in  the de cisi on tree al gorithm p r od uce s  the bet ter  cla ssif i e r s f o r hot sp ot s o c c u rr en ce.     The spatial I D 3 al gorithm  prod uces m o re  simple t r ees  com p a r e d  to the ID3  algorith m     It can  be i n fe rre d fro m  the  numb e r of rules ge nerate d  from  the tree a s   sh own   in Tabl e 2.   T he  spatial ID3 algorithm  witho u t prunin g  gi ves 134 ru le s whi c h is al most a half o f  the number of  rule s g ene rat ed by the  con v entional ID3  de cisio n  tr ee  i.e. 270.   Ho wever, i n  term of the  num ber  of rule s gen e r ated fro m  the tree s, the C4.5 algo rithm  outperfo rm s the spatial ID3 algo rithm with  pruni ng  wh ere the  C4.5  al gorithm  re sul t s only  35  rul e and  the  p r opo se d al go rithm p r od uces  108 rul e s (Ta b le 2).  The furthe r study is req u ir e d  especi a lly in the tree pruni ng  method in order  to obtain  mo re si mple  spat ial de ci sion  trees.   O n   the  other ha nd, the C4.5 de ci sion tre e  has  the   accuracy  of  65.24% that  i s   slightly lo wer th an  th spatial ID3 d e cisi on tree  wi th pruning  which  achi eves th e  accu ra cy of  71.66% . Th erefo r e, rega rdle ss the  si ze  of tree s,  the spatial I D algorith m  wit h  pruni ng ha s better perfo rmance than the C4.5 al gorithm.    3.3. Tree Ev a l uation   The unp run e d  and pru n e d  trees were  applied to a new sp atial dataset.  The dataset  contai ns the  same  expla n a tory laye rs  as th ose for  cre a ting th e t r ee  and  the  FIRMS MO DIS  Fire/Hotsp ots in 201 0.  Th e num b e of hotsp ots in  2 010 for Ro ka n Hilir  area i s  77 4. As m any  726 p o ints were  ran domly  gene rate d n ear  any hot sp ot  in 20 10. T o  acco mpli sh  this ta sk, b u ffers  with  the   radi us of  0.90 73 74 km we re cre a ted   for e a ch   hot spot and  th en ran dom  p o ints were   gene rated o u t side the buff e rs. Th ese random p o ints  are den oted  as false ala r m data.  Along   with hot spot s in 201 0 a s  t r ue  alarm  dat a, false  al arm data  comp ose ta rg et ob jects i n  the  n e target layer.    A new data s et co ntain s  707 obje c ts (2 7 7  po sitive example s  and 4 30 negative   example s ).  Applying the  spatial de ci sion tre e algorithm o n  the ne w dat aset results  the   accuracy  of  60.06% for the tre e   with out pruni n g   and 6 1 .89%  for the  tre e  with  pruni ng.    More over, th e tree is u n a b le to cla ssif y  some obj ects in the ne w dataset. The r e are   51 of  707  (7.21%)  obje c ts that  can not be cl assified by  the tree with ou t prunin g .  The nu mbe r  of  uncl a ssified  obje c ts de cre a se s to 30  of 707 (4.24%) when th e tre e  with p r unin g  wa s exe c ut ed   on the  ne d a taset.   Tabl e 3  gives cha r acte ri stics of  un cla ssifie d   objetcs  ba se d on  lan d   co ver,  peatlan d  type, peatland de pth and inco me sou r ce. Mo st of uncl a ssified obje c ts are locat ed in  non-peatla nd s in which in come  so urce s of peo ple li ving in these area s a r e mo stly forest ry and   agri c ultu re.                               Evaluation Warning : The document was created with Spire.PDF for Python.
TELKOM NIKA   ISSN:  1693-6 930       A Deci sion T r ee Based on  Spatial Relati onships  for Predi cting .... (Im a s Sukaesi h  Sitanggang)  517 Table 3. Ch aracteri stics of  uncl a ssified o b ject Explanator y att r ibute  True class  False class  Total  Land cover   Plantation 2  Dr y l and _forest  2  Bare_land  0  Shrubs 2  Padd y _ field  0  Sw am p  3  Mix_gard e n  1  Peatland_t y p e   Hemists/Saprists(60/40), M oder ate  2  Hemists/Saprists(60/40),V er y_de ep 2  Non_peatland  6  13  Saprists/min(90/10),Mode rate  0  Saprists/min(50/50),Shallo w 0  Peatland depth   D1 (Shallo w / Thin  50-100 cm)   D2 (Mode rate 10 0-200 cm)   D3 (Dee p/Thick 200-400 cm)   Non_peatland  6  13  income_source  Other _agricultur e  2  Forestr y  0  10  10  Agriculture 8  17      4. Conclusio n   This  wo rk  a pplied th e spatial ID3  al gorithm  on t he spatial fo rest fires  dat aset. Th e   dataset con s i s ts of phy sical,  weathe r, so cio-econo mic an d peat land cha r act e risti cs th at may   influen ce fire s occu rren ce  in the  study a r ea  Ro kan  Hil i r Di strict, Ind one sia. The  result is  a sp atial  deci s io tree for  p r edi cting  hotsp ots occurren ce with  the a c cu ra cy  of 76.51%  on  the trainin g   set  and 71.1 2 % on the testing  set.  Size of the tree  is 6 1 3  and the nu mber of rule s generated from  the tree is  13 4.  To simplif y the tree, the pos t - prunin g  method h a s been impl em ented.  Applying   this m e thod   on the  spati a l de ci sion  tree p r od uc es a p r u ned  tree  whi c h i s   simple r th an  the  unprune d tre e .  Th e p r un e d  tre e  h a s the  accu ra cy of   71.66%  with i n com e   sou r ce a s  the  first test  layer.  The si ze of the tree  decrea s e s  to 485 an the n u mbe r  of gen erated  rule s d e clin es to 10 8.  In compa r i s o n  with the spatial ID3 al gorithm , this work also a pplied the n on-spatial   deci s io n tre e   algorith m s i.e .  ID3 an d C4.5 on th e fore st fire s data s et.  The exp e r imental  re sul t sho w  that th e  pro p o s ed  alg o rithm h a s be tter perfo rm a n ce i n  term of  accu ra cy tha n  the two no n- spatial al gorit hms.  The a c cura cy of ID3 de ci sion  tree is 49. 02 % and the accura cy of C4.5  deci s io n tree is 65.24%.  Moreove r , the spatial ID 3 al gorithm outp e r form s t he lo gistic regressi on  model that h a s the a c curacy of 68.63 %.  The s patial ID3 algo rithm ha s been  tested to cla ssif y   obje c ts in th e new fo rest  fires data s et .  The result s sh ow that there a r e   3 0  of 707 or a b out  4.24% obje c t s  which cann ot be cl as sifie d  by the prun ed tree. T h e s e un cla ssified  obje c ts mo st ly  take  pla c e i n   non-peatla nd s in  which in come  sou r ce of peo ple livi ng in  the s areas are fo re stry  and a g ri cultu r e.  Mo reove r , most of  un cla ssifie d  obj ects  are lo ca ted in pla n tation an d dryla n d   fores t.     This work co nclu de s that involving dista n ce a nd topol ogical relatio n s bet wee n  o b ject s in  the spatial  cla ssifi cation ta sk re sult s the spatial d e ci si on tree a s  a  model for p r e d icting h o tsp o ts  occurre n ce with the high a c cura cy.       Ackn o w l e dg ment  This  wo rk was  sup p o r te d by Indo ne sia  Di recto r a t e Gene ral  of High er E ducation   (IDG HE), Mi nistry of Na tional Edu c a t i on unde Grant [nu m b e r 17 24.2/D4.4/2008]; a nd  Southeast Asian Regio nal  Center for Graduate Study and  Re search in Agri cult ure  (SEARCA)  unde r Grant [Ref. No. GCS 10-2 129].       Referen ces   [1]  Ester M, Kriegel HP, San der  J.  Spatial Dat a  Mini ng: A Databas e Appr o a ch . Procee di n g s of the 5th   Internatio na l Symp osi u m on L a rge Sp at ia l Databas es. Berli n . 1997: 4 7 -66.   Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN: 16 93-6 930   TELKOM NIKA   Vol. 12, No. 2, June 20 14:  511 – 51 8   518 [2]  Kopersk i K, Han J, Stefanov ic N.  An Efficient T w o-step  Method for Cl assificati on of Spatia l Data Procee din g s of  the Internatio n a l S y m pos ium  on  Spati a l D a ta Han d li ng. Va ncouv er. 199 8: 45-54.   [3]  Chel gh oum  N,  Z e itoun i K, B o ulmak oul  A.  A   Decisi on  Tree  for Mu lti-lay e re d Sp atia l D a ta .  Proce edi ngs   of the Joint International S y m posium on  Geospatial T heor y ,  Pr oc essing and Applic ations. Otta w a .   200 2: 8-12.   [4]  Rinziv ill o S, Fr anco  T .   Classif i catio n  i n  Ge og raph ical  Infor m ation  Syste m s . In: Boulicaut JF, Esposit F ,  Giannotti F ,   Pedresc h i D. Editors.  Artificial Intelli genc e . Ne w  Y o rk. Sprin ger-Verl ag. 20 04: 374 –3 85.   [5]  Li  X, Clar a m unt C. A Sp atial E n trop y- base d  Dec i sio n  T r ee for Classicati on  of Geogra phic a l   Information.  T r ansacti ons i n  GIS . 2006; 10( 3): 451-4 67.   [6]  Z hao M, Li  X.  An Applic ati on of Sp atial  Decisi on T r ee  for Classific a tion of Air Po llutio n  Ind e x Procee din g s of  the 19th Intern ation a l Co nfer e n ce on Ge oinfo rmatics. Shang hai. 20 11: 1-6.   [7]  Jian g Z ,  Shekhar S, Mohan  P, Knight J, Corcoran J.  Lear nin g  Spatia l Decis i on T r ee for Geogr aph ic a l   Classific a tio n : A Summary of  Results .  Proce edi ngs of the  2 0 th Inte rnati o n a l Co nfere n ce  on Adv ance s   in Geogr ap hic Informatio n  S y s t ems. Californ i a. 2012: 3 90-3 93.   [8]  Sitang ga ng IS,  Yaak ob  R, M u staph a N,  Ain udd in A N . Cl a ssificatio n  Mo d e l for  Hotsp o Occurrences   usin g Spati a l D e cisio n  T r ee Algorithm.  Jour n a l of Co mp uter  Science . 20 13 ; 9(2): 244-25 1 .   [9]  Quinl an JR. Inductio n  of Deci sion T r ees.  Machin e Le arni ng . 1986; 1(1): 81 –10 6.   [10] S y a u fin a  L,  Nu rudd in AA. F o r e st F i re i n  P e a t  F o rest: An O v ervie w M a n a j e men  Huta n T r opik a . 20 00;   6(1): 75– 83.   [11]  Adin ugro ho W C , Sur y a d i putr a  INN, Saharj o  BH, Siboro L.  Manu al for the Contro l of F i re in Peatl a n d s   and P eatla nd  Forest. Climate Ch ang e, Fore sts and  Peatla nds i n  Indo nesi a  Proj ect . Wetlands  Internatio na l, Indo nesi a  Progr amme  an d W i l d life H abitat C ana da. 20 05.   [12]  W a h y unto, S u r y a d i putra IN N.  Peatla nd  Distri butio n i n  Su ma tra an Ka li ma ntan-ex pla nati on  of its D a ta   Sets Inclu d i ng  Source  of Infor m ati on,  Acc u ra cy, Data  Co nstraints  and  Gap s . W e tlands  Int e rnati ona l ,   Indon esi a  Prog ramme. 200 8.  [13]  Rokan Hilir Dis t rict: Overview   of district [Inte r net]. 2009. Riau: Rokan Hilir  District; [cited 2012 May   30].  Avail abl e from: http:// w w w . r o h ilkab. go.id/ ? ta mpil= li nka ndac t= profilan d id= 4   [14]  Z e itoun i K, Ye h L, Aufa ure  MA.   Join In di ces as a  T ool  for Spatia l D a ta Min i ng . Pr oc eed ings  of th e   Internatio na l W o rksho p  on T e mporal, Sp atial  and S pati o T e mporal D a ta Mi nin g . L y on. 20 00: 102- 11 4.  [15] Marsland  S.  Machi ne L earn i n g : An Algorith m ic Pers pectiv e . Boca Rato n. CRC Press. 2009: 13 3-1 39.   [16]  T an P, Steinba ch M, Kumar   V.  Introductio n  to Data  Min i n g . Boston. P e a r son A ddis on  W e sle y .  2 006 :   172- 176.   [17]  Han J, Kam b e r  M.  Data Min i ng: Co nce p ts and T e c h n i qu e s . Second  Edit ion. Sa n F r anc isco. Morg a n   Kaufman n . 200 6: 304-3 0 6   [18]  Sitang ga ng IS, Yaako b  R,  Mustaph a N, Ai nud din A N . Predictiv e Mod e l s  for Hotspots  Occurrenc e   usin g Dec i si on  T r ee Algorith m s and  Lo gisti c  Regr essio n Journ a of App lied  Scie nces . 201 3;  13( 2):   252- 261.         Evaluation Warning : The document was created with Spire.PDF for Python.