I A E S   I n t e r n at io n al  Jou r n al  of   A r t if ic ia I n t e ll ig e n c e   ( I J - AI )   V ol .   10 , N o.   1 M a r c h   202 1 , pp.  25 7 ~ 264   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 10 .i 1 .pp 25 7 - 264           257       Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   Plan t  d i se ase  p r e d i c t i on  u si n g c l ass i f i c at i on  al gor i t h m s       M ar ia  M or gan 1 , C ar la  B la n k 2 ,   R ae d  S e e t an 3   1 ,2 Department of Mathemati cs and Statist ics, Slippery  Rock University,  USA   3 Department of Compu ter Science, Slipp ery Rock  University, US A       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e F e b   8 20 20   R e vi s e J ul   2 1 , 20 20   A c c e pt e F e b 17 , 20 2 1       This  paper  investigates  the  capability  of  six  existing  classification  alg orithms  (artificial  neural  network,  naïve   bayes,  k - nearest   neighbor,  support   vector   machine,  decision  tree  and   random  forest)   in  classifying  and   pre dicting  diseases  in  soybean  and   mushroom  datasets   using  datasets   with  nume rical  or   categorical  attribut es.  While   many  simil ar   studies   have   been  condu cted  on   datasets  of  images  to   predict  plant   diseases,  the   main  objective   of  thi study   is  to  suggest  classification  methods  that  can   be  used  for  diseas classif ication  and  prediction  in  datasets  th at  contain  raw   measurements  instead  of   i mages.  fungus  and  plant   dataset,  which  had  many  differences,  were  ch osen  so  that  the  findings  in  this  paper  could  be  applied  to  future  research  for  disease  prediction  and  classification  in   variety   of  datasets   which  conta in  raw   measureme nts.  key  differe nce  between  the  two  dat asets,  other  th an  one  being  fungus  and  one  being  a   plant,  is  that  the  mushroom   dat aset  is  balanced  and  only  contain ed  two  classes   while  the   soybean  dat aset  is   imbalance and  contained  eighteen  classes.  All   six  algorithms  per formed  well  on  the  mushroom  da taset,  while  the  artificial   neural  network  and  k - nearest  neighbor  algorithms  performed  best  on  the   soybean  datas et.  The  findings  of  this  paper  can  be  applied  to  future  research  on  disease  classifi cation  and  predicti on  in  variety  of  dataset   types  such  as   fungi,  plants, humans, and animals.   K e y w o r d s :   C la s s if ic a ti on   M us hr oom   P la nt   d is e a s e   P r e di c ti on   S oybe a n   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   R a e d S e e ta n   D e pa r tm e nt  of  C om put e r  S c ie nc e   S li ppe r y R oc k U ni ve r s it y, U S A   E m a il r a e d.s e e ta n@ s r u.e du       1.   I N T R O D U C T I O N   T he   m a in   go a l   of   th is   p a pe r   is   to   te s t   th e   a c c ur a c a nd   c om pa r e   th e   r e s ul t s   of   e xi s ti ng   c la s s if ic a ti on  a lg or it hm s   in   pr e di c ti ng   e di bi li ty   in   m us hr oom s   a nd  c la s s if yi ng  di s e a s e s   in   s oybe a pl a nt s W hi le   th e   m us hr oom   a nd  s oyb e a d a ta s e t s   u s e in   th is   p a pe r   ha ve   m a n di f f e r e nc e s th e y   a r e   s im il a r   in   th a t   th e a r e   da ta s e ts   of   e it he r   num e r ic a or   c a te gor ic a a tt r ib ut e s w hi le   m a ny  s im il a r   s tu di e s   ha ve   b e e c onduc t e on  da ta s e ts  of  i m a ge s  i ns te a d of  r a w  m e a s ur e m e nt s  [ 1 - 4] . T he  obj e c ti ve  of  t he  a na ly s is  c ondu c te d i n t hi s  pa pe r  i s   to   m a ke   s ug ge s ti ons   to   a gr ic ul tu r a r e s e a r c he r s or   di s e a s e   r e s e a r c he r s   in   ge ne r a l,   on  c la s s if ic a ti on  m e th ods   th a pe r f or m   w e ll ,   in   te r m s   o f   di s e a s e   pr e di c ti on  a nd  c la s s if ic a ti on  a c c ur a c y,  on  da ta s e ts   w it r a w   m e a s ur e m e nt s W hi le   im a ge   da t a s e t s   ha ve   be e te s te w it th e   c la s s if ic a ti on  a lg or it hm s   pr e s e nt e he r e ,   m a ny  r e s e a r c he r s   s ti ll   pr e f e r   to   ta ke   a nd  r e c or m e a s ur e m e nt s   by  ha nd  w h e s tu dyi ng  pl a nt s   or   f ungi S oybe a ns   a nd  m us hr oom s   a r e   ve r im por ta nt   to   hum a ns th us it   is   im po r ta nt   to   ha ve   a c c ur a te   m e th ods   to   pr e di c w he th e r   or   not   di f f e r e nt   va r ia ti ons   a r e   s a f e   f o r   hum a c ons um pt io a nd  pr e di c th e   pr e s e nc e   of   a ny   di s e a s e s  t ha c a a f f e c th e m .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   25 7     26 4   258   T he r e  a r e  bot h pois onous  a nd e di bl e  m u s hr oom s . A c c or di ng t o T he  A udubon S oc ie ty  F ie ld  G ui de  of   N or th   A m e r ic a M us hr oom s th e r e   i s   no  s in gl e   c h a r a c te r is ti c   t di s ti ngui s be twe e e di bl e   m us hr oom s   a nd   poi s onous   m us hr oom s   [ 5 - 6] O ne   m us be   c e r ta in   a   m us hr oo m   is   one   of   th e   e di bl e   va r ie ti e s ot he r w is e th e   m us hr oom  s houl d be  c ons id e r e d pois onou s . S in c e  va r io us  t ype s  of  m us hr oom s  a r e  c ons um e d by humans , i is   im por ta nt   to   e s ta bl is s om e   gui de li ne s   to   d e te r m in e   if   a   m us hr oom   is   e di bl e   or   not I th is   pa pe r   w e   w il l   a tt e m pt   to   tr a in   e xi s ti ng  c la s s if ic a ti on  a lg or it hm s   th a c a be   u s e to   c la s s if m us hr oom s gi ve a   da ta s e of   r a w  m e a s ur e m e nt s , a s  e it he r  e di bl e  or  poi s onou s .   S oybe a ns   a r e   pr oc e s s e f or   th e ir   oi a nd  m e a [ 7 ] S oybe a oi is   us e in   m a ny  f oods   th a hum a ns   c ons um e   da il s uc a s   m a r ga r in e ba ke d   br e a ds c a nne tu na ,   a nd  f r ie f ood.  S oybe a m e a is   u s e in   f ood  f or   m a ny  f a r m   a n im a ls   s uc a s   poul tr y,   por k,  a nd  c a tt le S oyb e a ns   a r e   a im por ta nt   c r op  be c a us e   th e   oi is   di r e c tl put   in to   f ood  th a hum a ns   c ons um e a nd  th e   m e a i s   f e to   th e   a ni m a ls   th a a r e   w id e ly   c ons um e by  hum a ns T h e r e   a r e   v a r io us   di s e a s e s   th a a f f e c s oybe a c r o ps ,   in   th is   pa pe r   w e   w il a tt e m pt   to   tr a in   e xi s ti ng  c la s s if ic a ti on  a lg or it hm s   th a c a be   us e to   c la s s if s oybe a ns   pl a nt s   a s   ha vi ng  a   pa r ti c ul a r   di s e a s e ba s e on  a  da ta s e of  r a w  m e a s ur e m e nt s  pe r ta in in g t o t he  s oyb e a n pl a nt s .   D is c ove r in a ppl ic a ti ons   a nd   t e c hni que s   f or   pr e di c ti ng  di s e a s e   pr e s e nc e   a nd  c la s s if yi ng  di s e a s e s   is   ve r im por ta nt   w he it   c om e s   to   a gr ic ul tu r e D is e a s e s   in   c r ops   c a ha ve   a   s e r io us   im pa c on  th e   c r op  yi e ld   [ 8] B e c a us e   di s e a s e s   w il m or e   th a li ke ly   d a m a ge   a   la r ge   nu m be r   of   c r ops   in   a   gr ow in c yc le f a r m e r s   c a be ne f it   f r om   c la s s if ic a ti on  of   c r op  di s e a s e s   a nd  r is f a c to r s   th a m a le a to   th e s e   di s e a s e s .   A   f or e c a s ti ng   s ys te m   ha s   be e de ve lo p e to   pr e di c di s e a s e   out br e a in   s tr a w be r r pl a nt s   in   F lo r id a w he r e   15%   o f   U S   be r r ie s   a r e   pr oduc e a nd   a ll   be r r ie s   gr ow in   th e   w in te r   [ 9] T he   f or e c a s ti ng  s ys t e m c a ll e th e   S tr a w be r r A dvi s or S ys te m   ( S A S ) he lp s   f a r m e r s   by  pr e di c ti ng  th e   di s e a s e   in c id e nc e   r e c om m e ndi ng  f ungi c id e   a ppl ic a ti ons  [ 9] . T hi s  s y s te m  ha s  r e du c e d pr oduc ti on c os ts  by  e li m in a ti ng unne c e s s a r y f ungi c id e  a ppl ic a ti on s w hi le   not   r is ki ng  th e   c r op  yi e ld A s   R ic ha r S t r a nge   not e d,  a lm os 10%   of   gl oba f ood  pr oduc ti on  is   lo s due   to   pl a nt   di s e a s e   [ 10] T he s e   lo s s e s   c a b e   m in im iz e if   a c c ur a te   m e th ods   a r e   de ve lo pe f or   pr e di c ti ng  a nd  c la s s if yi ng dis e a s e .   T he   r e m a in de r   of   th is   pa pe r   is   s tr uc tu r e a s s e c ti on  di s c us s e s   th e   li te r a tu r e   r e vi e w   w or ks .     S e c ti on  pr e s e nt s   our   r e s e a r c h   m e th od.  S e c ti on   di s c us s e s   th e   r e s ul t s   of   our   p a pe r S e c ti on  5   pr ovi de s   c onc lu s io n a nd r e c om m e nda ti on s   f or  f ur th e r  s tu di e s .       2.   L I T E R A T U R E   R E V I E W   T da te m os s tu di e s   of   th is   ty pe   ha ve   us e im a ge s   of   pl a nt s   or   f ungi   a s   th e   da ta s e ts   w hi c c la s s if ic a ti on  a lg or it hm s   a r e   te s te on.   P r e vi ous   s tu di e s   ha v e   f ound  th a de c is io tr e e s   a r e   w id e ly   us e d   be c a us e   of   th e ir   e a s e   of   in te r pr e ta ti on,  s uppor ve c to r   m a c hi ne s   ( S V M )   a nd  a r t if ic ia ne ur a ne twor ks   ( A N N )   a r e   ty pi c a ll th e   m os a c c ur a te a nd  k - ne a r e s ne ig hbor   ( K N N )   a nd  na ïv e   ba ye s   a r e   not   th e   be s c la s s if ic a ti on  a lg or it hm s   f or   a g r ic ul tu r e   but   th e a r e   e a s to   tr a in   a nd  th us   ha ve   be e us ed   in   m a ny  pl a nt   a nd  f ungi   di s e a s e   c la s s if ic a ti on s tu di e s  [ 1 1 ].   T he   s ix   c la s s if ic a ti on  m e th ods   c ho s e f or   c om pa r is on  in   th i s   s tu dy  w e r e   b a s e on   th e   li te r a tu r e   r e vi e w e pr io r   to   be gi nni ng  th e   e xpe r im e nt I N ove m be r   2018,  a   s tu dy  w a s   pu bl is he d   in   w hi c h   c la s s if ic a ti on  a lg or it hm s   w e r e   te s te to   c om pa r e   th e ir   a c c ur a c in   pr e di c ti ng  di s e a s e s   in   pl a nt s ba s e on  a   da ta s e of  pl a nt  l e a f  i m a ge s T hi s   s tu dy f ound tha th e  de c is io n t r e e  a lg or it hm  pe r f or m e d be tt e r  t ha n A N N  a nd   na ïv e   ba ye s   [ 1] A not he r   s tu dy,  publ is he in   M a r c 2018,   c om pa r e th e   c la s s if ic a ti on  a c c ur a c of   pr e di c ti ng   lo s s   c a us e by  gr a s s   gr ub  in s e c us in th e   f ol lo w in te c hni que s de c is io tr e e r a ndom  f or e s t,   ne ur a l   ne twor ks ga us s ia na ïv e   ba y e s S V M s a nd  K N N   [ 12] T he   da ta s e us e d   in   [ 12]   w a s   c om pa r a bl e   to   th e   da ta   us e in   th is   s tu dy  be c a u s e   it   w a s   a   da t a s e of   r e a r e c or de v a lu e s in s te a of   im a ge s H o w e ve r th e   m a in   di f f e r e nc e   be twe e our   pr opos e s tu dy   a nd  [ 12]   is   th a our   s t udy  is   f oc us e on  pr e di c ti ng  th e   pr e s e nc e   of   di s e a s e   a nd  c l a s s if yi ng  th e   ty pe s   of   di s e a s e s w hi le   th e   m a in   go a of   [ 12]   is   to   pr e di c th e   lo s s   of   c r ops   due   to   di s e a s e . T he  M a r c 2018  s tu dy  f ound  th a ne ur a ne twor ks r a n dom   f or e s t,   a nd  ga us s ia na iv e   b a ye s   w e r e   th e   m os a c c ur a te   in   pr e di c ti ng  di s e a s e s   in   c r ops .   F in a ll y,  a   s tu d publ is he in   F e br ua r 2019  c om pa r e d   th e   a c c ur a c of   S V M   a nd  A N N   c la s s if ic a ti on  a lg or it hm s   in   pr e di c ti ng  di s e a s e s   in   pl a nt s   u s in a   da ta s e of   im a ge s , t hi s  s tu dy f ound tha A N N  w a s  t he  m o s a c c ur a te  a lg or i th m  [ 2] .   I th is   s tu dy,  w e   w il c om pa r e   th e   a c c ur a c of   s ix   di f f e r e nt   c la s s if ic a ti on  a lg or it hm s   in   pr e di c ti ng  di s e a s e s   in   s oybe a pl a nt s   a nd  e di bi li ty   in   m us hr oom s a r ti f i c ia ne ur a ne twor ( A N N ) na ïv e   ba ye s k - ne a r e s ne ig hbor   ( K N N ) ,   s uppor ve c to r   m a c hi ne   ( S V M ) de c i s io tr e e a n d   r a ndom  f or e s t.  T he   r e s ul ts   of   th is   s tu dy w il be  c om pa r e d t o t hos e  m e nt io ne d i n t he  l it e r a tu r e  r e vi e w  of  s im il a r  s tu di e s  t ha ha ve  b e e n done .           Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f  I nt e ll   I S S N 2252 - 8938       P la nt  di s e as e  pr e di c ti on u s in g c la s s if ic at io n al gor it hm s   ( M ar ia  M or gan )   259   3.   R E S E A R C H  M E T H O D   T he   pur pos e   of   th is   s tu dy  is   to   a s s e s s   th e   c a pa bi li ty   of   s i e xi s ti ng  c la s s if ic a ti on  a lg or it hm s   ( a r ti f ic ia ne ur a ne twor k na ïv e   ba ye s k - ne a r e s ne ig hbor s up por ve c to r   m a c hi ne de c is io tr e e   a nd  r a ndom   f or e s t)   in   c la s s if yi ng  a nd  p r e di c ti ng  di s e a s e s   in   s oybe a a nd   m us hr oom   da ta s e ts I th is   s e c ti on,  w e   w il l   di s c us s   our   m e th odol ogy  s ta r ti ng  w it da ta   pr e pa r a ti on,  th e n   in tr oduc in th e   c la s s if ic a ti on  m e th od s a nd   f in a ll e va lu a ti on me tr ic s . I n t he  ne xt  s e c ti on, we  w il di s c us s  t he  e xpe r im e nt s  r e s ul ts .     3.1.    D at a   p r e p ar at io n   T he  m us hr oom  da ta s e t,  obt a in e d f r om  U C I   m a c hi ne  l e a r ni ng r e pos it or y , c ont a in s  8,124 hypothetica l   s a m pl e s  of  23 s pe c ie s  of  gi ll e d m us hr oom s  i n t he  A ga r ic u s  a nd  L e pi ot a  f a m il ie s  w it h 22 c a te gor ic a a tt r ib ut e s   [6 , 13] . T he  s pe c ie s  a r e   c la s s if ie d a s  e di bl e  or  poi s onous . A ny mus hr oom  t ha c a nnot  be  c a te gor iz e d a s  e di bl e   is   c ons id e r e poi s onous r e ga r dl e s s   of   w he th e r   it   is   poi s onous F or   th e   pu r pos e   of   our   c om pa r is on  in   th is   s tu dy  be twe e th e   m u s hr oom   a nd  s oybe a da ta s e ts th e   poi s on ous   c l a s s if ic a ti on  w il be   tr e a te a s   th e   di s e a s e   be in pr e s e nt   a nd  th e   e di bl e   c la s s if ic a ti on  w il be   tr e a te a s   th e   di s e a s e   not   be in pr e s e nt T he   a tt r ib ut e s   of   th e   m us hr oom   da ta s e a r e c a p - s ha p e c a p - s ur f a c e c a p - c ol or b r ui s e s odor gi ll - a tt a c hm e nt gi ll - sp a c in g,  gi ll - s iz e gi ll - c ol or s ta lk - s ha p e s t a lk - r oot s ta lk - s ur f a c e - a bove - r in g,  s ta lk - s ur f a c e - be lo w - r in g,  s ta lk - c ol or - a bove - r in g,  s ta lk - c ol or - be lo w - r in g,  ve il - ty pe ve il - c ol or r in g - num be r r in g - ty pe s por e - pr in t - c ol or popula ti on,  a nd  ha bi ta t.   T he   s oyb e a da ta s e t,   a ls obt a in e f r om   U C I   m a c hi ne   le a r ni ng  r e pos it or y,  c ont a in s   307  obs e r va ti ons   f r om   s oybe a pl a nt s   in f e c te w it 19  di f f e r e nt   di s e a s e s   a nd  35  c a te gor ic a a tt r ib ut e s   [ 14]   a nd  [ 13] T he   di s e a s e s   pr e s e nt   in   th e   s oybe a da ta s e a r e   di a por th e - s te m - can ke r c ha r c oa l - r ot r hi z oc to ni a - r oot - r ot phyt opht hor a - r ot br ow n - s te m - r ot pow de r y - m i ld e w dow ny - m il de w br ow n - s pot ba c te r ia l - bl ig ht ,   ba c te r ia l - pus tu le pur pl e - s e e d - s ta in a nt hr a c nos e phyl lo s ti c ta - le a f - s pot a lt e r na r ia le a f - s pot f r og - e ye - le a f - s pot di a po r th e - pod - & - s te m - bl ig ht ,   c ys t - ne m a to de 2 - 4 - d - in ju r y,  a nd  he r bi c id e - in ju r y.   T he   35  c a te gor ic a l   a tt r ib ut e s   pr e s e nt   in   th e   s oybe a da ta s e a r e   da t e pl a nt - s ta nd pr e c ip te m p,   ha il c r op - hi s t,   a r e a - da m a ge d,   s e ve r it y,  s e e d - tm t,   ge r m in a ti on,  pl a nt - gr ow th le a ve s le a f s p ot s - ha lo le a f s pot s - m a r g,  le a f s pot - s iz e le a f - s hr e a d,  le a f - m a lf le a f - m il d,  s te m lo dgi ng,  s te m - c a nke r s ,   c a nke r - le s io n,  f r ui ti ng - bodi e s e xt e r na de c a y,  m yc e li um in t - di s c ol or s c le r ot ia f r ui t - pods f r ui s pot s ,   s e e d,  m ol d - gr ow th s e e d - di s c ol or s e e d - s iz e ,   s hr iv e li ng, a nd r oot s .   T he   a tt r ib ut e   va lu e s   in   th e   m u s hr oom   da ta s e w e r e   c od e num e r ic a ll y.  A R   pr ogr a m   w a s   w r it te to   r e pl a c e   th e s e   num e r ic   va lu e s   w it th e ir   tr ue   va lu e s T he   de s c r ip ti on  of   th is   da ta s e f r om   th e   U C I   M a c hi ne   L e a r ni ng  R e pos it or y   di s c us s e th e   one   a tt r ib ut e   ( s ta lk _r oot )   w he r e   va lu e s   w e r e   m is s in g.  T hi s   w a s   ve r if ie us in M ic r os of E xc e l   be c a u s e   of   th e   s im pl ic it of   th e   da ta s e t.   A   de c i s io w a s   m a d e   to   r un  e a c of   th e   c la s s if ic a ti on  a lg or it hm s   on  two   ve r s io ns   of   th e   m us hr oom   da ta s e t;   one   ve r s io w it a ll   a tt r ib ut e s   in c lu de d   a nd  a not he r   ve r s io w it th e   s ta lk _r oot   a tt r ib ut e   r e m ove d.  T he   pur pos e   of   c r e a ti ng  th e s e   two  ve r s io ns   w a s   to   in ve s ti ga te   w he th e r   or   not   th e   a tt r ib ut e   w it m is s in va lu e s   w oul s ke w   th e   r e s ul ts   of   th e   c la s s if ic a ti on   a lg or it hm s .   T he   a tt r ib ut e   va lu e s   in   th e   s oybe a da t a s e w e r e   c ode num e r ic a ll a s   w e ll a R   pr ogr a m   w a s   w r it te to   r e pl a c e   th e s e   num e r ic   va lu e s   w it th e ir   tr ue   va lu e s .   T he   s oybe a d a ta s e w a s   th e e xa m in e f or   m is s in va lu e s a l s us in a R   pr ogr a m T he r e   w e r e   ni ne   a tt r ib ut e s   ( ha il s e ve r it y,  s e e d_t m t,   le a f _m il d,  lo dgi ng,  s hr iv e li ng,  f r ui ti ng_bodie s f r ui t_ s pot s s e e d_di s c ol or )   w he r e   10%   or   m or e   of   th e   va lu e s   w e r e   m is s in g.  A   de c i s io w a s   m a de   to   r un  e a c of   th e  s ix   c la s s if ic a ti on  a lg or it hm s   on  two  ve r s io ns   of   th e   s oyb e a da ta s e t,   one   ve r s io w it a ll   a tt r ib ut e s   in c lu de a nd  a not he r   ve r s io w it th e s e   ni ne   a tt r ib ut e s   r e m ove d.  T he   pur pos e   of   c r e a ti ng   th e s e   two  v e r s io ns   w a s   th e   s a m e   a s   t he   ju s ti f ic a ti on  f or   th e   s a m e   m e th od  in   th e   m us hr oom   da ta s e t,   to   in ve s ti ga te   w he th e r   or   not   th e s e   a tt r ib ut e s   w it m is s in va lu e s   w oul s ke w   th e   r e s ul t s   of   th e   c la s s if ic a ti on  a lg or it hm s U pon  f ur th e r   in ve s ti ga ti on  o f   th e   s oybe a da ta s e t,   it   w a s   di s c ove r e th a th e r e   e xi s te onl one   da ta   poi nt   f or   th e   2 - 4 - d - in ju r c la s s   a nd  th a m os of   th e   a tt r ib ut e   va lu e s   w e r e   m is s in g   f or   th is   one   da ta   poi nt T hi s   da t a   poi nt   w a s   r e m ove d   f r om   bot ve r s io ns   of   th e   s oybe a da ta s e ts   in   or de r   to   a voi d s ke w in g t he  r e s ul t s  of  t he  c la s s if ic a ti on a lg or it hm s .     3. 2 .   C la s s if i c at io n  m e t h od s   S ix   di f f e r e nt   c la s s if ic a ti on  te c hni que s   w e r e   t e s te in   th is   s tu dy  to   bui ld   c la s s if ic a ti on  m ode ls   f or   pr e di c ti ng dis e a s e s  i s oybe a n s  a nd e di bl e  or  poi s onous  f e a tu r e s  of  m us hr oom s . T he  c la s s if ic a ti on a lg or it hm s   w e r e   a ll   tr a in e u s in 10 - f ol c r os s   va li da ti on  a nd   w e r e  e xe c ut e us in f unc ti ons   in   W e k a   [ 15] W it 10 - f ol c r os s   va li da ti on,  th e   r ow s   w it hi th e   da ta s e ts   a r e   r a ndoml r e or ga ni z e a nd  s pl it   in to   10  f ol ds   of   e qua s iz e   [ 16] W it e a c it e r a ti on  of   th e   c la s s if ic a ti on  m ode tr a in in pr oc e s s one   f ol is   us e a s   th e   t e s da ta s e a nd  th e   r e m a in in f ol ds   a r e   us e a s   th e   tr a in in da ta s e ts T hi s   pr oc e s s   r e pe a ts   10  ti m e s   unt il   e a c f ol ha s   be e n   us e a s   th e   te s d a ta s e t.   T he   r e s ul ti ng  c la s s if ic a ti on  m od e is   a a ve r a ge   of   th e   10  it e r a ti on s   of   th e   tr a in in g   pr oc e s s T he  f ol lo w in g 6 c la s s if ic a ti on me th ods  w e r e  us e d i n t hi s  s tu dy:   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   25 7     26 4   260   3. 2 . 1.   A r t if ic ia n e u r al  n e t w or k   A r ti f ic ia ne ur a l  ne twor ks  ( A N N )  a r e  bui lt  t r e s e m bl e  t he  w a y a  huma n br a in  t hi nks . A N N s  c ont a in   m ul ti pl e   w e ig ht e c onne c ti ons   be twe e in put s   a nd  out put s th e s e   w e ig ht s   a r e   a dj us te w he bui ld in th e   m ode on  th e   tr a in in da t a   in   or de r   to  c or r e c tl pr e di c c la s s   la b e ls   ba s e on   th e   in put   da t a   obj e c t   [ 17] I th is   s tu dy,  A N N s   w e r e   bui lt   us in th e   m ul ti la ye r   pe r c e pt r on  a lg or it hm   in   W e ka T he   m ul ti la ye r   pe r c e pt r on   a lg or i th m   bui ld s   a A N N   th r ough  a   pr oc e s s   c a ll e ba c kpr opa g a ti on.  I th is   pr oc e s s w e ig ht s   a r e   a s s ig ne to   e a c da t a   obj e c t   in   th e   in put   la ye r   of   th e   A N N T he s e   w e ig ht s   a r e   th e r e - a s s ig ne a s   n e c e s s a r in   one or   m ul ti pl e hi dde la ye r s   of   th e   A N N   in   or de r   to   m in im iz e   th e   m e a s qu a r e e r r or   be twe e th e   c la s s   la be l   pr e di c te by  th e   A N N   a nd  th e   tr ue   c la s s   l a be of   th e   gi v e da ta   obj e c t.   T h e   pr oc e s s   i s   c a ll e d   ba c kpr opa ga ti on   be c a us e   th e s e   a dj us tm e nt s   to   th e   w e ig ht s   a r e   done   in   th e   ba c kw a r ds   di r e c ti on  s ta r ti ng  a th e   out put   la ye r ,   w hi c c ont a in s   th e   c la s s   la be l s a nd  goi ng  ba c th r ough  a ll   of   t he   hi dde la ye r s   to   th e   f ir s hi dde la ye r   [ 18] .   T he   m ul ti la ye r   pe r c e pt r on  a lg or it hm   w a s   e xe c ut e us in a   le a r ni ng  r a te   of   0.3,   a   m om e nt um   of   0.2,  a nd   tr a in in g t im e  of  500.     3. 2 . 2.   N ve  b aye s   N a ïv e   b a ye s   is   a   pr oba bi li s ti c   c la s s if ic a ti on  m e th od  th a us e s   ba ye s   th e or e m T h e   na ïv e   ba ye s   c la s s if ie r   ta ke s   a   s e of   f e a tu r e s   f r om   a   da ta s e a nd  de te r m in e s   th e   pr oba bi li ty   of   e a c f e a tu r e   oc c ur r in in   e a c c la s s   w it hi th e   da ta   [ 19] F o r   e a c r ow   of   da ta th e   va l ue s   of   th e   a tt r ib ut e s   a r e   us e to   c a lc ul a te   th e   pos te r io r   pr oba bi li ty   f or   e a c c la s s   w it hi th e   da t a s e t,   th e   r ow   of   da ta   is   th e a s s ig ne to   th e   c la s s   w it th e   hi ghe s pos te r io r   pr oba bi li ty .   T hi s   m e th od  is   r e f e r r e d   to   a s   na ï ve   be c a us e   it   a s s um e s   th a a ll   f e a tu r e s   of   th e   da ta s e a r e   in de pe nd e nt   of   one   a not he r w hi c h   is   a a s s um pt io th a is   li ke ly   unt r ue   a nd   th us   na ïv e D e s pi te   th is   a s s um pt io not   be in tr ue   in   a ll   c a s e s na ïv e   ba ye s   h a s   be e s how to   be   a   s uc c e s s f ul   c la s s if ie r   in   la r ge   da ta s e ts .   T h e   na ïv e   ba ye s   a lg or it hm   w a s   e x e c ut e u s in th e   n a iv e ba ye s   c la s s if ie r   in   W e ka .   T h e   na ïv e   ba ye s   c la s s if ie r   in   W e ka   us e s   e s ti m a to r   c la s s e s A   ba tc s iz e   of   100  w a s   us e w it hout   ke r ne e s ti m a ti on  or   s upe r vi s e d di s c r e ti z a ti on.     3. 2 . 3.   k - n e ar e s t  n e ig h b or   T he   k - ne a r e s ne ig hbor   ( K N N )   a lg or it hm   a s s ig ns   c la s s   la be ls   t r ow s   w it hi a   da ta s e ba s e on  th e   c la s s  l a be l s  of  t r a in in g da ta  t ha a r e  s im il a r  [ 17 ] . T he  K N N  a lg or it hm  w or ks  by s e a r c hi ng t he  t r a in in g da ta  f o r   k t r a in in g t upl e s  t ha t  a r e   c lo s e s to  t he  t e s da ta  t upl e  a nd  a s s ig ns  t he  t e s tu pl e  a  c la s s  l a be ba s e d on the  c la s s   la be ls   of   th os e   c lo s e s tr a in in tu pl e s T he   c lo s e ne s s   of   a   tr a in in tu pl e   to   a   te s tu pl e   is   de te r m in e u s in a   di s ta nc e   f unc ti on,  s uc h   a s   E uc li de a di s ta nc e .   K N N   w a s   im pl e m e nt e in   W e k a   f or   th is   e xpe r im e nt   u s in th e   in s ta nc e   ba s e le a r ne r   ( I B K )   a lg or it hm T he   I B K   a lg or it hm   w a s   e xe c ut e us in th e   E uc li de a di s ta nc e   f unc ti on, a  ba tc h s iz e  of  100, a nd k = 1.     3. 2 . 4.   S u p p or t  ve c t or  m ac h in e   S uppor ve c to r   m a c hi ne   ( S V M )   is   a   s upe r vi s e m a c hi ne   le a r ni ng  a lg or it hm   us e in   c la s s if ic a ti on  a nd  r e gr e s s io n.  S V M s   w e r e   f ir s pr e s e nt e by  V la di m i r   V a p ni a nd  hi s   c ow or ke r s B e r nha r B os e r   a nd   I s a be ll e   G uyun,  a th e   c om put a ti ona le a r ni ng  th e or ( C O L T - 9 2)   c onf e r e nc e   [ 20 ] I th is   a lg or it hm tr a in in g   da ta   is   tr a ns f or m e to  a   hi ghe r   di m e ns io n.  A   li ne   or   hype r pl a ne   s e pa r a te s   th e  c la s s e s   of   d a ta   f r om   e a c ot h e r T he   li ne   or   hype r pl a ne   a r e   f ound  us in s uppor ve c to r s S uppor ve c to r s   a r e   th e   poi nt s   c lo s e s to   th e   hype r pl a ne S V M s   a r e   hi ghl a c c ur a te w hi c h   m a ke s   up  f or   th e   s lo w   s pe e a s s oc ia te w it th e m I th is   s tu dy,  S V M s   w e r e   bui lt   us in th e   s e que nt ia m in im a opt im i z a ti on  ( S M O )   a lg or it hm   in   W e ka .   T he   S M O   a lg or it hm   us e s   th e   c om pl e xi ty   p a r a m e te r a l s known   a s   th e   C   pa r a m e te r to   c ont r ol   th e   f le xi bi li ty   of   th e   pr oc e s s   in   dr a w in th e   li ne   b e twe e n   c la s s e s   [ 21] th e   C   pa r a m e te r   us e w a s   1.0.  T he   P ol yK e r ne l   de f a ul w a s   us e d, w hi c h s e pa r a te s  t he   c la s s e s  by  a  c ur ve d l in e  [ 21] .     3. 2 . 5.   D e c is io n  t r e e   A   de c is io tr e e   is  a   s tr uc tu r e   th a c ont a in s   in te r na node s   th a d e not e   a tt r ib ut e s br a nc he s   th a de not e   th e   out c om e   of   a   te s on  a obs e r va ti on  a nd  le a f   node s   th a de not e   th e   c la s s   la be [ 17] T he   to node   of   th is   tr e e - li ke   s tr uc tu r e   is   th e   r oot   node I or de r   to   de te r m in e   th e   c la s s   of   a obs e r va t io n,  th e   de c i s io tr e e   is   f ol lo w e d,  s ta r ti ng  a th e   r oo t,   m ovi ng  dow n   to   th e   le a f   node s T he   de c is io tr e e   a lg or it hm   w a s   im pl e m e nt e in   W e ka   f or   th is   s tu dy  us in th e   J 48  de c is io tr e e   a lg or it h m .   T he   J 48  a lg or it hm   w a s   e xe c ut e us in a   ba tc s iz e   of   100,  th e   m in im a of   obj e c t s   of   2,  w it hout   u s in unpr un e tr e e s a   c onf id e nc e   in te r va of   0.25,  s ubt r e e   r a is in g a nd w it hout  bi na r y s pl it s  [ 22]     3.2. 6 . R an d om  f or e s t   A   r a ndom  f or e s is   a   c ol le c ti on  of   de c i s io tr e e s .   E a c de c is io tr e e   w it hi th e   r a ndom  f or e s ge n e r a te s   a   c la s s   pr e di c ti on;   th e   c la s s   w it th e   la r ge s num be r   be c om e s   th e   pr e di c ti on  of   th e   r a ndom   f or e s t   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f  I nt e ll   I S S N 2252 - 8938       P la nt  di s e as e  pr e di c ti on u s in g c la s s if ic at io n al gor it hm s   ( M ar ia  M or gan )   261   [ 23 ] I or de r   f or   th is   a lg or it hm   to   be   e f f ic ie nt th e   in di vi dua m ode ls   m us not   be   c or r e la te or   s houl h a ve   a   lo w   c or r e la ti on.  T he r e   a r e   two  m e th ods   u s e to   e n s ur e   th a th e   in di vi dua de c is io tr e e   m ode ls   a r e   not   to c lo s e ly   c or r e la te d   w it e a c ot he r O n e   m e th od   is   b a ggi ng.  E a c in di vi dua tr e e   s e le c t s   a   r a ndom  s a m pl e   f r om   th e   da ta s e w it r e pl a c e m e nt   [ 23] .   T he   s e c ond  m e th od  is   r a ndom  li ne a r   c om bi na t io ns   of   th e   a tt r ib ut e s .   T hi s   m e th od  us e s   ne w   a tt r ib ut e s   th a a r e   a   li ne a r   c om bi na ti on  of   th e   e xi s ti ng  a tt r ib ut e s   [ 17 ] T hi s   a ls he lp s   to   r e duc e   c or r e la ti on  be twe e n   c la s s if ie r s T h e   r a ndom  f or e s a l gor it hm   in   W e ka   w a s   us e in   th is   s tu dy.   T he   r a ndom   f or e s a lg or ig hm   us e s   th e   num F e a tu r e s   va lu e   of   0,  w hi c s e le c ts   th e   num be r   of   a tt r ib ut e s   c ons id e r e d   a e a c h s pl it  poi nt . T he  a lg or it hm  w a s  e xe c ut e d w it h a  ba g   s iz e   pe r c e nt  of  100% , w hi c h c r e a te s  a  ne w  r a ndom  s a m pl e   th e   s a m e   s i z e   a s   th e   tr a in in s a m pl e T he   N um I te r a ti ons   va lu e   w a s   100,  w hi c s e ts   th e   num be r   of   ba gs  or  i te r a ti ons  t o 100.      3. 3 .   P e r f or m an c e  e val u at io n s   T he   f ol lo w in s e ve m e a s ur e s   w e r e   us e to   e va lu a t e   th e   pe r f or m a nc e   of   th e   s ix   c la s s if ic a ti on  a lg or it hm s   on  th e   s oybe a a nd  m us hr oom   da ta s e ts th e s e   m e a s ur e s   w e r e   s e le c te b a s e on  th e ir   us e   in   a   s im il a r   s tu dy  w hi c h   us e d   c la s s if ic a ti on  f unc ti ons   in   W e k a   f or   pl a nt   di s e a s e   de te c ti on   on  a   da ta s e of   pl a nt   im a ge s  [ 4] .   A c c ur a c y A   pe r c e nt a ge   c a lc ul a te by  di vi di ng  th e   num be r   of   c or r e c tl c la s s if ie da ta   poi n ts   by  th e   to ta num be r  of  da ta  poi nt s  a nd mul ti pl yi ng by 100.   M e a n a bs ol ut e  e r r or :   T he  m e a n a bs ol ut e  e r r or  ( M A E )  i s  c a lc ul a te d by ta ki ng t he  s um  of  t he  a bs ol ut e   e r r or s  di vi de d by the  numbe r  of  non - m is s in g da ta  poi nt s .   T r ue   pos it iv e   r a te :   T h e   T P   r a te   is   c a l c ul a te by  di vi di ng  th e   n um be r   of   tr ue   pos it iv e   c la s s if ic a ti ons   by  th e   s um   of   th e   num be r   of   tr ue   pos it iv e   c la s s if ic a ti ons   a nd   th e   num be r   of   f a ls e   ne ga ti ve   c la s s if ic a ti ons .   ( T P /( T P + F N ) ) .   F a ls e   pos it iv e   r a te :   T he   F P   r a te   is   c a lc ul a te by  di vi di ng  th e   n um be r   of   f a ls e   pos it iv e   c la s s if ic a ti ons   by  th e   s um   of   th e   num be r   of   f a ls e   pos it iv e   c la s s if ic a ti ons   a nd  th e   num be r   o f   t r ue   ne ga ti ve   obs e r va ti ons ( F P /( F P + T N ) ) .   P r e c is io n:   P r e c is io is   c a lc ul a t e by  di vi di ng  th e   num be r   of   tr ue   pos it iv e   c la s s if ic a ti ons   by  th e   s um   o f  t he  numbe r  of  t r ue  pos it iv e  c la s s if ic a ti ons  a nd t he  numbe r  of  f a ls e  pos it iv e  c la s s if ic a ti ons . ( T P /( T P + F P ) ) .   R e c a ll :   R e c a ll   is   c a lc ul a te by  di vi di ng  th e   num be r   of   tr ue   pos it iv e   c la s s if ic a ti ons   by  th e   s um   of   th e   num be r  of  t r ue  pos it iv e  c la s s if ic a ti ons  a nd   th e  numb e r  of  f a ls e  ne ga ti ve  c la s s if ic a ti ons . ( T P /( T P + F N ) ) .   -   M e a s ur e :   T he   F - M e a s ur e   is   c a lc ul a t e by  m ul ti pl yi ng  th e   pr e c is io a nd  r e c a ll di vi di ng  th is   va lu e   by  th e   s um   of   th e   pr e c i s io a nd  r e c a ll a nd  f in a ll m ul ti pl yi ng  th is   num be r   by  two.  ( 2*( ( pr e c is io n*r e c a ll ) /( pr e c is io n+ r e c a ll ) ) ) .       4.   R E S U L T S  A N D  D I S C U S S I O N   T he   a lg or it hm s   w e r e   te s te on  bot va r ia ti ons   of   th e   m us hr oo m   da ta s e t,   one   w it th e   a tt r ib ut e   w it h   m is s in va lu e s   r e m ove a nd   one   w it a ll   a tt r ib ut e s   in c lu de d.  T he   m e a s ur e s   pr e vi ous ly   de s c r ib e w e r e   r e por te f or   e a c c la s s if ic a ti on  a lg or it hm T he   r e s ul ts   f or   bo th   va r ia ti ons   of   th e   m us hr oom   da ta s e w e r e   s im il a r s th e   r e por te r e s ul ts   a r e   f r om   th e   ve r s io of   th e   d a ta s e w it a ll   a tt r ib ut e s   in c lu d e d.  A ll   of   th e   s ix   a lg or it hm s   te s te pe r f or m e e xt r e m e ly   w e ll   on  th e   m u s hr oom   da ta s e w it a lm o s a ll   a c c ur a c va lu e s   a t   100% T he   na ïv e   ba ye s   a lg or it hm   pe r f or m e th e   w or s on  th is   da ta s e w it a a c c ur a c of   95.83% w hi c is   s ti ll  a  good a c c ur a c y l e v e l.   T a bl e  1  s how s  f or  r e s ul ts  f or  t he  m u s hr oom   da ta s e t.       T a bl e  1 .   R e s ul ts  f or  m us hr oom  da ta s e t   P a r a m e t e r   C l a s s i f i c a t i on M e t hod   ANN   N a ï ve   B a ye s   KNN   S V M   D e c i s i on T r e e   R a ndom  F or e s t   A c c ua r c y   100.00%   95.83%   100.00%   100.00%   100.00%   100.00%   M A E   0.00   0.04   0.00   0.00   0.00   0.00   TP - R a t e   1.00   0.96   1.00   1.00   1.00   1.00   FP - R a t e   0.00   0.04   0.00   0.00   0.00   0.00   P r e c i s i on   1.00   0.96   1.00   1.00   1.00   1.00   R e c a l l   1.00   0.96   1.00   1.00   1.00   1.00   F - M e a s ur e   1.00   0.96   1.00   1.00   1.00   1.00       T he   a lg or it hm s   w e r e   te s te d   on  two  va r ia ti ons   of   th e   s oybe a da ta s e t,   one   w it a ny  a tt r ib ut e s   th a c ont a in e 10%   or   m or e   m is s in va lu e s   r e m ove a nd  one   w it a ll   a tt r ib ut e s   in c lu de d.  T he   r e s ul ts   f or   bot va r ia ti ons   of   th e   s oybe a da t a s e w e r e   s im il a r s th e   r e por te r e s ul ts   a r e   f r om   th e   ve r s io of   th e   da ta s e w it a ll   a tt r ib ut e s   in c lu de d.   A ll   of   th e   s ix   a lg or it hm s e x c e pt   f or   de c is io tr e e p e r f or m e w e ll   on  th e   s oybe a n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   25 7     26 4   262   da ta s e w it a c c ur a c va lu e s   f a ll in g   in   th e   r a nge   of   89.22 - 91.83 % T he   d e c is io n   tr e e   a lg o r it hm   ha d   a   r e por te a c c ur a c of   82.68%   f or   th e   s oybe a da t a s e t,   s th is   w a s   th e   w or s t - pe r f or m in a lg or it hm   in   c la s s if yi ng   di s e a s e s  i n t he   s oyb e a n da ta s e t.  T a bl e  2   s how s   f or  r e s ul ts  f or  t he   s oybe a n da t a s e t.       T a bl e  2 .   R e s ul ts  f or  s oybe a n d a ta s e t   P a r a m e t e r   C l a s s i f i c a t i on M e t hod   ANN   N a ï ve   B a ye s   KNN   S V M   D e c i s i on T r e e   R a ndom  F or e s t   A c c ua r c y   91.18%   90.20%   91.83%   89.22%   82.68%   89.54%   M A E   0.01   0.01   0.01   0.1   0.02   0.04   TP - R a t e   0.91   0.9   0.92   0.89   0.83   0.9   FP - R a t e   0.91   0.01   0.01   0.01   0.02   0.01   P r e c i s i on   0.91   0.92   0.92   0.89   0.82   0.9   R e c a l l   0.91   0.9   0.92   0.89   0.83   0.9   F - M e a s ur e   0.91   0.9   0.92   0.89   0.83   0.89       I c om pa r in th e   r e s ul ts   f or   bo th   da ta s e ts A N N   a nd  K N N   pe r f or m e be s on  th e   s oybe a da ta s e t,   w hi le   a ll   m e th ods   ot he r   th a na ïv e   b a ye s   p e r f or m e a 100%   a c c ur a c on  th e   m u s hr oom   da ta s e t.   I is   to   b e   e xpe c te th a m os of   th e   c la s s if ic a ti on  m e th ods   w oul p e r f or m   be s on  th e   m us hr oom   da ta s e be c a us e   th e r e   a r e   onl two  c la s s e s   pr e s e nt   in   th is   da ta s e t,   w hi le   th e   s oybe a da ta s e th a w a s   te s te ha s   18  c la s s e s A s   m e nt io ne in   th e li te r a tu r e   r e vi e w  s e c ti on,  na ïv e   ba ye s   a nd   K N N   a r e   not   ty pi c a ll u s e in   a gr ic ul tu r a s tu di e s .   T hi s   is   a in te r e s ti ng  poi nt   to   c ons id e r   be c a us e   n a ïv e   ba ye s   w a s   th e   onl a lg or it hm   th a di not   pr oduc e   100%   a c c ur a c in   th e   m u s hr oom   da ta s e t,   but   a ls in te r e s ti n to   not e   be c a u s e   K N N   w a s   one   of   th e   b e s pe r f or m in g a lg or it hm s  i n t he   s oybe a n   da ta s e [ 11] . A lt hough  th e  pe r f or m a nc e  of  K N N  on  th e   s oybe a n da ta s e t   s e e m   to   c onf li c w it th e   pr e vi ous   li te r a tu r e th e   r e s ul ts   s how   th a A N N   w a s   one   of   th e   to pe r f or m in g   a lg or it hm s   in   th e   s oybe a da ta s e c om pa r e to   th e   ot he r   a lg or it hm s a nd  th is   c onf ir m s   w ha w a s   f ound  in   th e   F e br ua r y 2019 s tu dy me nt io ne d i n t he  l it e r a tu r e  r e vi e w  s e c ti on  [ 2] .   F ur th e r   c om pa r is on  of   th e   r e s ul ts   f or   bot h   da ta s e ts   r e ve a le a not he r   m a jo r   di f f e r e nc e   be twe e th e   two  da ta s e t s T he   m us hr oom   da ta s e is   ba la n c e d,  w it th e   ob s e r va t io ns   be in e qua ll di s tr ib ut e a m ong  th e   two  c la s s e s poi s onou s   a nd  e di bl e T he   ba la nc e di s tr ib ut io of   th e   m us hr oom   da ta s e is   s how in   F ig ur e   1.   T he   s oybe a da ta s e t,   how e ve r is   im ba la nc e a m ong  th e   di s e a s e   c la s s e s A s   s how in   F ig ur e   2,  th e r e   a r e   4   c la s s e s   th a c ont a in   a   m uc hi ghe r   pe r c e nt a ge   of   th e   obs e r va ti o ns   c om pa r e to   th e   ot he r   c la s s e s T he   di s e a s e   c la s s e s   w it th is   hi gh  pe r c e nt a ge   of   obs e r va ti ons in   F ig ur e   ( D th r ough  D 4) a r e   phyt opht ho r a - r ot b r ow n - s pot a lt e r na r ia le a f - s pot a nd  f r og - e ye - le af - s pot B e c a us e   th e   s oybe a da ta s e is   im ba la nc e d,  m e a s ur e s   ot he r   th a a c c ur a c ne e de to   be   c on s id e r e to   de te r m in e   if   th e   im ba la nc e   of   th e   da ta s e w a s   s ke w in th e   r e s ul ts   f or   e a c c la s s if ic a ti on  a lg or it hm I th e   c a s e   of   im ba la nc e da ta s e ts   w it a   la r ge   num b e r   of   va lu e s th e   pr e c is io a nd  r e c a ll   va lu e s   c a be   e va lu a te to   de te r m in e   th e   pe r f or m a nc e   of   th e   c la s s if ic a ti on  a lg or it hm   [ 24] A s   s how n   in   th e   r e s ul ts   f or   th e   c la s s if ic a ti on  a lg or it hm s   t e s te on   th e   s oybe a n   da ta s e in   T a bl e   2,  a ll   of   th e   pr e c is io a nd   r e c a ll   v a lu e s   a r e   c lo s e   to   1.   R e f e r r in ba c k   to   th e   pa r a m e t e r   e va lu a ti ons   s e c ti on  of   th is   pa pe r th is   in di c a te s   th a th e   num be r   of   tr ue   pos it iv e   c la s s if ic a t io ns   a r e   m uc l a r ge r   th a th e   num be r   of   f a l s e   ne ga ti ve   a nd   f a ls e   pos it iv e   c la s s if ic a ti ons I f   th e   c la s s if ic a ti on  a lg or it hm s   w e r e   b e in s ke w e d   by  th e   im ba la nc e   in   th e   da ta s e t,   our   pr e c is io a nd   r e c a ll   va lu e s   w oul d be   m uc lo w e r .   T hu s a lt hough  th i s   is   a   m a jo r   di f f e r e nc e   be twe e our   da ta s e ts th e   im ba la nc e   f e a tu r e   of   th e   s oybe a da ta s e di not   ha ve   a n   a dve r s e   e f f e c on  th e   r e s ul ts   of   e a c c la s s if ic a ti on a lg or it hm I f ut ur e   s tu di e s  of   th is   ki nd,  da ta s e ts   th a a r e   im ba la nc e d   m a ne e a ddi ti ona d a ta   pr e pa r a ti on  t e c hni que s   a s   to   not   s ke w   th e   r e s ul ts   of   th e   c la s s if ic a ti on  a lg or it hm s T w pot e nt ia te c hni q ue s   f or   ha ndl in im ba la nc e da ta s e ts   a r e   ove r s a m pl in a nd  unde r s a m pl in [ 25] I n   ove r s a m pl in g,  s ynt he ti c   d a ta   is   ge ne r a te d s th a a ddi ti ona l   obs e r va ti ons   a r e   pr e s e nt   in   th e   m in or it c la s s   a nd   th e   di s tr ib ut io of   th e   da ta   is   m or e   e qua a m ong  th e   c la s s e s .   I unde r s a m pl in g,  obs e r va ti ons   a r e   r e m ove d   f r om  t he  m a jo r it y c la s s e s  t o m a ke  t he  di s tr ib ut io n of  da ta  m or e   e qua a m ong the  c la s s e s .       Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f  I nt e ll   I S S N 2252 - 8938       P la nt  di s e as e  pr e di c ti on u s in g c la s s if ic at io n al gor it hm s   ( M ar ia  M or gan )   263       F ig ur e  1.  M us hr oom  da ta s e c la s s  di s tr ib ut io n           F ig ur e   2. S oybe a n da ta s e c la s s  di s tr ib ut io n       5.   C O N C L U S I O N   I th is   pa pe r w e   te s te A N N na ïv e   ba ye s K N N S V M de c is i on  tr e e a nd  r a ndom   f or e s c la s s if ie r s   to   pr e di c di s e a s e   pr e s e n c e   in   a   m u s hr oom   da ta s e a nd   c la s s if y di s e a s e   in  a   s oyb e a d a ta s e t.   I th e   m us hr oom   da ta s e t,   w e   f ound  th a a ll   c la s s if ie r s e xc e pt   f o r   na ïv e   ba ye s pe r f or m e a 100%   a c c ur a c y.  T hi s   is   a   li ke ly   r e s ul gi ve a   da ta s e w it onl two  c la s s e s I th e   s oybe a d a t a s e t,   w e   h a ve   s how th a A N N   a nd  K N N   a r e   th e   be s c la s s if ie r s   in   t e r m s   of   a c c ur a c y,  but   th a A N N   is   li ke l th e   be tt e r   c hoi c e   s in c e   K N N   c la s s if ic a ti on  is   not   ty pi c a ll us e f or   pl a nt   da ta s e t s W e   a l s s how e th a th e   i m ba la nc e   of   th e   s oybe a da ta s e di not   a f f e c th e   r e s ul ts   of   th e   c la s s if ic a ti on  m e th ods li ke ly   be c a us e   a   la r ge   a m ount   of   da ta   is   pr e s e nt I th e   m us hr oom   da ta s e t,   w e   us e c la s s if ic a ti on  to   de te r m in e   if   a   di s e a s e   w a s   pr e s e nt   or   not   ( e di bl e   or   poi s onous )   a nd  in   th e   s oybe a da ta s e t,   w e   us e c la s s if ic a ti on  to   de te r m in e   w hi c h   di s e a s e   w a s   pr e s e nt T he   pur pos e   of   th e s e   e xpe r im e nt s   w a s   to   c om e   up  w it c la s s if ic a ti on  m e th od s   th a c a be   us e on  da t a s e t s   f or   pl a nt s   or   f ungi   th a t   c ont a in   r e a m e a s ur e m e nt s   in s te a of   im a g e s .   T he   f in di ngs   in   th is   pa pe r   c a b e   r e pe a te on   s im il a r   f ungi   or   pl a nt   da ta s e ts   but   m a a l s be   e xt e nd e to   tr a in in c la s s if ic a ti on  a lg or it hm s   f or   pr e di c ti ng  di s e a s e   pr e s e nc e   or  di s e a s e  c l a s s if ic a ti on i n huma n or  a ni m a da ta s e ts  w it h r a w   m e a s ur e m e nt s .       R E F E R E N C E S     [1]   G.  Prem,  et  al “Plant  Disease  Prediction   Using  Machine   Learning  Al gorithms,”  Internati onal  Journal  of   Computer  Applications , vol. 182, no. 25, pp. 1 7 2018.   DOI: 10.5120/ij ca2018918049.   [2]   N.  Kanaka  Durga  G.  Anurhada ,   “Plant  Disease  Identification  Using  SVM  and  ANN  Algorithms,”  Internati onal   Journal  of Recent  Technol ogy and  Engineeri ng (IJRTE ) , vol. 7, no. 5S4 , 2019.   [3]   H.  Al - Hiary,  et  al . “Fast  and  Accurat Detection  and  Classification  of  Plant  Diseases,”  Internati onal  Journal  of  Computer  Application s,  vol 17, no. 1, 2011.   DOI: 10.5120/218 3 - 2754.   [4]   R.  Ramya,  et  al. “A  Review  of  Different  Classification  Techniques  in  Machine  Learning  Using  Weka  for  Plant   Dise ase Detecti on,”  Internati onal Resear ch Journal  of Engin eering and  Technology (IR JET),   vol 5, no.5 , 2018.   [5]   G.  H.  Lincoff,  The  Audubon  Society  field  guide  to  North   American  mushrooms .   Alfred  A.  Knopf;  distributed  by  Random Ho use , 1981.   0 500 1000 1500 2000 2500 3000 3500 4000 4500 P oi s onous E di bl e N um be r   of  i ns t a nc e s C l a ss  l a be l 0 5 10 15 20 25 30 35 40 45 N um be r   of  i ns t a nc e s C l a ss  l a be l Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   25 7     26 4   264   [6]   G.  H.  Lincoff UCI  Mac hine  Learning  Repository ,”   University  of  California,  Irvine,  School  of  Information  and   Computer Sc iences , 1981. [Online]. Available: https://archive.ics.uci.edu/ml/datasets/mushroom.   [7]   North  Carolina  Soybeans Uses  of  Soybeans ,”   2019.  [Online] Avail able:  https://ncsoy.org/media - resources/uses - of - soybeans/ .   [8]   L.  V.  Madden,  G.   Hughes,  and   M.  E.   Irwin,  “Coupling   Disease - Pro gress - Curve  and  Time - of - Infection   Function for  Predicting  Yi eld  Loss  of  Crops , ”  Phytopath ology,  vol  90,  no.  8,  2000.   https://doi.org/10.1094/PHYTO.2000.90.8.788.   [9]   W.  Pavan,  C.  W.  Fraisse,  an  N.  A.  Peres,  “Development   of  a   web - based  disease  forecasting  system  for   strawberrie s,”  Computers  and Elec tronics in  Agriculutu re,   vol 75, no. 1, 2011.   [10]   R.N Strang e and P.  R. Scott, “ Plant Di sease:  A Thre at to Glob al Food   Security, ”  Annual Review of Phytopathology,   vol. 43, no.1, pp. 83 - 116, 2005.   [11]   D.  C.  Corrales,  J.  C.  Corrales   and  A.  Figueroa - Casas “Towards  det ecting  crop  disease and  pest  by   supervised  learning, ” Ing.  Univ. , vol. 19, no. 1, pp. 207 - 228.   [12]   U.  Ayub  and  S.  A.   Moqurrab “Predicti ng  crop  diseases  using  data  mining   approaches:   Classi fication, ”  2018  1st  Internati onal Con ference on Pow er, Energy an d Smart Gr id (ICPESG) , 20 18.   [13]   D.  Dua,  and  C.  Graff,  UCI   Machine  Learning  Repository ,”   Universit of  California,  Irvine,  School  of   Information  and Com puter Sci ences , 2019. [Online]. Available:  http://archive.ics.uci.edu/ml   [14]   R.S.  Michalski  and  R.L.  Chilausky UCI   Machine  Learning  Reposit ory ,”   University  of  California,  Irvine,  Schoo l   of  Information  and  Computer  Sciences 1980.  [Online].  Available:   https://archi ve.ics.uci.edu/ml/datasets/Soybean+ (Large)   [15]   E.   Frank,   M.   A.  Hall,  and  I.   H.  Witten ,   The  WEKA  Workbench.  Online  Appendix  for   Data  Mining:  Practical  Machine  Learning  Tools  and  Techniques , Data  Mining:  Practical   Machine  Learning  Tools  and  Techniques,   Morgan  Kaufmann,  Fourth  Edition,   2016.   [Online].  Available :   xxxxxhttps://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appe ndix.pdf   [16]   R.  Bouckae rt,  WEKA  Manual  for  Version   3 - 7 - 8 2013.  [Online].  Available:   http://statweb.stanford.edu/~ lpekelis/13_datafest_cart/Weka Manual - 3 - 7 - 8.pdf   [17]   J.  Han,   M.  Kamber  and  J.  Pei,  Data  Mining:  Concepts  and  Techniques.  Amsterdam:  Elsevier /Morgan  Kaufmann 2012.   [18]   R.  Rojas R , “ The  Backpro pagation  Algorithm ,”   Neural Networks. Sprin ger, Berlin, Heidelberg , 1996.   [19]   D.  Soni Introductio to  Naive  Bayes  Classifi cation ,”  Towards  Data   Science 16  July  2019.  [Online].  Available :   https://towardsdatascience.com/introduction - to - naive - bayes - clas sification - 4cffabb1ae54   [20]   R.  Gandhi,   Support  Vecto r   Machin -   Introductio to   Machine  Lea rning  Algorithm s ,”   Towards  Data   Science 7   June  2018.  [Online].  Available:   https://towardsdatascience.com/supp ort - vector - machine - introduction - to - machine - learning - algori thms - 934a444fca47   [21]   J. Brownlee,  How To Use Classi fication Machine Learning  Algorithm s in Weka , 25 July 2016. [Online]. Available :   https://machinelearningmastery.com/use - classifi cation - machine - learning - algorit hms - weka/   [22]   V.  Koblar,  Study  Programme:   Information  and   Communicatio n   Technolo gies 2012.  [Online].   Available:  https://pdfs.semanticscholar.org/94a2/9d5a74ed9ac656de 4e55c71fac92d07795ef.pdf   [23]   T.  Yiu Understanding  Random  Forest ,”  Towards  Data  Scie nce 12  June   2019 .   [Online].  Available:   https://towardsdatascience.com/understanding - ran dom - forest - 58381e0602d2   [24]   S.  Lador,  What metri cs shoul d be used  for evalu ating a  model o n an im balanced dat a set? ,”  Towards Data Science Sep  2017.  [Online].   Available:   https://towardsdatascience.com/what - metrics - should - we - use - on - imbalance d - data - set - preci sion - recall - roc - e2e79252ae   [25]   W.  B ard,  Having  an  Imbalanced  Dataset?  Here  Is  How  You  Can  F ix  It ,”  Towards  Data  Science 22  Feb  2019.   [Online].  Available:  https:/ /towardsdatas cience.com/havi ng - an - imba lanced - dataset - here - is - how - you - can - solve - it - 1640568947e   Evaluation Warning : The document was created with Spire.PDF for Python.