I A E S   I n t e r n at io n al  Jou r n al  of   A r t if ic ia I n t e ll ig e n c e   ( I J - AI )   V ol .   10 , N o.   1 Ma r ch   2021 , pp.  184 ~ 190   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 10 .i 1 .pp 184 - 190           184       Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   B r e ast  c an c e r  p r e d i c t i on  m od e l  w i t h  d e c i si on  t r e e  an d  ad ap t i ve   b oost i n g       T s e h ay A d m a s s u  A s s e gi e 1 R L ak s h m T u la s i 2 , N . K om al  K u m ar 3   1 De partment of Computer Science Faculty  of Comp uting Te chnolog y, AIT , Aksum University,   Aksum,   Ethiopia   2 Department of Compu ter Science and Engineering,  R.V.R & J. C College of En gineering, Guntur,  India.   3 Department of Compu ter Science and Engineering,   St. Pete r’s I nstitute  of Hi gher  Educa tion an d Rese arch , Avad i,  Chennai,  India       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e D e c   25 , 20 19   R e vi s e O c t   1 0, 20 20   A c c e pt e J a n   4 , 20 21       In  this  study,  breast  cancer   prediction  model  is   proposed  with   decision  t ree  and  adaptive  boosti ng  ( A dboost) .   Further more,   an  extensiv e   experi mental  evaluatio n of the  predicti ve performan ce of the  proposed  model  is  con ducted The  study  is  conducted  on  breast  cancer  data set  collected  form  the   kag gle  data  repository.   The  dataset  consists   of  569   observation of  whi ch  the  212  or   37.2 5%  are  benign  or  breast  cancer  negative  and  62.74%  are  malig nant  or  breast  cancer  positive.  Th class  distribution   shows  that,  the  dataset  is   highly  imbalance and  learning  algorithm  such  as  decision  tree   is  biased   to  the  benign  observation  and  results  i poor  performance  on   predicti ng  the  malignant  observation To  improve  the   performa nce  of  the   decision  tre on  the   malignant  observation ,   boosting  algorithm  namely,  the  adaptive  boo sting   is  employed Finall y,  the  predicti ve  performance  of  the  decision   tr ee  and  adaptive  boosti ng   is  analyzed.   The  analysis   on  predictive  performanc of  the   model   on  the  kaggle  breast  cancer  data   repository  shows  that,   a daptive  boosting   has  92.53%  accuracy   and  the  accuracy   of  decision  tree   is  8 8.80%,   Overall,  the adabo ost algorithm pe rformed  better tha n decision tr ee.   K e y w o r d s :   A da boos t   B r e a s c a n c e r   B r e a s c a n c e r  pr e di c ti on    D e c is io n t r e e   M a c hi ne  l e a r ni ng   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   T s e ha A dm a s s u A s s e gi e   D e pa r tm e nt  of   C om put e r  S c ie nc e , A ks um  U ni ve r s it y   1010   A ks um E th io pi a   E m a il ts e ha ya dm a s s u2006 @ gm a il .c om       1.   I N T R O D U C T I O N   B r e a s c a n c e r  i s   c a us e d  by a n a bnor m a gr ow th  a nd  c e ll  di vi s io n i n t he  br e a s ti s s ue s  w it hout  c ont r ol T he   a bnor m a gr ow th   of   th e   c e ll s   is   c a ll e a   tu m or   a nd   r e s ul ts   in   e it he r   be ni gn  ( non - can c e r ous )   or   m a li gna n t   ( c a nc e r ous ) I n r e c e nt  ye a r s br e a s c a nc e r  ha s  be c om e  one  of  t h e  de a dl ie s a nd e pi de m ic  di s e a s e s  i n t h e  w or ld   [1 - 5] A   li te r a tu r e   r e vi e w   on  th e   br e a s t   c a nc e r   s how s   th a t,   br e a s c a n c e r   ha s   be c om e   c om m on   in   w om e n   [ 1]   a nd  c a nc e r   di s e a s e   c a s e s   a r e   e xpe c te to   be   27  m il li on  by  2030  [ 2] I th e   li te r a tu r e di f f e r e nt   m a c hi ne   le a r ni ng   m ode ls   a r e   pr opos e a s   a   s ol ut io in   th e   r e duc ti on  of   de a th   r a te   c a us e by  br e a s c a n c e r   w it h   c om put e r   a s s is te d   br e a s c a nc e r  di a gno s is  s y s te m .   B r e a s c a n c e r   is   th e   s e c ond  m a jo r   c a nc e r   di s e a s e   in   w om e n   in   th e   w or ld   [ 3] T he   di s e a s e   i s   c om m on   in   de ve lo pe c ount r ie s   in   th e   pa s but   is   r a pi dl in c r e a s in in   m id dl e - in c om e   a nd  lo w - in c om e   c ount r ie s   to o .   T hi s  s how s  t ha t,  t he  c a nc e r  di s e a s e  c a s e s  a r e  i nc r e a s in g r a pi dl y a nd ma c hi ne - l e a r ni ng a lg or it hm s  a r e  r e qui r e d   f or   de c is io s uppor t   to   r e duc e   th e   e pi de m ic   c a s e s   by  pr e di c ti ng   br e a s c a nc e r   a s   e a r ly   a s   pos s ib le .   T he   m a jo r   pr obl e m  i n br e a s c a nc e r  pr e di c ti on   w it h m a c hi ne  l e a r ni ng   is   th e  i m ba la nc e  be twe e n  t he  be ni gn  a nd ma li gna nt   obs e r v a ti ons   in   br e a s c a nc e r   da ta s e t   [ 4] B r e a s c a nc e r   pr e di c ti on  in vol ve s   a   bi na r y   c la s s if ic a ti on  pr obl e m   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f  I nt e ll   I S S N 2252 - 8938       B r e as c anc e r  pr e di c ti on m ode w it h de c is io n t r e e  and adapti v e  boos ti ng   ( T s e hay  A dm as s u A s s e gi e )   185   w he r e   a obs e r va ti on  be lo ngs   to   e it he r   m a li gna nt   or   be ni gn  c la s s H ow e ve r th e   num be r   of   be ni gn  obs e r va ti ons   is   a lwa ys   gr e a te r   th a th e   num be r   of   m a li gna nt   obs e r va ti ons   in   th e   da ta s e a s   th e   num be r s   of   non - c a nc e r ous   pe opl e  a r e  gr e a te r  t ha n t he  numbe r  of  c a nc e r ous  pe opl e  i n t he   r e a w or ld . T he  i m ba la nc e  of  obs e r va ti on i n t he   d a ta s e c r e a te s   a   pr obl e m   to   m a c hi ne   le a r ni ng  a lg or it hm   w hi c r e s ul ts   in   in c or r e c pr e di c ti ons   on  th e   c la s s   of   in te r e s w hi c is   th e   m a l ig na nt   ( m in or it c la s s ) A s   m a c hi ne   l e a r ni ng  a lg or it hm   m or e   f r e que nt ly   le a r ns   th e   m a jo r it c la s s th e   m ode a ls pr e di c ts   th e   be ni gn  ( m a jo r it y   c la s s )   w it be tt e r   a c c ur a c th a n   th e   m in or it c la s s H e nc e a   s ta nda r d m a c hi ne - le a r ni ng mode m a ke s   bi a s e d   pr e di c ti on   to w a r ds  t he  m a jo r it y c la s s .   I th is   r e s e a r c h,  w e   ha ve   pr opos e br e a s c a nc e r   pr e di c ti on  m o de w it h   a da pt iv e   boos ti ng  a lg or it h m   to   opt im iz e   th e   p r e di c ti on  pe r f o r m a nc e   of   de c is io t r e e   a lg or i th m   due   t o   bi a s e pr e di c ti on  to w a r ds   be ni gn   obs e r va ti on.  F ur th e r m or e , t hi s  s tu dy,   in ve s ti ga te s  t he   a n s w e r s   to   th e  f ol lo w in g r e s e a r c h que s ti ons :   1.   H ow  t o opti m iz e   pr e di c ti ve  pe r f or m a nc e  of   de c is io n t r e e   f or  c la s s if ic a ti on of   im ba la nc e d br e a s c a nc e r ?   2.   W ha is  t he  pe r f o r m a nc e  of   de c is io n t r e e   an a da pt iv e  boos ti ng  a lg or it hm  f or  pr e di c ti ng  b r e a s c a nc e r ?   3.   W hi c h f e a tu r e   ( s )   in  t he  br e a s c a nc e r  da ta s e t   h a s  s tr ong r e la ti o ns hi p t o t he  c la s s  f e a tu r e ?       2.   L I T R E A T U R E   R E V I E W   M a ny  r e s e a r c w or ks   ha v e   be e c onduc te on   br e a s c a n c e r   c la s s if ic a ti on .   T he   r e s e a r c w or ks   a ppl ie di f f e r e nt   m a c hi ne   le a r ni ng  a lg or it hm s   f o r   de ve lo pi ng  pr e di c ti ve   m ode f or   c la s s if ic a ti on  of   br e a s c a nc e r S om e   of  t he  pr e vi ous  r e s e a r c h w or ks  on br e a s t  c a nc e r  c la s s if ic a ti on [ 5 - 25]   a r e  di s c us s e d i n   th i s  s e c ti on. I n [ 5] , na ïv e   ba ye s R B F   a nd  J 48  a lg or it hm s   a r e   a ppl ie to   W is c ons in   br e a s c a nc e r   da ta s e t.   T he   da ta s e c ons is t s   of   699   obs e r va ti ons   a nd  two  c la s s e s   ( m a li gna nt   a nd  be ni gn)   a nd  f e a tu r e s T he   e xpe r im e nt a r e s ul of   th e   s tu dy  s how s   th a na ïv e   ba ye s   a lg or it hm  pe r f or m e d be tt e r  t ha n R B F  a nd J 48 -   d e c is io n t r e e  a lg or it hm .   I [ 6] de e ne ur a ne twor a nd  s uppor ve c to r   m a c hi ne   is   a p pl ie to   a onl in e   br e a s c a nc e r   da ta   r e pos it or c ol le c te f r om   b r oa G D A C   f ir e hous e   a va il a bl e   onl in e   a ht tp s :/ /g da c .b r oa di ns ti tu te .or g/ T he   a lg or it hm s  a r e  e va lu a te d a ga in s th e ir  pr e di c ti ve  a c c ur a c y a nd r e s ul s how s  t ha th e  hi gh e s a c c ur a c y a c hi e v e by  th e   s uppor ve c to r   m a c hi ne   is   69.8% T he   de e n e ur a ne twor pe r f or m e lo w e r   th a th e   s uppor ve c to r   m a c hi ne .   I n [ 7] th e  a ut hor s  a ppl ie d s uppor ve c to r  m a c hi ne   ( S V M ) , na ïv e  ba ye s   ( N B ) , de c i s io n t r e e   ( D T )   a nd   k - ne a r e s ne ig hbor   ( K N N )   on  W is c on s in   br e a s c a nc e r   da ta s e t   a nd  pr o pos e a   br e a s c a nc e r   pr e di c ti on  m ode w it S V M N B D T   a nd  K N N T he   da t a   r e pos it or c ont a in s   699   obs e r va ti ons   of   w hi c 459  a r e   be ni gn  a nd  241  a r e   m a li gna nt T he   c om pa r a ti ve   pe r f or m a nc e   a n a ly s is   on  th e   e f f ic ie nc of   th e   pr e di c ti on  m ode ls   s how s   th a t   S V M  ha s  be tt e r  a c c ur a c y t ha n t he  ot he r  a lg or it hm s .   I a not he r   s tu dy  [ 8] on   br e a s c a nc e r   pr e di c ti on  m ode is   p r o pos e by  e m pl oyi ng  th r e e   m a c hi ne - le a r ni ng  a lg or it hm s   na m e ly li ne a r   r e gr e s s io n,  de c is io tr e e   a nd  r a ndom  f or e s t.   I n   th e   s tu dy,  th e   a ut hor s   a ppl ie d   th e s e   m a c hi ne - le a r ni ng  a lg or it hm s   on  th e   W is c ons in   br e a s c a nc e r   da ta   r e pos it or y.  T he   pr e di c ti ve   pe r f or m a nc e   of   th e   pr opos e m ode l   is   a na ly z e a nd  th e   r e s ul o f   a na ly s is   s how s   a a c c ur a c of   84.14% T he   r e gr e s s io n   a lg or it hm   is   us e to   a na ly z e   th e   r e la ti ons hi be tw e e th e   a tt r ib u te s   in   th e   da ta   r e po s it or y.   I [ 9] s uppor ve c to r   m a c hi ne   a lg or it hm   is   a ppl ie to   573  ob s e r va ti ons   c ol le c te d   f r om   m e di c a r e pos it or y.  T he   a ut hor s   c om pa r e d   th e   pe r f or m a nc e   of   li ne a r   a nd  non - li ne a r   s uppor ve c to r   m a c hi ne T he   r e s ul of   pe r f or m a nc e   a na ly s i s   s how s   th a li ne a r  s uppor ve c to r  m a c hi ne  out pe r f or m e d t ha n t he  non - li ne a r  s upp or ve c to r  m a c hi ne .   I a not he r   s tu dy  [ 10] N B   a nd  lo gi s ti c   r e gr e s s io is   a ppl ie to   th e   W is c ons in   br e a s c a nc e r   da ta   r e pos it or y.  T he   da ta   r e pos it or c ont a in s   697  obs e r va ti ons   a nd  11  f e a tu r e s T he   a ut hor s   c om pa r e th e   pe r f or m a nc e   of   th e   pr opos e m ode l   a nd  t he   r e s ul of   pe r f o r m a nc e   a na ly s i s   s ho w s   th a t   th e   na ïv e   ba ye s   a lg or it hm s   out pe r f or m e th a th e   lo gi s ti c   r e gr e s s io a lg or it hm .   I [ 11] br e a s c a nc e r   pr e di c ti on  m od e is   pr opos e by  e m pl oyi ng  th e   s uppor ve c to r   m a c hi ne   a lg or it hm   W is c on s in   da ta   r e pos it or y.  T h e   num b e r   of   obs e r va ti ons   us e in   th e   da ta s e is   569  a nd  th e   num be r   of   f e a t ur e s   is   10.  T h e   pr e di c ti ve   pe r f or m a nc e   of   th e   pr opos e br e a s c a nc e r   pr e di c ti on  m ode is   e va lu a te a nd  th e   a c c ur a c of   th e   a lg or it hm   is   90.86 % T he   a c c ur a c y r e s ul s ho w s  t ha s uppor t   ve c to r  m a c hi ne  pe r f or m e d w e ll  on t he  pr e di c ti on of  br e a s c a nc e r .   I [ 12] a   s uppor ve c to r   m a c hi ne   a nd  c onvolut io na ne ur a ne twor ( C N N )   ba s e br e a s c a nc e r   c la s s if ic a ti on  m ode is   pr opos e d.  I th e   s tu dy,  C N N   i s   us e f or   f e a tu r e   e xt r a c ti on  a nd  th e   s uppo r ve c to r   m a c hi ne   is   e m pl oye f or   p r e di c ti on  of   th e   br e a s c a nc e r .   I n [ 13] KNN   ba s e br e a s c a nc e r   pr e di c ti on  m ode is   pr opos e d.   T he   da ta s e c on s is ts   of   209  obs e r va ti ons   c ol le c t e m a nua ll by  th e   a ut hor s T he   pr e di c ti ve   pe r f or m a nc e   of   th e   pr opos e m ode i s   a c c e p T a bl e   w it pr e di c ti on  a c c ur a c of   93% .   I a not he r   s tu dy  [ 14] a   de c is io tr e e  a lg or it hm   is   a ppl ie to   W is c on s in   br e a s c a nc e r   pr ognos is   da ta s e a nd  a   br e a s c a nc e r   pr e di c ti on   m ode is  pr opos e d.   I [ 15] th e   a ut hor s   c om pa r e th e   a c c ur a c of   na ïv e   ba y e s   a lg or it hm   w it de c is io tr e e   a nd  s uppor ve c to r   m a c hi ne   a lg or it hm   on  b r e a s c a nc e r   da ta   c ol le c te f r om   W is c ons in   da ta   r e pos it or y.  T he   da ta s e c ons is t s   of   699  obs e r va ti ons   a nd  a m ong   th e   obs e r va ti ons 458  a r e   m a li gna nt   a nd  248  a r e   be ni gn.   T he   r e s ul o f   pe r f or m a nc e   a na ly s is   s how s   th a th e   s uppor ve c to r   m a c hi ne   out pe r f or m e th e   K N N   a nd   na ïv e   ba ye s   a lg or it hm   ha vi ng a  be tt e r  a c c ur a c s c or e  on br e a s c a nc e r  pr e di c ti on.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   184     190   186   I [ 16] S V M   a nd  K N N   i s   a ppl ie to   W is c on s in   br e a s c a n c e r   a nd  a   pr e di c ti ve   m ode is   pr opos e us in th e s e   a lg or it hm s T he   da ta s e c ont a in s   699  ob s e r va ti on s   a nd   11  f e a tu r e s .   T h e   a ut hor s   c om pa r e th e   pe r f or m a nc e   of   th e   a lg or i th m s   a nd  r e s ul s how s   th e   s uppor ve c to r   m a c hi ne   a s   a   be tt e r   a lg or it hm   w it hi ghe r   a c c ur a c th a th e   K N N  a lg or it hm .   A not he r   s tu dy   [ 17] e m pl oy e th e  W is c on s in   br e a s c a n c e r   da t a   r e pos it or to   a na ly z e   th e   pr e di c ti ve   p e r f or m a nc e   of   K N N   a lg or it hm   on  pr e di c ti on  of   br e a s c a nc e r T he   pr e di c ti ve   pe r f or m a nc e  of  t he  pr opos e d K N N  ba s e d br e a s c a n c e r  pr e di c ti on mode ha s  a n a ve r a g e  a c c ur a c y of  76% .       3.   R E S E A R C H  M E T H O D   I th is   r e s e a r c h,  br e a s c a nc e r   da t a s e t   c ol le c te f r om   th e   k a ggl e   r e pos it or is   e m pl oye d   in   tr a in in a nd  te s ti ng t he  pr opos e d  m ode l .   I n t he  i m pl e m e nt a ti on  a nd e xpe r im e nt a te s ti ng, P yt hon pr ogr a m m in g l a ngua ge  i s   e m pl oye d.  A   s ta ti s ti c a m e th od  th a is   P e a r s on’ s   c or r e la ti on  a n a ly s is   a nd  da ta   vi s ua li z a ti on  a s   w e ll   a s   f e a tu r e   r e la ti ons hi m e a s ur e s   a r e   e m pl oye f or   id e nt if ic a ti on   a nd  in te r pr e ta ti on  of   br e a s c a nc e r   da ta   r e pos it or to   di s c ove r   th e   r e la ti on s hi be twe e th e   c la s s   a nd   th e   f e a tu r e s   in   ob s e r va ti ons D e c is io tr e e   a nd  a da pt iv e   boo s ti ng  a lg or it hm s   a r e   e m pl oye f or   de v e lo pi ng  th e   pr e di c ti on  m od e l.   T he   da ta   r e po s it or c ons is t s   of   a   li s ob s e r va ti ons   th a be lo ng  to   m a li gna nt   ( c a nc e r ous )   a nd   be ni gn  ( non - c a nc e r o us )   c la s s T he   pe r c e nt a ge   of   th e   m a li gna nt   a nd   be ni gn obs e r va ti ons  i n t he  da ta  r e po s it or y i s  de m ons tr a te d i n   F i gur e   1.           F ig ur e   1.  P e r c e nt a ge  of  m a li gna nt  a nd be ni gn obs e r va ti ons  i n t he  ka ggl e  br e a s c a nc e r  da ta  r e po s it or y       3.1.   D at as e t  d e s c r ip t io n   T he   ka ggl e   br e a s c a nc e r   da ta   r e pos it or us e in   th is   s tu dy  c ons is ts   of   569  obs e r va ti ons   a nd  31   f e a tu r e s . A m ong a  t ot a of  t he  569 obs e r va ti ons  a nd  212 ob s e r va ti ons  a r e  b e ni gn or  br e a s c a n c e r  ne ga ti ve  a nd   357  a r e   m a li gna nt   or   br e a s c a nc e r   pos it iv e T hi s   s how s   37.25 %   of   th e   obs e r va ti on  c ons is ts   of   br e a s c a nc e r   ne ga ti ve   a nd  62.74%   of   th e   obs e r va ti on  is   br e a s c a nc e r   pos it i ve T he   da ta s e ha s   no  m is s in f e a tu r e   va lu e s T he   f e a tu r e s   of   th e   br e a s c a nc e r   da ta   r e pos it or a r e  s um m a r iz e in   T a bl e   1. T he   da t a s e ob s e r va ti ons   us e d   in   tr a in in g i s  75%  a nd i n t e s ti ng 25%  of  t he  obs e r va ti ons  i s  us e d.       T a bl e   1.  T he   ka ggl e  c e r vi c a c a nc e r  da ta  r e pos it o r y f e a tu r e s  de s c r ip ti on   O bs e r va t i ons     F e a t ur e     D e s c r i pt i on    1   M e a n r a di us     T he  m e a n of  di s t a nc e s  f r om  c e nt e r  t o poi nt s  on t he  pe r i m e t e r , i nt e ge r   2   M e a n - t e xt ur e   S t a nda r d de vi a t i on of  gr a y - s c a l e  va l ue s , i nt e ge r     3   M e a n - pe r i m e t e r     m e a n s i z e  of  t he  c or e   t um or , i nt e ge r   4   M e a n - a r e a   M e a n of  a r e a , i nt e ge r   5   M e a n - s m oot hne s s   t he  l oc a l  va r i a t i on i n r a di us  l e ngt hs , i nt e ge r     6   D i a gnos i s   C l a s s  l a b e l  ( 1=M a l i gna nt , 0=B e ni gn)       T he   br e a s t   c a nc e r   da ta s e t   f e a tu r e s   a r e   de m ons tr a te in   F ig ur e   2 A s   de m ons tr a te in   F ig ur e   2 th e   num be r  of  m a li gna nt  obs e r va ti ons  i s  m or e  t ha n t he  be ni gn obs e r va ti ons .     62.7% 37.3% Mal i gn a n t B enign   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f  I nt e ll   I S S N 2252 - 8938       B r e as c anc e r  pr e di c ti on m ode w it h de c is io n t r e e  and adapti v e  boos ti ng   ( T s e hay  A dm as s u A s s e gi e )   187       F ig ur e   2 . T he  br e a s c a n c e r   da ta  r e pos it or f e a tu r e s       3.2.   C or r e la t io n  an al ys is   W e   ha ve   e m pl oye d   P e a r s on’ s   c or r e la ti on  a na ly s is   f or   vi s u a li z a ti on  of   th e   r e la ti ons hi p   be twe e n   e a c h   f e a tu r e . T hi s  he lp s  t o i de nt if y t he   f e a tu r e   th a is  s tr ongl y r e la te d  t o t he  c la s s  f e a tu r e  i n t he  da ta  r e pos it or y. T h e   P e a r s on’ s   c or r e la ti on  m a tr ix   f or   e a c f e a tu r e s   of   th e   br e a s t   c a n c e r   da ta s e is   s how n   in   F ig ur e   3 .   A s   s how in   F ig ur e   th e   c la s s   is   pe r f e c tl r e la te to   m e a r a di us   a nd  m e a pe r im e te r   f e a tu r e s T hi s   s how s   th a br e a s c a nc e r   pr e di c ti on i s  hi ghl y i nf lu e nc e d by thos e  f e a tu r e s .           F ig ur e   3 . T he  r e la ti ons hi p be twe e n br e a s c a nc e r  f e a tu r e s       4.   R E S U L T S   A ND  D I S C U S S I O N   I th is   s e c ti on,  th e   e xpe r im e nt a te s r e s ul t s   on   th e   pr opos e d   m ode is   e xpl a in e d .   T he   pr e di c ti ve   pe r f or m a nc e   of   de c is io tr e e   a nd  a da pt iv e   boos ti ng  a lg or it h m   is   a na ly z e by  e m pl oyi ng  th e   pe r f or m a nc e   m e tr ic s  s uc h a s  a c c ur a c y a nd c onf us io n m a tr ix  a lo ng w it h l e a r n in g c ur ve  of  t he  a lg or it hm s .     4 .1.     P r e d ic t iv e   ac c u r ac y an al ys is   T he   pr e di c ti ve   pe r f or m a nc e   of   th e   pr opos e m ode is   e xp e r im e nt e on  th e   tr a in in s e t.   T he   pr e di c ti ve   a c c ur a c y   of   th e   pr opos e m od e is   s how in   F ig ur e   4 .   M or e ov e r th e   a c c ur a c f or   de c is io n   tr e e   a nd   a da pt iv e   boos ti ng f or  br e a s c a nc e r  c la s s if ic a ti on on r a ndom t e s is  gi ve n  i n T a bl e  2.   T a bl e   2 A c c ur a c y of  a da pt iv e  boos ti ng a nd  d e c is io n t r e e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   184     190   188   L e a r ni ng a l gor i t hm   A c c ur a c y i n %  on e xpe r i m e nt a l  t e s t   A da pt i ve  boos t i ng    90.20   90.90   96.50   D e c i s i on t r e e   88.81   87.41   90.20           F ig ur e   4 A c c ur a c y of   de c is io n t r e e   a nd a d a pt iv e  boos ti ng a lg or it hm       4 .2.     C on f u s io n   m at r ix  an al ys is   A   c onf us io m a tr ix   is   a   m e a s ur e   th e   pr e di c ti ve   pe r f or m a nc e   of   th e   pr opos e m ode l s   in   te r m s   of   th e   num be r   of   c or r e c t   a nd  in c or r e c pr e di c ti ons   on   th e   te s s e by   th e   de c is io n   tr e e   a nd   a da pt iv e   boos ti ng  a lg or it hm T he  c onf us io n m a tr ix  of  t he  de c is io n t r e e  a n d a da pt iv e   boos ti n g a lg or it hm   is  s how n i F ig u r e  5 ( a )  a nd  F ig u r e   5 ( b)  r e s pe c ti ve ly .         ( a)     ( b)     F ig ur e  5 . C onf us io n m a tr ix  f or  t he  de c is io n t r e e  a nd a da pt iv e  boos ti ng , ( a )  D e c is io n t r e e  c onf us io n m a tr ix ( b)  A da pt iv e  boos ti ng c onf us io n m a tr ix       A s   s how in   F ig ur e   5 (a )   a nd  F ig ur e   ( b)   th e   a c c ur a c of   th e   a d a p ti ve   boos ti ng  a lg or it hm s   is   be tt e r   th a th e   a c c ur a c of   th e   de c is io tr e e   a lg or it hm T he  a c c ur a c of   th e   m ode ls   c a be   c a lc ul a te f or m   th e   c onf us io n   m a tr ix   us in ( 1) .     A c c ur a c y=  ( T P + T N )  /  ( T P + T N + F P + F N ) *100   ( 1)     T he   a c c ur a c of   th e   d e c is io tr e e   m od e is   c a lc ul a te a s   us in th e   ( 1) A c c ur a c y= ( 55+ 45) /( 55+ 45) /( 55+ 45+ 11 + 3) *100= 87.71% li ke w is e th e   a c c ur a c of   th e   a da pt iv e   boos ti ng   a lg or it hm  i s  c a lc ul a te d a s A c c ur a c y = ( 59+ 43) /( 59+ 43+ 3 + 9) *100= 89.47% . T hi s  r e s ul s how s  t h a th e  a da pt iv e   boos ti ng a lg or it hm  out pe r f or m e d t ha n t he  de c is io n t r e e  a lg or it hm .       Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f  I nt e ll   I S S N 2252 - 8938       B r e as c anc e r  pr e di c ti on m ode w it h de c is io n t r e e  and adapti v e  boos ti ng   ( T s e hay  A dm as s u A s s e gi e )   189   4 . 3   L e ar n in g   c u r ve s   L e a r ni ng  c ur ve s   of   th e   p r opos e m ode s how s   th e   pe r f or m a nc e   of   th e   m ode on   t r a in in s e a s   de m ons tr a te in   F ig ur e   6 .   A s   de m ons tr a te in   F ig ur e   6 th e   le a r ni ng  c ur ve   f or   th e   pr opos e m ode l’ s   te s ti ng  e r r or  i s  hi ghe r  f or  t he   de c is io n t r e e   m ode th a n t h e  a da pt iv e  boo s ti ng mode l.  T h e  t e s ti ng  e r r or  f or   de c is io n t r e e   m ode f a ll s   in   th e   r a nge   12.5 %   to   25 % w hi c s how s   th a th e   a c c ur a c of   th e   m ode f a ll s   in   th e   in te r va 75 %   t o   87.5% . T he  t e s ti ng e r r or  f or  t he  a da pt iv e  boos ti ng a lg or it hm   f a l ls  i n t he  r a nge  0.03%  t o 0.11%  a nd t hi s  s how s   th a th e  a c c ur a c y of  t he  a da pt iv e  boo s ti ng a lg or it hm  f a ll s  i n t he  r a nge  89%  t o 97% .         ( a )     ( b)     F ig ur e  6 . T he  l e a r ni ng c ur ve  f or  A da boos a nd  de c i s io n t r e e ( a )   D e c is io n t r e e   le a r ni ng c ur ve ,   ( b)  A dboos le a r ni ng c ur ve       5.   C O N C L U S I O N   I th is   r e s e a r c h,  w e   ha ve   pr opos e a   br e a s c a nc e r   pr e di c ti on  m ode w it a da pt iv e   boos ti ng  a nd   de c is io tr e e   a lg or it hm   on  br e a s c a n c e r   da ta s e c ol le c te f or m   ka ggl e   da ta   r e pos it or y.  T he   pr opo s e m ode s ol ve s   th e   pr obl e m   of   bi a s e c la s s if ic a ti on  on  im ba la n c e ob s e r va ti on  by  non - e ns e m bl e   a lg or it hm   th r ough   e ns e m bl e   c la s s if ie r   na m e ly   th e   a da pt iv e   boos ti ng T he   pr e di c ti ve   pe r f or m a nc e   of   th e   pr opos e m ode is   e va lu a te by  e m pl oyi ng  di f f e r e nt   pe r f o r m a nc e   m e tr ic s   s uc a s  a c c ur a c a nd  c onf us io m a tr ix   on  th e   te s s e t.   T he   r e s ul of   pe r f or m a nc e   a n a ly s is   r e ve a l s   th a th e   a da pt iv e   b oos ti ng   a lg or it hm   ha s   be tt e r   pe r f or m a nc e   th a n   th e   de c is io tr e e H e nc e th e   a da pt iv e   boo s ti ng   a lg or it hm   is   a   be tt e r   c la s s if ie r   f or   im ba la nc e da ta s e w he r e   th e   us e   of   non - e ns e m bl e   a lg or it hm   s uc a s   de c i s io tr e e r e s ul ts   i bi a s e pr e di c ti on  to w a r d s   th e   m a jo r it c la s s   yi e ld in g be tt e r  pe r f or m a nc e  on pr e di c ti on of  t he  m a jo r it y c la s s  a nd poor  pe r f or m a nc e  on t he  m in or it y c la s s .       R E F E R E N C E S     [1]   R.  Chand,  D.  K.  Rao,  T.  B.   Tekabu   and  M.G.M  Khan,   Modeling  Bre ast  Cancer  Cases  in  Fiji,   Asia - Pacific   World  Congress o n Compute r Scienc e and En gineerin g , 2018 .   [2]   Mohammed  Abdulrazaq  Kahya,  Classific ation  enhanc ement  of  breast  cance histopathol ogical  image  using  penalized logistic regress ion,   Indonesian  Journal  of Electr ical Engi n eering and  Computer S cience , Vol.  13, No. 1 ,   2019.   [3]   Vikas  Chaurasia,  Saurabh  Pal,   BB  Tiwari,   Predic tion  of  benign   an maligna nt  brea st  canc er   using  data   mining   techniques,   Journal  of Al gorith ms & C omputat ional  T echnology , 2018 .   [4]   May  Phu  Paing,  C.  Pintavirooj,  Kazuhiko  Hamamoto,  Comparison   of  Sampling  Methods  for  Imbalan ced  Dat a   Classific ation in Ra ndom Fore st,   Biomedical Engineering International  Conference, IEEE , 2018.   [5]   Dongdong  Sun,  Minghui  Wang,  Huanqing   Feng,   Ao  Li,   Progno sis  Prediction  of  Human  Breast   Cancer  by   integrating  Deep  Neural  Network  and  Support   Vector  Machine,  Superv ised  Feature  Extraction  and  Classification   fo r   Breast  Cancer  Prognosis  Prediction,   Internati onal  Congress  on   Image  and  Signal  Process ing,  BioMedical  Engineering and Informatics , 2017.   [6]   Ebru  Aydındag  Bayrak,  Pınar  Kırcı,   Tolga  Ensari,  Comparison   of  Machine   Learn ing  Methods  for  Breast   Cancer   Diagnosis,   IEEE , 2019.    [7]   S.  Murugan,  Muthu  Kumar,  S.  Amudha,  Classific ation  and  Predic tion  of  Breas Cance using  Linea Regre ssion,   Decision  Tree  and  Random  Forest,   International   Conference   on  Curre nt  Trends  in  Computer,  Electrical,   Electronics  and Communication , 2017.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938     I nt  J  A r ti f   I nt e ll ,   V ol 10 , N o.  1 M a r c h   20 2 1   184     190   190   [8]   Shahrb anoo  Goli,  Hossein   Mahjub,   Javad   Farad mal,  Hoda  Mashay ekhi ,   Ali - Reza  Soltanian,  Surviva Predic tion  an d   Featur Select ion  in  Patients   with  Breas t   Cance Using  Support   Vecto Regre ssion,   Hindawi  Publishin g   Corporation Co mputational  and Mathe matical M ethods in  Medicin e , 2016.  https://doi.org/10.1155/2016/2157984 .   [9]   P.  Sathiyanarayanan,  Pavithra,  Sai  Saranya.M,  Makeswari.M,   Identif ication  of  Breast  Cancer  Using  The   Decision   Tree  Algorithm,   Proceedings  of  international  conference   on  syste ms  computation  automation  and  networking,  IEEE , 2019.   DOI: 10.1109/ICS CAN.2019. 8878757 .   [10]   Ahmet  Mert,  Niyazi  KJlJç,   Erdem  Bilgili,   Aydin  Akan,   Breast  C ancer  Detection  with  Reduc ed  Feature  Set,   Hindawi Publ ishing Cor poration C omputational  and Mathematical  Methods in Medicin e , Volume 2015.   [11]   Abdullah - Al  Nahid,  Yinan  Kong,  Involvement   of   Machine  Learnin for  Breast  Cancer  Image  Classification:   A   Survey ,   Hindawi Co mputational  and Mathematical  Methods in Medicin e , Volume 2017.   [12]   Mohd Rasoul Al - hadidi, Abdulsalam  Alarabeyyat, Mohann ad Alhanah na,  Breast Ca ncer  Detec tion using  K - nearest  Neighb or  Machine  Learning  Algorithm,   Internati onal  Conference  on  Developments  in  eSystems  Engineering IEEE 2017.   DOI: 10.1109/DeSE .2016.8 .   [13]   Shabina   Sayed,   Shoeb  Ahmed,   Rakesh   Poonia,  Holo  Entropy  Enable Decision  Tree  Classifier  For  Breast  Cancer   Diagnosis  Us ing  Wisconsin  (Prognostic)  Data   Set,   Internati onal  Conference  on  Communicat ion  Systems  and   Network Te chnologie s, IEEE , 2017.   [14]   Wan  Nor  Liyana  Wan  Hassan  Ibeni,  et  al . Comparat ive  analysis  on  Bayesian   classific ation  for  breast  cance problem,   Bulletin  of   Electrical  Engineering   and  Informatics   (BEEI) Vol.   8,  No.   4,  2019.   DOI:   https://doi.org/10.11591/eei.v8i4.1628 .   [15]   Md.  Milon  Islam,  Hasib  Iqbal,  Md.  Rezwanul   Haque,  Md.  Kamrul   Hasan,  Predic tion  of  Breas Cance Using  Support  Vecto Machine and K - Nearest Neighbors,   Humanitarian  Technology Conf erence, IEEE , 2017.   [16]   Alberto  Palacios  Pawlovsky,  Mai  Nagahashi,  Method   to  Select  a   Good  Setting  for  the  kNN  Algorithm   when  Using it for B reast Cancer Prognosis ,   IEEE , 2014.   DOI: 10.1109/B HI.2 014.6864336 .   [17]   Assegie,  Tsehay  Admassu,  Sushma  J.,  Prasanna  Kumar  C,  Weig hted  Decision  Tree  Model  for  Breast  Cancer  Detection,   Technology Reports of Kansai University, Volum e 62, Issue 03, 2020.   [18]   Assegie  Tsehay  Admassu,  Sushma  S.  J.,  “A   Support  Vector  M achi ne  and  Decision  Tree  Based  Breast  Cance r   Predic tion,”  Internati onal  Journal  of  Engineering   and  Advanced  Tech nology  (IJEAT) vol.  9,  no.  3,  pp.  2972 - 2976,   2020, DOI: 10.35940/ijeat.A1752.029320.   [19]   Assegie  Tsehay  Admassu,  “An  optimized   K - Nearest  Neighbor  b ased   breast  cancer  detection,”  Journal   of   Roboti cs  and Control (JRC),  vol. 2, no. 3, pp. 115 - 118, 2020, DOI: 10.18196/jrc.2363 .   [20]   Sushma  S.  J,  S.   C.  Prasanna   Kumar,  A   novel  approach  to   jointly  ad dress  localization  and  classification   of  breas t   cancer  using  bi o - inspired  approac h,  Internati onal  Journal   of  Electrica and  Computer  Engineering   (IJECE),  vol.   9,  no. 2, pp. 992 - 1001,  2019 ,   DOI: 10.11591/i jece.v9i2.pp992 - 1001.   [21]   Amandeep  Kaur,  Prabhjeet   Kaur,  “Breast   Cancer  Detection  and  C lassification  using  Analysis  and  Gene - Back   Proport ional  Neura Networ Algorit hm,”   Internati onal  Journal   of  Innovative  Technology   and  Exploring   Engineering  (IJITEE),  vol.  8,  no.  8,  pp.  2789 - 2803,  2019,  available:  https: //www.ijitee. org/wp - content/ uploads/ papers/v8 i8/H699 2068819 .pdf.   [22]   P.  Suryachandra  and   P.  V.  S.   Reddy,  “Comparison   of  machine   le arning  algorithms  for   breast  cancer,”   2016  Internati onal  Conference  on   Inventive  Computat ion   Technologi es   (ICICT) Coimbatore,   pp.   1 - 6,  2016,   doi:  10.1109/INVENTIVE.2016.7830090.   [23]   Achmad  Ridok,  Nashi  Widodo,   Wayan  Firdaus   Mahmudy,  Muhaimi Rifa,  “A  hybrid   feature  selection   on  AIR S   method  for  identifying  breast  cancer  diseases,”  Internati onal  Journ al  of  Electrical  and  Computer  Engineer ing   (IJECE) ,   vol. 11, no. 1, pp. 728, 735, 2021 , DOI: 10.11591/ijece.v11i1.pp728 - 735.   [24]   Mohammed  Y.  Kamil,  “Computer - aided  diagnosis  system  for  breast  cancer  based  on  the  Gabor  filter  technique,”   Internati onal  Journal  of  Electrical   and  Computer   Engineering   ( IJEC E),  vol.  10,  no.   5,  pp.   5235 - 5242,  2020,  DOI:   10.11591/ijece.v10i5.pp5235 - 5242 .   [25]   Susama  Bagchi,  Kim  Gaik  Tay,  Audrey  Huong,  Sanjoy  Kumar  Debn ath,  “Image  processing  and  machine  learning  techniques  used in compu ter - aided  detection system for  mammogram s cr eening - A review,”  Internati onal Journ al  of  Electrical  and  Computer  Engineering  (IJECE),   vol.  10,   no.  3,  pp.  2336 - 2348,  2020,   DOI:  10.11591/ijece.v10i5.pp5235 - 5242 .   Evaluation Warning : The document was created with Spire.PDF for Python.