I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   8 ,   No .   4 A u g u s t   201 8 ,   p p .   2 2 2 0 ~ 2 2 2 9   I SS N:  2 0 8 8 - 870 8 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v8 i 4 . p p 2 2 2 0 - 2229          2220       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   Ev a lua tion o a  Multiple  Reg ress i o n Mo del f o r Noi sy  and  M iss ing  Data       Cha nin t o rn  J it t a w iriy a nu k o o n   A s su m p ti o n   Un iv e rsity ,   T h a il a n d       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   No v   13 ,   2 0 1 7   R ev i s ed   J an   17 ,   2 0 1 8   A cc ep ted   A p r   2 ,   2 0 1 8     T h e   sta n d a rd   d a t a   c o ll e c ti o n   p r o b lem m a y   in v o lv e   n o ise les d a t a   w h il e   o n   th e   o th e h a n d   larg e   o rg a n iza ti o n c o m m o n ly   e x p e rien c e   n o isy   a n d   m issin g   d a ta,  p ro b a b ly   c o n c e rn in g   d a ta  c o ll e c ted   f ro m   in d iv id u a ls.   A n o isy   a n d   m is sin g   d a ta  w il b e   si g n if ica n tl y   w o rriso m e   f o o c c a sio n o f   th e   v a st  d a ta   c o ll e c ti o n   th e n   th e   in v e stig a ti o n   o f   d if fe re n f il terin g   tec h n iq u e f o b ig   d a ta   e n v iro n m e n w o u ld   b e   re m a rk a b le.  A   m u lt ip le  re g re ss io n   m o d e w h e re   b ig   d a ta  is  e m p lo y e d   f o e x p e ri m e n ti n g   w il b e   p re se n ted .   A p p ro x ima ti o n   f o d a tas e ts  w it h   n o isy   a n d   m issin g   d a ta  is   a lso   p ro p o se d .   T h e   sta ti stica ro o t   m e a n   sq u a re d   e rro (RM S E)  a ss o c iate d   w it h   c o rre latio n   c o e ff icie n (COEF )   w il b e   a n a l y z e d   to   p ro v e   th e   a c c u ra c y   o f   e sti m a to rs.  F in a ll y ,   re su lt p re d icte d   b y   m a ss iv e   o n li n e   a n a l y sis  (M OA w i ll   b e   c o m p a re d   to   th o se   re a d a ta  c o ll e c ted   f ro m   th e   f o ll o w in g   d if fe re n ti m e .   T h e se   th e o re ti c a l   p re d ictio n w it h   n o isy   a n d   m issi n g   d a ta  e stim a ti o n   b y   si m u latio n ,   re v e a li n g   c o n siste n c y   w it h   th e   re a d a ta  a re   il lu stra ted .   De leti o n   m e c h a n ism   (DE L )   o u t p e rf o rm w it h   th e   l o w e st av e ra g e   p e rc e n tag e   o f   e rro r.   K ey w o r d :   B ig   d ata   C las s i f icatio n   No is y   a n d   m i s s i n g   d ata   P er f o r m a n ce   ev al u atio n   R eg r es s io n   m o d el   R o o m ea n   s q u ar e r r o r   Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   C h a n i n to r n   J itta w ir i y an u k o o n ,   Ass u m p t io n   U n iv er s it y ,   T h ail an d .   E m ail:  p ct2 5 2 6 @ y a h o o . co m       1.   I NT RO D UCT I O N     Du r in g   r ec en t   y ea r s ,   t h co n ce p o f   b i g   d ata  a n d   t h e   f l u ctu ated   ap p licatio n s   o f   t h I n ter n et   o f   E v er y t h i n g   ( I o E )   p er   s h av b ee n   ch ased   w i th   h u g at ten ti o n   b y   th d ata  s cie n tis t s .   B ig   d ata  is   h o li s tic,   f r ee   f o r m atted   an d   ti m ev o lv in g   o f   d y n a m ic  in f o r m atio n   b u t   in f l u e n ce   th q u ali t y   o f   i n h ab itan lif a n d   to   ad v an ce   an   e n v ir o n m en ta s u s tain ab le  g r o w t h ,   d ig ital  ec o n o m y   a n d   p u b l ic  in   u n in ter r u p te d   d ev elo p m e n t.  Fo r   in s ta n ce ,   s m ar a n d   d ig itize d   cit y   is   cr u cial  to   ac cu m u lat v ast  d ata  a n d   to   p o w er f u ll y   ca r r y   o u d ec is io n - m ak in g   o n   t h u p b r in g i n g .   I n   o r d er   to   ac co m p lis h   s o ,   it  i s   t o   m a k u s o f   d ata  c u r atio n   s u ch   a s   clas s if icatio n   o r   clu s ter in g   w h ic h   w il co n s en to   s tr aig h t f o r w ar d l y   r e - o r g an ize  a n   en o r m o u s   d ata  w it h   t h asp ir o f   in telli g e n tl y   d ata  an al y tic s ,   ev alu a tio n ,   p r ed ictio n   an d   v is u aliza tio n ;  f r o m   u n s tr u ct u r ed   d ata  f o r m at  t h r o u g h   p r e - p r o ce s s in g ,   to   th s cr u ti n y   o f   n o is y   d ata  an d   m is s in g   d ata.   Fo r   th im p r o v e m e n o f   th e   I o E   an d   th s m ar t   cit y   [ 1 ] ,   w ir ele s s   s e n s o r   [ 2 ]   h as  b ee n   d ep lo y ed   in   o r d er   to   en s u r r ea l - ti m s u p er v is i n g   o f   s ev er al  d ev ices  th at   ca n   en h an ce   d i g ital - a g lif e s t y le,   en er g y - s av in g   an d   t h q u al it y   ti m o f   co m m u n it y .   T h is   m ea s u r eles s   a m o u n t   o f   ti m s er i es  d ata  g e n er ated   b y   t h s e n s o r   d ev ices,  s i m u lta n eo u s l y   w i th   t h co llected   d at f r o m   o th er   d ig ital  d ev ices,  s u c h   as  ce ll  p h o n e s ,   m o n ito r in g   s o f t w ar an d   s o cial  m ed ia,   m u s b ap p r o p r i atel y   tr ea s u r ed   an d   s u b s eq u en t l y   p r e - p r o ce s s ed   i n   o r d er   to   s ec u r th e   i n s i g h t s .   Scr u tin izin g   g i g a n tic  a m o u n o f   d ata  i s   b i g   th r ea t,  th u s   b ig   d ata  cu r atio n   [ 3 ]   f o r   g ath er in g ,   s a v in g   an d   in v est ig ati n g   d atasets   h as  t o   b ass o ciab le  to   ex ec u te  t h e m   p r o p er ly   a n d   r eso u r ce f u ll y .     I n   p r ac tice,   m is s in g   d ata  [ 4 ]   a r is as  n o   v alu e   ( b lan k   o r   u n e x p ec ted )   h as   b ee n   f o u n d   f o r   an y   en tr ie s   d u r in g   t h s u r v eilla n ce   a s   s h o w n   i n   F ig u r 1 .   M is s in g   d a ta  ca n   co m m o n l y   ar is a n d   h av a   co n s id er ab le   co n s eq u e n ce   o n   th f in al  r es u lts   w h ic h   ca n   b ex tr ac ted   f r o m   d ata  en tr y .   I is   d u to   n o n r esp o n s i v e:  b lan k   in f o r m atio n   is   f illed   f o r   at  le ast  o n e   o r   m a n y   p lace s .   So m p r iv ate  o r   s e n s iti v ac co u n t s   f o r   ex a m p le  a g e,   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       E va lu a tio n   o f a   Mu ltip le  R e g r ess io n   Mo d el  fo r   N o is a n d   Mis s in g   Da ta   ( C h a n in to r n   Jitta w ir iya n u ko o n )   2221   in co m e,   a n d   etc  ar lik el y   to   p r o d u ce   q u esti o n   t h an   o t h er s .   Miss in g n ess   m a y   ar is a s   r esp o n d en ts   g i v u p   b ef o r th e   q u est io n n air ti m e   ter m i n ate s   a n d   ac q u ir ed   a n s w er s   ar m is s i n g .   Data   n o r m all y   ar e   in cr ed ib l y   m is s i n g   in   q u an t itati v r esear c h   i n   b u s i n e s s ,   e n g i n ee r i n g   a n d   s cien ce s   s i n ce   g o v er n m e n t o f f icer s   o p t n o t to ,   o r   f ee r el u cta n to ,   f ill   cr itic al/s en s iti v m ea s u r e m en ts .   Occ asio n all y   th o s e   m is ta k es   ar m o ti v ated   b y   r esear ch er s ,   f o r   in s ta n ce ,   i m p r o p er   d ata  co llectio n   is   co n d u cted   o r   h u m a n - er r o r s   ar tak en   d u r in g   d ata  en tr y   p h ase.   T h ese  m is s i n g n es s   t h u s   s i m p l y   cr ea te  d iv er s e   ca teg o r ies,  m is s i n g   b y   c h an ce   o r   in ten tio n al  m i s s i n g .   C o n s eq u en tl y   n o is y   d ata  t h at  d etec ted   a m o n g th n a v i g atio n   m e n u ,   ad v er tis i n g   b an n er   an d   o th er   in f o r m atio n   co n ten o f   t h w eb   d o cu m e n in f lu e n ce ad v er s e l y   t h ep er f o r m an ce   o f   m o b ile  ap p licatio n s   th at  in v o lv e s   w it h   th ec o n te n a s   s u c h   [ 5 ] I n   ad d itio n ,   S h ar m a n d   B h at ia  [ 6 ex p an d ed   a   p ag r ep lace m en t   a lg o r ith m i n   o r d er   to   s ep ar ate   n o is y   d ata  f r o m   w eb   d o cu m e n t .   C h ae   et  a l .   [ 7 ]   m en tio n   it  is   co m p u l s o r y   t h at  b ig   d ata  an a l y t ics  i n   s u p p l y   ch ai n   m a n ag e m e n ( S C M)   b co llecti v w it h   SC M   o b j ec tiv es  to   ad v an ce   w o r k i n g   p er f o r m a n ce   a n d   escalat th v al u o f   an a l y t ics.   Ho w e v er ,   th e y   h a v n o t b ee n   lo o k in g   at  p r ac tical  is s u o f   m is s i n g n e s s .   No is y   d ata   is   d escr ib ed   as  w o r th les s   d ata.   T h ter m   i s   ca l led   as a n   alter n ati v e x p r ess io n   f o r   cr o o k ed   d ata  as  d ep icted   in   F ig u r 2 .   No n eth ele s s ,   t h m ea n in g   h a s   in clu d ed   an y   i n co m p r eh e n s iv d ata  f o r   in s tan ce   u n s tr u ct u r ed   f o r m at  o f   d ata.   An y   u n r ea d ab le  d ata  w h ich   h as  b ee n   d etec ted   b y   th m ac h i n w ill  d e v elo p   an d   ca n   b d ef in ed   a s   n o is e.   S h a b ir   an d   P ad m a   [ 8 ]   p r esen ted   d en o is e   p r o ce d u r to   i m p r o v th e   q u alit y   o f   o r ig in al   i m ag e.   No is y   d ata  is   w o r s e n i n g   o f   d ata  co llectio n   ca u s ed   b y   e x ter n al   h az ar d s .   T h ese   n o is e   i n cl u d e   n o o n l y   i n ter n al  p r o b le m s   s u ch   as  s o f t w ar o r   h ar d w ar e   in co m p atib ilit y   o r   v ir u s e s ,   s y s te m   m alf u n ctio n ,   f ail u r es,  o r   f la w s ,   b u also   en v ir o n m en tal  h az ar d s   s u c h   as  d u s t,  m o is t,  e x tr e m te m p er atu r es,  b lack - o u ts ,   an d     w ater .   No is y   d ata  o n   th o th e r   h an d   r ed u n d an tl y   r eq u ir es  t h ex tr ao r d in ar y   a m o u n o f   s a v in g   s p ac an d   ca n   u n f a v o r ab l y   u p s et  t h o u tco m es o f   d ata  an al y tics .     T h u s   an al y s is   ca n   o v er co m t h is   p r o b le m   b y   e m p lo y i n g   d at co llected   p r ev io u s l y   ( h is to r i ca d ata)   to   f ilter   o u n o is y   d ata  an d   ea s d ata  cu r atio n .   Mu c h   o f   n o is y   d a ta  ca n   af f ec f ail u r es  in   h ar d war p r o ce s s in g   an d   ac cu r ac y .   Mo r eo v er ,   t y p o s ,   s lan g ,   m i s s p elli n g ,   ca r eless   an d   o th er   ab b r ev iat i o n s   ca n   o b s tr u ct  m ac h i n e   lear n in g .   C o r r u p d ata  is   r e alis tic  tr o u b le,   i n d u ce d   eit h er   b ec au s o f   d e f ec ti v d ata  s o u r ce s   o r   d u r in g   d ata  b r o ad ca s ( tr av er s in g ) .   No is e   is   ab le  to   s er io u s l y   m es s   u p   m ac h in e   lear n i n g   p r o ce s s   o f   c o llected   d ata.   I is   m u c h   m o r e   r i g o r o u s   tr o u b le  i n   ca s e   o f   d ata   s tr ea m s   a s   it   co n n ec t s   w i th   co n ce p d r if t.  I f   g r ee d y   al g o r ith m   is   co n ce r n ed   to   co n ce p d r if t,  it  m a y   q u ali f y   n o is b y   er r o n eo u s l y   p ictu r i n g   it  a s   d ata  f r o m   f r esh   co n ce p t.  I f   i t   is   to   b to o   s tr ict  to   n o is e,   it  m a y   h a v e   to   ig n o r d r if ts   th e n   f in e - t u n e.   B esid es,  th co m p u tatio n a co m p lex it y   o f   th K - m ea n s   alg o r it h m   w it h   d atasets   h as b ee n   e v al u ated   i n   [ 9 ] .           Fig u r e   1 .   E x am p le   o f   m is s in g   d at ( b o l d   o r an g e )       T h ai m   o f   t h is   p ap er   is   to   ev alu a te  t h ac c u r ac y   o f   m u l tip le  r eg r ess io n   a n al y s i s   f o r   n o is y   a n d   m is s i n g   d ata  en v ir o n m e n u s i n g   MO A   [ 10 ]   s i m u latio n .   B o th   n o is a n d   m i s s i n g n e s s   w il l   b ex p er im e n tall y   tak en   in to   co n s id er atio n   f o r   p r ac tical  p o in o f   v ie w .   Firstl y ,   th n o is y   d ata  w ill  b w ee d ed   o u in   o r d er   to   av o id   co m p li ca tio n   i n   p r o ce s s in g .   Seco n d l y ,   a n   esti m ato r   will  ir o n   o u m is s in g   d ata  th e n   m u ltip le  r eg r es s io n   r esu lt s   f r o m   s i m u latio n   ar co l lecte d   f o r   v alid atio n   o f   th e s t i m atio n   m e th o d .   L a s tl y ,   p r ed i ctio n   d ata  b ased   o n     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E l ec   &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t 2 0 1 8   :   2 2 2 0     2 2 2 9   2222   m u ltip le  r eg r e s s io n   eq u at io n   w il b co m p ar ed   t o   f o llo w in g   r ea d ata.   T h ac c u r ac y   o f   n o is f ilter i n g   a n d   n o n - f ilter i n g   tec h n iq u es t h e n   w il l b d is cu s s ed   af ter   co m p ar is o n .           Fig u r e   2 .   E x a m p le  o f   n o is y   d a ta       2.   RE L AT E WO RK   I n   o r d er   to   f r esh   th te x d o cu m e n b y   r e m o v i n g   th n o is y   d ata  o u h as  b ee n   d is c u s s ed   in ten s i v el y   u s i n g   v ar io u s   tec h n iq u e s .   B ar - Yo s s e f   e a l .   [ 1 1 ]   ap p lied   an   ap p r o ac h   b ased   u p o n   d o cu m en o b j ec m o d el’ s   tr ee   o f   t h w eb   co n te n t.  An o t h er   m eth o d   w h ic h   e x tr ac ts   n o is i n   o r d er   to   ad v a n ce   d ata  m i n in g   o u tco m es  h a s   b ee n   p r o p o s ed   b y   [ 1 2 ] .   T h e y   f o r m er l y   e m p lo y   s tr u ct u r al   tr ee   w h ich   is   an a lo g o u s   to   t h tr ee   s tr u c tu r o f   d o cu m en o b j ec m o d el.   Af te r   th at   th e   n o is y   d ata  w i ll  b d is co v er ed   b y   a n   e v al u atio n   p r o ce s s   o f   co n ten ts   f o u n d   in   s tr u c tu r al  tr ee .   Ho w e v er ,   co n s tr u c tio n   o f   th p r ef er ab le  tr ee   a s   s u ch   w ill  b e   ti m e - co n s u m p tio n .   Deb n ath   et  a l .   [ 1 3 ]   h av r ec o m m en d ed   tech n iq u co m p ar ab le  to   m et h o d   w r it ten   i n   [ 1 2 ] ,   o n   th o th er   h a n d   r ath er   ch o s e n   d ata  b lo ck s ,   w h i ch   ar n o n tr i v ial  b u ex ce ed   s et  th r e s h o ld .   T h en   in d i v id u a l   d ata  b lo ck   w ill  b p r o j ec t ed .   No all  co llected   d ata  s u cc ee d s   t h s a m m i s t ak en l y   d e f ec ti v p atter n .   A   m et h o d   w h ic h   ca n   p in p o in an d   r e m o v p er tin e n t   co n ten f r o m   w eb   co n te x t s   h a s   b ee n   in tr o d u ce d   b y   [ 1 4 ] .   T h m e th o d   s p ec if ie s   s ig n i f ica n ce   as  tex t s   w h ic h   m o r in d ep en d en tl y   in ter p r et ab le  th an   th i m a g e.   B u t,  th m et h o d   f ac ilit ates  o n l y   o n   w eb   co n tex t s .   I s h o u ld   b e   an   u n co m p licated   a lg o r it h m   w h ic h   ca n   n eu tr all y   ex tr ac n o is y   d ata   f r o m   t h w eb .   A   n o is r ed u c tio n   al g o r ith m   w ith   t h r ee   p h ase s   h a s   b ee n   p r esen ted   in   [ 1 5 ] .     T h 1 st   p h ase  as  s p ec i f ied   in   t h is   al g o r ith m   co n v er t s   w eb   d o cu m en to   tab le  f o r m a co n t ain i n g   o f   x   in s ta n ce s   a n d   y   attr ib u te s ,   t h e n   t h e s s e n tial   d ata  ca n   b a d d ed   in to   th e   tab le  i f   n ec es s a r y .   T h 2 nd   a n d   3 rd   p h ase  w ill  s o lel y   w ee d   o u n o is y   d ata  u s in g   f ilter in g   tec h n i q u es.  Oth er   o p er atio n al  ag g r eg ated   m et h o d s   s p li t   d ata  s tr ea m s   in to   f i x ed   b lo ck s   a n d   m ac h i n e   w ill   lear n   an   a g g r e g atio n   f r o m   in d i v id u al   b l o ck s .   As  s o o n   a s   a   f u n d a m en ta m o d el  i s   b u ilt,  i w ill  n ev er   a m en d   n e w   s tr ea m s .   I n   g e n er al  t h er ar t w o   v o tin g   ca te g o r ies u n i f o r m   an d   w eig h ted .   T h ese   t w o   t y p e s   ar n o as s o ciate d   to   o u r   ap p r o ac h   as  o u r   p r o p o s ed   m et h o d   w ill   co n s tr u ct   an   ag g r eg a tio n   f r o m   t h ese   s eq u e n tia d iv id ed   b lo ck s .   B u t   w h at  i s   o m itted   f r o m   th e   ab o v t w o   ap p r o ac h es  is   an   a n al y tical  to o h an d li n g   n o is y   d at a.   W h ile   th er ar s o m al g o r ith m s   f o r   n o is r ec o g n itio n ,   s o   ca lled   an o m al y   d etec tio n ,   n o is e   eli m in a tio n   cr a f ts   c o n s id er ab le  b r ea ch   b et w ee n   d ata  s tr ea m   an d   t h e   ab o v m en t io n ed   ap p r o ac h es.  Fu r t h er m o r e,   th is s u o f   ac q u ir in g   n o is y   d ata  w i ll b ad d r ess ed .   Ou r   s t u d y   t h e n   is   u n lik t w o   a p p r o ac h es  as  s tated   ab o v e,   f ir s tl y ,   a n o m al y   d etec tio n   w ill  b clen ch ed   u p   in to   th m ac h i n lear n in g   p r o ce s s   f o r   t h r ea s o n   th a co n ce p d r if i s   f r ac tio n   o f   o u tlier   d etec tio n .   Seco n d l y ,   t h d is tan ce   v ec to r   ca n   b ea s ily   d r a w n   b y   t h class i f ier ,   r ath er   f r o m   f o r m u la  s p ec if ied   b y   d atasets   p er   s e.   A s   m atter   o f   f ac t,  th a n o m al y   d etec tio n   a n d   ad ap tiv m ac h i n lear n in g   h en ce   r ec ip r o ca ll y   s u p p o r o n an o th er .   I n   g e n er al,   an   ac cu r ate  ad ap tiv e   m o d el  n o u r is h es  to   d is co v er   th an o m alie s .   A lter n ati v el y ,   b y   p r o p er ly   f in d in g   an d   r e m o v in g   th an o m a lies   at  ea r lier   s tag e,   f u r th er   ex ac m o d el  ca n   b ex ec u ted .   A d ap tiv lear n i n g   m o d el  w it h   r ef er e n ce   to   v ig o r   an d   r ev is io n ,   co r r esp o n d in g l y   w i ll  b illu s tr ated .   Mo d el  m ap p in g   a n d   ca lcu latio n   w ill b p r o v id ed   as  w ell.   Af t er w ar d   in v esti g atio n al  r es u lts   w il l b lis ted .       3.   NO I SE   A ND  M I SS I N G   DA T AS E T S   I n   th is   s ec tio n ,   ch ar ac ter is tic s   o f   n o is w ill  b d escr ib ed ,   at  th s a m ti m d atasets   w h ic h   ar in cl u s i v o f   n o is ar o u tli n ed   an d   th co m p r eh e n s i v d is c u s s io n   is   g i v en           Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       E va lu a tio n   o f a   Mu ltip le  R e g r ess io n   Mo d el  fo r   N o is a n d   Mis s in g   Da ta   ( C h a n in to r n   Jitta w ir iya n u ko o n )   2223   3 . 1 .   S elf - g ener a t ed  no is e   Ou r   ap p r o ac h   d escr ib e d   in   th is   p ap er   w ill  allo w   MO A   s i m u latio n   to   r ea d   n o is y   d at aset.  MO to ler ates  co m p ar is o n   o f   s in g le   alg o r ith m   o n   d ataset s   w it h   d i s s i m ilar   n o is r ate s .   T h p r o c ed u r is   cr ea ted   b y   n u m er o u s   id ea s .   A   d atase r ea d er   in itiall y   w il ch o o s s m all  f r a g m e n t s   w it h   s p ec i f ic  v alu f r o m   d ataset .   Seco n d l y ,   a m p le  f i g u r es  f o r   t h s elec ted   s a m p le   w ill   b ab an d o n ed   if   it a p p ea r s   v er y   d o u b t f u l.  A s   ea ch   lea f   i n   d ec is io n   tr ee   is   d esig n ed ,   all  f ig u r e s   f r o m   ea ch   attr ib u te  ar m ea s u r ed   as  ap p lican ts   f o r   f r a g m e n ti n g .   T h r o u g h   ev er y   r o u n d   o f   ca lcu latio n   th a d o es  n o d ec id to   f r ag m e n ti ze ,   attr ib u tes  ar m ar k ed   to   b u n f o r tu n ate  if   t h eir   v alu e s   ar les s   t h a n   th e   v al u e   f r o m   to p   attr ib u te  w h ich   is   g r ea ter   th a n   t h b o u n d .   R e g a r d in g   to   t h b o u n d ,   cu r r en attr ib u te s   ar i m p r o b ab le  to   b e   ch o s en   in   t h d ec is io n   tr ee ,   th er ef o r th r ef er en ce   to   th is   in f o r m a tio n   is   r ej ec ted   f r o m   th at  ca lcu l atio n   p o in o n w ar d .   T h t w o   id ea s   ar in ter co n n ec ted ,   r ep ea tin g   u n til  t h e   r ep lace ab le  v a lu is   s et.   T h is   ap p r o ac h   ca n   f u n ctio n   a s   f o u n d atio n   f o r   ca lcu lat in g   r an g o f   p r ed ictab le  v alu e s   f o r   n o i s y   d ataset.   MO A   s i m u latio n   ca n   r an d o m l y   au g m en n o is to   d atase ts .   P er tu r b atio n   a m o u n i s   p r esen ted   to   s tatis t ical  f ig u r es.  A   le v el  o f   n o is ca n   b f a m iliar ized   to   th d atasets   af ter   p r o v o k in g .   Fo r   d is ti n ct  attr ib u te s ,   p er tu r b atio n   p r o b ab ilit y   g o v e r n s   t h e   co in cid e n ce   w h ic h   a n y   f i g u r e s   ar c h a n g ed   to   o th e r s   b u t   th e   o r ig i n al   f i g u r e.   I n   t h ca s o f   s tatis tical  attr ib u te s ,   lev el   o f   r an d o m   p er tu r b ati o n   i s   r ec k o n ed   to   all  f i g u r es,   r an d o m ized   f r o m   Ga u s s ian   d is tr ib u tio n   f u n ctio n   w it h   th id en tical  s ta n d ar d   d ev iatio n   as  o f   th o r ig i n al   f i g u r es  t i m ed   b y   p r o b ab ilit y   o f   p er tu r b atio n .   Fo r   ex a m p le,   th alg o r it h m   m a y   au g m en 1 0 p er tu r b atio n   to   th d ec is io n   tr ee   d ataset.   I i s   ai m ed   t h at  ex p er i m en w it h   n o is eless   a n d   n o i s y   d ata  ca n   co n tr ib u te  p er ce p tio n   to   h o w   s m ar t t h alg o r it h m s   c an   s u cc ee d   p er tu r b atio n .   T o   q u an tify   n o is i n   th d ataset  is   n o w   co n s id er ed .   On l y   t h ca s in   w h ich   b o u n d   o n   th n o is e   ex is t s   an d   t h ca s w h er th e   n o is is   r a n d o m .   I n   t h f ir s o n e,   o p ti m izatio n   i s   g u ar an te ed   o n   th m ac h i n lear n ed   s i m u latio n .   I n   th latt er   o n e,   th m ac h i n lear n i n g   w il ass o ciate   s y n th e tic  d atase ts   an d   tr ain i n g   s et.   T o   s y n t h e s ize  t h tar g eted   d a tasets   w i th   n o i s e,   s y n t h esiz er   f o r   b it  lev el  w ill  v i g o r o u s l y   in s er s o m f a ls e   u n t il  t h p r ef er r ed   d atasets   ar ac h iev ed .   I n   ca s o f   h e f t y   d ataset s ,   n u m er ical  s y n t h esizer   w h ic h   ca n   ca lcu late  p r o b ab ilis tic  m o d els   f o r   d ataset  in   r ep o s ito r y   th e n   ap p r o x i m ate s   t h p r ef e r r ed   d ataset  b ased   u p o n   th co m p u tatio n .     3 . 2 .   E x peri m e nta l da t a s et s   E li m i n ati n g   s u b s ta n ce s   w h ic h   ar n o is e   is   v ital   o b j ec tiv o f   d ata  c u r atio n   ( b o th   f il ter in g   a n d   o u tlier )   s in ce   n o is g ar b les  an d   o b s tr u cts  d ata  an a l y t ics.   Su r v iv i n g   f ilter in g   tec h n iq u es  e m p h a s ize  o n   eli m i n ati n g   n o is w h ic h   is   th e   cr ea tio n   o f   lo w - lev e d ata  er r o r s   d ev elo p ed   b y   d ef icie n d ata  co llectio n ,   b u d ata  s u b s tan ce s   w h ich   ar in a p p r o p r iate  o r   d im l y   r elate d   ca n   ea s il y   f r u s tr ate  t h an al y tics .   Fo r   ex a m p le,   n o is e   ca n   d ir ec to   b ia s ed   v ar i ab les   ( n eg ati v co n s eq u e n ce ) ,   r es u lt in g   d ata  s c ien t is t   to   co n s id er   t h at  a n   a s s o ciatio n   o f   an y   attr ib u tes  o cc u r s   ( f a u lt   co n clu s io n )   t h o u g h   in   f ac i t   m a y   n o b ( t y p o n er r o r ) .   Hen ce ,   if   i is   to   en r ich   d ata  a n al y tics   as  f ar   as   ac h iev ab le,   t h ese  s u b s tan ce s   m u s b d etec ted   as  n o is e,   r e g ar d in g   to   th b as ic  an al y tics .   T h er ef o r e,   it  is   ess e n tial  f o r   n o is r e m o v a tech n i q u es  in   o r d er   to   eli m in ate  a n y   t y p es  o f   n o i s e.   Du e   to   b ig   p o r tio n s   o f   n o is d u r i n g   d ata  co llectio n   p r o ce s s ,   a n y   tech n iq u es  h a v to   ab an d o n   a   f r ac tio n   o f   d ata.   T h is   r esear ch   in v e s ti g ates  3   ty p e s   p r o p o s ed   f o r   n o is ( N) ,   m is s in g   d ata  ( MD )   an d   th in te g r atio n   o f   b o th   ( NM D) .   T h r ee   p r o p o s ed   tr ea t m en tech n iq u e s   in cl u d L is t w i s Deltio n   ( DE L ) ,   Sin g le  Ass er tio n   Me c h an is m   ( SA M) ,   a n d   R a n d o m   Me th o d   ( R AM )   to   i m p r o v e   d ata  an al y tic s   i n   t h o cc u r r en ce   o f   ex tr ao r d in ar y   n o is e   lev els.  T h r ee   in v e s tig a tio n s   an d   t w o   tec h n iq u es  ar b ased   u p o n   m u ltip le  r e g r ess io n   m o d el  w it h   f i v d if f er e n t   d atasets .   T h ese  ex p er i m en ts   ar esti m ated   in   ter m s   o f   th eir   i m p ac o n   th s u cc e s s i v d ata  an al y tics ,   ex p licit l y ,   th f o llo w in g   y ea r   d ata  co llect io n   w ill   b e m p lo y ed   to   co m p ar to   th o s e s ti m atio n s   f r o m   m u ltip le  r eg r e s s io n   an al y s is .       4.   SI M UL AT I O R E S UL T AND  ANA L YS I S   T h o p en - s o u r ce   a n d   ac ce p tab le  to o MO A   ( R elea s e   2 0 1 7 . 0 6 )   [ 10 ]   w ill  b e m p lo y ed   f o r   th e   an al y s is .   T w o   d is s i m ilar   d ata s ets  h a v b ee n   u s ed   an d   th p er f o r m a n ce   ev al u atio n   o f   m u ltip le  r eg r ess io n   m o d el   f o r   n o is y   an d   m i s s i n g   d ata  h a s   b ee n   f i g u r ed   o u t.  T h co m p u tatio n   h as   b ee n   e x ec u ted   o n   a n   A ce r   W in d o w s   8   w it h   I n tel®  C o r   i5   C P U,   1 . 6 0   GHz   P r o ce s s o r   an d   8   GB   R A o n   b o ar d .   T h d atasets   h av e   b ee n   s elec ted   in   o r d er   th at  th e y   ar d if f er e n t i n   n u m b er   o f   at tr ib u tes,  in s ta n ce s   a n d   s ize.   T h p u b lic  h ea lth   p ar a m eter s   ar co m p o s ed   o f   m o n th l y   s alar y   ( S AL ) ,   lo s s   r ate   p er   th o u s a n d   p o p u latio n s   ( L OS) ,   n u m b er   o f   m ed ical  d o cto r s   p er   h u n d r ed   th o u s an d   p o p u latio n   ( DO C ) ,   n u m b er   o f   h o s p itals   p er   h u n d r ed   th o u s a n d   p o p u latio n   ( HOS)   an d   p o p u latio n   d e n s it y   p er   s q u ar k ilo m eter s   ( DE N) .   P u b lic  h ea lth   d ataset  w a s   p r o v in cial l y   co ll ec ted   b y   i n f o r m atio n   tec h n o l o g is w h o   h ad   b ee n   w o r k in g   clo s el y   in   ter m s   o f   p u b lic  h ea lt h   p o lic y   an d   p r o m o tio n   ( P HP P ) .   C o llected   d a ta  ar s u b j ec ted   to   h elp   m an ag an d   i m p r o v a   Qu alit y   o f   L i f ( Qo L )   in   p r o v in cial  ar ea s .   No te  t h at  t h ese  d ata  w as  p ar tiall y   a g g r e g ated   b y   te m p o r ar il y   h ir e Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E l ec   &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t 2 0 1 8   :   2 2 2 0     2 2 2 9   2224   s taf f s   w h o   h a v lo w er   s k ill  i n   co m p u ter   li ter ac y .   Du to   t h is   r ea s o n   it  led   to   n o is y   a n d   m is s i n g   d ata  in   t h e   o r ig in al  d ataset.   T h f ir s d ataset  co n tai n s   5 8 0   s a m p les  w h ile  t h s ec o n d   d ataset  co llects  1 9 8   s a m p les.  I ts   attr ib u tes   co r r esp o n d   to   th p u b lic  h ea lt h   c h ar ac ter is tic s   a s   d ep icted   i n   T ab le  1 ,   s o m e   p ar a m eter s   s u ch   as   s e x ,   a g e,   a n d   o th er s   w h ic h   ar n eg lecte d   d u th co n f id e n tialit y   o f   t h s a m p le’ s   o w n er ,   h o w ev er   e v en t u all y   i co n s i s ts   o f   in v e s ti g ati v attr ib u te s   w h ich   s er v th e s s e n tial la b el  o f   t h s a m p le.       T ab le  1 .   P u b lic  Hea lth   Data s e t   A ttrib u tes   A t t r i b u t e   Ty p e   R o l e   G e n d e r   N o mi n a l   R e g u l a r   S a l   I n t e g e r   R e g u l a r   L o s   I n t e g e r   R e g u l a r   D o c   I n t e g e r   R e g u l a r   H o s   I n t e g e r   R e g u l a r   D e n   I n t e g e r   R e g u l a r   C o mm e n t s   N o mi n a l   R e g u l a r       T h s o cc er   p ar am e ter s   ar co n s tr u cted   b y   p la y er   h ei g h ( H E I ) ,   w ei g h ( W E I ) ,   n u m b er   o f   s u cc ess f u l   g o als  a f ter   th o u s a n d   atte m p ts   ( GOL ) ,   n u m b er   o f   p ass i n g   t h e   b all  ( P A S)  an d   a v er ag g o als   o u o f   te n   n atio n al   co m p eti tio n s   ( A VG) .   So cc er   d ataset  w as   ca p tu r ed   b y   a   m ed ia  co m p a n y   w h ich   h ad   b ee n   in v o l v in g   w i th   telev i s io n   b r o ad ca s tin g .   Da ta  is   m ea n to   h elp   an a l y ze   p la y er s   p er f o r m an ce   in   g e n er al.   No te  th at   th e s d ata   w a s   m a n u all y   co llected   b y   c o m p a n y   s ta f f s   w h o   u n i n te n ti o n all y   d ev e lo p ed   n o is in   th o r ig in al  d ataset  a s   w ell.   I t s   attr ib u te s   ex h ib it  t h e   p lay er   c h ar ac ter is tic s   as  li s te d   in   T ab le  2 ,   s o m p ar a m eter s   s u c h   a s   ed u ca tio n   b ac k g r o u n d ,   in co m e,   a n d   o th e r s   w h ich   ar e   o m it ted   d u t h s ec r ec y   o f   th e   p la y er s   i n f o r m a tio n ,   b u t   it c o n tai n s   ex p er i m e n tal  attr ib u tes  w h ich   r e m ar k   t h s i g n if ica n t la b e l o f   th in f o r m at io n .       T ab le  2 .   So cc er   p lay er   Data s et   A ttrib u tes   A t t r i b u t e   Ty p e   R o l e   N a me   a n d   S u r n a me   N o mi n a l   R e g u l a r   T e a m   N o mi n a l   R e g u l a r   H e i   I n t e g e r   R e g u l a r   W e i   I n t e g e r   R e g u l a r   G o l   I n t e g e r   R e g u l a r   P a s   I n t e g e r   R e g u l a r   A v g   I n t e g e r   R e g u l a r   C o mm e n t s   N o mi n a l   R e g u l a r       4 . 1 .   M e a n a bs o lute   er ro r   T h m ea n   ab s o lu te  er r o r   ( MA E )   is   an   a m o u n u s ed   to   q u an ti t y   esti m ate s   o f   t h u l ti m a te  r es u lts .   T h MA E   i s   m ea n   o f   t h ab s o lu t v alu o f   f la w s   an d   ca n   b co m p u ted   b y :               |         ̂   |                               ( 1 )     w h er         is   t h d ef i n i te  o b s er v at io n   ti m s er ies a n d     ̂     i s   th p r ed icted   o r   esti m ated   ti m s er ies.     4 . 2 .   Ro o t   m ea n sq ua re d e rr o r   R o o m ea n   s q u ar ed   er r o r   ( R M SE)   is   q u an tit y   u s ed   to   m ea s u r th d if f er en ce s   b et w ee n   s a m p le  an d   p o p u latio n   v alu e s   f o r ec asted   b y   m o d el  o r   est i m ated   v al u es  o f   ac t u al  o b s er v at io n s .   T h R MSE   d en o tes   t h e   s tan d ar d   d ev iatio n   o f   t h d if f er en ce   b et w ee n   f o r ec ast s   a n d   o b s er v atio n s .   T h ese   d if f er en c es  ar co m p u ted   b y   th s a m p le  d ata  p er f o r m an ce   o v er   p r ed ictio n   er r o r s   as c alcu lated   o u t - of - s a m p le.   T h R MSE   o f   f o r ec asted   v alu es    ̂     f o r   ti m e s   t   o f   r eg r es s io n 's   d ep en d en t v ar iab le      is   ca lc u lat ed   f o r   n   d if f er en f o r ec asts   a s   s h o w n   in   E q u atio n   ( 2 ) .                  ̂                                         ( 2 )     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       E va lu a tio n   o f a   Mu ltip le  R e g r ess io n   Mo d el  fo r   N o is a n d   Mis s in g   Da ta   ( C h a n in to r n   Jitta w ir iya n u ko o n )   2225   T r ain in g   d ataset  i n   g en er al  w il d ec r ea s th er r o r   r ate  f o r   ex p er i m en s et.   Fla w   r ate  f o r   tr ain in g   d ataset  is   r elativ el y   h i g h er   th an   th at  o f   t h ex p er i m e n s et.   I f   an y   t w o   alg o r ith m s   r es u lt  th id en tical  M A E   th en   R MSE   i s   tak e n   in to   ac co u n f o r   s elec ti n g   t h f in e s alg o r ith m .   No r m al l y   e x p er i m e n ti n g   s et  h a s   lo w   f la ra te  th an   t h tr ain in g   d ataset.       4 . 3 .   No is a nd   m is s ing   pa t t er ns   Fu ll y   at  R a n d o m   ( FaR )   m ea n s   n o i s o r   m i s s i n g   p atter n s   ar n o d ep en d in g   o n   a n y   f ac to r s .   Fo r   in s ta n ce   m a n y   q u esti o n n a ir es   w ill  as k   f o r   r an d o m   s a m p le.   I n ten tio n a ll y   ( I NT )   m ea n s   n o is o r   m is s i n g   p at ter n s   r ec k o n   o n   co n f id en t i alities .   Fo r   ex a m p le,   s o m r esp o n d en ts   m a y   a w k w ar d l y   to   r ep o r th eir   an n u al  in co m e,   a g e,   p er s o n al l y   s e n s i tiv d ata  etc.   E v e n tu a ll y   th e y   m a y   f ill  u p   w it h   b la n k   i n ten tio n all y   o r   u n tr u e   f i g u r es.  Mo s m i s s i n g   d ata  p atter n s   co n cl u d ei th er   Fa R   o r   I NT .     4 . 4 .   M a dh u t re a t m ent   m et ho d     Ma d h u   a n d   Nag ac h a n d r ik [ 1 6 ]   p r esen ted   tr ea t m en m et h o d   f o r   d ata  im p u tatio n   b ased   u p o n   d u al   d is tan ce   v ec to r s   w h ich   ar e m p lo y ed   to   o u tlin r ep r esen tat io n   b et w ee n   th n ea r es n ei g h b o r   an d   th clu s ter   ce n tr o id .   T h e y   d en o te  d ataset   ele m en ts   as  r ep r esen ta tiv p   q   m a tr ix .   Data s et  m a tr ix   D   ch ar ac ter izes  t h e   ele m e n ts   o f   r o w s   an d   co l u m n s   an d   ea ch   r o w   co n tai n s   s eq u en ce   o f   q - t u p les  o f   d ata  elem e n t s   s u c h   as   ( dk 1 ,   d k 2 ,   d k 3 , …,   d k ( q - 1) ,   d kq )   f o r   ea ch   1 2 3 , …,   p .   A ll  d ataset s   ar ass u m ed   t o   b s et  o f   f in i te   ele m e n ts .   An   ele m e n d kq   is   c o n s id er ed   to   b m i s s i n g   ele m en w h en e v er   { d ij   n u ll,  1       p ;       q } T h en   k - m ea n s   alg o r it h m   to   s tr u ct u r clu s ter s   an d   to   d ef in th ce n tr o id s   u s in g   t h v ec t o r   V n   is   s p ec if ied   as   lis ted   in   E q u at io n   ( 3 )   b elo w :             |   |                                  ( 3 )       Hen ce ,   t h n ea r est   n ei g h b o r   b ased   u p o n   a   E u clid ia n   d i s ta n ce   v ec to r   w ill   b co m p u ted   f o r   m is s in g   v alu e s   o f   g i v e n   d ataset.   A s s u m e   t h at  D   is   s et  o f   f i n ite  e le m e n ts   an d   b o th   m   a n d   n   co r r esp o n d   to   D N   is   co n s id er ed   to   b th n ea r est  n eig h b o r   o f   M   i f   an d   o n l y   i f   N   is   th n ea r est  to   M   a m o n g   o th er   p o in ts   lo ca ted   in   {D    M}     4 . 5 .   P ro po s ed  t re a t m ent   m et ho d s   w it h less   bia s   T h r ee   p r o p o s ed   m et h o d s   f o r   i m p u ti n g   d ata  to   h an d le  t h p r o b lem   o f   n o is y   an d   m i s s i n g   v alu w h ic h   ar b ased   u p o n   lis t w i s d elet io n ,   ass er tio n ,   an d   r an d o m iza tio n   h a v b ee n   p r ese n ted .   L e D   d en o te  d ataset   m atr i x   w h ic h   il lu s tr ates  a   r ep r esen tat io n   o f   p   r o w s   an d   q   co l u m n s   m atr i x   ( dk 1 ,   d k 2 ,   d k 3 , ,   d k ( q - 1) ,   d kq )   f o r   ea ch   1 2 3 , …,   p .   T h d ataset  is   a s s u m ed   to   b f i n ite   s et.   An   ele m e n d kq   is   m i s s i n g   o r   n o is y   ele m e n t   ( NM D)   w h e n e v er   { d ij   =   n u ll   | |   n o is e,   1       p ;       q } T h d ataset  w i th   NM D   ele m e n ts   is   ca lled   u n e x ec u tab le  d ataset.   T h en   tr ea t m e n m et h o d s   to   g et  o v er   t h u n e x ec u tio n   a n d   m o v t h e   f u r th er   a n al y s i s   o n   u s i n g   th e s ti m ated   v ec to r   E n   ar d escr ib ed   in   th f o llo w in g   s ec tio n .     4 . 5 . 1 .   Dele t io m ec ha nis m   ( DE L )   L is t w is d eletio n   d ea ls   w ith   t h NM v al u es  b y   r e m o v i n g   th e m   e n tire l y   in   o r d er   th at  d ata  s cien ti s t   ca n   an al y ze   t h est i m a ted   d ataset.   I is   co m m o n l y   u s ed   m e th o d   an d   r ec o m m e n d ed   w h e n   th m is s in g n es s   is   Un p lan n ed   Mi s s i n g   ( UM )   ca s e.   DE L   r etain s   t h h u m b le   an d   s i m p le   tr ea t m e n t   tech n iq u w h et h er   o r   n o th e   NM o f   a n   i n p u i n f lu e n ce s   t h f u t u r n e g lecte d   v al u es.  An y   z   r o w s   o f   m atr i x   D   p o s s e s s   an   ele m en d ij   w it h   NM w h er { d ij   n u l | |   n o is e,   1       p ;       q }   th en   th e n tire   r o w   is   ca n ce lled .   T h esti m ated   E n   d ataset  is   { d ij     n u ll  | |   n o is e ,   1       ( p - z ) ;       q } .   T h DE L   tr ea t m e n i s   k n o wn   to   cu lti v ate  f air   p r ed ictio n   an d   class ical  a n al y tics   if   an d   o n l y   i f   d ata s et  i s   lar g e,   w h er p o w e r   i s   tr i v i al  th e n   t h li s t w is e   d eletio n   is   a n   i n ter es tin g   m et h o d .   No te,   th s t u d y   i n   t h i s   p ap er   h an d le s   lar g e   s a m p le  a n d   th a s s u m p t io n   o f   UM   is   f u l f illed   t h en   t h i s   d eleti o n   is   d elib er ated   to   b an   ac ce p tab le  s tr ateg y .     4 . 5 . 2 .   Sin g le  a s s er t io m ec ha nis m   ( SAM )   E m p lo y   d u m m y   v ar iab le  n a m el y   a v er ag v alu e   to   i m p u te  d ata  to   s u b s t itu te  th e   m is s in g n e s s .     Di v id th g iv e n   D   d ataset  i n to   2   g r o u p s   th a t is:   a)   1 st   g r o u p   is   d at aset  w h ic h   co n tain s   ele m en t s   w it h   n o is y   d ata  ( N) .   b )   2 nd   g r o u p   r ep r esen ts   a   d ataset  w h ich   co n tai n s   m is s in g   d a ta  ( MD ) .   No w   co n s id er   t h f ir s g r o u p   as  g ar b led   d ataset  w h ic h   i s   u n e x ec u tab le.   An y   z   r o w s   o f   m atr i x   D   p o s s es s   an   e le m e n d ij   w i th   n o i s y   d ata  ( N)   w h er e     { d ij   n o is e,   1       p ;       q }   th en   th en t ir r o w   is   ca n ce lled .   T h s ec o n d   g r o u p   d at aset  is     { d ij     n o is e,   1       ( p - z ) ;       q } .   T h s u b s t itu tio n   f o r   esti m ated   En   d ataset   w it h   d ata  i m p u tatio n   f o r           Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E l ec   &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t 2 0 1 8   :   2 2 2 0     2 2 2 9   2226   m is s i n g   v al u es i s   d ef i n ed   as f o llo w s :              |       |                                    ( 4 )     T h v alid atio n   o f   t h a v er a g v alu e   is   t h at  it   is   an   ac ce p tab le  p r ed ictio n   f o r   r a n d o m   p ar a m eter   o u t   o f   n o r m al   d is tr ib u t io n .   I n   ca s o f   p lan n ed   m is s in g   v al u e,   t h is   tr ea t m e n t   m e th o d   w i ll  lea d   an   u n p r ed ictab le   b ias.  No t o n l y   t h is   m et h o d   d ev elo p s   d is ti n g u i s h   i n f o r m atio n   b u t r ath er   g r o w s   t h s ize  o f   p o p u latio n   co m p ar ed   to   DE L   a n d   e n co u r a g es  a n   u n d er esti m ate  v al u es.  Mo r eo v e r ,   th is   tech n iq u i s   i m p er f ec t,   b u d ev e lo p s   m o r e   p ar am eter s   f o r   s ca le  s co r r ath er .       4 . 5 . 3 .   Ra nd o m   m et ho d ( RAM )   Use  m u ltip le  as s er tio n s ,   m ax i m u m   li k eli h o o d   at  r an d o m   f o r   r ep lace m en t.  L i k S A M,   th e   D   d ataset   m u s b s p lit  in to   t w o   g r o u p s .   No w   d ea w it h   th 1 st   g r o u p   as  co r r u p ted   d ataset   w h ich   ca n n o b e   u n e x ec u tab le.   An y   z   r o w s   o f   m atr i x   D   w it h   an   ele m en o f   d ij ,   n o is y   d ata  ( N)   w h er e     { d ij   n o i s e,   1       p ;       q }   ar t h en   r e m o v ed .   T h s ec o n d   g r o u p   d ataset   is     { d ij     n o is e,   1     i ≤   ( p - z ) ;     j ≤   q } .     T h m i n i m u m   l ik eli h o o d   o f   attr ib u te  ( co lu m n )   j   ( w h er 1 2 3 , …,   q )   is   ch ar ac ter ized   b y   d ( m i n ) j   w h er   d ( m i n ) j   Min   ( d kj )   f o r   ea ch   1 2 3 , …,   ( p - z ) .   Si m i lar l y ,   t h m ax i m u m   li k el ih o o d   o f   attr ib u te  j   ( w h er 1 2 3 , …,   q )   is   r ep r esen ted   b y   d ( m ax ) j   w h er   d ( m ax ) j   Ma x   ( d kj )   f o r   ea ch   1 2 3 , …,   ( p - z ) .   T h s u b s titu tio n   f o r   esti m ated   En   d ataset  w it h   m u ltip le  i m p u tatio n s   f o r   m is s i n g   v alu e s   in   ea ch   attr ib u te  j   is   r an d o m l y   d eter m in ed   as  f o llo w s :                 [                              ]               ( 5 )     C lear l y   t h p r o p o s ed   ap p r o ac h   p r esen t s   co lu m n w is ( attr ib u te - o r ien tatio n )   o p er atio n   b y   eli m i n ati n g   u n e x ec u tab le  n o is y   d ata  t h en   i m p u ti n g   r ep lace m e n d ata  b ased   u p o n   less - b ias - m ec h a n is m s   a s   d escr ib ed   ab o v e.   Ho w e v er ,   Ma d h u s   m eth o d   is   r o ww is ( i n s tan ce   o r ien ted )   o p er atio n   w h ic h   ca n n o b ap p lied   w i th   r ea lis tic  ca s o f   NM f o r   t w o   r ea s o n s .   O n is   N w ill b a n   in v a lid   f i g u r in   s tati s tical  ca l cu latio n .   T h o th er   is   li k eli h o o d   in   ea ch   attr ib u te   is   m o r s ig n i f ica n t h a n   i n s t an ce   f o r   p r ed ictin g   f u tu r tr en d .   co m p ar is o n   w it h   m et h o d   ex p lain ed   in   [ 1 6 ]   is   d is p la y ed   in   T ab le  3 .       T ab le  3 .   C o m p ar is o n   w i th   E x i s tin g   Me t h o d   D A TA S E T   M a d h u   M e t h o d   D E L   S A M   R A M   H e a l t h   N / A         S o c c e r   N / A             T h is   r esear ch   h a s   b ee n   co n d u cted   to   ca r r y   o u a n   i n - d ep th   an al y s is   o f   t h er r o r   o f   esti m atio n   w it h   less   b ias  ( DE L ,   S A an d   R AM )   co m p ar ab le  to   t w o   o r ig i n a d atasets   ( p u b lic  h ea lt h   an d   s o cc er   p lay er s ) .   T h s tr u ct u r es  o f   t h ese  d ataset s   ar as  lis ted   in   T ab le  1   an d   T ab le   2 .   T a b le  4   d ep icts   th o v er all  r esu lts   f o r   co r r elatio n   co ef f icie n ( C OE F),   m ea n   ab s o l u te  er r o r   ( M A E )   an d   r o o m ea n   s q u ar ed   er r o r   ( R MSE ) .   T h R MSE   v al u es  a f ter   ap p l y i n g   d eletio n   m ec h a n is m   ( DE L )   f o r   m is s in g   a n d   n o is e   d ata  co m p ar ab l y   d if f er   a n d   th e y   ar g et tin g   lo w er   f o r   p u b lic  h ea lt h   d ata s et.   W h e n   co m p ar to   o th er   m ec h an i s m s ,   t h e   MA E   o f   DE L   ca n   also   b f o u n d   d if f er en tl y ,   th i s   is   th lo w e s v al u o f   1 8 . 3 .   W h ile,   th r esu lts   co llected   f o r   w h e n   th s o cc er   p lay er   d ataset  h as b ee n   tak e n   i n to   ac co u n f o r   th e v alu a t io n   ar f air l y   clo s e.       T ab le  4 .   E s tim a t io n   w it h   R o o t   Me an   Sq u ar E r r o r   D A TA S E T   P r o t o t y p e   D E L   S A M   R A M   C O EF   M A E   R M S E   C O EF   M A E   R M S E   C O EF   M A E   R M S E   C O EF   M A E   R M S E   H e a l t h   0 . 1 6   3 5 . 7   4 7 . 0   0 . 6 7   1 8 . 3   2 2 . 2   0 . 0 8   3 8 . 1   4 9 . 6   0 . 3 8   3 2 . 8   4 3 . 4   S o c c e r   0 . 1 7   4 . 6 7   6 . 1 6   0 . 2 3   4 . 5 8   5 . 9 8   0 . 2 2   4 . 5 6   6 . 0 1   0 . 2 4   4 . 5 1   5 . 8 5         Dif f er en p atter n s   o f   u n r ea ll y   s h ap ed   m i s s i n g   o b s er v atio n s   h ad   b ee n   f u n ctio n ed   f o r   t w o   m en tio n ed   d atasets .   On ce   a g ai n ,   t h h u m b le  d eletio n   i s   in ten d ed   to   p r o b th s en s it iv i t y   o f   th e s ti m atio n   to   m is s i n g   o b s er v a tio n s   i n   ea ch   attr ib u t an d   th ef f ec o f   d eletio n   o n   co r r elatio n   co ef f icie n t.  Fi n all y ,   s y s te m a tic   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       E va lu a tio n   o f a   Mu ltip le  R e g r ess io n   Mo d el  fo r   N o is a n d   Mis s in g   Da ta   ( C h a n in to r n   Jitta w ir iya n u ko o n )   2227   p atter n   o f   r ep lace m e n h as b ee n   ex p lo ited   to   co m p en s ate  d eletio n   i n   ca s o f   m i s s i n g   d ata .   T h is   is   s elec ted   to   ec h o   th e   ca s w h er e,   f o r   in s ta n ce ,   co n f id en tial  i n co m e   u n it s   ar m o r h esit a n to   ex p lo d th eir   i n co m e   in   t h r ev ie w .   I n   m o s ca s e s ,   t w o   s u b s titu t io n   p atter n s   ( S AM   a n d   R A M)   ar e x er cised   i n   t h i s   r esear ch   a n d   MO s i m u lat io n   r u n s   p er   p atter n s   a r ex ec u ted .   T h esti m ated   m u ltip le  r eg r es s io n   eq u atio n s   with   t h eir   r esp ec tiv e   p atter n s   f o r   n o i s an d   m is s in g   d ata  ar s i m u la ted   an d   r esu lt s   ar s u m m ar ized   i n   T ab le  5 .         T ab le  5 .   Su m m ar y   o f   M u ltip le   R eg r es s io n   Mo d els                                                       P u b l i c   H e a l t h   P r o t o t y p e   X 5   - 8 . 5 6   X 1   + 0 . 0 3   X 3   +   1 7 1 . 9 7   D E L   X 5   - 9 . 0 2 X 1   + 0 . 0 5 X 3   +   1 4 0 . 9 7   S A M   X 5   - 7 . 8 2 X 1 - 0 . 2 8 X 2   + 0 . 0 4 X 3   +   1 9 3 . 8 4   R A M   X 5   - 8 . 9 8 X 1   + 0 . 4 2 X 2   +   1 3 9 . 4 6                                                   X 1 = L o s,  X 2 = D o c ,   X 3 = H o s,  X 4 = S a l   a n d   X 5 = D e n                                                       S o c c e r   P l a y e r   P r o t o t y p e   X 5   - 3 . 2 3 X 1   + 4 8 . 7 X 3   + 1 1 . 0 9 X 4   +   2 . 9 7   D E L   X 5   - 4 . 6 0 X 1   + 5 2 . 4 8 X 3   +   1 8 . 1 3   S A M   X 5   - 4 . 7 0 X 1   + 5 2 . 0 4 X 3   +   1 9 . 3 4   R A M   X 5   - 4 . 0 4 X 1   + 4 9 . 8 3 X 3   +   1 6 . 0 7                                                     X 1 = H e i ,   X 2 = W e i ,   X 3 = G o l ,   X 4 = P a a n d   X 5 = A v g       T h esti m ated   r eg r ess io n   eq u atio n s   ca n   h e n ce   b p ar alleled   w it h   th r ea l/a u th e n t ic  d ata  in   s u b s eq u en t   y ea r s   i n   o r d er   to   i n v e s ti g ate  th e   ac cu r ac y   o f   ea c h   p r ed ictio n .   As e x p lai n ed   i n   p r ev io u s   s ec tio n ,   t h e   m u ltip le  r eg r es s io n - b ased   i m p u tatio n   f o r m s   f o r ec asti n g   tr en d .   No te  th at  au to   r eg r ess i v m o d el  b ased   i m p u ta tio n   ar p r ese n ted   in   [ 1 7 ]   to   r ec k o n   m is s i n g   v al u es   an d   th e   ac cu r ac y   ar ev al u at ed   b y   u s in g   R MS E   m etr ics  b u it  is   r eg ar d les s   o f   m u ltip le  r eg r es s io n   m o d el.     No to   m en tio n   th e y   d o   n o t   co n ce r n   ab o u th ac cu r ac y   o f   th e   p r ed ictio n   tr en d   at  all.   W h ile   an   i n ter es tin g   d ata  i m p u ta tio n   f o r   esti m ati n g   t h m is s in g   v al u e   is   in tr o d u ce d   in   [ 1 6 ] ,   h o w e v er   th is   n e w   p ar ad ig m   i s   n o ap p licab le  f o r   p r ed ictio n   m o d el   as  w ell.   T h at  is ,   it   ca n   b s ee n   as  th e   f ir s r ea s o n   t h at  th e   i m p u ted   v al u es   r ef l ec m a lf u n ctio n .   T h i s   p r o b lem   i s   r ep r esen ted   i n   Fig u r 3   an d   Fi g u r 4 .   T h a u th en tic  d ata  p o in t s   d i v er g f r o m   t h r e g r ess io n   li n b y   s o m e   ex te n b u i m p u ted   v alu e s   j a m   p er f ec tl y   o n   th r e g r ess io n   li n e.   T h is   p r o b lem   is   ea s il y   f i x ed   s i m p l y   b y   r ep laci n g   r a n d o m   v al u to   ea ch   i m p u ted   v al u ( th is   r ela tes  to   ad d in g   th i m p r o v e m e n t) .   T h s ec o n d   r ea s o n   th er is   s li g h v ar iab ilit y   s h ar es  to   th f ac t h at  t h r e g r ess io n   eq u atio n s   e m p lo y ed   i n   i m p u tat io n   ar b ased   u p o n   s a m p le  f r o m   to tal   p o p u latio n .   A s   ill u s tr ated   i n   b o th   Fi g u r 3   an d   Fi g u r 4 ,   t h e r s h o u ld   b ad d itio n al   co m p e n s atio n   ar o u n d   t h e   d o tted   lin ea r   lin in   o r d er   to   lo w er   t h d if f er en v al u e at  m a x i m u m   e x ten t .             Fig u r e   3 .   C o m p ar is o n   o f   p u b li h ea lth   d ata  w it h   au th e n tic  d ata     Fig u r e   4 .   C o m p ar is o n   o f   s o cc er   p lay er   d ata  w ith   au th e n tic  d ata       T h esti m atio n   e r r o r   ( E r r )   o f   f o r ec asted   v al u es  y t   o f   r e g r es s io n   m o d el  i s   co m p u ted   b y   co m p ar i n g   to   r ea l d ata  x t   as lis ted   in   E q u atio n   ( 6 ) .               |           |                                 ( 6 )     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E l ec   &   C o m p   E n g ,   Vo l.  8 ,   No .   4 A u g u s t 2 0 1 8   :   2 2 2 0     2 2 2 9   2228   Fig u r 5   p r esen ts   p er ce n tag e   er r o r   o f   p r e d ictio n   u s i n g   m u ltip le  r eg r es s io n   m o d els  tab u lar ized   in   T ab le   4   af ter   co m p ar in g   to   r ea d ata  w h ic h   h as  o cc u r r ed   s u b s eq u en tl y .   Fi g u r 5   r ep r esen ts   th i n v e s ti g atio n   o f   p u b l ic  h ea lt h   d ataset  w h ile  Fig u r 6   d en o tes th s tu d y   o f   s o cc er   p lay er   d ataset  r esp ec tiv e l y             Fig u r e   5 .   E s ti m at io n   er r o r   o f   p u b lic  h ea lt h   d ata  co m p ar i n g   to   a u th e n tic  d ata     Fig u r e   6 .   E s ti m at io n   er r o r   o f   s o cc er   p lay er   d ata  co m p ar i n g   to   a u th e n tic  d a ta       T ab le  6   s u m m ar izes  t h av e r ag er r o r   o f   ea ch   p r ed ictio n   b y   ca lc u lati n g   f r o m   r es u lt s   s h o w n   in     Fig u r 5   an d   Fig u r 6 .   I is   a p p ar en f r o m   th tab le  DE L   r ef lects  th lo w est  av er a g p er ce n tag o f   er r o r   an d   attain s   b est ac cu r ac y   a m o n g   o t h er   p ar ad ig m s .       T ab le  6 .   A v er ag E r r o r   f o r   I n d iv id u al  E s ti m atio n s   D A TA S E T   A v e r a g e   Er r o r   ( %)   P r o t o t y p e   D E L   S A M   R A M   H e a l t h   3 3 . 5 6   2 8 . 9 7   3 5 . 1 5   3 4 . 7 7   S o c c e r   4 2 . 7 4   4 0 . 7   4 2 . 7 3   4 4 . 0 1       5.   CO NCLU SI O N   T h r esear ch   ex p o s es  th an al y s i s   au t h o r s   h a v ad o p ted   t w o   g e n er al  d atasets   o f   w h ic h   b o t h   ar in co r p o r atin g   m i s s i n g   d ata  an d   n o is e.   T o   g et  o v er   th li m it atio n   o f   u n ex c u tab le  d ataset   w it h   N MD ,   a n d   MD   ar d iv id ed   i n to   t w o   p ar ts .   Af ter   r e m o v i n g   in v alid   f ig u r e,   t h e   tr ea t m en t   m eth o d w h ic h   c u s to m iz e   esti m atio n   w it h   les s   b ias  e x er cisi n g   d eletio n ,   s i n g le  as s er ti o n   an d   r an d o m   m ec h a n is m s   a r p r o p o s ed .   T h ese  ar o f   s i m p li f ied   to o ls   a n d   u n s u b s tan tial  b ias   t y p e s .   T h k e y   p o in t   o f   c u r r en t   in v e s tig a tio n   is   t h at   a   p r o to ty p e’ s   f i le  av ail s   i n   o r d er   to   co p w it h   t h m is s i n g n es s .   P r o p o s ed   m ec h an i s m s   ar co n s ti tu ted   to   r ef o r m   th m is s in g   d ata  a n d   th v er if icatio n   is   p er f o r m ed   o n   t h i s   ad j u s t m e n al s o .   T h p er f o r m an ce   o f   d eletio n   m ec h a n i s m   i s   g o o d   o n   b o th   d at asets   as  co m p ar ed   to   th r est.  R e m ar k ab le  p o in is   th a MA E   an d   R M SE  r e m ain   al m o s id en t icall y   i n   a ll  th t w o   d ataset s .   T h u n iq u asp ec ts   o f   th co n s ta n c y   o f   m is s i n g   p atter n s   ar p er ce iv ed   in   th c u r r en s t u d y .   T h is   is   th lead in g   ti m i n   th liter atu r s i n ce   n o   g e n er al  d ataset  in   p r ac tice  i s   o b tain ab le  in   th f o r m   o f   m is s in g   t y p e s   r ath er   th a n   th r e - co n s tr u ct io n   o f   d ataset s   in   t h MO A   s i m u latio n   m o d el.   Fro m   th e s r esu lts   it i s   f o u n d   th at,   t h ess e n tia l f i g u r es o f   av er a g er r o r   ar ap p r o p r iate  to   j u d g w h ic h   m ec h a n i s m s   ca n   b o p ted   f o r   th s ak e   o f   f u ll   r ea ch .   Fro m   t ab le  ab o v e,   w ca n   o b v io u s l y   s tate  th at   DE L   h as   ac h iev ed   t h b est  ac cu r ac y   a m o n g   o th er s. T h f o r th co m in g   w o r k   w ill  co n s id er   th ad d itio n   o f   th p r esen t   r esear ch   f o c u s i n g   o n   d i f f er e n v ar iatio n s   o f   n o is d ata s ets   ap p r o ac h   in   MO A .   T h n e x p ap er   w ill  g r ip   co n ce p t o f   d ep r ess in g   an   er r o r   p er ce n tag o f   r eg r es s i v esti m atio n   i n   MO A .       RE F E R E NC E S   [1 ]   K.   S u ,   e a l . ,   S m a rt  Cit y   a n d   t h e   A p p li c a ti o n s,”  I n ter n a ti o n a l   Co n fer e n c e   o n   El e c tro n ics ,   Co m mu n ica t io n a n d   Co n tro ( ICECC) ,   p p .   1 0 2 8 - 1 0 3 1 ,   2 0 1 1 .   [2 ]   A .   P ra b a h a r,   De v e lo p m e n o f   Hig h   P e rf o rm a n c e   W irele s S e n so No d e   f o A c o u stic  A p p li c a ti o n s,”  IEE E   In ter n a t io n a C o n fer e n c e   o n   Gr e e n   Hig h   Per fo rm a n c e   Co mp u ti n g   ( ICGH PC) ,   p p .   1 - 5 ,   2 0 1 3 .   [3 ]   V .   M a rx ,   T h e   Big   Ch a ll e n g e   o f   Big   Da ta,”  Na tu re   4 9 8 . 7 4 5 3 ,   p p .   2 5 5 - 2 6 0 ,   2 0 1 3 .   [4 ]   C .   En d e rs,  A p p li e d   M issi n g   Da ta A n a l y sis,”   G u il f o rd   P re ss ,   Ne w   Yo rk ,   2 0 1 0 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       E va lu a tio n   o f a   Mu ltip le  R e g r ess io n   Mo d el  fo r   N o is a n d   Mis s in g   Da ta   ( C h a n in to r n   Jitta w ir iya n u ko o n )   2229   [5 ]   H.  El d ird iery   a n d   A .   H.  A h m e d ,   De tec ti n g   a n d   Re m o v in g   No is y   Da ta  o n   Web   Do c u m e n u sin g   Tex D e n sity   A p p ro a c h ,   In ter n a ti o n a J o u rn a l   o C o mp u ter   Ap p li c a ti o n s v ol .   1 1 2 ,   n o .   5 ,   p p .   3 2 - 2 6 ,   2 0 1 5 .   [6 ]   R.   S h a rm a   a n d   M .   B h a ti a ,   E li m in a ti n g   th e   No ise   f ro m   We b   P a g e u sin g   P a g e   Re p lac e m e n A lg o rit h m ,   In ter n a t io n a l   J o u r n a l   o f   Co m p u t e S c ien c e   a n d   I n fo rm a ti o n   T e c h n o l o g ies   ( IJ CS IT ) v ol .   5 ,   n o .   3 ,   p p .   3 0 6 6 - 3068 2 0 1 4 .   [7 ]   B.   Ch a e ,   e a l . ,   T h e   im p a c t   o f   a d v a n c e d   a n a ly ti c a n d   d a ta  a c c u ra c y   o n   o p e ra ti o n a l   p e rf o rm a n c e A   c o n ti n g e n t   re so u rc e   b a se d   th e o ry   (RB T )   p e rsp e c ti v e , ”  De c isio n   S u p p o rt S y ste ms v o l.   5 9 ,   p p .   1 1 9 - 1 2 6 ,   2 0 1 4 .   [8 ]   M .   A .   S h a b ir   a n d   P .   T .   De e p a li ,   S a telli te  Im a g e   De n o isi n g   Us in g   Disc re te  Co sin e   T ra n s f o rm , ”  In d o n e sia n   J o u rn a l   o El e c trica En g in e e rin g   a n d   In f o rm a ti c s v o l.   5 ,   p p .   3 72 - 3 7 5 ,   2 0 1 7 .   [9 ]   A .   Dh a r m a ra j a n   a n d   T .   V e lm u ru g a n ,   L u n g   Ca n c e Da ta  A n a ly sis  b y   k - m e a n a n d   F a rth e stF irst  Clu ste rin g   A l g o rit h m s ,   In d ia n   J o u rn a o S c ien c e   a n d   T e c h n o lo g y v ol .   8 ,   n o .   15 ,   2 0 1 5 .   [1 0 ]   A .   Bi fe t,   e a l . ,   M O A M a s siv e   On li n e   A n a l y sis , ”  J o u rn a o M a c h in e   L e a rn i n g   Res e a rc h ,   v o l.   1 1 ,   p p . 1 6 0 1 - 1 6 0 4 ,   2 0 1 0 .   [1 1 ]   Z.   B Yo ss e f a n d   a n d   S .   Ra jag o p a lan ,   T e m p late   De te c ti o n   v ia  Da ta  M in in g   a n d   Its  A p p li c a ti o n s,”  Pro c e e d in g o f   th e   In ter n a ti o n a C o n fer e n c e   o n   t h e   W o rld   W id e   W e b ,   A CM   P re ss ,   p p .   5 8 0 - 5 9 1 ,   2 0 0 2 .   [1 2 ]   L Yi,   e a l . ,   El im in a ti n g   No isy   In f o rm a ti o n   i n   W e b   P a g e f o Da ta  M in i n g ,   S IGKD D ,   A CM   P re ss ,   p p .   2 9 6 - 3 0 5 ,   2 0 0 3 .   [1 3 ]   S .   De b n a th ,   e a l . ,   A u to m a ti c   E x trac t io n   o f   In f o r m a ti v e   Blo c k f ro m   W e b p a g e s,”   ACM   S y mp o siu o n   A p p li e d   Co mp u t in g ,   p p .   1 7 2 2 - 1 7 2 6 ,   2 0 0 5 .   [1 4 ]   E.   S .   L a b e r,   e a l . ,   F a st  a n d   S imp le  M e th o d   f o Ex trac ti n g   Re le v a n Co n ten f ro m   N e w W e b p a g e s ,     Pro c e e d in g s   o t h e   ACM   Co n fer e n c e   o n   I n fo r ma ti o n   a n d   Kn o wl e d g e   M a n a g e me n t ,   A CM   P re ss ,   p p .   1 6 8 5 - 1 6 8 8 ,   2 0 0 9 .   [1 5 ]   N Ra h e ja  a n d   V .   K.   Ka ti y a r,   No ise   Re d u c ti o n   A p p ro a c h   Ba se d   o n   n   x   1   T a b le  a n d   X S L   Disp la y   M e th o d   f o r   Eff icie n W e b   Da ta E x tra c ti o n ,   I n ter n a ti o n a J o u rn a o C o mp u ter   Ap p li c a ti o n s ,   v o l.   6 4 ,   2 0 1 3 .   [1 6 ]   G .   M a d h u   a n d   G .   Na g a c h a n d rik a ,   A   Ne P a ra d ig m   f o De v e lo p m e n o f   D a ta  I m p u tatio n   A p p ro a c h   f o M issin g   V a lu e   Esti m a ti o n , ”  I n ter n a ti o n a J o u rn a o El e c trica a n d   C o mp u t e r E n g i n e e rin g v o l.   6 ,   p p .   3 2 2 2 - 3 2 2 8 ,   2 0 1 6 .   [1 7 ]   R.   T h iru m a h a a n d   P .   A .   De e p a l i,   KN a n d   A R L   Ba se d   I m p u tat io n   t o   Esti m a te  M issin g   V a lu e s,”   In d o n e sia n   J o u rn a o El e c trica En g in e e rin g   a n d   I n fo rm a t ics v o l.   2 ,   p p .   1 1 9 - 1 2 4 ,   2 0 1 4 .   Evaluation Warning : The document was created with Spire.PDF for Python.