T E L KO M NIK A , V ol . 17 No. 4,  A ug us t   20 1 9,  p p.2 0 76 ~ 2 0 86   IS S N:  1 69 3 - 6 93 0 accr ed ited   F irst  Gr ad e b y K em en r istekdikti,  Decr ee  No: 2 1/E/ K P T /20 18   DOI:   10.12928/TE LK OM N IK A .v 1 7 i 4 . 12780      20 76       Rec ei v ed   O c tob er  7 , 2 01 8 ;   Rev i s ed   F eb r ua r y  5 ,  20 1 9 A c c ep ted   M arc 3 , 2 01 9   A U T O - C DD:   a u t om a tic  clea nin g  dirt y   dat usin machi ne lear nin g t ec hn i qu es       Je sm ee n  M . Z. H.* 1 A b id  Ho ss en 2 J.  Ho ss en 3 ,  J.   E mers o n  R aja 4   Bh u v anesw ar i T h ang av el 5 , S S a ye ed 6 , T aw sif K . 7   1 ,3 ,4 ,5 ,7 Fa c u l ty   o E n g i n e e ri n g   a n d  T e c h n o l o g y M u l ti m e d i a  Un i v e rs i ty M e l a k a 7 5 4 5 0 M a l a y s i a   2 Dep a rt m e n o Co m p u t e r Sc i e n c e   a n d   E n g i n e e ri n g K h u l n a   Uni v e rs i ty  Ba n g l a d e s h In d i a   6 Fa c u l ty  o I n fo r m a ti o n  S c i e n c e   and   T e c h n o l o g y M u l ti m e d i a   Uni v e rs i ty M e l a k a ,  7 5 4 5 0 M a l a y s i a   *C o rre s p o n d i n g  a u th o r,   e - m a i l j e s m e e n .o n l i n e @gm a i l . c o m       Ab strac t     Cle a n i n g   th e   d i r ty   d a t a   h a s   b e c o m e   v e ry   c r i ti c a l   s i g n i fi c a n c e   fo r   m a n y   y e a rs e s p e c i a l l y   i n   m e d i c a l   s e c to rs T h i s   i s   th e   r e a s o n   b e h i n d   wid e n i n g   re s e a rc h   i n   th i s   s e c to r.   To   i n i ti a te   th e   r e s e a rc h a   c o m p a ri s o n   b e twe e n   c u rre n t l y   u s e d   fu n c t i o n s   o h a n d l i n g   m i s s i n g   v a l u e s   a n d   Au t o - C DD   i s   p re s e n t e d .     Th e   d e v e l o p e d   s y s te m   wil l   g u a ra n t e e   to   o v e rc o m e   p r o c e s s i n g   u n wa n te d   o u tc o m e s   i n   d a t a   A n a l y ti c a l   p ro c e s s s e c o n d i wil l   i m p ro v e   o v e r a l l   d a ta   p r o c e s s i n g O u r   m o ti v a ti o n   i s   to   c r e a te   a n   i n te l l i g e n to o l   th a t   wil l   a u t o m a ti c a l l y   p re d i c t h e   m i s s i n g   d a t a Sta rti n g   wit h   fe a tu re   s e l e c ti o n   u s i n g   Ran d o m   Fo re s G i n i   In d e x   v a l u e s T h e n   b y   u s i n g   th re e   M a c h i n e   L e a rn i n g   Pa r a d i g m   tr a i n e d   m o d e l   was   d e v e l o p e d   a n d   e v a l u a t e d   b y   two   d a ta s e t s   fr o m   UC (i .e Di a b e ti c s   a n d   Stu d e n Pe r fo rm a n c e ).  E v a l u a t e d   o u tc o m e s   o f   a c c u ra c y   p r o v e d   Ran d o m   Fo re s Cla s s i f i e a n d   L o g i s ti c   Reg re s s i o n   g i v e s   c o n s ta n a c c u ra c y   a a r o u n d   9 0 % Fi n a l l y ,     i c o n c l u d e s  t h a t h i s  p ro c e s s   wil l  h e l p   to  g e c l e a n  d a t a  f o r  f u rth e a n a l y ti c a l  p ro c e s s .       Key w ords c l a s s i f i c a t i o n d a ta  c l e a n i n g d i rty  d a t a fe a tu re  s e l e c ti o n g i n i   i n d e x r a n d o m  f o r e s t       Copy righ ©  2 0 1 9   Uni v e rsi t a s  Ahm a D a hl a n.  All  rig ht s  r e s e rve d .       1.   Int r o d u ctio n   Data   q ua l i t y   i s   g en er al l y   de s c r i be as   " th c ap a bi l i t y   of   da ta  to  s at i s f y   s tat e an d   i m pl i ed   ne ed s   whe us ed   un de r   s pe c i f i e c o nd i ti on s "   [1] .   D ata   ac c urac y ,   c o m pl ete n es s an c on s i s ten c y   ar m os po pu l ar  i ni t i at i v es   to  ad dres s   Data   qu a l i t y   [2 3] be s i de s   oth er  di m en s i on s   l i k A c c es s i b i l i t y ,   C on s i s te nt  r e pres en t ati on ,   ti m el i n e s s un de r s ta nd a bi l i t y ,   Re l e v an c y etc [ 2] Mo r eo v er,  d ata   q ua l i t y   i s   c om bi na ti o of   da ta  c on ten a nd   f or m W he r da ta  c on ten m us t   c on tai ac c urat i nf orm ati on   an d ata   f or m   es s en ti a l   b c ol l ec te a nd   v i s ua l i z ed   i an   ap proac h   tha t   c r ea tes   da t f un c ti on i n g.   C on te nt  an f orm   are  th s i g ni f i c an t   c on s i de r a ti o t r ed uc da ta   m i s ta k es as   the y   i l l um i na te  th t as k   of   r ep ai r i ng   di r t y   d ata   ne ed s   be y on s i m pl y   pro v i d i n g   c orr ec t d ata   Li k ewi s e,  w h i l de v e l o pi ng   s c he m to  en ha nc e   qu al i t y   of   da ta  i i s   es s en ti al   t c l as s i f y   the   prim ar y   r ea s on s   f or  c au s i ng   da t to   b d i r t y   [4 5] T he   c au s es   are  c a teg orie s   i nto   org an i z e d   an un i nt en t i o na l   err ors .   B as i c   s ou r c es   of   produc i ng   s y s tem ati c   err ors   i nc l u de   w h i l e   progr am m i ng the   w r on d ef i ni t i on   f or  d ata   t y p es r ul es   no de f i ne c orr ec tl y d ata   c o l l ec t i on 's   r ul es   v i ol ati on ,   ba dl y   de f i n ed   r u l es ,   an tr a i n ed   po orl y .   T he   s ou r c es   of   r an do m   err ors   c an   be   err ors   du e   to   k e y i n g,  un r e ad ab l e   s c r i pt,   da t tr a ns c r i pti o c om pl i c at i on s ,   ha r d war f ai l ure  or  c orr up ti o n,  an d   err ors   or  i nte nti o na l l y   m i s r ep r es en t i ng   de c l arati on s   on   th p orti on   of   us ers   s pe c i f y i n m aj or  da ta.   H u m an   r ol on   da ta  en tr y   us ua l l y   r es ul i a err or,  thi s   err or  c an   b t y p os m i s s i ng   t y p es l i t eral   v a l ue s ,   Het eroge ne o us   on to l og i es   ( i .e.   Di f f erent  n atu r of   da ta),   ou td ate d  v al u es  or V i o l at i o ns  of  i nte grit y  c on s tr a i nts   T he   s y s tem   be c om es   v er y   c om pl ex   on   i m pl em en ti ng   da ta  c l e an i ng   proc es s   w h i l e   proc es s i ng   da t f r om   he teroge n eo us   s ou r c es H o w e v er,  i gn or i ng   th pr oc es s   i n   da ta   an al y t i c s   m ay   c a us ec o no m i c   c os t s Res ul ts   ob ta i ne f r o m   t he   s urv e y   i 2 01 4 tha du to  d i r t y   da t a   aroun 13   m i l l i on   do l l ars   wer c os ts   an nu a l l y   i an   or ga n i z ati on   an d   arou nd   tr i l l i on   pe r   y e ar  was   c al c ul a ted   i U S   ec o no m y A no t he r   es ti m ati on   of   6.8   B i l l i on   do l l ars   to  1 .5   B i l l i on   d ol l ars   s pe nt  on   ba d   da t m an ag e m en i U S   P os tal   s erv i c e   [ 6] I m ed i c al   c a s e,   th es di r t y   d ata   h av ab i l i t y   to  k i l l   pa t i en ts   or  i nd uc da m ag to  he al t of   the   pa t i en whi c m a y   be   l on g - l as ti ng   i s s ue .   T hi s   ba d ata   no t   on l y   ef f ec ts   ec on om i c al   c os ts i t   al s m a y   c os hu m an   l i f e,  s uc as   i 1 99 9   an   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A UT O - CDD:  A ut om at i c  c l e an i ng  d i r ty  da ta  us i ng   ma c h i ne   l e arni ng ...  ( J es me en   M .  Z. H)   2077   i ns ti t ute   of   Me di c i ne   r ep ort ed   [ 7]   c a l c ul ati on s   t ha m i ni m u m   44 ,00 0   to   98 ,00 p ati e nts   h ad   to   l os e t he i r   l i v es   ev er y   y e ar f or m ed i c al   da t a e r r ors .   In  th c as of   Iot   A p pl i c ati on s m os of   the   d ata   are  e l ec tr on i c al l y   c ol l ec te d,  whi c m a y   ha v s eri ou s   d ata   qu a l i t y   probl em s Cl as s i c   da ta  qu al i t y   prob l em s   m ai nl y   c om f r o m   s of tw are  de f ec ts c us tom i s ed   err ors or  s y s tem   m i s c on f i gu r ati o n.  A uth o r s   i [8]   di s c us s ed   ab ou c l e an i ng   da ta  o bta i n ed   f r om   s en s ors Her oth er  m eth od   wi th   A RIM A   m eth od   w as   c om pa r ed   a nd   t he y   c on c l ud ed   th at  w i th  l o w e r   no i s r at i o,  b ett er  r es u l ts   wer ob t ai ne c om pa r ed   t hi g he r   n oi s e   r ati o.  T he   m ai ad v a nta ge   of   the i r   m eth od   i s   t ha i c an   w ork   w i t hu ge   da ta  i s tr ea m i ng   s c en ario Ho w e v er,  i f  th d ata  s et  i s  ba tc h d a ta  i wi l l  n ot  pe r f orm  as  ex pe c t ed.   In  [9] ,   the   prob l em   of   c l ea ni ng   i s   ov erc am us i ng   DC - RM  m od el where  i s up po r ts   be tte r   P r e - proc es s i ng   a nd   Data   Cl ea ni n g,  Dat Red u c ti on a nd   P r oj ec t i on   p ha s es If   the   da ta   s et  c on tai ns   m i s s i ng   v al u es the   f or m at  o f   m i s s i ng   v al ue s   w as   pre pa r ed   an i m pu ted In  c l ea n i ng   ph as p erf or m i ng   r em ov al   of   un want e a nd   u nd es i r e d ata   i s   r eq ui r e wi th  el i m i na ti o n   of  th e ro w s   w h i c h c on tai ns   nu l l  d ata   [ 10 ] .   E l i m i na ti n da ta  r e du n da n c y   wh i c us ua l l y   av ai l ab l e   i d i f f erent  da t as ets   on   s a m da tas ets T he s da t r ed un da nc y   c a c a us e   to  d ata b as s y s tem   de f ec ti on   an d   i nc r e as   the   un want ed   c os of   tr an s m i tti ng   da ta T he s de f ec ts   c an   be   us el es s   oc c up y i n s torage   s pa c e,   r ed uc i n da t r el i ab i l i t y l ea ds   to  hi gh er  d ata   i nc o ns i s ten c y an d es tr o y i ng   da ta.   He nc e,  di f f erent  r ed uc i ng   t ec hn i qu es   wer pro po s ed   f or  d ata   r ed un da nc y f or  ex am pl da ta  f i l tr ati on ,   da ta  r ed un da nc y   de t ec ti o n an d ata   c om pres s i on T he s tec hn i q ue s   m a y   be   ap pl i c ab l to   v ari ou s   d ata   s e ts Ho wev e r i m a y   a l s bri ng   ne g ati v i s s ue s s uc as   c om pres s i ng   d ata   an the d e c om pres s i ng   tho s da ta  m a y   l e ad   to  a dd i ti on al   c om pu tat i on a l   l oa d.   Henc e,  i i s   i m po r tan to  ba l an c the   pr oc es s   an t he   c os t.  A au t ho r   a l s i nd i c a tes   th at  af ter   da ta   c ol l ec ti on   proc es s   c l ea ns i ng   d ata   i s   c om pu l s or y   ac c ordi n to  pr ev i ou s   di f f erent  da t as ets     c an  be   ha n dl ed   [ 11 ]   Res ea r c G ap Us ua l l y   m ul t i pl m an ua l   s c r ub bi ng   p r oc es s   i s   ex ec ute to  ov e r c o m e   an d  s ol v e  th po or  da ta  i s s ue s . T hi s   of ten   i n v o l v es  m ore proc es s i n ti m e a nd  h u m an  r es ou r c es .   T hi s   r es ul ts   i s l o w i ng   do wn  an y   c om pa n y   op er ati o pe r f or m an c es   an l ea v e   l es s   ti m f or   an a l y s i ng   an d   op t i m i s i ng   p r og r am It  i nc r ea s es   c os f or  l ea ds   i nv ol v i ng   r e v e nu e   r ed uc ti on   an d   prof i m argi n.  T he   i s s ue   w i l l   b s o l v ed   i f   t he   c l e an i n g   ph as e   i s   au t om ati c T he   to ol s   a v ai l ab l e   i m ar k et,   are  thi r pa r t y   a pp l i c ati on Ho w e v er,  i f   th DA   proc es s   i s   i m pl em en b y   us i ng   progr am m i ng   l a ng u ag e   i i s   i m po r tan t m ak thi s   p r oc es s   as   f as an ac c urat as   po s s i b l e.   Her e,  pred i c ti v e m od el   wi l l   be   us ef ul  to   i m pu te  ac c urate m i s s i ng  da ta.   P r ob l em   S tat em en t.  In  Dat A na l y ti c s   ( DA )   proc es s i n g,  da t c l ea ni n i s   m os i m po r tan t   an es s en t i a l   s tep I na pp r op r i at da ta  m a y   l ea to  p oo r   an a l y s i s   an t hu s   y i e l d   un ac c ep ta bl c on c l us i o ns   [12 ] S om au tho r s   [13 - 1 6]  oc us e on   th prob l em   of   du pl i c at i de nti f i c ati on   an d   el i m i na t i on T he i r   r es ea r c h   f oc us ed   on   da t c l e an i ng   pa r ti al l y   an h en c r ec ei v ed   on l y   l i tt l e   att en ti o i n   the   r es ea r c h   c om m un i t y .   D i f f erent  i nf orm ati o s y s t em   r eq ui r ed   to   r e pa i r   da t us i ng   di f f erent  r ul es It  i s   f i r s r eq ui r ed   t ov erc om the   di r t y   d ata   d i m en s i on s   f r o m   the   s tr uc tured  da ta  f or  be tte r   D A   proc es s D at c l ea ni ng   i s   th proc es s   o f   ov erc om i ng   di r t y   d ata   di m en s i on s s uc as   i nc om pl ete n es s   ( m i s s i ng   v a l ue s ) du pl i c at i on i nc on s i s ten c y an i n ac c urac y .   Und er  the s r eq ui r em en ts r es ea r c he r s   de v e l op e to ol s   to  de te c an r ep ai r   D ata   Q u al i t y   i s s ue s   b y   s pe c i f y i n d i f f erent  r ul es   be t w e en   d ata an no r m al l y   d i f f erent  di m en s i on   i s s ue s   r eq ui r es   di f f erent  tec hn i qu es e.g . i m pu ti ng   m i s s i ng   v al u i t he   m ul ti - v i e an pa n oram i c     di s pa tc h i n [17] T he r i s   s c op f or  r es ea r c i ac hi e v i n be t ter  da t c l ea n i ng It  c a be   ac hi e v e b y   i n tr od uc i n au t om ati c   da ta  c l e an i ng   proc es s   w i t t he   he l of    Ma c hi ne   L ea r n i ng   ( ML ) S am pl i ng   tec h ni qu i s   al s o   i nte grate i nto   t he   proc e s s   c on s i de r i n g     the   s i z of   da ta B ec au s e   of   the   ML   ab i l i t y the   A uto - CDD  s y s t em   c an   l e arn  f r o m   the   da t a nd   predi c t   th m i s s i ng   c l as s   i ord er  to   p erf or m   A uto m ati c   Mi s s i n V a l ue   Im pu tat i on .   It   i s   al s r eq ui r e to   s el ec t   th s u i ta bl e   f ea tures   f or  the   s ui tab l M m od el s   au tom ati c al l y de pe nd i ng   on   the   f orm   of   the   da ta   s et  o bt ai n ed   f r om   v ario us   d om ai n.   T he s ab i l i ti es   of   da ta   c l e an i ng   proc es s   c an   e nh a nc t he   pe r f orm a nc of   D A b y   r ep l a c i ng   th c urr en t   m an ua l   da t c l e an i ng   wi t a i nte l l i g en on e.   In  t he   r ep ort   [1 8] ,   i t   h as   an al y s i s   of   d ata   i s s ue s   ob t ai n ed   b y   c om pa ni es   of   di f f erin s i z es   an d   op erati on a l   go al s   ac c ordi ng   to   b us i ne s s - to - b u s i ne s s   ( B 2 B )   i n du s tr i es   ( i .e.   S m al l   a nd   Me d i um   B us i ne s s   ( S M B ) e nte r pris b us i n es s es   an m ed i c o m pa ni es ) T he   f i na l   c al c u l at i o of  da ta  i s s ue s   i s   al m os s a m f or  three  c ate go r i es T he   pe r c en t ag es   are  3 8%,  2 9%  an 41   f or  S MB ,   e nte r pris e   a nd   m ed i c om pa ni es   r es pe c ti v e l y .   T he   r es u l ts   i nd i c ate t ha the   c au s es   of  Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N:  16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 4 A ug us t   20 19 :   20 76 - 20 86   2078   di r t y   d ata   i s   al w a y s   s am e.  I i s   c l ea r   tha th three  c at eg ori es   whi c c on t ai hi g h es pe r c en ta ge   of  di r t y   da ta  are:   a)   Mi s s i ng  v al ue s   b)   Inv al i v a l ue s   c)   Dupl i c ate d d ata   In  thi s   r es e arc h,  the   m ai ob j ec ti v i s   t o v erc om i s s ue s   of   i nc om pl ete   da t a,  d ue   to  m i s s i ng   da ta  i s   prod uc ed   b y   d ata   s e ts   ba s i c a l l y   m i s s i ng   v al ue s T he s t y p of   d ata   c on s i de r e c on c ea l ed   w h en   th am o un of   v al ue s   i d en t i f i ed   i n   s et,   bu the   v a l ue s   th em s el v es   are   un i de nt i f i ed an i i s   al s o   k no wn  to  be   c o nd e ns ed   when   t he r ar v al ue s   i s et  tha are   predi c te d.  T he  f ol l o w i ng  r es ea r c h q u es ti o ns   w ere  ad dr es s ed  to   be  m ore ex ac t:   a)   Ho w  to  trai n m od el  to  pred i c t i f  th e v al ue   i s  m i s s i ng   ?   b)   Ho w  to  r ep a i r  th e d i r t y   da t a   ?   c)   W h at  i s  th e b es t M ac h i n e L ea r ni ng   A l go r i t hm   f or bui l di ng  th e m od el   ?   T he   r es of   pa p er  i s   orga ni z ed   as   f ol l o w s :   S ec ti o 2   p r es en ts   th c om pa r i s on   be twee n   ex i s ti n f un c ti o i P y tho n   an d   de v e l o pe d   f un c ti on   ( A uto CDD) S ec ti on   d em on s tr ate s   a nd   ev a l u ate d   p er f or m an c of   A uto - C DD  s y s t em   to  m a k s ure  the   pre di c ti on   v al u e’ s   ac c urac y   i s   prec i s e.  T he n,  S ec t i on   3   ex pl ai ns   i d eta i l s   of   de v e l o pe S y s tem   Des i gn   c l ea r l y La s tl y ,     S ec ti on  5  c on c l ud es  t he  p a pe r  an d d i s c us s es  f utu r e p r os pe c ts .       2.  Co mp a r ison   A s   s tat ed   ea r l i er,  to  de v e l o the   s c r i pt  of   c l e an i ng   da t P y th on   La n gu a ge   c om pa r i s on   i s   s ho w i T ab l be t we en   ex i s t i ng   f un c t i on s   i P y tho l i brar y   an A u to - CDD In  th ta bl e   the   c o l um F un c ti on   c o nt ai ns   the   tas k   ti t l e   of   th m eth od   pres e nte d   i n   Cal l   f un c ti on   ex am pl e”  c ol um n.  Nex t,  c o l um Des c r i pti on   c o nta i ns   t he   de f i ni t i on   of   the   f un c ti o w r i tt en   i p y t ho n’ s   P an da s   of f i c i al   w eb s i te.   F i n al l y P r os   an c on s   are  w r i t ten   to  u nd ers tan the   go o d   an ba s i de   of  av a i l a bl e f un c ti o ns .       T ab l e 1 .   C om pa r i s on   o f  Me tho ds   us e f or Cle an i ng   Mi s s i ng  Dat   Fun c t ion   C a ll   Fun c t ion   e x a m p le   D e s c r ipt ion   P r o s   C o n s   D e let ing   R o w s       d a t a . d r o p n a ( inp lac e   =   Tr u e )   [ 1 9 ]   R e t u r n   o b jec t   w it h   lab e ls   o n   g iv e n   a x is   o m i t t e d   w h e r e   a lt e r n a t e ly   a n y   o r   a ll   o f   t h e   d a t a   a r e   mi s s ing   C o m p le t e   r e mov a o f   d a t a   w it h   mi s s ing   v a lue s   r e s u l t s   in  r o b u s t   a n d   h igh ly   a c c u r a t e   mod e   D e let ing   a   p a r t i c u lar   r o w   o r   a   c o lu m n   w it h   n o   s p e c i f i c   inf o r m a t ion   i s   b e t t e r   s inc e   it   d o e s   n o t   h a v e   a   h igh   w e igh t a g e   L o s s   o f   in f o r m a t ion   a n d   d a t a     W o r k s   p o o r ly   if     t h e   p e r c e n t a g e   o f   mi s s ing   v a lue s   i s   h igh   ( s a y   3 0 % ) ,   c o m p a r e d   t o     t h e   w h o le  d a t a s e t   R e p lac e   W i t h   M e a n   / M e d ian   / M o d e       d a t a [ ' a g e ' ] . r e p lac e   ( n p . N a N d a t a [ ' a g e ' ] . m e a n ( ) )   [ 2 0 ]   R e p lac e   v a lue s   g iv e n   in   ‘t o _ r e p lac e ’  w it h   ‘v a lue ’”   This   i s   a   b e t t e r   a p p r o a c h   w h e n   t h e   d a t a   s iz e   is   s mall     I t   c a n   p r e v e n t   d a t a   lo s s   w h ic h   r e s u lt s   in  r e m o v a o f   t h e   r o w s   a n d   c o lu m n s   I m p u t ing   t h e   a p p r o x im a t ion s   a d d   v a r ian c e   a n d   b ias     W o r k s   p o o r ly   c o m p a r e d   t o   o t h e r   m u lt iple - i mpu t a t ion s   m e t h o d s   A s s ign s   a   D is t in c t     C a t e g o r y     d a t a [ ' a g e ' ] . f il lna ( ' U ' )   [ 2 1 ]   Fill  N A / N a N   v a lue s   u s ing   t h e   s p e c i f ied   met h o d   Few e r   p o s s ibili t ie s   w it h   o n e   e x t r a   c a t e g o r y ,   r e s u lt ing   in   low   v a r ian c e   a f t e r   o n e   h o t   e n c o d ing     s inc e   it   i s   c a t e g o r i c a   N e g a t e s   t h e   lo s s   o f   d a t a   b y   a d d ing   a   u n iqu e   c a t e g o r y   A d d s   les s   v a r ian c e     A d d s   a n o t h e r   f e a t u r e   t o   t h e   m o d e l   w h il e   enc o d ing ,   w h ic h   m a y   r e s u lt   in   p o o r   p e r f o r m a n c e   P r e d ic t s   mi s s ing   v a lue   a u t o c d d ( d a t a )   P r e d ic t s   b y   s e lec t ing   o t h e r   f e a t u r e s   o f   m i s s ing   a t t r ibu t e s .       A s s ign ing   mi s s ing   v a lue s   d a t a   o t h e r   t h a n   d e let ing   t h e   r o w / c o lum n   i s   m o r e   e f f e c t iv e   f o r   b e t t e r   p e r f o r m a n c e   I t   c a n   h e lp   t o   p r e d i c t   n u m e r ic a l   a n d   n o n - n u m e r ic a l/ c a t e g o r ic a l   v a lue s .   ( C las s i f ic a t ion   u s e d   f o r   c a t e g o r ic a p r e d i c t ion   a n d   R e g r e s s ion   u s e d   f o r   n u m e r ic a l   p r e d ic t ion ) .   I t s   n o t   g u e s s ing   t h e   m i s s ing   v a lue s ,   i t s   r a t h e r   p r e d ic t ing   v a lue   u s ing   o t h e r   v a r iab les .           A s   p r e d i c t ion   d e p e n d s   o n   o t h e r   v a lue s ,   u n s t a b le   o u t c o m e   m a y   a r i s e   if   m o s t   o f     t h e   o t h e r   v a lue s   a r e   inc o m p le t e .   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A UT O - CDD:  A ut om at i c  c l e an i ng  d i r ty  da ta  us i ng   ma c h i ne   l e arni ng ...  ( J es me en   M .  Z. H)   2079   3.  S ys t em D es ign   T he   c en tr al   go a l   of   thi s   s tud y   i s   to  bu i l s y s tem   for  de r i v i n qu al i t y   da t s et  b y   de tec t i ng a na l y z i ng i de nti f y i ng   an pred i c ti n t he   m i s s i ng   v al u es T hi s   tas k   c an   be   i m pl em en ted   us i ng   di f f erent  Ma c hi ne   l ea r n i n pa r ad i g m   [4]   T hi s   s y s tem   w i l l   ab l to  pe r f or m   i nd ep e nd e ntl y   wi th ou t he   he l of   an y   pre - de v e l o pe d   s of tw are.  A s   the   s y s tem   i s   de v el op ed   u s i ng   p y t ho La n gu a ge T he   s y s t em   l i f c y c l i s   di v i de i nt t w s ta ge s i . e.  tr a i n i ng /te s t i ng   an d   predi c t i on . Det ai l s  of  th ph as ed  are  de s c r i be i n d eta i l s  i n t h i s  s ec ti o n.     3.1 . T r ainin g   P h as   T he   f i r s s tag e   i s   T r ai n i n P ha s e,   as   s ho wn  i n   F i gu r 1,   t he   s el ec t ed   c l as s i f i c a ti on   or  r eg r es s i on   m ac hi ne   l ea r n i n m od el   i s   tr a i ne us i ng   s el ec ted   da t s ets Ini ti a l l y ,   da ta  i s   r etri e v e d   f r o m   . c s v   f i l an de t ec th c ol um ne ed   to  b c l ea n ed Nex s te i s   F ea ture  S el ec t i on   s te p,  to  ob ta i n   the   i m po r tan f ea tur es   t o   tr ai wi t h.  A f ter  s el ec ti ng   th i m po r tan f ea t ures   i thi s   tr ai ni ng   ph as e,  m ac hi ne   l e arni ng   m od el   wi l l   be   prod uc ed   a nd   w i l l   be   s a v ed F i n al l y ,   a ev al ua t i on   i s   he l d t o m ak e s ure the  s tore d m od el  prod uc es  ac c urate  r es ul ts           F i gu r 1.  T r ai ni ng   ph as e       3.1 .1 Ret r iev ing  Data   T he   c l ea ni ng   proc es s   i s   m os tl y   proc es s ed   on   t he   s tor ed   da t as et;   s i nc t he   s y s te m   w i l l   be   r es po ns i bl f or  c l ea ni n g   di r t y   da ta  ( s uc as   m i s s i ng   da ta)  i i s   i m po r tan to  r etri ev da t to  proc es s A s   m en ti on e ea r l i er,  t de v e l o the   s y s te m   p y tho i s   us e d,  h en c P A N DA S w as   i m po r ted   w h i c i s   the   be s t   too l   f or  da t m un gi n g.  I i s   l i brar y   of   h i gh - l e v el   da ta  s tr uc turi ng   da tas et   an m an i pu l at i n g   too l s w h i c he l ps   to   m a k an al y z i ng   da t f as ter  an d   e as i er.    T he   da tas et  r etri e v e da t a   f r o m   i s   s tored  i c om m a   s ep ar ate v a l u es   ( .c s v )   f i l e.  F or  the   tas k   r ep orted  i th i s   pa p er,  thre s ets   of   da ta  s el ec te w hi c ha v m i s s i ng   v al ue s as   i wi l l   h el t v a l i d ate   the   s y s tem   wi l l   wor k   f or  c l ea ni ng   d ata .   T he   da ta   s et  i s   s el ec ted   ac c ordi n t   the   r eq u i r em en ts   of   the   s y s tem   i np ut.   In   t he   de v e l op ed   s y s tem   three   da tas ets   are  us ed Det ai l s   of  da ta  s ets  us e d a r pres e nte i n T ab l e 2 .       T ab l e 2 . D ata   S e ts   us ed   f or  E v al ua t i ng   De v e l op ed     #   D a t a   R e p o s i t o r y   D a t a   s e t   Fea t u r e s   C h a r a c t e r is t i c s   N u m b e r   o f   A t t r ibu t e s   D a t a   s e t   1     ( U C I )   [ 2 2 ]   D iab e t ic s   M i x e d   55   D a t a   s e t   2     ( U C I )   [ 2 3 ]   S t u d e n t   P e r f o r m a n c e   M i x e d   33       3.1 .2 F ea t u r e S ele ctio n  B as ed o n  R and o m F o r e st   In  th i s   s tag R an d om   F ores f ea ture  s e l ec ti on   m eth o i s   us ed T he   s t ep s   of   R an do m   F ores t a l go r i t hm  i nc l ud es   S tep  1:   E x tr ac t f ea ture s e ts  f r o m  da tas et  i nc l ud i ng  pe r s on al i z ed   an no n - pe r s on a l i z ed  f ea tures   Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N:  16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 4 A ug us t   20 19 :   20 76 - 20 86   2080   S tep  2:  T ak e M  s ub s et  s am pl es  a t rand om , w i t ho u r ep l ac em en t f r o m  ori gi na l  f ea t ure s ets   S tep  3:   B u i l d d ec i s i on  tree f or eac h s ub s et  s am pl es  an d c al c u l ate  G i n i  i nd ex  of  al l   f ea tures   S tep  4:  R an k  G i ni   i n de x  i a d es c en di n g o r d er.    S tep   5:  S e the   t hres ho l d s   v al u e,  an the f ea ture s   w i t hi gh   c on tr i bu t i o a r s el ec ted   as     the  r ep r es en ta ti v e   f ea t ures .   T he   c ol um ns   s el ec ted   to  tr ai t he   Ma c hi ne   L ea r n i n m od el   b y   f ea ture  i m po r tan c e,     the   v a l ue s  ar e p l ott ed   i n a   Cl us ter  B ar c ha r t,  as  s ho wn i n  Fig ure s   2   a nd   3 .       Data  s et  1  ( s tud en pe r f or m an c e)       F i gu r 2.  F e atu r i m po r tan c e (s tud en pe r f orm an c e)       Data  s et  2  ( Di ab eti c s  Dat a)       F i gu r 3.  F e atu r i m po r tan c e ( di ab et i c s )       3.1 .3 T r ainin g  a  Cl as s if ie r  M o d el   A   s et  of   f ea tures   f or  ea c m i s s i ng   v a l u e’ s   att r i bu t es   are  r etri e v ed   an t he th ol d   m od el   i s   r etrai ne to  g et  be tte r   ac c urac y   f or  pred i c ti ng   a no m al i es   of   da ta  us i ng   the   tr a i n ed   Ma c hi ne   L ea r n i ng   m od el F or  tr ai n i ng   the   m od el   t hre c om m on   Ma c hi ne   L ea r n i ng   tec h ni q ue s   are us ed ,  th e y   are Ra nd om  For es t, L i ne ar S V M,  an d  Li ne ar Re gres s i on .   a.  Ra n do m   f ores m od el   A c c ordi n to  th s y s tem 's   r eq u i r em en s up erv i s ed   l e arni n al go r i thm   c an   be   s el ec ted where   Ran do m   f ores A l go r i thm   i s   s ho w n   to   pro v i de   pre di c t i on   wi th   c on ta i ns   m ore  tha on Dec i s i o tr ee s an d   th es tr ee s   are  i nd ep e nd e nt  wi th   ea c o the r   [ 24 ] .   It  was   i m pl e m en ted   i di f f erent  areas   an pro v ed   to  gi v great  pred i c ti on   ac c urac y s uc as   Net w ork   F au l t     P r ed i c ti o   [ 25 ] .   S u pp os e   the r are  T   c l as s es   of   s am pl es   i s et  C,  t he n   i ts   G i ni   i nd ex   i s     de f i ne d  i n   ( 1 ) :     Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A UT O - CDD:  A ut om at i c  c l e an i ng  d i r ty  da ta  us i ng   ma c h i ne   l e arni ng ...  ( J es me en   M .  Z. H)   2081   gin i ( T ) = p i ( 1 p i ) n c i = 1     ( 1)     where   nc   i s   the   nu m be r   of   c l as s es   i s et  T   ( the   targe v ari ab l e)  an d   p i   r ef ers   r ati o   of   thi s   c l as s   i If   c on s i de r i ng   da t as et  s pl at ted   i nto   t w c l as s T an T wi th  am ou nt  of   da ta  N1  a nd   N2   r es pe c ti v el y , t he n t h e Gin i   i nd ex  f or T  i s  de f i ne i ( 2 ) .     G in i s p l i t ( T ) = N 1 N G in i ( T 1 ) + N 2 N G in i ( T 2 )     ( 2)     b.  S up p ort  v ec tor m ac hi ne   ( S V M)  m od el   A no t he r   s u pe r v i s ed   l ea r n i ng   a l g orit hm   i s   s el ec ted ,   w hi c h   i s   k no w n   to   b s tr on al g orit hm   us ed   f or  c l as s i f i c ati on   an r eg r es s i on   us ed   i di f f erent  d om ai n,   s uc as     Heal thc are   [ 26 ] i ntrus i on   de tec t i on   s y s t em   [27] l y m ph ob l as c l as s i f i c ati on   [ 2 8]   an dri v i ng   s i m ul ato r s   [29] It  a l s h el p s   to  de tec o utl i ers   us i n bu i l t - i f un c ti on Im pl em en t ati o of   Li n ea r   S V M,  'L i n ea r S V C'  op t i on   was  us ed  f or a bl e t o  p erf or m   m ul ti - c l as s  c l as s i f i c ati on .   T he   ( 3 )   us ed  f or  predi c t i ng   ne w   i n pu i S V b y   m ea ns   of   the   d ot   produc of   i np ut   ( )   wi th  ev er y   s up po r   v ec tor ( ):     f ( x )   =     +   s um (     ( , ) )          ( 3)     w he r   i s   ne w   i np ut,   an   and    v a l ue   of   ea c i np u i s   ob ta i ne f r om   tr ai ni ng   d at throu gh   the   S V a l g orit hm .   W he r e as   i Li ne ar  S V the   d ot  produc i s   k no wn  as   the   k ernel t he   v al ue   de f i ne s   c om pa r i s on   or  a   g ap   m ea s ure  b et w e en   ne da t an d   th s up po r t   v ec tors .   It  c an   b e     re - w r i t ten   i n f o r m  of   ( 4 )     K ( , )   =   s um (     )       ( 4)     c Lo g i s ti c   r eg r es s i o n   O ne   of   t he   m os c o m m o M al g orit hm   i s   Lo g i s ti c   Regres s i o ( L R) L i s   no t   a   r eg r es s i on   al go r i t hm   i i s   on e   of   th pro ba b i l i s ti c   c l as s i f i c ati o m od el .   W he r e,  t he   ML   c l as s i f i c ati on   t ec hn i qu es   wor k s   as   l ea r ni ng   m eth od ,   w h i c c on ta i ns   an   i ns tan c m ap pe wi th   on of   the   m an y   l ab e l s   a v a i l a bl e.  T he m ac hi ne   l e arns   an tr ai ns   i ts e l f   f r o m   the   d i f f erent   pa tte r ns   of   da t i n   s uc a   w a y   t ha t   i t   i s   ab l t r e pres en t   c orr ec tl y   wi t   the   m ap pe ori gi na l   di m en s i on   an s ug g es the   l ab el / ou tp ut  w i t ho u i n v o l v i n hu m an   ex pe r t.   T he  s i gm oi d f un c ti on  gr ap h  i s  pl ott e d u s i ng   ( 5 ) :               ( 5)     i m a k es   s ure  tha t   the   pro du c ed   o utc om i s   a l w a y s   i be t ween   0 1,  as   the   d en om i na tor  i s   greate r  t ha n  nu m erator b y   1,  as  s ho wn i ( 6 ).               ( 6)     3.2 P r edict ion  P h as e     T he   predi c t i on   ph as s h o wn  i F i gu r e   4 ,   c an   be   i n teg r ate i nt a n y   pre - proc es s i ng   s y s t em w h i c de tec ts   an i de n ti f i es   m i s s i ng   v a l u e.   O ur  s y s t em   f i r s r etri ev es   da t c o nta i ns     the  m i s s i ng   v al ue .  A f ter w ar d,  o ur s y s tem  ex tr ac ts  f ea ture, th en   pred i c t th e m i s s i ng  da ta  b y   us i n the  s tore d t r a i n ed   Ma c h i ne   Le arn i ng  Mo de l  a nd   prov i d e p r ed i c ted  m i s s i ng  v al u e.  F i na l l y , re pl ac the  N A v a l ue s   wi th  pred i c ted   v a l u es .     Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N:  16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 4 A ug us t   20 19 :   20 76 - 20 86   2082       F i gu r 4.  P r ed i c ti o ph as e       4.  P er f o r m ance  E v aluat io n   T he   i m po r tan c of   th pe r f orm an c ev a l ua t i o i s   to   i nv es t i ga te  tha t   h o w   ac c urate  a nd   ef f ec ti v i s   the   d ev el op e s y s t em w h i c i s   a bl e   to   d ete c m i s s i ng   v a l ue s ,   ba s e o s e v era l   m etri c s Di f f erent  t y pe   of   da ta  m a y   gi v un l i k l ev el   of   predi c ti o ac c urac y   i c l as s i f i c ati o m od el S d i f f erent  m od el s   are  us ed   a nd   p as s ed   s el e c ted   f ea tures   f r o m   three  da ta  s ets T he c r os s - v al i d ati on   i s   i m pl em en te f or  f urther  proof   of   the   ef f ec ti v e ne s s   of   de v el o pe c l as s i f i ers .   Mo r s pe c i f i c al l y s el ec t ed   d ata s et  i s   d i v i d ed   i nt tes an tr a i ni ng   s ets   ( D i a be ti c s   Da tas et  ob ta i ne d f r om  ‘ uc i ')     4.1.  C las sificatio n   A c cur a c y   T he   m eth od   us ed   f or  ev al u ati o i s   b y   r etri ev i ng   T P   ( T r ue   P os i ti v e),  T ( T r ue   Nega ti v e) F P   ( F al s e   Neg ati v e)  an d   F ( F al s N eg a ti v e)  v a l ue s .   W he r e,  T P   i s   tot a l   am ou n of   predi c t ed   c orr ec t/true  v al ue   as   ex p ec ted T as   tot al   am ou nt  of   pre di c te c orr ec t/tru v al ue   as   n ot   ex pe c ted ;   F P   i s   to tal   am ou nt  of   pred i c ted   i nc orr ec t/f al s v a l u as   ex p ec t ed ;   F as   tot a l   am ou nt   of   predi c te i nc orr ec t/f al s v a l ue   as   no ex pe c t ed F i na l l y ac c urac y   i s   c a l c ul ate b y   us i n g   f ol l o wi ng   i ( 7 ).       =  +   +  +  +      ( 7)     T hi s   ac c urac y   of   Ma c h i ne   l ea r ni ng   Mo d el s   de p en ds   o th d ata   s e s e l e c ted   to   tr ai n.   A s   di f f erent  t y p of   da ta   s ets   wi l l   pr ed i c t   di f f erentl y   an d   di f f erent  Le arni ng   m od el s   are  us e to   ge the   b es m od el   ac c ordi n t the   da ta  s e t.  Dat s ets   wer s el ec ted   a nd   t he   pre di c ted   ou tc om e   ac c urac i es   o di f f erent  m ac hi n l ea r n i n where   pres e n ted   i n   F i gu r e s   5 - 6   i n   f orm   of   graphs T hi s   ac c urac y   i s   t he   pe r c en t ag e   of   predi c t ed   m i s s i ng   v al ue s   f or  ea c att r i bu t e,  f or  ex a m pl e,  i graph   predi c t i ng   v a l ue s   i r os i g l i t a z o ne   c ol um ob tai ne f r om   CS V   f i l e.  T hree  wel l - k won  s up er v i s e l ea r n i n al go r i t hm s   are  us ed   as   m e nti on e e arli er  a nd   i e v al ua t i on   proc es s   fr om   the   three   tr ai ne m od el R an d om   F ores A l go r i thm   an d   L og i s t i c   Re gres s i on   g av s ta bl a c c urac y   ou tpu t   throug ho u i np utt i ng   d ata .   W he r ea s Li ne arS V s h o w s   un s tab l an c om pa r ati v el y   l o w er  ac c urac y  th a n o t he r  s e l ec te d a l go r i t hm   Cas e 1 Cl e an i ng   Dat as et1 - Di ab eti c s  Dat a:   T r ai ne R an d om   F ores A l g orit hm   ga v e   m ore  tha 90 ac c urac y as   s ho wn  i   F i gu r 5   ( a ) T r ai ne Li ne a r S V m od el   s ho w s   t be   an   un s ta bl m od el   w i t l o wer   ac c urac y   of   predi c t i ng   m i s s i ng   v al ue s   as   s h o w i F i gu r 5   ( b )   an L og i s ti c   Re gres s i on   tr ai n ed   a l go r i thm   prov e d t o  be  m ore tha n 8 5 % ac c urac y   as  s ho wn  i n F i gu r e 5   ( c ) .   Cas e 2 Cl e an i ng   Dat a s et  2 (St u de n t P erf or m an c e Da ta  s et):   Cl ea ni ng   th i s   da ta  s et,   Lo g i s ti c   Regres s i on   p erf or m s   i n   ac c urac y   of   grea t er  tha 9 0%  as   s ho w i F i gu r e   ( c )   an Rand om   F ores A l go r i thm   i s   c l os c om pe ti t or  i n   ter m s   of   ac c urac y   90 as   s ho wn  i n   F i gu r e   6   ( a) W he r ea s Li n ea r   S u p po r V ec tor   Ma c h i n a ga i n   gi v es   the   b ad   pe r f or m an c e o f  aroun d   80 % ac c urac y  as  s ho wn  i n F i gu r e 6  ( b ).   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A UT O - CDD:  A ut om at i c  c l e an i ng  d i r ty  da ta  us i ng   ma c h i ne   l e arni ng ...  ( J es me en   M .  Z. H)   2083     ( a)       ( b )       ( c )     F i gu r 5.  T he  ac c urac y   ob t ai n ed  f or Dat as et  1   ( a)   ac c urac y  p erc en ta ge   v s  da t v ol um e f or  tr ai ne d ran do m  f ores t   ( b )   ac c urac y   pe r c en t ag v s  d ata  v o l um e f or tr ai ne l i ne ar s v m     ( c )   ac c urac y  p erc en ta ge   v s  da ta  v ol um e f or tr ai ne d l og i s ti c  r eg r es s i o n     Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N:  16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 4 A ug us t   20 19 :   20 76 - 20 86   2084     ( a )       ( b)       ( c )     F i gu r 6.  T he  ac c urac y   of   predi c ti on  f or dat as et  2  ( s tud en t p erf or m an c e)   ( a )   ac c urac y   pe r c en ta ge   v s  da ta  v o l um e f or tr ai ne d  r an d om   f ores t   ( b)   ac c urac y  p erc en ta ge   v s   da ta  v o l um f or tr ai ne l i ne ar s v m   ( c )   ac c urac y  pe r c en tag e v s   da ta   v o l um e f or tr ai ne l og i s ti c  r eg r es s i on       F or  c l ea ni n p urpos an predi c t i ng   m i s s i ng   da t f or  ea c a ttri bu te i t’ s   pro v e tha tr ai ne R an d om   F ores Mo de l   a nd   Lo g i s ti c   R eg r es s i on   M od e l   ac ts   b ett er  pr ed i c t i v m od el W h ereas tr a i n ed   Li ne ar S V s h o w s   to   b un r e l i a b l f or  t hi s   t y p e   of   pred i c ti o c au s e   as   i gi v es   l o w er  a nd   u ns tab l e   ac c urac y   thro ug h ou tr a i ni n m od el   b y   i np u tti ng   ne w   d ata   i nt   the  m od el . T hi s  ac c urac y   i s  f urther v erif i e d b y   us i ng  c r os s - v al i da t i o n t ec h ni q ue .     4.2.  C r o ss - V ali d atio n   Cr os s - v al i da t i on  te c h ni qu e   i s  i m po r tan to  i m pl em en t to  c on f i r m  an d e x am i ne   the   tr ai ne m od el   c an   be   r el i ab l wi th ou i s s ue s   ( s uc as   ov erf i t ti ng ) H ere,  th da t s et  i s   di v i de i nt   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A UT O - CDD:  A ut om at i c  c l e an i ng  d i r ty  da ta  us i ng   ma c h i ne   l e arni ng ...  ( J es me en   M .  Z. H)   2085   k   pa r ts   as   s ho w i F i g ure  ( w he r e k = 5).  T hi s   t y pe   of   v al i d ati on   i s   k n o w as   k - f ol   c r os s - v al i d ati on  us ed  t o v al i da t e a nd  d ete r m i ne  th e t r a i ne d c l as s i f i ers .           F i gu r 7.  D ata  s p l i t ti n g i n 5 - f ol d c r os s  v al i d ati on       A s   th da ta   s et   i s   di v i de i nto   5 - f ol ds t ota l   of   1/5   of   c om pl ete   d ata   us e f or  t es ti ng   an tes da t us ed   f or  tr a i ni ng T hi s   tr ai ni n a nd   t es ti n ar r ep e ate t i m es an tot al   of   ea c t es ac c urac y   i s   c a l c ul at ed   to  g et  Cr os s - v a l i da t i on   s c ore.   T he   r etri ev ed   ou tc om es   are  en t ered  i nt tab l ( pres e nte d   i n   T ab l 3 )   wi th  the   c l as s i f i c ati on   ac c urac y   o bta i ne i pr ev i ou s   s tag f or  on c ol um c on tai n i ng   m i s s i ng   v a l ue ( s ) T he   ou tc om es   prov ed   t ha th m od el   ac c urac y   a nd     c r os s - v al i d ati on   ac c urac y   i s   al m os c l os e   to   ea c h   ot he r T he   tr a i ne m od el   i s   no t   ov er - f i tte an d   c an  be  r e l i ab l e.       T ab l e 3 . Cr os s - V al i da t i o O utc om es   f or  Data   S e t 2  ( S tud en P erf orm an c e)  f or F ai l ure   #   o f   I n s t a n c e   M o d e A c c u r a c y   C r o s s - V a l ida t ion   S c o r e   275   8 8 . 0 0 %   8 6 . 1 8 2 %   300   9 2 . 6 6 %   8 8 . 3 3 3 %   325   9 0 . 1 5   8 7 . 3 8 5 %   350   9 0 . 8 5   8 7 . 1 4 3 %       5.  Co n clus ion   A l m os al l   da t as et  a v a i l a bl e   i r ep os i t orie s   m a y   c on t ai att r i b ute s   w i t m i s s i ng   da ta  an d   i i s   v er y   i m po r tan t h a nd l th es t y pe   of   da ta  t ov erc om an y   p erf or m a nc i s s ue s A s   di f f erent  da ta  s et  h av d i f f e r en f or m ats   of   da ta  i i s   qu i te  c ha l l en g i n tas k   to  de al   wi th,   a nd   i i s   i m po r tan to  de a l   i n tel l i ge n t l y   b y   us i n r ob us m od el s In  thi s   pa pe r c om pa r i s on   i s   s tat ed   wi th   pros   an d   c on s   to   w i l l   he l the   d ev el op er  whi l s el ec t i ng   th b es m eth od   f or  c l e an i ng   m i s s i ng   v a l ue s Ho w e v er,   i t s   n ot  es s en ti a l   t us e   o ne   m eth od   f or  r ep a i r i ng   da ta N ex t,  s y s tem   i s   de s i g ne d   a nd   pres en t ed   b y   us i n wel l - k no wn  Ma c hi n L ea r n i n a l g orit hm s   f or  predi c ti ng   m i s s i ng   da t a uto m ati c al l y T hree  c l as s i f i c ati on   al go r i thm s   ( i .e.   S V M,  Ra nd om   F ores t,  an Lo g i s ti c   Re gres s i on )   are  u s ed   to   tes t he   proc es s T he   e v a l u ati on   m eth od s   prov e t ha t w tr ai ne m od el s   are  r e l i ab l on   t he   da ta   s et  s el ec ted T he   k - f ol c r os s - v al i d ati o m eth od   c on f i r m s   tha the   tr ai ne m od el   i s   no ov er - f i tte an c an   pe r f or m   w el l   wi th  n e w   da tas e t.   F or  f utu r w ork c om bi na ti o o f   m ore  tha n   on m eth od   n ee ds   t be   i m pl em en ted   wi th   ad di t i o na l   r ul es   f or  da ta  r ep a i r It  i s   al s i m po r tan to  i nd i c ate   an r ep ai r   i n ap pr op r i ate   o r   w r on da ta Int eg r i t y   c on s tr a i nts   ( s uc as   F un c t i on al   de pe nd e nc i es )   c an   c om bi ne   wi th   M a c hi ne   L ea r n i ng   A l g orit hm s   t o c l as s i f y  th e t y pe  of  err or to c a ptu r e.         Ref er en ce s   [1 ]   Si d i   e t   a l . Da ta   Q u a l i ty  :   Su rv e y   o Dat a   Q u a l i ty   Di m e n s i o n s ,   i n   2 0 1 2   I n te rn a ti o n a l   C o n fe re n c e   o n  I n f o rm a ti o n  Re tri e v a l  &  Kn o w l e d g e  M a n a g e m e n (CAM P) ,  2 0 1 2 ;  3 0 0 3 0 4 .   [2 ]   J u d d o o .   O v e rv i e o d a t a   q u a l i ty   c h a l l e n g e s   i n   th e   c o n t e x o Bi g   Dat a i n   2 0 1 5   In t e rn a ti o n a l   Con fe re n c e   o n  Co m p u t i n g Co m m u n i c a ti o n  a n d  Se c u ri ty  (I CC CS) 2 0 1 5 ;   [3 ]   T a l e b HT   El   Ka s s a b i M Se rh a n i Ds s o u l i B o u h a d d i o u i .   Bi g   D a ta   Q u a l i t y  :  Q u a l i t y   Dim e n s i o n s   E v a l u a ti o n .   i n   2 0 1 6   In tl   IEEE  Con fe r e n c e s   o n   Ubi q u i t o u s   In te l l i g e n c e   Co m p u t i n g ,   Ad v a n c e d   a n d   T ru s t e d   Co m p u ti n g Sc a l a b l e   Com p u ti n g   a n d   Com m u n i c a ti o n s ,   Clo u d   a n d   Bi g   D a t a   Com p u t i n g ,  I n te rn e o Pe o p l e ,  a n d  S m a rt  W o rl d  Co n g r e s s 2 0 1 6 7 5 9 765.   Evaluation Warning : The document was created with Spire.PDF for Python.