T
E
L
KO
M
NIK
A
, V
ol
.
17
,
No.
4,
A
ug
us
t
20
1
9,
p
p.2
0
76
~
2
0
86
IS
S
N:
1
69
3
-
6
93
0
,
accr
ed
ited
F
irst
Gr
ad
e b
y K
em
en
r
istekdikti,
Decr
ee
No: 2
1/E/
K
P
T
/20
18
DOI:
10.12928/TE
LK
OM
N
IK
A
.v
1
7
i
4
.
12780
◼
20
76
Rec
ei
v
ed
O
c
tob
er
7
, 2
01
8
;
Rev
i
s
ed
F
eb
r
ua
r
y
5
,
20
1
9
;
A
c
c
ep
ted
M
arc
h
3
, 2
01
9
A
U
T
O
-
C
DD:
a
u
t
om
a
tic
clea
nin
g
dirt
y
dat
a
usin
g
machi
ne lear
nin
g t
ec
hn
i
qu
es
Je
sm
ee
n
M
. Z. H.*
1
,
A
b
id
Ho
ss
en
2
,
J.
Ho
ss
en
3
,
J.
E
mers
o
n
R
aja
4
,
Bh
u
v
anesw
ar
i T
h
ang
av
el
5
, S
.
S
a
ye
ed
6
, T
aw
sif K
.
7
1
,3
,4
,5
,7
Fa
c
u
l
ty
o
f
E
n
g
i
n
e
e
ri
n
g
a
n
d
T
e
c
h
n
o
l
o
g
y
,
M
u
l
ti
m
e
d
i
a
Un
i
v
e
rs
i
ty
,
M
e
l
a
k
a
,
7
5
4
5
0
,
M
a
l
a
y
s
i
a
2
Dep
a
rt
m
e
n
t
o
f
Co
m
p
u
t
e
r Sc
i
e
n
c
e
a
n
d
E
n
g
i
n
e
e
ri
n
g
,
K
h
u
l
n
a
Uni
v
e
rs
i
ty
Ba
n
g
l
a
d
e
s
h
,
In
d
i
a
6
Fa
c
u
l
ty
o
f
I
n
fo
r
m
a
ti
o
n
S
c
i
e
n
c
e
and
T
e
c
h
n
o
l
o
g
y
,
M
u
l
ti
m
e
d
i
a
Uni
v
e
rs
i
ty
,
M
e
l
a
k
a
,
7
5
4
5
0
,
M
a
l
a
y
s
i
a
*C
o
rre
s
p
o
n
d
i
n
g
a
u
th
o
r,
e
-
m
a
i
l
:
j
e
s
m
e
e
n
.o
n
l
i
n
e
@gm
a
i
l
.
c
o
m
Ab
strac
t
Cle
a
n
i
n
g
th
e
d
i
r
ty
d
a
t
a
h
a
s
b
e
c
o
m
e
v
e
ry
c
r
i
ti
c
a
l
s
i
g
n
i
fi
c
a
n
c
e
fo
r
m
a
n
y
y
e
a
rs
,
e
s
p
e
c
i
a
l
l
y
i
n
m
e
d
i
c
a
l
s
e
c
to
rs
.
T
h
i
s
i
s
th
e
r
e
a
s
o
n
b
e
h
i
n
d
wid
e
n
i
n
g
re
s
e
a
rc
h
i
n
th
i
s
s
e
c
to
r.
To
i
n
i
ti
a
te
th
e
r
e
s
e
a
rc
h
,
a
c
o
m
p
a
ri
s
o
n
b
e
twe
e
n
c
u
rre
n
t
l
y
u
s
e
d
fu
n
c
t
i
o
n
s
o
f
h
a
n
d
l
i
n
g
m
i
s
s
i
n
g
v
a
l
u
e
s
a
n
d
Au
t
o
-
C
DD
i
s
p
re
s
e
n
t
e
d
.
Th
e
d
e
v
e
l
o
p
e
d
s
y
s
te
m
wil
l
g
u
a
ra
n
t
e
e
to
o
v
e
rc
o
m
e
p
r
o
c
e
s
s
i
n
g
u
n
wa
n
te
d
o
u
tc
o
m
e
s
i
n
d
a
t
a
A
n
a
l
y
ti
c
a
l
p
ro
c
e
s
s
;
s
e
c
o
n
d
,
i
t
wil
l
i
m
p
ro
v
e
o
v
e
r
a
l
l
d
a
ta
p
r
o
c
e
s
s
i
n
g
.
O
u
r
m
o
ti
v
a
ti
o
n
i
s
to
c
r
e
a
te
a
n
i
n
te
l
l
i
g
e
n
t
to
o
l
th
a
t
wil
l
a
u
t
o
m
a
ti
c
a
l
l
y
p
re
d
i
c
t
t
h
e
m
i
s
s
i
n
g
d
a
t
a
.
Sta
rti
n
g
wit
h
fe
a
tu
re
s
e
l
e
c
ti
o
n
u
s
i
n
g
Ran
d
o
m
Fo
re
s
t
G
i
n
i
In
d
e
x
v
a
l
u
e
s
.
T
h
e
n
b
y
u
s
i
n
g
th
re
e
M
a
c
h
i
n
e
L
e
a
rn
i
n
g
Pa
r
a
d
i
g
m
tr
a
i
n
e
d
m
o
d
e
l
was
d
e
v
e
l
o
p
e
d
a
n
d
e
v
a
l
u
a
t
e
d
b
y
two
d
a
ta
s
e
t
s
fr
o
m
UC
I
(i
.e
.
Di
a
b
e
ti
c
s
a
n
d
Stu
d
e
n
t
Pe
r
fo
rm
a
n
c
e
).
E
v
a
l
u
a
t
e
d
o
u
tc
o
m
e
s
o
f
a
c
c
u
ra
c
y
p
r
o
v
e
d
Ran
d
o
m
Fo
re
s
t
Cla
s
s
i
f
i
e
r
a
n
d
L
o
g
i
s
ti
c
Reg
re
s
s
i
o
n
g
i
v
e
s
c
o
n
s
ta
n
t
a
c
c
u
ra
c
y
a
t
a
r
o
u
n
d
9
0
%
.
Fi
n
a
l
l
y
,
i
t
c
o
n
c
l
u
d
e
s
t
h
a
t
t
h
i
s
p
ro
c
e
s
s
wil
l
h
e
l
p
to
g
e
t
c
l
e
a
n
d
a
t
a
f
o
r
f
u
rth
e
r
a
n
a
l
y
ti
c
a
l
p
ro
c
e
s
s
.
Key
w
ords
:
c
l
a
s
s
i
f
i
c
a
t
i
o
n
,
d
a
ta
c
l
e
a
n
i
n
g
,
d
i
rty
d
a
t
a
,
fe
a
tu
re
s
e
l
e
c
ti
o
n
,
g
i
n
i
i
n
d
e
x
,
r
a
n
d
o
m
f
o
r
e
s
t
Copy
righ
t
©
2
0
1
9
Uni
v
e
rsi
t
a
s
Ahm
a
d
D
a
hl
a
n.
All
rig
ht
s
r
e
s
e
rve
d
.
1.
Int
r
o
d
u
ctio
n
Data
q
ua
l
i
t
y
i
s
g
en
er
al
l
y
de
s
c
r
i
be
d
as
"
th
e
c
ap
a
bi
l
i
t
y
of
da
ta
to
s
at
i
s
f
y
s
tat
e
d
an
d
i
m
pl
i
ed
ne
ed
s
whe
n
us
ed
un
de
r
s
pe
c
i
f
i
e
d
c
o
nd
i
ti
on
s
"
[1]
.
D
ata
ac
c
urac
y
,
c
o
m
pl
ete
n
es
s
,
an
d
c
on
s
i
s
ten
c
y
ar
e
m
os
t
po
pu
l
ar
i
ni
t
i
at
i
v
es
to
ad
dres
s
Data
qu
a
l
i
t
y
[2
,
3]
,
be
s
i
de
s
oth
er
di
m
en
s
i
on
s
l
i
k
e
A
c
c
es
s
i
b
i
l
i
t
y
,
C
on
s
i
s
te
nt
r
e
pres
en
t
ati
on
,
ti
m
el
i
n
e
s
s
,
un
de
r
s
ta
nd
a
bi
l
i
t
y
,
Re
l
e
v
an
c
y
,
etc
.
[
2]
.
Mo
r
eo
v
er,
d
ata
q
ua
l
i
t
y
i
s
a
c
om
bi
na
ti
o
n
of
da
ta
c
on
ten
t
a
nd
f
or
m
.
W
he
r
e
da
ta
c
on
ten
t
m
us
t
c
on
tai
n
ac
c
urat
e
i
nf
orm
ati
on
an
d
d
ata
f
or
m
es
s
en
ti
a
l
b
e
c
ol
l
ec
te
d
a
nd
v
i
s
ua
l
i
z
ed
i
n
an
ap
proac
h
tha
t
c
r
ea
tes
da
t
a
f
un
c
ti
on
i
n
g.
C
on
te
nt
an
d
f
orm
are
th
e
s
i
g
ni
f
i
c
an
t
c
on
s
i
de
r
a
ti
o
n
t
o
r
ed
uc
e
da
ta
m
i
s
ta
k
es
,
as
the
y
i
l
l
um
i
na
te
th
e
t
as
k
of
r
ep
ai
r
i
ng
di
r
t
y
d
ata
ne
ed
s
be
y
on
d
s
i
m
pl
y
pro
v
i
d
i
n
g
c
orr
ec
t d
ata
.
Li
k
ewi
s
e,
w
h
i
l
e
de
v
e
l
o
pi
ng
a
s
c
he
m
e
to
en
ha
nc
e
qu
al
i
t
y
of
da
ta
i
t
i
s
es
s
en
ti
al
t
o
c
l
as
s
i
f
y
the
prim
ar
y
r
ea
s
on
s
f
or
c
au
s
i
ng
da
t
a
to
b
e
d
i
r
t
y
[4
,
5]
.
T
he
c
au
s
es
are
c
a
teg
orie
s
i
nto
org
an
i
z
e
d
an
d
un
i
nt
en
t
i
o
na
l
err
ors
.
B
as
i
c
s
ou
r
c
es
of
produc
i
ng
s
y
s
tem
ati
c
err
ors
i
nc
l
u
de
w
h
i
l
e
progr
am
m
i
ng
,
the
w
r
on
g
d
ef
i
ni
t
i
on
f
or
d
ata
t
y
p
es
,
r
ul
es
no
t
de
f
i
ne
d
c
orr
ec
tl
y
,
d
ata
c
o
l
l
ec
t
i
on
's
r
ul
es
v
i
ol
ati
on
,
ba
dl
y
de
f
i
n
ed
r
u
l
es
,
an
d
tr
a
i
n
ed
po
orl
y
.
T
he
s
ou
r
c
es
of
r
an
do
m
err
ors
c
an
be
err
ors
du
e
to
k
e
y
i
n
g,
un
r
e
ad
ab
l
e
s
c
r
i
pt,
da
t
a
tr
a
ns
c
r
i
pti
o
n
c
om
pl
i
c
at
i
on
s
,
ha
r
d
war
e
f
ai
l
ure
or
c
orr
up
ti
o
n,
an
d
err
ors
or
i
nte
nti
o
na
l
l
y
m
i
s
r
ep
r
es
en
t
i
ng
de
c
l
arati
on
s
on
th
e
p
orti
on
of
us
ers
s
pe
c
i
f
y
i
n
g
m
aj
or
da
ta.
H
u
m
an
r
ol
e
on
da
ta
en
tr
y
us
ua
l
l
y
r
es
ul
t
i
n
a
n
err
or,
thi
s
err
or
c
an
b
e
t
y
p
os
,
m
i
s
s
i
ng
t
y
p
es
,
l
i
t
eral
v
a
l
ue
s
,
Het
eroge
ne
o
us
on
to
l
og
i
es
(
i
.e.
Di
f
f
erent
n
atu
r
e
of
da
ta),
ou
td
ate
d
v
al
u
es
or V
i
o
l
at
i
o
ns
of
i
nte
grit
y
c
on
s
tr
a
i
nts
.
T
he
s
y
s
tem
be
c
om
es
v
er
y
c
om
pl
ex
on
i
m
pl
em
en
ti
ng
da
ta
c
l
e
an
i
ng
proc
es
s
w
h
i
l
e
proc
es
s
i
ng
da
t
a
f
r
om
he
teroge
n
eo
us
s
ou
r
c
es
.
H
o
w
e
v
er,
i
gn
or
i
ng
th
e
pr
oc
es
s
i
n
da
ta
an
al
y
t
i
c
s
m
ay
c
a
us
e
ec
o
no
m
i
c
c
os
t
s
.
Res
ul
ts
ob
ta
i
ne
d
f
r
o
m
t
he
s
urv
e
y
i
n
2
01
4
,
tha
t
du
e
to
d
i
r
t
y
da
t
a
aroun
d
13
m
i
l
l
i
on
do
l
l
ars
wer
e
c
os
ts
an
nu
a
l
l
y
i
n
an
or
ga
n
i
z
ati
on
an
d
arou
nd
3
tr
i
l
l
i
on
pe
r
y
e
ar
was
c
al
c
ul
a
ted
i
n
U
S
ec
o
no
m
y
.
A
no
t
he
r
es
ti
m
ati
on
of
6.8
B
i
l
l
i
on
do
l
l
ars
to
1
.5
B
i
l
l
i
on
d
ol
l
ars
s
pe
nt
on
ba
d
da
t
a
m
an
ag
e
m
en
t
i
n
U
S
P
os
tal
s
erv
i
c
e
[
6]
.
I
n
m
ed
i
c
al
c
a
s
e,
th
es
e
di
r
t
y
d
ata
h
av
e
ab
i
l
i
t
y
to
k
i
l
l
pa
t
i
en
ts
or
i
nd
uc
e
da
m
ag
e
to
he
al
t
h
of
the
pa
t
i
en
t
whi
c
h
m
a
y
be
l
on
g
-
l
as
ti
ng
i
s
s
ue
.
T
hi
s
ba
d
d
ata
no
t
on
l
y
ef
f
ec
ts
ec
on
om
i
c
al
c
os
ts
,
i
t
al
s
o
m
a
y
c
os
t
hu
m
an
l
i
f
e,
s
uc
h
as
i
n
1
99
9
an
Evaluation Warning : The document was created with Spire.PDF for Python.
T
E
L
KO
M
NIK
A
IS
S
N: 1
69
3
-
6
93
0
◼
A
UT
O
-
CDD:
A
ut
om
at
i
c
c
l
e
an
i
ng
d
i
r
ty
da
ta
us
i
ng
ma
c
h
i
ne
l
e
arni
ng
...
(
J
es
me
en
M
.
Z. H)
2077
i
ns
ti
t
ute
of
Me
di
c
i
ne
r
ep
ort
ed
[
7]
c
a
l
c
ul
ati
on
s
t
ha
t
m
i
ni
m
u
m
44
,00
0
to
98
,00
0
p
ati
e
nts
h
ad
to
l
os
e t
he
i
r
l
i
v
es
ev
er
y
y
e
ar f
or m
ed
i
c
al
da
t
a e
r
r
ors
.
In
th
e
c
as
e
of
Iot
A
p
pl
i
c
ati
on
s
,
m
os
t
of
the
d
ata
are
e
l
ec
tr
on
i
c
al
l
y
c
ol
l
ec
te
d,
whi
c
h
m
a
y
ha
v
e
s
eri
ou
s
d
ata
qu
a
l
i
t
y
probl
em
s
.
Cl
as
s
i
c
da
ta
qu
al
i
t
y
prob
l
em
s
m
ai
nl
y
c
om
e
f
r
o
m
s
of
tw
are
de
f
ec
ts
,
c
us
tom
i
s
ed
err
ors
,
or
s
y
s
tem
m
i
s
c
on
f
i
gu
r
ati
o
n.
A
uth
o
r
s
i
n
[8]
di
s
c
us
s
ed
ab
ou
t
c
l
e
an
i
ng
da
ta
o
bta
i
n
ed
f
r
om
s
en
s
ors
.
Her
e
oth
er
m
eth
od
wi
th
A
RIM
A
m
eth
od
w
as
c
om
pa
r
ed
a
nd
t
he
y
c
on
c
l
ud
ed
th
at
w
i
th
a
l
o
w
e
r
no
i
s
e
r
at
i
o,
b
ett
er
r
es
u
l
ts
wer
e
ob
t
ai
ne
d
c
om
pa
r
ed
t
o
hi
g
he
r
n
oi
s
e
r
ati
o.
T
he
m
ai
n
ad
v
a
nta
ge
of
the
i
r
m
eth
od
i
s
t
ha
t
i
t
c
an
w
ork
w
i
t
h
hu
ge
da
ta
i
n
a
s
tr
ea
m
i
ng
s
c
en
ario
.
Ho
w
e
v
er,
i
f
th
e
d
ata
s
et
i
s
ba
tc
h d
a
ta
i
t
wi
l
l
n
ot
pe
r
f
orm
as
ex
pe
c
t
ed.
In
[9]
,
the
prob
l
em
of
c
l
ea
ni
ng
i
s
ov
erc
am
e
us
i
ng
DC
-
RM
m
od
el
,
where
i
t
s
up
po
r
ts
be
tte
r
P
r
e
-
proc
es
s
i
ng
a
nd
Data
Cl
ea
ni
n
g,
Dat
a
Red
u
c
ti
on
,
a
nd
P
r
oj
ec
t
i
on
p
ha
s
es
.
If
the
da
ta
s
et
c
on
tai
ns
m
i
s
s
i
ng
v
al
u
es
,
the
f
or
m
at
o
f
m
i
s
s
i
ng
v
al
ue
s
w
as
pre
pa
r
ed
an
d
i
m
pu
ted
.
In
c
l
ea
n
i
ng
ph
as
e
p
erf
or
m
i
ng
r
em
ov
al
of
un
want
e
d
a
nd
u
nd
es
i
r
e
d
d
ata
i
s
r
eq
ui
r
e
d
wi
th
el
i
m
i
na
ti
o
n
of
th
e ro
w
s
w
h
i
c
h c
on
tai
ns
nu
l
l
d
ata
[
10
]
.
E
l
i
m
i
na
ti
n
g
da
ta
r
e
du
n
da
n
c
y
wh
i
c
h
us
ua
l
l
y
av
ai
l
ab
l
e
i
n
d
i
f
f
erent
da
t
as
ets
on
s
a
m
e
da
tas
ets
.
T
he
s
e
da
t
a
r
ed
un
da
nc
y
c
a
n
c
a
us
e
to
d
ata
b
as
e
s
y
s
tem
de
f
ec
ti
on
an
d
i
nc
r
e
as
e
the
un
want
ed
c
os
t
of
tr
an
s
m
i
tti
ng
da
ta
.
T
he
s
e
de
f
ec
ts
c
an
be
us
el
es
s
oc
c
up
y
i
n
g
s
torage
s
pa
c
e,
r
ed
uc
i
n
g
da
t
a
r
el
i
ab
i
l
i
t
y
,
l
ea
ds
to
hi
gh
er
d
ata
i
nc
o
ns
i
s
ten
c
y
,
an
d
d
es
tr
o
y
i
ng
da
ta.
He
nc
e,
di
f
f
erent
r
ed
uc
i
ng
t
ec
hn
i
qu
es
wer
e
pro
po
s
ed
f
or
d
ata
r
ed
un
da
nc
y
,
f
or
ex
am
pl
e
da
ta
f
i
l
tr
ati
on
,
da
ta
r
ed
un
da
nc
y
de
t
ec
ti
o
n
,
an
d
d
ata
c
om
pres
s
i
on
.
T
he
s
e
tec
hn
i
q
ue
s
m
a
y
be
ap
pl
i
c
ab
l
e
to
v
ari
ou
s
d
ata
s
e
ts
.
Ho
wev
e
r
,
i
t
m
a
y
a
l
s
o
bri
ng
ne
g
ati
v
e
i
s
s
ue
s
,
s
uc
h
as
c
om
pres
s
i
ng
d
ata
an
d
the
n
d
e
c
om
pres
s
i
ng
tho
s
e
da
ta
m
a
y
l
e
ad
to
a
dd
i
ti
on
al
c
om
pu
tat
i
on
a
l
l
oa
d.
Henc
e,
i
t
i
s
i
m
po
r
tan
t
to
ba
l
an
c
e
the
pr
oc
es
s
an
d
t
he
c
os
t.
A
n
au
t
ho
r
a
l
s
o
i
nd
i
c
a
tes
th
at
af
ter
da
ta
c
ol
l
ec
ti
on
proc
es
s
c
l
ea
ns
i
ng
d
ata
i
s
c
om
pu
l
s
or
y
ac
c
ordi
n
g
to
pr
ev
i
ou
s
di
f
f
erent
da
t
as
ets
c
an
be
ha
n
dl
ed
[
11
]
.
Res
ea
r
c
h
G
ap
.
Us
ua
l
l
y
m
ul
t
i
pl
e
m
an
ua
l
s
c
r
ub
bi
ng
p
r
oc
es
s
i
s
ex
ec
ute
d
to
ov
e
r
c
o
m
e
an
d
s
ol
v
e
th
e
po
or
da
ta
i
s
s
ue
s
. T
hi
s
of
ten
i
n
v
o
l
v
es
m
ore proc
es
s
i
n
g
ti
m
e a
nd
h
u
m
an
r
es
ou
r
c
es
.
T
hi
s
r
es
ul
ts
i
n
s
l
o
w
i
ng
do
wn
an
y
c
om
pa
n
y
op
er
ati
o
n
pe
r
f
or
m
an
c
es
an
d
l
ea
v
e
l
es
s
ti
m
e
f
or
an
a
l
y
s
i
ng
an
d
op
t
i
m
i
s
i
ng
p
r
og
r
am
.
It
i
nc
r
ea
s
es
c
os
t
f
or
l
ea
ds
i
nv
ol
v
i
ng
r
e
v
e
nu
e
r
ed
uc
ti
on
an
d
prof
i
t
m
argi
n.
T
he
i
s
s
ue
w
i
l
l
b
e
s
o
l
v
ed
i
f
t
he
c
l
e
an
i
n
g
ph
as
e
i
s
au
t
om
ati
c
.
T
he
to
ol
s
a
v
ai
l
ab
l
e
i
n
m
ar
k
et,
are
thi
r
d
pa
r
t
y
a
pp
l
i
c
ati
on
.
Ho
w
e
v
er,
i
f
th
e
DA
proc
es
s
i
s
i
m
pl
em
en
t
b
y
us
i
ng
progr
am
m
i
ng
l
a
ng
u
ag
e
i
t
i
s
i
m
po
r
tan
t
t
o
m
ak
e
thi
s
p
r
oc
es
s
as
f
as
t
an
d
ac
c
urat
e
as
po
s
s
i
b
l
e.
Her
e,
a
pred
i
c
ti
v
e m
od
el
wi
l
l
be
us
ef
ul
to
i
m
pu
te
ac
c
urate m
i
s
s
i
ng
da
ta.
P
r
ob
l
em
S
tat
em
en
t.
In
Dat
a
A
na
l
y
ti
c
s
(
DA
)
proc
es
s
i
n
g,
da
t
a
c
l
ea
ni
n
g
i
s
m
os
t
i
m
po
r
tan
t
an
d
es
s
en
t
i
a
l
s
tep
.
I
na
pp
r
op
r
i
at
e
da
ta
m
a
y
l
ea
d
to
p
oo
r
an
a
l
y
s
i
s
an
d
t
hu
s
y
i
e
l
d
un
ac
c
ep
ta
bl
e
c
on
c
l
us
i
o
ns
[12
]
.
S
om
e
au
tho
r
s
[13
-
1
6]
oc
us
e
d
on
th
e
prob
l
em
of
du
pl
i
c
at
e
i
de
nti
f
i
c
ati
on
an
d
el
i
m
i
na
t
i
on
.
T
he
i
r
r
es
ea
r
c
h
f
oc
us
ed
on
da
t
a
c
l
e
an
i
ng
pa
r
ti
al
l
y
an
d
h
en
c
e
r
ec
ei
v
ed
on
l
y
l
i
tt
l
e
att
en
ti
o
n
i
n
the
r
es
ea
r
c
h
c
om
m
un
i
t
y
.
D
i
f
f
erent
i
nf
orm
ati
o
n
s
y
s
t
em
r
eq
ui
r
ed
to
r
e
pa
i
r
da
t
a
us
i
ng
di
f
f
erent
r
ul
es
.
It
i
s
f
i
r
s
t
r
eq
ui
r
ed
t
o
ov
erc
om
e
the
di
r
t
y
d
ata
d
i
m
en
s
i
on
s
f
r
o
m
the
s
tr
uc
tured
da
ta
f
or
be
tte
r
D
A
proc
es
s
.
D
at
a
c
l
ea
ni
ng
i
s
th
e
proc
es
s
o
f
ov
erc
om
i
ng
di
r
t
y
d
ata
di
m
en
s
i
on
s
;
s
uc
h
as
i
nc
om
pl
ete
n
es
s
(
m
i
s
s
i
ng
v
a
l
ue
s
)
,
du
pl
i
c
at
i
on
,
i
nc
on
s
i
s
ten
c
y
,
an
d
i
n
ac
c
urac
y
.
Und
er
the
s
e
r
eq
ui
r
em
en
ts
,
r
es
ea
r
c
he
r
s
de
v
e
l
op
e
d
to
ol
s
to
de
te
c
t
an
d
r
ep
ai
r
D
ata
Q
u
al
i
t
y
i
s
s
ue
s
b
y
s
pe
c
i
f
y
i
n
g
d
i
f
f
erent
r
ul
es
be
t
w
e
en
d
ata
,
an
d
no
r
m
al
l
y
d
i
f
f
erent
di
m
en
s
i
on
i
s
s
ue
s
r
eq
ui
r
es
di
f
f
erent
tec
hn
i
qu
es
,
e.g
.
,
i
m
pu
ti
ng
m
i
s
s
i
ng
v
al
u
e
i
n
t
he
m
ul
ti
-
v
i
e
w
an
d
pa
n
oram
i
c
di
s
pa
tc
h
i
n
g
[17]
.
T
he
r
e
i
s
s
c
op
e
f
or
r
es
ea
r
c
h
i
n
ac
hi
e
v
i
n
g
be
t
ter
da
t
a
c
l
ea
n
i
ng
.
It
c
a
n
be
ac
hi
e
v
e
d
b
y
i
n
tr
od
uc
i
n
g
au
t
om
ati
c
da
ta
c
l
e
an
i
ng
proc
es
s
w
i
t
h
t
he
he
l
p
of
Ma
c
hi
ne
L
ea
r
n
i
ng
(
ML
)
.
S
am
pl
i
ng
tec
h
ni
qu
e
i
s
al
s
o
i
nte
grate
d
i
nto
t
he
proc
e
s
s
c
on
s
i
de
r
i
n
g
the
s
i
z
e
of
da
ta
.
B
ec
au
s
e
of
the
ML
ab
i
l
i
t
y
,
the
A
uto
-
CDD
s
y
s
t
em
c
an
l
e
arn
f
r
o
m
the
da
t
a
a
nd
predi
c
t
th
e
m
i
s
s
i
ng
c
l
as
s
i
n
ord
er
to
p
erf
or
m
A
uto
m
ati
c
Mi
s
s
i
n
g
V
a
l
ue
Im
pu
tat
i
on
.
It
i
s
al
s
o
r
eq
ui
r
e
d
to
s
el
ec
t
th
e
s
u
i
ta
bl
e
f
ea
tures
f
or
the
s
ui
tab
l
e
M
L
m
od
el
s
au
tom
ati
c
al
l
y
,
de
pe
nd
i
ng
on
the
f
orm
of
the
da
ta
s
et
o
bt
ai
n
ed
f
r
om
v
ario
us
d
om
ai
n.
T
he
s
e
ab
i
l
i
ti
es
of
da
ta
c
l
e
an
i
ng
proc
es
s
c
an
e
nh
a
nc
e
t
he
pe
r
f
orm
a
nc
e
of
D
A
,
b
y
r
ep
l
a
c
i
ng
th
e
c
urr
en
t
m
an
ua
l
da
t
a
c
l
e
an
i
ng
wi
t
h
a
n
i
nte
l
l
i
g
en
t
on
e.
In
t
he
r
ep
ort
[1
8]
,
i
t
h
as
an
al
y
s
i
s
of
d
ata
i
s
s
ue
s
ob
t
ai
n
ed
b
y
c
om
pa
ni
es
of
di
f
f
erin
g
s
i
z
es
an
d
op
erati
on
a
l
go
al
s
ac
c
ordi
ng
to
b
us
i
ne
s
s
-
to
-
b
u
s
i
ne
s
s
(
B
2
B
)
i
n
du
s
tr
i
es
(
i
.e.
S
m
al
l
a
nd
Me
d
i
um
B
us
i
ne
s
s
(
S
M
B
)
,
e
nte
r
pris
e
b
us
i
n
es
s
es
an
d
m
ed
i
a
c
o
m
pa
ni
es
)
.
T
he
f
i
na
l
c
al
c
u
l
at
i
o
n
of
da
ta
i
s
s
ue
s
i
s
al
m
os
t
s
a
m
e
f
or
three
c
ate
go
r
i
es
.
T
he
pe
r
c
en
t
ag
es
are
3
8%,
2
9%
an
d
41
%
f
or
S
MB
,
e
nte
r
pris
e
a
nd
m
ed
i
a
c
om
pa
ni
es
r
es
pe
c
ti
v
e
l
y
.
T
he
r
es
u
l
ts
i
nd
i
c
ate
d
t
ha
t
the
c
au
s
es
of
Evaluation Warning : The document was created with Spire.PDF for Python.
◼
IS
S
N:
16
93
-
6
93
0
T
E
L
KO
M
NIK
A
V
ol
.
17
,
No
.
4
,
A
ug
us
t
20
19
:
20
76
-
20
86
2078
di
r
t
y
d
ata
i
s
al
w
a
y
s
s
am
e.
I
t
i
s
c
l
ea
r
tha
t
th
e
three
c
at
eg
ori
es
whi
c
h
c
on
t
ai
n
hi
g
h
es
t
pe
r
c
en
ta
ge
of
di
r
t
y
da
ta
are:
a)
Mi
s
s
i
ng
v
al
ue
s
b)
Inv
al
i
d
v
a
l
ue
s
c)
Dupl
i
c
ate
d d
ata
In
thi
s
r
es
e
arc
h,
the
m
ai
n
ob
j
ec
ti
v
e
i
s
t
o
o
v
erc
om
e
i
s
s
ue
s
of
i
nc
om
pl
ete
da
t
a,
d
ue
to
m
i
s
s
i
ng
da
ta
i
s
prod
uc
ed
b
y
d
ata
s
e
ts
ba
s
i
c
a
l
l
y
m
i
s
s
i
ng
v
al
ue
s
.
T
he
s
e
t
y
p
e
of
d
ata
c
on
s
i
de
r
e
d
c
on
c
ea
l
ed
w
h
en
th
e
am
o
un
t
of
v
al
ue
s
i
d
en
t
i
f
i
ed
i
n
a
s
et,
bu
t
the
v
a
l
ue
s
th
em
s
el
v
es
are
un
i
de
nt
i
f
i
ed
,
an
d
i
t
i
s
al
s
o
k
no
wn
to
be
c
o
nd
e
ns
ed
when
t
he
r
e
ar
e
v
al
ue
s
i
n
a
s
et
tha
t
are
predi
c
te
d.
T
he
f
ol
l
o
w
i
ng
r
es
ea
r
c
h q
u
es
ti
o
ns
w
ere
ad
dr
es
s
ed
to
be
m
ore ex
ac
t:
a)
Ho
w
to
trai
n m
od
el
to
pred
i
c
t i
f
th
e v
al
ue
i
s
m
i
s
s
i
ng
?
b)
Ho
w
to
r
ep
a
i
r
th
e d
i
r
t
y
da
t
a
?
c)
W
h
at
i
s
th
e b
es
t M
ac
h
i
n
e L
ea
r
ni
ng
A
l
go
r
i
t
hm
f
or bui
l
di
ng
th
e m
od
el
?
T
he
r
es
t
of
pa
p
er
i
s
orga
ni
z
ed
as
f
ol
l
o
w
s
:
S
ec
ti
o
n
2
p
r
es
en
ts
th
e
c
om
pa
r
i
s
on
be
twee
n
ex
i
s
ti
n
g
f
un
c
ti
o
n
i
n
P
y
tho
n
an
d
de
v
e
l
o
pe
d
f
un
c
ti
on
(
A
uto
CDD)
.
S
ec
ti
on
3
d
em
on
s
tr
ate
s
a
nd
ev
a
l
u
ate
d
p
er
f
or
m
an
c
e
of
A
uto
-
C
DD
s
y
s
t
em
to
m
a
k
e
s
ure
the
pre
di
c
ti
on
v
al
u
e’
s
ac
c
urac
y
i
s
prec
i
s
e.
T
he
n,
S
ec
t
i
on
3
ex
pl
ai
ns
i
n
d
eta
i
l
s
of
de
v
e
l
o
pe
d
S
y
s
tem
Des
i
gn
c
l
ea
r
l
y
.
La
s
tl
y
,
S
ec
ti
on
5
c
on
c
l
ud
es
t
he
p
a
pe
r
an
d d
i
s
c
us
s
es
f
utu
r
e p
r
os
pe
c
ts
.
2.
Co
mp
a
r
ison
A
s
s
tat
ed
ea
r
l
i
er,
to
de
v
e
l
o
p
the
s
c
r
i
pt
of
c
l
e
an
i
ng
da
t
a
P
y
th
on
La
n
gu
a
ge
a
c
om
pa
r
i
s
on
i
s
s
ho
w
n
i
n
T
ab
l
e
1
be
t
we
en
ex
i
s
t
i
ng
f
un
c
t
i
on
s
i
n
P
y
tho
n
l
i
brar
y
an
d
A
u
to
-
CDD
.
In
th
e
ta
bl
e
,
the
c
o
l
um
n
“
F
un
c
ti
on
”
c
o
nt
ai
ns
the
tas
k
ti
t
l
e
of
th
e
m
eth
od
pres
e
nte
d
i
n
“
Cal
l
f
un
c
ti
on
ex
am
pl
e”
c
ol
um
n.
Nex
t,
c
o
l
um
n
“
Des
c
r
i
pti
on
”
c
o
nta
i
ns
t
he
de
f
i
ni
t
i
on
of
the
f
un
c
ti
o
n
w
r
i
tt
en
i
n
p
y
t
ho
n’
s
P
an
da
s
of
f
i
c
i
al
w
eb
s
i
te.
F
i
n
al
l
y
,
P
r
os
an
d
c
on
s
are
w
r
i
t
ten
to
u
nd
ers
tan
d
the
go
o
d
an
d
ba
d
s
i
de
of
av
a
i
l
a
bl
e f
un
c
ti
o
ns
.
T
ab
l
e 1
.
C
om
pa
r
i
s
on
o
f
Me
tho
ds
us
e
d
f
or Cle
an
i
ng
Mi
s
s
i
ng
Dat
a
Fun
c
t
ion
C
a
ll
Fun
c
t
ion
e
x
a
m
p
le
D
e
s
c
r
ipt
ion
P
r
o
s
C
o
n
s
D
e
let
ing
R
o
w
s
d
a
t
a
.
d
r
o
p
n
a
(
inp
lac
e
=
Tr
u
e
)
[
1
9
]
“
R
e
t
u
r
n
o
b
jec
t
w
it
h
lab
e
ls
o
n
g
iv
e
n
a
x
is
o
m
i
t
t
e
d
w
h
e
r
e
a
lt
e
r
n
a
t
e
ly
a
n
y
o
r
a
ll
o
f
t
h
e
d
a
t
a
a
r
e
mi
s
s
ing
”
C
o
m
p
le
t
e
r
e
mov
a
l
o
f
d
a
t
a
w
it
h
mi
s
s
ing
v
a
lue
s
r
e
s
u
l
t
s
in
r
o
b
u
s
t
a
n
d
h
igh
ly
a
c
c
u
r
a
t
e
mod
e
l
D
e
let
ing
a
p
a
r
t
i
c
u
lar
r
o
w
o
r
a
c
o
lu
m
n
w
it
h
n
o
s
p
e
c
i
f
i
c
inf
o
r
m
a
t
ion
i
s
b
e
t
t
e
r
s
inc
e
it
d
o
e
s
n
o
t
h
a
v
e
a
h
igh
w
e
igh
t
a
g
e
L
o
s
s
o
f
in
f
o
r
m
a
t
ion
a
n
d
d
a
t
a
W
o
r
k
s
p
o
o
r
ly
if
t
h
e
p
e
r
c
e
n
t
a
g
e
o
f
mi
s
s
ing
v
a
lue
s
i
s
h
igh
(
s
a
y
3
0
%
)
,
c
o
m
p
a
r
e
d
t
o
t
h
e
w
h
o
le
d
a
t
a
s
e
t
R
e
p
lac
e
W
i
t
h
M
e
a
n
/
M
e
d
ian
/
M
o
d
e
d
a
t
a
[
'
a
g
e
'
]
.
r
e
p
lac
e
(
n
p
.
N
a
N
,
d
a
t
a
[
'
a
g
e
'
]
.
m
e
a
n
(
)
)
[
2
0
]
“
R
e
p
lac
e
v
a
lue
s
g
iv
e
n
in
‘t
o
_
r
e
p
lac
e
’
w
it
h
‘v
a
lue
’”
This
i
s
a
b
e
t
t
e
r
a
p
p
r
o
a
c
h
w
h
e
n
t
h
e
d
a
t
a
s
iz
e
is
s
mall
I
t
c
a
n
p
r
e
v
e
n
t
d
a
t
a
lo
s
s
w
h
ic
h
r
e
s
u
lt
s
in
r
e
m
o
v
a
l
o
f
t
h
e
r
o
w
s
a
n
d
c
o
lu
m
n
s
I
m
p
u
t
ing
t
h
e
a
p
p
r
o
x
im
a
t
ion
s
a
d
d
v
a
r
ian
c
e
a
n
d
b
ias
W
o
r
k
s
p
o
o
r
ly
c
o
m
p
a
r
e
d
t
o
o
t
h
e
r
m
u
lt
iple
-
i
mpu
t
a
t
ion
s
m
e
t
h
o
d
s
A
s
s
ign
s
a
D
is
t
in
c
t
C
a
t
e
g
o
r
y
d
a
t
a
[
'
a
g
e
'
]
.
f
il
lna
(
'
U
'
)
[
2
1
]
“
Fill
N
A
/
N
a
N
v
a
lue
s
u
s
ing
t
h
e
s
p
e
c
i
f
ied
met
h
o
d
”
Few
e
r
p
o
s
s
ibili
t
ie
s
w
it
h
o
n
e
e
x
t
r
a
c
a
t
e
g
o
r
y
,
r
e
s
u
lt
ing
in
low
v
a
r
ian
c
e
a
f
t
e
r
o
n
e
h
o
t
e
n
c
o
d
ing
—
s
inc
e
it
i
s
c
a
t
e
g
o
r
i
c
a
l
N
e
g
a
t
e
s
t
h
e
lo
s
s
o
f
d
a
t
a
b
y
a
d
d
ing
a
u
n
iqu
e
c
a
t
e
g
o
r
y
A
d
d
s
les
s
v
a
r
ian
c
e
A
d
d
s
a
n
o
t
h
e
r
f
e
a
t
u
r
e
t
o
t
h
e
m
o
d
e
l
w
h
il
e
enc
o
d
ing
,
w
h
ic
h
m
a
y
r
e
s
u
lt
in
p
o
o
r
p
e
r
f
o
r
m
a
n
c
e
P
r
e
d
ic
t
s
mi
s
s
ing
v
a
lue
a
u
t
o
c
d
d
(
d
a
t
a
)
P
r
e
d
ic
t
s
b
y
s
e
lec
t
ing
o
t
h
e
r
f
e
a
t
u
r
e
s
o
f
m
i
s
s
ing
a
t
t
r
ibu
t
e
s
.
A
s
s
ign
ing
mi
s
s
ing
v
a
lue
s
d
a
t
a
o
t
h
e
r
t
h
a
n
d
e
let
ing
t
h
e
r
o
w
/
c
o
lum
n
i
s
m
o
r
e
e
f
f
e
c
t
iv
e
f
o
r
b
e
t
t
e
r
p
e
r
f
o
r
m
a
n
c
e
I
t
c
a
n
h
e
lp
t
o
p
r
e
d
i
c
t
n
u
m
e
r
ic
a
l
a
n
d
n
o
n
-
n
u
m
e
r
ic
a
l/
c
a
t
e
g
o
r
ic
a
l
v
a
lue
s
.
(
C
las
s
i
f
ic
a
t
ion
u
s
e
d
f
o
r
c
a
t
e
g
o
r
ic
a
l
p
r
e
d
i
c
t
ion
a
n
d
R
e
g
r
e
s
s
ion
u
s
e
d
f
o
r
n
u
m
e
r
ic
a
l
p
r
e
d
ic
t
ion
)
.
I
t
’
s
n
o
t
g
u
e
s
s
ing
t
h
e
m
i
s
s
ing
v
a
lue
s
,
i
t
s
r
a
t
h
e
r
p
r
e
d
ic
t
ing
v
a
lue
u
s
ing
o
t
h
e
r
v
a
r
iab
les
.
A
s
p
r
e
d
i
c
t
ion
d
e
p
e
n
d
s
o
n
o
t
h
e
r
v
a
lue
s
,
u
n
s
t
a
b
le
o
u
t
c
o
m
e
m
a
y
a
r
i
s
e
if
m
o
s
t
o
f
t
h
e
o
t
h
e
r
v
a
lue
s
a
r
e
inc
o
m
p
le
t
e
.
Evaluation Warning : The document was created with Spire.PDF for Python.
T
E
L
KO
M
NIK
A
IS
S
N: 1
69
3
-
6
93
0
◼
A
UT
O
-
CDD:
A
ut
om
at
i
c
c
l
e
an
i
ng
d
i
r
ty
da
ta
us
i
ng
ma
c
h
i
ne
l
e
arni
ng
...
(
J
es
me
en
M
.
Z. H)
2079
3.
S
ys
t
em D
es
ign
T
he
c
en
tr
al
go
a
l
of
thi
s
s
tud
y
i
s
to
bu
i
l
d
a
s
y
s
tem
for
de
r
i
v
i
n
g
a
qu
al
i
t
y
da
t
a
s
et
b
y
de
tec
t
i
ng
,
a
na
l
y
z
i
ng
,
i
de
nti
f
y
i
ng
an
d
pred
i
c
ti
n
g
t
he
m
i
s
s
i
ng
v
al
u
es
.
T
hi
s
tas
k
c
an
be
i
m
pl
em
en
ted
us
i
ng
di
f
f
erent
Ma
c
hi
ne
l
ea
r
n
i
n
g
pa
r
ad
i
g
m
[4]
.
T
hi
s
s
y
s
tem
w
i
l
l
ab
l
e
to
pe
r
f
or
m
i
nd
ep
e
nd
e
ntl
y
wi
th
ou
t
t
he
he
l
p
of
an
y
pre
-
de
v
e
l
o
pe
d
s
of
tw
are.
A
s
the
s
y
s
tem
i
s
de
v
el
op
ed
u
s
i
ng
p
y
t
ho
n
La
n
gu
a
ge
.
T
he
s
y
s
t
em
l
i
f
e
c
y
c
l
e
i
s
di
v
i
de
d
i
nt
o
t
w
o
s
ta
ge
s
,
i
.
e.
tr
a
i
n
i
ng
/te
s
t
i
ng
an
d
predi
c
t
i
on
. Det
ai
l
s
of
th
e
ph
as
ed
are
de
s
c
r
i
be
d
i
n d
eta
i
l
s
i
n t
h
i
s
s
ec
ti
o
n.
3.1
. T
r
ainin
g
P
h
as
e
T
he
f
i
r
s
t
s
tag
e
i
s
T
r
ai
n
i
n
g
P
ha
s
e,
as
s
ho
wn
i
n
F
i
gu
r
e
1,
t
he
s
el
ec
t
ed
c
l
as
s
i
f
i
c
a
ti
on
or
r
eg
r
es
s
i
on
m
ac
hi
ne
l
ea
r
n
i
n
g
m
od
el
i
s
tr
a
i
ne
d
us
i
ng
s
el
ec
ted
da
t
a
s
ets
.
Ini
ti
a
l
l
y
,
da
ta
i
s
r
etri
e
v
e
d
f
r
o
m
.
c
s
v
f
i
l
e
an
d
de
t
ec
t
th
e
c
ol
um
n
ne
ed
to
b
e
c
l
ea
n
ed
.
Nex
t
s
te
p
i
s
F
ea
ture
S
el
ec
t
i
on
s
te
p,
to
ob
ta
i
n
the
i
m
po
r
tan
t
f
ea
tur
es
t
o
tr
ai
n
wi
t
h.
A
f
ter
s
el
ec
ti
ng
th
e
i
m
po
r
tan
t
f
ea
t
ures
i
n
thi
s
tr
ai
ni
ng
ph
as
e,
a
m
ac
hi
ne
l
e
arni
ng
m
od
el
wi
l
l
be
prod
uc
ed
a
nd
w
i
l
l
be
s
a
v
ed
.
F
i
n
al
l
y
,
a
n
ev
al
ua
t
i
on
i
s
he
l
d t
o m
ak
e s
ure the
s
tore
d m
od
el
prod
uc
es
ac
c
urate
r
es
ul
ts
.
F
i
gu
r
e
1.
T
r
ai
ni
ng
ph
as
e
3.1
.1
.
Ret
r
iev
ing
Data
T
he
c
l
ea
ni
ng
proc
es
s
i
s
m
os
tl
y
proc
es
s
ed
on
t
he
s
tor
ed
da
t
as
et;
s
i
nc
e
t
he
s
y
s
te
m
w
i
l
l
be
r
es
po
ns
i
bl
e
f
or
c
l
ea
ni
n
g
di
r
t
y
da
ta
(
s
uc
h
as
m
i
s
s
i
ng
da
ta)
i
t
i
s
i
m
po
r
tan
t
to
r
etri
ev
e
da
t
a
to
proc
es
s
.
A
s
m
en
ti
on
e
d
ea
r
l
i
er,
t
o
de
v
e
l
o
p
the
s
y
s
te
m
p
y
tho
n
i
s
us
e
d,
h
en
c
e
‘
P
A
N
DA
S
'
w
as
i
m
po
r
ted
w
h
i
c
h
i
s
the
be
s
t
too
l
f
or
da
t
a
m
un
gi
n
g.
I
t
i
s
a
l
i
brar
y
of
h
i
gh
-
l
e
v
el
da
ta
s
tr
uc
turi
ng
da
tas
et
an
d
m
an
i
pu
l
at
i
n
g
too
l
s
,
w
h
i
c
h
he
l
ps
to
m
a
k
e
an
al
y
z
i
ng
da
t
a
f
as
ter
an
d
e
as
i
er.
T
he
da
tas
et
r
etri
e
v
e
d
da
t
a
f
r
o
m
i
s
s
tored
i
n
c
om
m
a
s
ep
ar
ate
d
v
a
l
u
es
(
.c
s
v
)
f
i
l
e.
F
or
the
tas
k
r
ep
orted
i
n
th
i
s
pa
p
er,
thre
e
s
ets
of
da
ta
s
el
ec
te
d
w
hi
c
h
ha
v
e
m
i
s
s
i
ng
v
al
ue
s
,
as
i
t
wi
l
l
h
el
p
t
o
v
a
l
i
d
ate
the
s
y
s
tem
wi
l
l
wor
k
f
or
c
l
ea
ni
ng
d
ata
.
T
he
da
ta
s
et
i
s
s
el
ec
ted
ac
c
ordi
n
g
t
o
the
r
eq
u
i
r
em
en
ts
of
the
s
y
s
tem
i
np
ut.
In
t
he
de
v
e
l
op
ed
s
y
s
tem
three
da
tas
ets
are
us
ed
.
Det
ai
l
s
of
da
ta
s
ets
us
e
d a
r
e
pres
e
nte
d
i
n T
ab
l
e 2
.
T
ab
l
e 2
. D
ata
S
e
ts
us
ed
f
or
E
v
al
ua
t
i
ng
De
v
e
l
op
ed
#
D
a
t
a
R
e
p
o
s
i
t
o
r
y
D
a
t
a
s
e
t
Fea
t
u
r
e
s
C
h
a
r
a
c
t
e
r
is
t
i
c
s
N
u
m
b
e
r
o
f
A
t
t
r
ibu
t
e
s
D
a
t
a
s
e
t
1
(
U
C
I
)
[
2
2
]
D
iab
e
t
ic
s
M
i
x
e
d
55
D
a
t
a
s
e
t
2
(
U
C
I
)
[
2
3
]
S
t
u
d
e
n
t
P
e
r
f
o
r
m
a
n
c
e
M
i
x
e
d
33
3.1
.2
.
F
ea
t
u
r
e S
ele
ctio
n
B
as
ed o
n
R
and
o
m F
o
r
e
st
In
th
i
s
s
tag
e
R
an
d
om
F
ores
t
f
ea
ture
s
e
l
ec
ti
on
m
eth
o
d
i
s
us
ed
.
T
he
s
t
ep
s
of
R
an
do
m
F
ores
t a
l
go
r
i
t
hm
i
nc
l
ud
es
:
S
tep
1:
E
x
tr
ac
t f
ea
ture s
e
ts
f
r
o
m
da
tas
et
i
nc
l
ud
i
ng
pe
r
s
on
al
i
z
ed
an
d
no
n
-
pe
r
s
on
a
l
i
z
ed
f
ea
tures
.
Evaluation Warning : The document was created with Spire.PDF for Python.
◼
IS
S
N:
16
93
-
6
93
0
T
E
L
KO
M
NIK
A
V
ol
.
17
,
No
.
4
,
A
ug
us
t
20
19
:
20
76
-
20
86
2080
S
tep
2:
T
ak
e M
s
ub
s
et
s
am
pl
es
a
t rand
om
, w
i
t
ho
u
t
r
ep
l
ac
em
en
t f
r
o
m
ori
gi
na
l
f
ea
t
ure s
ets
.
S
tep
3:
B
u
i
l
d d
ec
i
s
i
on
tree f
or eac
h s
ub
s
et
s
am
pl
es
an
d c
al
c
u
l
ate
G
i
n
i
i
nd
ex
of
al
l
f
ea
tures
.
S
tep
4:
R
an
k
G
i
ni
i
n
de
x
i
n
a d
es
c
en
di
n
g o
r
d
er.
S
tep
5:
S
e
t
the
t
hres
ho
l
d
s
v
al
u
e,
an
d
the
n
f
ea
ture
s
w
i
t
h
hi
gh
c
on
tr
i
bu
t
i
o
n
a
r
e
s
el
ec
ted
as
the
r
ep
r
es
en
ta
ti
v
e
f
ea
t
ures
.
T
he
c
ol
um
ns
s
el
ec
ted
to
tr
ai
n
t
he
Ma
c
hi
ne
L
ea
r
n
i
n
g
m
od
el
b
y
f
ea
ture
i
m
po
r
tan
c
e,
the
v
a
l
ue
s
ar
e p
l
ott
ed
i
n a
Cl
us
ter
B
ar c
ha
r
t,
as
s
ho
wn i
n
Fig
ure
s
2
a
nd
3
.
Data
s
et
1
(
s
tud
en
t
pe
r
f
or
m
an
c
e)
F
i
gu
r
e
2.
F
e
atu
r
e
i
m
po
r
tan
c
e (s
tud
en
t
pe
r
f
orm
an
c
e)
Data
s
et
2
(
Di
ab
eti
c
s
Dat
a)
F
i
gu
r
e
3.
F
e
atu
r
e
i
m
po
r
tan
c
e (
di
ab
et
i
c
s
)
3.1
.3
.
T
r
ainin
g
a
Cl
as
s
if
ie
r
M
o
d
el
A
s
et
of
f
ea
tures
f
or
ea
c
h
m
i
s
s
i
ng
v
a
l
u
e’
s
att
r
i
bu
t
es
are
r
etri
e
v
ed
an
d
t
he
n
th
e
ol
d
m
od
el
i
s
r
etrai
ne
d
to
g
et
be
tte
r
ac
c
urac
y
f
or
pred
i
c
ti
ng
a
no
m
al
i
es
of
da
ta
us
i
ng
the
tr
a
i
n
ed
Ma
c
hi
ne
L
ea
r
n
i
ng
m
od
el
.
F
or
tr
ai
n
i
ng
the
m
od
el
t
hre
e
c
om
m
on
Ma
c
hi
ne
L
ea
r
n
i
ng
tec
h
ni
q
ue
s
are us
ed
,
th
e
y
are Ra
nd
om
For
es
t, L
i
ne
ar S
V
M,
an
d
Li
ne
ar Re
gres
s
i
on
.
a.
Ra
n
do
m
f
ores
t
m
od
el
A
c
c
ordi
n
g
to
th
e
s
y
s
tem
's
r
eq
u
i
r
em
en
t
a
s
up
erv
i
s
ed
l
e
arni
n
g
al
go
r
i
thm
c
an
be
s
el
ec
ted
,
where
Ran
do
m
f
ores
t
A
l
go
r
i
thm
i
s
s
ho
w
n
to
pro
v
i
de
a
pre
di
c
t
i
on
wi
th
c
on
ta
i
ns
m
ore
tha
n
on
e
Dec
i
s
i
o
n
tr
ee
s
,
an
d
th
es
e
tr
ee
s
are
i
nd
ep
e
nd
e
nt
wi
th
ea
c
h
o
the
r
[
24
]
.
It
was
i
m
pl
e
m
en
ted
i
n
di
f
f
erent
areas
an
d
pro
v
ed
to
gi
v
e
great
pred
i
c
ti
on
ac
c
urac
y
,
s
uc
h
as
Net
w
ork
F
au
l
t
P
r
ed
i
c
ti
o
n
[
25
]
.
S
u
pp
os
e
the
r
e
are
T
c
l
as
s
es
of
s
am
pl
es
i
n
s
et
C,
t
he
n
i
ts
G
i
ni
i
nd
ex
i
s
de
f
i
ne
d
i
n
(
1
)
:
Evaluation Warning : The document was created with Spire.PDF for Python.
T
E
L
KO
M
NIK
A
IS
S
N: 1
69
3
-
6
93
0
◼
A
UT
O
-
CDD:
A
ut
om
at
i
c
c
l
e
an
i
ng
d
i
r
ty
da
ta
us
i
ng
ma
c
h
i
ne
l
e
arni
ng
...
(
J
es
me
en
M
.
Z. H)
2081
gin
i
(
T
)
=
∑
p
i
(
1
−
p
i
)
n
c
i
=
1
(
1)
where
nc
i
s
the
nu
m
be
r
of
c
l
as
s
es
i
n
s
et
T
(
the
targe
t
v
ari
ab
l
e)
an
d
p
i
r
ef
ers
r
ati
o
of
thi
s
c
l
as
s
i
.
If
c
on
s
i
de
r
i
ng
da
t
as
et
C
s
pl
at
ted
i
nto
t
w
o
c
l
as
s
,
T
1
an
d
T
2
wi
th
am
ou
nt
of
da
ta
N1
a
nd
N2
r
es
pe
c
ti
v
el
y
, t
he
n t
h
e Gin
i
i
nd
ex
f
or T
i
s
de
f
i
ne
d
i
n
(
2
)
.
G
in
i
s
p
l
i
t
(
T
)
=
N
1
N
G
in
i
(
T
1
)
+
N
2
N
G
in
i
(
T
2
)
(
2)
b.
S
up
p
ort
v
ec
tor m
ac
hi
ne
(
S
V
M)
m
od
el
A
no
t
he
r
s
u
pe
r
v
i
s
ed
l
ea
r
n
i
ng
a
l
g
orit
hm
i
s
s
el
ec
ted
,
w
hi
c
h
i
s
k
no
w
n
to
b
e
s
tr
on
g
al
g
orit
hm
us
ed
f
or
c
l
as
s
i
f
i
c
ati
on
an
d
r
eg
r
es
s
i
on
us
ed
i
n
di
f
f
erent
d
om
ai
n,
s
uc
h
as
Heal
thc
are
[
26
]
,
i
ntrus
i
on
de
tec
t
i
on
s
y
s
t
em
[27]
,
l
y
m
ph
ob
l
as
t
c
l
as
s
i
f
i
c
ati
on
[
2
8]
an
d
dri
v
i
ng
s
i
m
ul
ato
r
s
[29]
.
It
a
l
s
o
h
el
p
s
to
de
tec
t
o
utl
i
ers
us
i
n
g
a
bu
i
l
t
-
i
n
f
un
c
ti
on
.
Im
pl
em
en
t
ati
o
n
of
Li
n
ea
r
S
V
M,
'L
i
n
ea
r
S
V
C'
op
t
i
on
was
us
ed
f
or a
bl
e t
o
p
erf
or
m
m
ul
ti
-
c
l
as
s
c
l
as
s
i
f
i
c
ati
on
.
T
he
(
3
)
us
ed
f
or
predi
c
t
i
ng
ne
w
i
n
pu
t
i
n
S
V
M
b
y
m
ea
ns
of
the
d
ot
produc
t
of
i
np
ut
(
)
wi
th
ev
er
y
s
up
po
r
t
v
ec
tor (
):
f
(
x
)
=
+
s
um
(
∗
(
,
)
)
(
3)
w
he
r
e
i
s
ne
w
i
np
ut,
an
d
and
v
a
l
ue
of
ea
c
h
i
np
u
t
i
s
ob
ta
i
ne
d
f
r
om
tr
ai
ni
ng
d
at
a
throu
gh
the
S
V
M
a
l
g
orit
hm
.
W
he
r
e
as
i
n
Li
ne
ar
S
V
M
the
d
ot
produc
t
i
s
k
no
wn
as
the
k
ernel
,
t
he
v
al
ue
de
f
i
ne
s
c
om
pa
r
i
s
on
or
a
g
ap
m
ea
s
ure
b
et
w
e
en
ne
w
da
t
a
an
d
th
e
s
up
po
r
t
v
ec
tors
.
It
c
an
b
e
re
-
w
r
i
t
ten
i
n f
o
r
m
of
(
4
)
K
(
,
)
=
s
um
(
∗
)
(
4)
c
.
Lo
g
i
s
ti
c
r
eg
r
es
s
i
o
n
O
ne
of
t
he
m
os
t
c
o
m
m
o
n
M
L
al
g
orit
hm
i
s
Lo
g
i
s
ti
c
Regres
s
i
o
n
(
L
R)
.
L
R
i
s
no
t
a
r
eg
r
es
s
i
on
al
go
r
i
t
hm
i
t
i
s
on
e
of
th
e
pro
ba
b
i
l
i
s
ti
c
c
l
as
s
i
f
i
c
ati
o
n
m
od
el
.
W
he
r
e,
t
he
ML
c
l
as
s
i
f
i
c
ati
on
t
ec
hn
i
qu
es
wor
k
s
as
a
l
ea
r
ni
ng
m
eth
od
,
w
h
i
c
h
c
on
ta
i
ns
an
i
ns
tan
c
e
m
ap
pe
d
wi
th
on
e
of
the
m
an
y
l
ab
e
l
s
a
v
a
i
l
a
bl
e.
T
he
n
m
ac
hi
ne
l
e
arns
an
d
tr
ai
ns
i
ts
e
l
f
f
r
o
m
the
d
i
f
f
erent
pa
tte
r
ns
of
da
t
a
i
n
s
uc
h
a
w
a
y
t
ha
t
i
t
i
s
ab
l
e
t
o
r
e
pres
en
t
c
orr
ec
tl
y
wi
t
h
the
m
ap
pe
d
ori
gi
na
l
di
m
en
s
i
on
an
d
s
ug
g
es
t
the
l
ab
el
/
ou
tp
ut
w
i
t
ho
u
t
i
n
v
o
l
v
i
n
g
a
hu
m
an
ex
pe
r
t.
T
he
s
i
gm
oi
d f
un
c
ti
on
gr
ap
h
i
s
pl
ott
e
d u
s
i
ng
(
5
)
:
(
5)
i
t
m
a
k
es
s
ure
tha
t
the
pro
du
c
ed
o
utc
om
e
i
s
a
l
w
a
y
s
i
n
be
t
ween
0
–
1,
as
the
d
en
om
i
na
tor
i
s
greate
r
t
ha
n
nu
m
erator b
y
1,
as
s
ho
wn i
n
(
6
).
(
6)
3.2
.
P
r
edict
ion
P
h
as
e
T
he
predi
c
t
i
on
ph
as
e
s
h
o
wn
i
n
F
i
gu
r
e
4
,
c
an
be
i
n
teg
r
ate
d
i
nt
o
a
n
y
pre
-
proc
es
s
i
ng
s
y
s
t
em
,
w
h
i
c
h
de
tec
ts
an
d
i
de
n
ti
f
i
es
m
i
s
s
i
ng
v
a
l
u
e.
O
ur
s
y
s
t
em
f
i
r
s
t
r
etri
ev
es
da
t
a
c
o
nta
i
ns
the
m
i
s
s
i
ng
v
al
ue
.
A
f
ter
w
ar
d,
o
ur s
y
s
tem
ex
tr
ac
ts
f
ea
ture, th
en
pred
i
c
t th
e m
i
s
s
i
ng
da
ta
b
y
us
i
n
g
the
s
tore
d t
r
a
i
n
ed
Ma
c
h
i
ne
Le
arn
i
ng
Mo
de
l
a
nd
prov
i
d
e p
r
ed
i
c
ted
m
i
s
s
i
ng
v
al
u
e.
F
i
na
l
l
y
, re
pl
ac
e
the
N
A
N
v
a
l
ue
s
wi
th
pred
i
c
ted
v
a
l
u
es
.
Evaluation Warning : The document was created with Spire.PDF for Python.
◼
IS
S
N:
16
93
-
6
93
0
T
E
L
KO
M
NIK
A
V
ol
.
17
,
No
.
4
,
A
ug
us
t
20
19
:
20
76
-
20
86
2082
F
i
gu
r
e
4.
P
r
ed
i
c
ti
o
n
ph
as
e
4.
P
er
f
o
r
m
ance
E
v
aluat
io
n
T
he
i
m
po
r
tan
c
e
of
th
e
pe
r
f
orm
an
c
e
ev
a
l
ua
t
i
o
n
i
s
to
i
nv
es
t
i
ga
te
tha
t
h
o
w
ac
c
urate
a
nd
ef
f
ec
ti
v
e
i
s
the
d
ev
el
op
e
d
s
y
s
t
em
,
w
h
i
c
h
i
s
a
bl
e
to
d
ete
c
t
m
i
s
s
i
ng
v
a
l
ue
s
,
ba
s
e
d
o
n
s
e
v
era
l
m
etri
c
s
.
Di
f
f
erent
t
y
pe
of
da
ta
m
a
y
gi
v
e
un
l
i
k
e
l
ev
el
of
predi
c
ti
o
n
ac
c
urac
y
i
n
a
c
l
as
s
i
f
i
c
ati
o
n
m
od
el
.
S
o
d
i
f
f
erent
m
od
el
s
are
us
ed
a
nd
p
as
s
ed
s
el
e
c
ted
f
ea
tures
f
r
o
m
three
da
ta
s
ets
.
T
he
n
c
r
os
s
-
v
al
i
d
ati
on
i
s
i
m
pl
em
en
te
d
f
or
f
urther
proof
of
the
ef
f
ec
ti
v
e
ne
s
s
of
de
v
el
o
pe
d
c
l
as
s
i
f
i
ers
.
Mo
r
e
s
pe
c
i
f
i
c
al
l
y
,
a
s
el
ec
t
ed
d
ata
s
et
i
s
d
i
v
i
d
ed
i
nt
o
tes
t
an
d
tr
a
i
ni
ng
s
ets
(
D
i
a
be
ti
c
s
Da
tas
et
ob
ta
i
ne
d f
r
om
‘
uc
i
')
.
4.1.
C
las
sificatio
n
A
c
cur
a
c
y
T
he
m
eth
od
us
ed
f
or
ev
al
u
ati
o
n
i
s
b
y
r
etri
ev
i
ng
T
P
(
T
r
ue
P
os
i
ti
v
e),
T
N
(
T
r
ue
Nega
ti
v
e)
,
F
P
(
F
al
s
e
Neg
ati
v
e)
an
d
F
N
(
F
al
s
e
N
eg
a
ti
v
e)
v
a
l
ue
s
.
W
he
r
e,
T
P
i
s
tot
a
l
am
ou
n
t
of
predi
c
t
ed
c
orr
ec
t/true
v
al
ue
as
ex
p
ec
ted
;
T
N
as
tot
al
am
ou
nt
of
pre
di
c
te
d
c
orr
ec
t/tru
e
v
al
ue
as
n
ot
ex
pe
c
ted
;
F
P
i
s
to
tal
am
ou
nt
of
pred
i
c
ted
i
nc
orr
ec
t/f
al
s
e
v
a
l
u
e
as
ex
p
ec
t
ed
;
F
N
as
tot
a
l
am
ou
nt
of
predi
c
te
d
i
nc
orr
ec
t/f
al
s
e
v
a
l
ue
as
no
t
ex
pe
c
t
ed
.
F
i
na
l
l
y
,
ac
c
urac
y
i
s
c
a
l
c
ul
ate
d
b
y
us
i
n
g
f
ol
l
o
wi
ng
i
n
(
7
).
=
+
+
+
+
(
7)
T
hi
s
ac
c
urac
y
of
Ma
c
h
i
ne
l
ea
r
ni
ng
Mo
d
el
s
de
p
en
ds
o
n
th
e
d
ata
s
e
t
s
e
l
e
c
ted
to
tr
ai
n.
A
s
di
f
f
erent
t
y
p
e
of
da
ta
s
ets
wi
l
l
pr
ed
i
c
t
di
f
f
erentl
y
an
d
di
f
f
erent
Le
arni
ng
m
od
el
s
are
us
e
d
to
ge
t
the
b
es
t
m
od
el
ac
c
ordi
n
g
t
o
the
da
ta
s
e
t.
Dat
a
s
ets
wer
e
s
el
ec
ted
a
nd
t
he
pre
di
c
ted
ou
tc
om
e
ac
c
urac
i
es
o
n
di
f
f
erent
m
ac
hi
n
e
l
ea
r
n
i
n
g
where
pres
e
n
ted
i
n
F
i
gu
r
e
s
5
-
6
i
n
f
orm
of
graphs
.
T
hi
s
ac
c
urac
y
i
s
t
he
pe
r
c
en
t
ag
e
of
predi
c
t
ed
m
i
s
s
i
ng
v
al
ue
s
f
or
ea
c
h
att
r
i
bu
t
e,
f
or
ex
a
m
pl
e,
i
n
graph
predi
c
t
i
ng
v
a
l
ue
s
i
n
‘
r
os
i
g
l
i
t
a
z
o
ne
’
c
ol
um
n
ob
tai
ne
d
f
r
om
a
CS
V
f
i
l
e.
T
hree
wel
l
-
k
won
s
up
er
v
i
s
e
d
l
ea
r
n
i
n
g
al
go
r
i
t
hm
s
are
us
ed
as
m
e
nti
on
e
d
e
arli
er
a
nd
i
n
e
v
al
ua
t
i
on
proc
es
s
fr
om
the
three
tr
ai
ne
d
m
od
el
,
R
an
d
om
F
ores
t
A
l
go
r
i
thm
an
d
L
og
i
s
t
i
c
Re
gres
s
i
on
g
av
e
s
ta
bl
e
a
c
c
urac
y
ou
tpu
t
throug
ho
u
t
i
np
utt
i
ng
d
ata
.
W
he
r
ea
s
,
Li
ne
arS
V
M
s
h
o
w
s
un
s
tab
l
e
an
d
c
om
pa
r
ati
v
el
y
l
o
w
er
ac
c
urac
y
th
a
n o
t
he
r
s
e
l
ec
te
d a
l
go
r
i
t
hm
.
Cas
e 1
:
Cl
e
an
i
ng
Dat
as
et1
-
Di
ab
eti
c
s
Dat
a:
T
r
ai
ne
d
R
an
d
om
F
ores
t
A
l
g
orit
hm
ga
v
e
m
ore
tha
n
90
%
ac
c
urac
y
,
as
s
ho
wn
i
n
F
i
gu
r
e
5
(
a
)
.
T
r
ai
ne
d
Li
ne
a
r
S
V
M
m
od
el
s
ho
w
s
t
o
be
an
un
s
ta
bl
e
m
od
el
w
i
t
h
l
o
wer
ac
c
urac
y
of
predi
c
t
i
ng
m
i
s
s
i
ng
v
al
ue
s
as
s
h
o
w
n
i
n
F
i
gu
r
e
5
(
b
)
an
d
L
og
i
s
ti
c
Re
gres
s
i
on
tr
ai
n
ed
a
l
go
r
i
thm
prov
e
d t
o
be
m
ore tha
n 8
5
% ac
c
urac
y
as
s
ho
wn
i
n F
i
gu
r
e 5
(
c
)
.
Cas
e 2
:
Cl
e
an
i
ng
Dat
a s
et
2 (St
u
de
n
t P
erf
or
m
an
c
e Da
ta
s
et):
Cl
ea
ni
ng
th
i
s
da
ta
s
et,
Lo
g
i
s
ti
c
Regres
s
i
on
p
erf
or
m
s
i
n
ac
c
urac
y
of
grea
t
er
tha
n
9
0%
as
s
ho
w
n
i
n
F
i
gu
r
e
6
(
c
)
an
d
Rand
om
F
ores
t
A
l
go
r
i
thm
i
s
a
c
l
os
e
c
om
pe
ti
t
or
i
n
ter
m
s
of
ac
c
urac
y
90
%
as
s
ho
wn
i
n
F
i
gu
r
e
6
(
a)
.
W
he
r
ea
s
.
Li
n
ea
r
S
u
p
po
r
t
V
ec
tor
Ma
c
h
i
n
e
a
ga
i
n
gi
v
es
the
b
ad
pe
r
f
or
m
an
c
e o
f
aroun
d
80
% ac
c
urac
y
as
s
ho
wn
i
n F
i
gu
r
e 6
(
b
).
Evaluation Warning : The document was created with Spire.PDF for Python.
T
E
L
KO
M
NIK
A
IS
S
N: 1
69
3
-
6
93
0
◼
A
UT
O
-
CDD:
A
ut
om
at
i
c
c
l
e
an
i
ng
d
i
r
ty
da
ta
us
i
ng
ma
c
h
i
ne
l
e
arni
ng
...
(
J
es
me
en
M
.
Z. H)
2083
(
a)
(
b
)
(
c
)
F
i
gu
r
e
5.
T
he
ac
c
urac
y
ob
t
ai
n
ed
f
or Dat
as
et
1
(
a)
ac
c
urac
y
p
erc
en
ta
ge
v
s
da
t
a
v
ol
um
e f
or
tr
ai
ne
d ran
do
m
f
ores
t
(
b
)
ac
c
urac
y
pe
r
c
en
t
ag
e
v
s
d
ata
v
o
l
um
e f
or tr
ai
ne
d
l
i
ne
ar s
v
m
(
c
)
ac
c
urac
y
p
erc
en
ta
ge
v
s
da
ta
v
ol
um
e f
or tr
ai
ne
d l
og
i
s
ti
c
r
eg
r
es
s
i
o
n
Evaluation Warning : The document was created with Spire.PDF for Python.
◼
IS
S
N:
16
93
-
6
93
0
T
E
L
KO
M
NIK
A
V
ol
.
17
,
No
.
4
,
A
ug
us
t
20
19
:
20
76
-
20
86
2084
(
a
)
(
b)
(
c
)
F
i
gu
r
e
6.
T
he
ac
c
urac
y
of
predi
c
ti
on
f
or dat
as
et
2
(
s
tud
en
t p
erf
or
m
an
c
e)
(
a
)
ac
c
urac
y
pe
r
c
en
ta
ge
v
s
da
ta
v
o
l
um
e f
or tr
ai
ne
d
r
an
d
om
f
ores
t
(
b)
ac
c
urac
y
p
erc
en
ta
ge
v
s
da
ta
v
o
l
um
e
f
or tr
ai
ne
d
l
i
ne
ar s
v
m
(
c
)
ac
c
urac
y
pe
r
c
en
tag
e v
s
da
ta
v
o
l
um
e f
or tr
ai
ne
d
l
og
i
s
ti
c
r
eg
r
es
s
i
on
F
or
c
l
ea
ni
n
g
p
urpos
e
an
d
predi
c
t
i
ng
m
i
s
s
i
ng
da
t
a
f
or
ea
c
h
a
ttri
bu
te
,
i
t’
s
pro
v
e
d
tha
t
a
tr
ai
ne
d
R
an
d
om
F
ores
t
Mo
de
l
a
nd
Lo
g
i
s
ti
c
R
eg
r
es
s
i
on
M
od
e
l
ac
ts
a
b
ett
er
pr
ed
i
c
t
i
v
e
m
od
el
.
W
h
ereas
,
a
tr
a
i
n
ed
Li
ne
ar
S
V
M
s
h
o
w
s
to
b
e
un
r
e
l
i
a
b
l
e
f
or
t
hi
s
t
y
p
e
of
pred
i
c
ti
o
n
c
au
s
e
as
i
t
gi
v
es
l
o
w
er
a
nd
u
ns
tab
l
e
ac
c
urac
y
thro
ug
h
ou
t
tr
a
i
ni
n
g
m
od
el
b
y
i
np
u
tti
ng
ne
w
d
ata
i
nt
o
the
m
od
el
. T
hi
s
ac
c
urac
y
i
s
f
urther v
erif
i
e
d b
y
us
i
ng
c
r
os
s
-
v
al
i
da
t
i
o
n t
ec
h
ni
q
ue
.
4.2.
C
r
o
ss
-
V
ali
d
atio
n
Cr
os
s
-
v
al
i
da
t
i
on
te
c
h
ni
qu
e
i
s
i
m
po
r
tan
t
to
i
m
pl
em
en
t to
c
on
f
i
r
m
an
d e
x
am
i
ne
the
tr
ai
ne
d
m
od
el
c
an
be
r
el
i
ab
l
e
wi
th
ou
t
i
s
s
ue
s
(
s
uc
h
as
ov
erf
i
t
ti
ng
)
.
H
ere,
th
e
da
t
a
s
et
i
s
di
v
i
de
d
i
nt
o
Evaluation Warning : The document was created with Spire.PDF for Python.
T
E
L
KO
M
NIK
A
IS
S
N: 1
69
3
-
6
93
0
◼
A
UT
O
-
CDD:
A
ut
om
at
i
c
c
l
e
an
i
ng
d
i
r
ty
da
ta
us
i
ng
ma
c
h
i
ne
l
e
arni
ng
...
(
J
es
me
en
M
.
Z. H)
2085
k
pa
r
ts
as
s
ho
w
n
i
n
F
i
g
ure
7
(
w
he
r
e
,
k
=
5).
T
hi
s
t
y
pe
of
v
al
i
d
ati
on
i
s
k
n
o
w
n
as
k
-
f
ol
d
c
r
os
s
-
v
al
i
d
ati
on
us
ed
t
o v
al
i
da
t
e a
nd
d
ete
r
m
i
ne
th
e t
r
a
i
ne
d c
l
as
s
i
f
i
ers
.
F
i
gu
r
e
7.
D
ata
s
p
l
i
t
ti
n
g i
n 5
-
f
ol
d c
r
os
s
v
al
i
d
ati
on
A
s
th
e
da
ta
s
et
i
s
di
v
i
de
d
i
nto
5
-
f
ol
ds
,
t
ota
l
of
1/5
of
c
om
pl
ete
d
ata
us
e
d
f
or
t
es
ti
ng
an
d
tes
t
da
t
a
us
ed
f
or
tr
a
i
ni
ng
.
T
hi
s
tr
ai
ni
n
g
a
nd
t
es
ti
n
g
ar
e
r
ep
e
ate
d
5
t
i
m
es
,
an
d
tot
al
of
ea
c
h
t
es
t
ac
c
urac
y
i
s
c
a
l
c
ul
at
ed
to
g
et
Cr
os
s
-
v
a
l
i
da
t
i
on
s
c
ore.
T
he
r
etri
ev
ed
ou
tc
om
es
are
en
t
ered
i
nt
o
a
tab
l
e
(
pres
e
nte
d
i
n
T
ab
l
e
3
)
wi
th
the
c
l
as
s
i
f
i
c
ati
on
ac
c
urac
y
o
bta
i
ne
d
i
n
pr
ev
i
ou
s
s
tag
e
f
or
on
e
c
ol
um
n
c
on
tai
n
i
ng
m
i
s
s
i
ng
v
a
l
ue
(
s
)
.
T
he
ou
tc
om
es
prov
ed
t
ha
t
th
e
m
od
el
ac
c
urac
y
a
nd
c
r
os
s
-
v
al
i
d
ati
on
ac
c
urac
y
i
s
al
m
os
t
c
l
os
e
to
ea
c
h
ot
he
r
.
T
he
tr
a
i
ne
d
m
od
el
i
s
no
t
ov
er
-
f
i
tte
d
an
d
c
an
be
r
e
l
i
ab
l
e.
T
ab
l
e 3
. Cr
os
s
-
V
al
i
da
t
i
o
n
O
utc
om
es
f
or
Data
S
e
t 2
(
S
tud
en
t
P
erf
orm
an
c
e)
f
or F
ai
l
ure
#
o
f
I
n
s
t
a
n
c
e
M
o
d
e
l
A
c
c
u
r
a
c
y
C
r
o
s
s
-
V
a
l
ida
t
ion
S
c
o
r
e
275
8
8
.
0
0
%
8
6
.
1
8
2
%
300
9
2
.
6
6
%
8
8
.
3
3
3
%
325
9
0
.
1
5
8
7
.
3
8
5
%
350
9
0
.
8
5
8
7
.
1
4
3
%
5.
Co
n
clus
ion
A
l
m
os
t
al
l
da
t
as
et
a
v
a
i
l
a
bl
e
i
n
r
ep
os
i
t
orie
s
m
a
y
c
on
t
ai
n
att
r
i
b
ute
s
w
i
t
h
m
i
s
s
i
ng
da
ta
an
d
i
t
i
s
v
er
y
i
m
po
r
tan
t
t
o
h
a
nd
l
e
th
es
e
t
y
pe
of
da
ta
t
o
ov
erc
om
e
an
y
p
erf
or
m
a
nc
e
i
s
s
ue
s
.
A
s
di
f
f
erent
da
ta
s
et
h
av
e
d
i
f
f
e
r
en
t
f
or
m
ats
of
da
ta
i
t
i
s
qu
i
te
c
ha
l
l
en
g
i
n
g
tas
k
to
de
al
wi
th,
a
nd
i
t
i
s
i
m
po
r
tan
t
to
de
a
l
i
n
tel
l
i
ge
n
t
l
y
b
y
us
i
n
g
r
ob
us
t
m
od
el
s
.
In
thi
s
pa
pe
r
,
a
c
om
pa
r
i
s
on
i
s
s
tat
ed
wi
th
pros
an
d
c
on
s
to
w
i
l
l
he
l
p
the
d
ev
el
op
er
whi
l
e
s
el
ec
t
i
ng
th
e
b
es
t
m
eth
od
f
or
c
l
e
an
i
ng
m
i
s
s
i
ng
v
a
l
ue
s
.
Ho
w
e
v
er,
i
t
’
s
n
ot
es
s
en
ti
a
l
t
o
us
e
o
ne
m
eth
od
f
or
r
ep
a
i
r
i
ng
da
ta
.
N
ex
t,
a
s
y
s
tem
i
s
de
s
i
g
ne
d
a
nd
pres
en
t
ed
b
y
us
i
n
g
wel
l
-
k
no
wn
Ma
c
hi
n
e
L
ea
r
n
i
n
g
a
l
g
orit
hm
s
f
or
predi
c
ti
ng
m
i
s
s
i
ng
da
t
a
a
uto
m
ati
c
al
l
y
.
T
hree
c
l
as
s
i
f
i
c
ati
on
al
go
r
i
thm
s
(
i
.e.
S
V
M,
Ra
nd
om
F
ores
t,
an
d
Lo
g
i
s
ti
c
Re
gres
s
i
on
)
are
u
s
ed
to
tes
t
t
he
proc
es
s
.
T
he
e
v
a
l
u
ati
on
m
eth
od
s
prov
e
d
t
ha
t
t
w
o
tr
ai
ne
d
m
od
el
s
are
r
e
l
i
ab
l
e
on
t
he
da
ta
s
et
s
el
ec
ted
.
T
he
k
-
f
ol
d
c
r
os
s
-
v
al
i
d
ati
o
n
m
eth
od
c
on
f
i
r
m
s
tha
t
the
tr
ai
ne
d
m
od
el
i
s
no
t
ov
er
-
f
i
tte
d
an
d
c
an
pe
r
f
or
m
w
el
l
wi
th
n
e
w
da
tas
e
t.
F
or
f
utu
r
e
w
ork
,
c
om
bi
na
ti
o
n
o
f
m
ore
tha
n
on
e
m
eth
od
n
ee
ds
t
o
be
i
m
pl
em
en
ted
wi
th
ad
di
t
i
o
na
l
r
ul
es
f
or
da
ta
r
ep
a
i
r
.
It
i
s
al
s
o
i
m
po
r
tan
t
to
i
nd
i
c
ate
an
d
r
ep
ai
r
i
n
ap
pr
op
r
i
ate
o
r
w
r
on
g
da
ta
.
Int
eg
r
i
t
y
c
on
s
tr
a
i
nts
(
s
uc
h
as
F
un
c
t
i
on
al
de
pe
nd
e
nc
i
es
)
c
an
c
om
bi
ne
wi
th
M
a
c
hi
ne
L
ea
r
n
i
ng
A
l
g
orit
hm
s
t
o c
l
as
s
i
f
y
th
e t
y
pe
of
err
or to c
a
ptu
r
e.
Ref
er
en
ce
s
[1
]
F
Si
d
i
e
t
a
l
.
,
Da
ta
Q
u
a
l
i
ty
:
A
Su
rv
e
y
o
f
Dat
a
Q
u
a
l
i
ty
Di
m
e
n
s
i
o
n
s
,
i
n
2
0
1
2
I
n
te
rn
a
ti
o
n
a
l
C
o
n
fe
re
n
c
e
o
n
I
n
f
o
rm
a
ti
o
n
Re
tri
e
v
a
l
&
Kn
o
w
l
e
d
g
e
M
a
n
a
g
e
m
e
n
t
(CAM
P)
,
2
0
1
2
;
3
0
0
–
3
0
4
.
[2
]
S
J
u
d
d
o
o
.
O
v
e
rv
i
e
w
o
f
d
a
t
a
q
u
a
l
i
ty
c
h
a
l
l
e
n
g
e
s
i
n
th
e
c
o
n
t
e
x
t
o
f
Bi
g
Dat
a
,
i
n
2
0
1
5
In
t
e
rn
a
ti
o
n
a
l
Con
fe
re
n
c
e
o
n
Co
m
p
u
t
i
n
g
,
Co
m
m
u
n
i
c
a
ti
o
n
a
n
d
Se
c
u
ri
ty
(I
CC
CS)
,
2
0
1
5
;
[3
]
I
T
a
l
e
b
,
HT
El
Ka
s
s
a
b
i
,
M
A
Se
rh
a
n
i
,
R
Ds
s
o
u
l
i
,
C
B
o
u
h
a
d
d
i
o
u
i
.
Bi
g
D
a
ta
Q
u
a
l
i
t
y
:
A
Q
u
a
l
i
t
y
Dim
e
n
s
i
o
n
s
E
v
a
l
u
a
ti
o
n
.
i
n
2
0
1
6
In
tl
IEEE
Con
fe
r
e
n
c
e
s
o
n
Ubi
q
u
i
t
o
u
s
In
te
l
l
i
g
e
n
c
e
&
Co
m
p
u
t
i
n
g
,
Ad
v
a
n
c
e
d
a
n
d
T
ru
s
t
e
d
Co
m
p
u
ti
n
g
,
Sc
a
l
a
b
l
e
Com
p
u
ti
n
g
a
n
d
Com
m
u
n
i
c
a
ti
o
n
s
,
Clo
u
d
a
n
d
Bi
g
D
a
t
a
Com
p
u
t
i
n
g
,
I
n
te
rn
e
t
o
f
Pe
o
p
l
e
,
a
n
d
S
m
a
rt
W
o
rl
d
Co
n
g
r
e
s
s
,
2
0
1
6
;
7
5
9
–
765.
Evaluation Warning : The document was created with Spire.PDF for Python.