I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m p u t e Science   Vo l.   1 2 ,   No .   2 N o v e m b er   201 8 ,   p p .   6 0 7 ~ 6 1 1   I SS N:  2502 - 4752 ,   DOI : 1 0 . 1 1 5 9 1 / i j ee cs . v 1 2 .i 2 . p p 607 - 6 1 1           607       J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / ijeec s   Yo uTub e Spa m   C o m m en De tec tion Using  Sup po rt  Vect o M a chine and  K Nea rest N eig hbo r       Aqlii m a   Aziz 1 ,   Ci k F er esa   M o hd   F o o zy 2 ,   P a la nia pp a n Sh a m a la 3 ,   Z uri na h Sura di 4   2, 3 A p p li e d   C o m p u ti n g   T e c h n o l o g y   ( A C T ) ,   Un iv e rsiti   T u n   Hu ss e in   On n   M a lay sia   (U T HM),     P a rit   Ra ja,  Ba tu   P a h a t,   8 6 4 0 0   Jo h o r,   M a lay sia .   1, 2, 3 F a c u l ty   o f   Co m p u ter S c ien c e   a n d   In f o rm a ti o n   T e c h n o l o g y ,   Un iv e rsiti   T u n   Hu ss e in   On n   M a lay si a   (UT HM),     P a rit   Ra ja,  Ba tu   P a h a t,   8 6 4 0 0   Jo h o r,   M a l a y sia .   4 De p a rtme n o f   M a n a g e m e n In f o rm a ti o n   S y ste m s,  Co ll e g e   o f   Co m m e rc e   a n d   Bu sin e ss   A d m in istrati o n s,    Dh o f a Un iv e rsit y ,   S a lala h ,   Om a n .       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   A p r   9 ,   2 0 1 8   R ev i s ed   Ma y   2 0 ,   2 0 1 8   A cc ep ted   Ju l   11 ,   2 0 1 8     S o c ial  n e tw o rk in g   su c h   a s   Yo u T u b e ,   F a c e b o o k   a n d   o th e rs  a re   v e ry   p o p u lar  n o w a d a y s.  T h e   b e st  th in g   a b o u Yo u T u b e   is  u se c a n   su b sc rib e   a lso   g iv in g   o p i n io n   o n   t h e   c o m m e n se c ti o n .   Ho w e v e r,   th is  a tt ra c t   th e   sp a m m e r   b y   sp a m m in g   th e   c o m m e n ts  o n   th a v id e o s.  T h u s ,   th is  stu d y   d e v e lo p   a   Yo u T u b e   d e tec ti o n   f ra m e w o rk   b y   u sin g   S u p p o rt   V e c to r   M a c h in e   (S VM a n d   K - Ne a re st  Ne i g h b o (k - NN ).   T h e re   a re   f i v e   (5 p h a se in v o lv e d   in   t h i re se a rc h   su c h   a s Da ta Co ll e c ti o n ,   P re - p r o c e ss in g ,   F e a tu re   S e lec ti o n ,   Clas sif ica ti o n   a n d   De tec ti o n .   T h e   e x p e rime n ts  is  d o n e   b y   u sin g   W e k a   a n d   Ra p id M in e r.   T h e   a c c u ra c y   r e su lt   o f   S V M   a n d   KN N b y   u sin g   b o th   m a c h in e   lea rn in g   to o ls  sh o w   g o o d   a c c u ra c y   re su lt .   Oth e rs  so l u ti o n   t o   a v o i d   sp a m   a tt a c k   is  try in g   n o t o   c li c k   th e   li n k   o n   c o m m e n ts  to   a v o id   a n y   p ro b lem s.   K ey w o r d s :   C las s i f icatio n   Dete ctio n   Ma ch i n L ea r n i n g   Yo u T u b Sp am   Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   A q lii m A ziz   Facu lt y   o f   C o m p u ter   Scien ce   an d   I n f o r m atio n ,   Un i v er s iti T u n   H u s s ei n   On n   Ma la y s ia  ( UT HM ) ,   P ar it R aj a,   B atu   P ah at,   8 6 4 0 0   J o h o r ,   Ma lay s ia .   E m ail:  aq li m aa ziz @ g m ail. co m       1.   I NT RO D UCT I O N     Yo u T u b is   o n o f   th b ig g e s s ite  f o r   u s er   g et  i n f o r m ati o n   o n   th I n ter n et  [ 1 ] .   B ec au s o f   th at,   m an y   s p a m m er s   w ill  tr ic k   th Yo u T u b u s er   b y   s p a m m i n g   t h Yo u T u b co m m e n ts .   A cc o r d in g   to     Ha m o u   [ 2 ] ,   s p a m   i s   n o w   tr en d   attac k   an d   th e   Yo u T u b d ef in e s   s p a m   a s   i n ap p r o p r iate   co m m en t s ,   s u c h   as   ab u s o r   tr o llin g   an d   al s o   p eo p le  tr y in g   to   s e ll  t h in g s .   Ha m   ca n   b d ef i n ed   as  “g o o d   co m m en ts ”  o r   Yo u T u b f r ee   f r o m   s p a m   co m m e n t.    Sp a m   ca n   b ca teg o r ized   as  d an g er o u s   b ec au s s p a m   h as  t h p o ten tial  o f   c y b er   s ec u r it y   th r ea f o r   en d   u s er s .   T h s p a m m er   u s ed   th is   o p p o r tu n i t y   to   s p r ea d   m al w ar t h r o u g h   co m m e n f ield s ,   w h ic h   w ill  e x p lo it  v u l n er ab ilit ie s   in   t h u s er s   m ac h in e s .   A n o t h er   in te n tio n   in clu d es  s eizi n g   m o n e y   tr a n s ac t io n s   an d   h ij ac k in g   cr ed it  ca r d   an d   b an k in g   i n f o r m atio n .   B esid e s ,   s p a m m er   te n d s   to   r u i n   t h co n te n o f   w e b   p ag es.  T h is   ac tio n   w il l le ad   v is ito r s   to   an n o y   o v e r all  o f   th p o s ted   co n ten t [ 3 ] .   Yo u T u b s p am   co m m e n ts   h a s   p o ten tial  to   s p r ea d   m al w ar e.   T h W an n aCr y   is s u is   r ep r esen tat iv e   ex a m p le  o f   m al w ar u s ed   b y   s p a m m er   to   ex p lo it  u s er s   v u ln er ab ili ties .   Ne x t,  f ilele s s   m al w ar attac k s   ar e   b ein g   ap p lied   b y   attac k er s   a n d   c y b er cr i m i n als.  T h is   attac k   m i g h p r ev e n d etec tio n   a n d   m a k d i f f icu l f o r   f o r en s ic   i n v e s ti g a tio n s .   U s u a ll y ,   s p a m m er s   m ak i n g   u s e   o f   e x is tin g   to o ls   t h at   alr ea d y   in s ta lled   o n   u s er s   co m p u ter s .   Fo r   ex a m p le,   P o w er S h ell,   P SEx ec ,   W MI   o r   r u n n i n g   s i m p le  s cr ip t s   an d   s h ellco d s tr aig h i n   m e m o r y .   Fi leles s   m ea n s   cr ea ti n g   f e w   f i les o n   h ar d   d is k ,   wh ich   les s   c h a n ce   o f   b ein g   tr ac ed .   Nex t,  w ip er s   ar e   t y p m a l w ar t h at  u s ed   b y   s p a m m er s   f o r   r e m o v i n g   tr ac k s   a f ter   c y b er e s p io n ag e   o cc u r s   [ 4 ] .   Mo r eo v er ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 1 2 ,   No .   2 No v e m b er   201 8   :   6 0 7     6 1 1   608   m al w ar ca u s m u ltip le  b r ea c h es  w h er lea k   m ill io n s   o f   u s er   r ec o r d s .   A n   e x a m p le  o f   th e   d etails  lea k ed   s u c h   as  u s er n a m es,  e m ai ad d r ess e s   an d   h as h ed   p ass w o r d s ,   p r o b ab ly   u s S H A - 1   w h ic h   i s   le s s   s ec u r e.   T h m ain   f ac to r   th at  lead s   to   d ata  b r ea ch   is   p o s s ib l y   w ea k   p ass w o r d   w h ich   ca n   ea s i l y   cr ac k   [ 5 ] .   T h er ar s ev er al  s tu d ies  to   d e tect  Yo u T u b Sp a m   s u ch   a s   [ 6 ] - [ 9 ]   p r o p o s ed   to   class if y   t h e   Yo u T u b e   co m m e n as  Sp a m   a n d   Ha m   b y   u s i n g   Su p p o r Vec to r   Ma c h in ( SV M) .   T h s ig n i f ica n ce   o f   th is   r esear ch   to   d ev elo p   Yo u T u b Sp am   d et ec tio n   f r a m e w o r k   a n d   Yo u T u b Sp am   f ea t u r es  s o   th Yo u T u b v is ito r   ab le  to   id en ti f y   t h Yo u T u b Sp am   ch ar ac ter is tic s .   W h en   th Yo u T u b u s er s   ab le  to   id en tify   th Yo u T u b s p a m   f ea t u r es,  th e y   w ill b m o r a war e,   an d   th m al w ar s p r ea d   ca n   b r ed u ce d .       2.   L I T E R AT U RE   R E VI E W   T h er ar m a n y   t y p es   o f   s p a m ,   s u c h   as  w eb   s p a m ,   s h o r m e s s a g s p a m ,   e m ai s p a m ,   s o ci al  n et w o r k   sp a m   an d   o th er s .   I n   th i s   s ec tio n ,   th Yo u T u b s p a m   d etec tio n   s t u d ies  w ill b f o cu s ed .       2 . 1   Sp a m   Det ec t io n Appro a c h   Yo u T u b is   n o ex clu d ed   f r o m   m al icio u s   u s er   w h o   ar o f ten   f o u n d   to   ex p o s in   s p a m m i n g   a n d   p r o m o tio n al   ac ti v itie s   [ 1 0 ] .   T h er ar m a n y   ap p r o ac h es  to   d etec Sp a m   s u c h   as   u s i n g   Ar tif icial   I n tel lig e n t ,   C r y p to g r ap h y ,   Ma c h in L ea r n in g   an d   o th er s .   Ho w ev er ,   Ma n w ar   [ 7 ]   s aid   th m ac h i n lear n in g   also   ca p ab le  to   d etec t Y o u T u b s p am .   T h ex is ti n g   s tu d y   in   Yo u T u b Sp a m   Dete ctio n   is   Ma n w ar   [ 7 ]   an d   A lb er to   [ 8 ]   s h o w   t h at  b o th   o f   th e   au th o r s   u s ed   Su p p o r Vec to r   Ma ch i n ( SVM)   as  class if ie r   in   class i f icatio n   p h a s e.   Ma n w ar   [ 7 ]   s tated   th at  SVM  clas s i f icatio n   i s   i n   b in a r y - t w o   cla s s .   U s u al l y ,   cla s s   d en o ted   b y   0   a n d   1 .   Ho w e v er ,   th co llectio n   d ata   h av b ee n   cla s s i f ied   i n to   t w o   class es.  He n ce ,   ea s y   f o r   p r e - p r o ce s s in g   a n d   f ea t u r s elec tio n   to   p er f o r m .       2 . 2   F ra m ew o rk   det ec t io n   B asi ca ll y ,   t h er ar s ev er al  p h ase s   in   d etec tio n   f r a m e w o r k   u s i n g   m ac h i n lear n i n g   tec h n iq u e s   s u ch   as Da ta  C o llectio n ,   Featu r Se lectio n ,   C la s s i f icatio n   an d   Det ec tio n .   T h Data   C o llec tio n   ar co lle cted   f r o m   s o cial   m ed ia.   Fo r   e x a m p le,   Face b o o k ,   T w itter ,   S in W ei bo  ( I n s tag r a m ) ,   Yo u T u b an d   E m ail.   T h u s ,   U C I   w ill  co llect  th o s co m m e n t s   an d   f o r m   d ataset  ac co r d in g   t o   s o cial  m ed ia  ca te g o r ies  s u ch   a s   Yo u T u b e,   Face b o o k   an d   o th er s .   Fig u r b elo w   s h o w s   r a w   d ata  co llected   f r o m   UC I   m ac h i n lear n i n g   r ep o s ito r y .   Ne x t,  id en ti f y   w h e th er   t h co m m en is   s p a m   o r   h a m .   B ased   o n   T ab le  1 ,   r a w   d ata  alr ea d y   class if ied   in   s p a m   an d   h a m .       T ab le  1 .   Data s ets f o r   Yo u T u b s p a m   co m m e n t [ 8 ]   D a t a se t   Y o u T u b e   I D   S p a m   H a   T o t a l     P sy     9 b Z k p 7 q 1 9 f 0   1 7 5   1 7 5   3 5 0   K a t y P e r r y   C e v x Zv S J L k 8   1 7 5   1 7 5   3 5 0   L M F A O   K Q 6 z r 6 k C P j 8   2 3 6   2 0 2   4 3 8   Emi n e m   u e l H w f 8 o 7 _ U   2 4 5   2 0 3   4 4 8   S h a k i r a     p R p e Ed M mm Q 0   1 7 4   1 9 6   3 7 0       I n   m ac h i n lear n in g ,   f ea t u r s elec tio n   is   u s ed   to   cla s s i f y   t h clas s .     Se v er al  s tu d ie s   b y   Af za [ 1 1 ] ,   u s ed   t h UR L   a s   f ea t u r es.  W u ,   F.,   &   H u a n g ,   Y.   [ 1 2 ]   u s ed   co n ten t -   b ased   f ea tu r es   to   d etec t h s p a m   co m m e n t s   i n   t h u s er s   m es s a g e.   T h f ea t u r es  ar U R L s ,   k e y w o r d s ,   h a s h ta g s   an d   b ad   co m m en t s .   Me a n w h ile   o th er   s tu d ie s   ap p lied   o th er   ty p es o f   f ea t u r es.   C las s i f icatio n   w i ll  b u s ed   to   class i f y   th e   d ata s et  in to   s ev er al  class e s   b ased   o n   th s u i tab le  f ea tu r e s .   A cc o r d in g   to   [ 1 3 ] ,   SVM  i s   o n o f   t h tec h n iq u e s   t h at  ca n   cl ass i f y   t h p r o b le m s   [ 1 3 ] .   Me a n w h ile,   K - NN   is   a   s i m p le  y et  ef f ic ien t c la s s i f icat i o n   alg o r ith m s   f o r   d ata  m i n i n g   [ 1 4 ] .   L ast l y ,   t h r esu lts   o b tain .   T h p u r p o s o f   th is   r esear c h   is   to   c o m p ar w h ich   tec h n iq u e s   p r o v id b etter   ac cu r ac y   r esu l t in   d etec t in g   t h Yo u T u b s p am   co m m en t.        3.   M E T H O DO L O G Y   T h er ar ( 5 )   s tep s   in   th is   d etec tio n   f r a m e w o r k   s u c h   as   Data   C o llectio n ,   Data   P r e - p r o ce s s in g ,   Featu r E x tr ac tio n ,   C las s i f ica tio n   a n d   C o m p ar i s o n   o f   R e s u lts ,   a s   s h o w n   i n   F ig u r 1 .   T h is   f r a m e w o r k   i s   ch o s en   f r o m   [ 6 ]   b ec au s i c an   p r o v id t h r e s u l w i th   g o o d   ac cu r ac y .   T h is   f r a m e w o r k   also   p r o v id es   th e   p h ase  to   co m p ar th r esu lts   o f   SVM  tec h n iq u a n d   k - NN  te ch n iq u e.       Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       Yo u Tu b S p a C o mme n t D etec tio n   Usi n g   S u p p o r t V ec to r   Ma ch in a n d   K N ea r est N eig h b o r   ( A q liima   A z iz )   609       Fig u r 1 Yo u T u b Sp am   Det ec tio n   Fra m e w o r k   [ 6 ]       T h d escr ip tio n   f o r   ev er y   p h as in   Yo u T u b Sp a m   d etec tio n   f r a m e w o r k :   a)   Data   C o llectio n     I n   t h is   p h ase,   t h d ata s et  f o r   ex p er i m e n ts   is   d o w n lo ad ed   f r o m   U C I   m ac h in lear n i n g   r ep o s ito r y .   T h e   d ataset  co n tai n ed   o f   f i v ( 5 )   s elec ted   v id eo s   a n d   w er e   d o w n lo ad ed   f r o m   Yo u T u b t h r o u g h   A P I   [ 8 ] .   T h co m m e n t s   ar f r o m   P SY,  Ka t y P er r y ,   L M F A O,   E m in e m   a n d   Sh a k i r a.   T h to tal  f o r   s p a m   an d   h a m   in   P s y   v id eo   is   3 5 0 ,   f o llo w ed   b y   Kat y   P er r y   is   3 5 0 ,   L MF AO  is   4 3 8 ,   E m in e m   is   4 4 8   an d   Sh a k ir i s   3 7 0 .   b)   P r   p r o ce s s in g   Fo r   Pre - p r o ce s s in g   p h ase,   th e   r aw   d ataset  w il b ex ec u ted   th d ata  clea n in g   s u c h   as  to k en izatio n ,   s to p w o r d s   r e m o v al  a n d   s te m m i n g   ar p er f o r m ed .   T h clea n   d ataset   w il b u s ed   f o r   n e x p r o ce s s   o f   f ea tu r e   s elec tio n   a n d   ex tr ac tio n .   c)   Featu r Select io n   an d   E x tr ac ti o n   Featu r s elec tio n   is   a   p r o ce s s   b ef o r clas s i f icatio n   clas s .   T h s u itab le  f ea t u r es  w i ll  b e   id en ti f ied   b ased   o n   th d ataset.   d)   C las s i f icatio n   T h er is   tr ain i n g   an d   te s ti n g   p r o ce s s   in   th i s   p h a s e.   6 0 w ill  b u s ed   f o r   tr ain i n g   a n d   4 0 f o r   test in g .   Af ter   co m p leti n g   t h s tep   iii,  s u p p o s ed   to   b th er is   f ea tu r es  th at  is   co n s id er ed   as  s p a m .   T h u s ,   th d ataset  n ee d s   to   tr ain   b ased   o n   m ac h i n lear n i n g   tech n iq u e s .   SVM  is   s u cc es s f u ll y   s u i tab le  i n   d if f er e n tiati n g   p o s iti v a n d   n eg at iv e   p r o b lem   s u ch   a s   s p am .     S VM   i s   s u p er v is ed   lear n in g   m o d el  t h at  a n al y ze s   d ata  u s ed   f o r   cla s s i f icatio n   an d   r e g r ess io n .   SV m o s t l y   u s ed   in   cl ass i f icatio n   p r o b lem s .   SVM  is   u s ed   f o r   b in ar y   clas s i f icatio n   p r o b lem   a n d   u s ed   k er n el  f u n ctio n s .     K - NN   is   a   s u p er v is ed   lear n i n g   m et h o d .   Data   is   ap p ea r in g   i n   v ec to r   s p ac i n   t h K - N N   alg o r ith m .   K NN  e m p h as ize   k   m o s s i m i lar   tr ain in g   d ata  p o in ts   to   te s tin g   d ata  p o in t.  Af ter   d eter m i n in g   t h K - Nea r es t   Neig h b o r s ,   th al g o r ith m   w i ll  co m b in e s   t h n e ig h b o r s   to   d ec id th lab el  o f   te s tin g   d ata  p o in t.  Fo r   i m p le m en ta tio n ,   lab els ar co m b in ed   as t h lab els  u s ed   s i m p le  m aj o r it y   v o te.     e)   C o m p ar is o n   o f   r esu lts   T h r esu l t p er f o r m an ce   w i ll b u s ed   A cc u r ac y ,   P r ec is io n ,   R ec all  an d   F - m ea s u r e.     P r ec is io n   T r u P o s itiv e/( Fals P o s iti v T r u P o s itiv e)         ( 3 . 1 )     R ec all     T r u P o s itiv e/  ( Fals P o s iti v T r u P o s itiv e)         ( 3 . 2 )     F - m ea s u r e   2 * R ec all * P r ec is io n   / Reca l l +   P r ec is io n           ( 3 . 3 )     A cc u r ac y   ( T r u Neg ati v T r u Po s itiv e)   / ( Fals P o s itiv e         ( 3 . 4 )       T r u P o s itiv Fals Neg ativ T r u Neg ati v e)       4.   RE SU L T S AN AN AL Y SI S   T h er ar s ev er al  r esu lts   t h at  d is cu s s ed   in   t h i s   s ec tio n   s u ch   a s   Data   C o llectio n ,   P r e - P r o ce s s in g ,   Featu r Select io n ,   C la s s i f icati o n   an d   Dete ctio n   R es u lt.     4 . 1   Resul t s   i n Da t a   Co llect io   I n   o r d er   to   c o llect  r a w   d ata,   th is   r esear c h   u s es  U C I   m ac h i n lear n in g   r ep o s ito r y .   T h o s d ata  alr ea d y   class es   in   attr ib u te   s u ch   as  u s er s   w it h   a n   ac co u n o n   Yo u T u b w h e n   i m p o r tin g   i n to   E x ce b ef o r g o in g   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4752   I n d o n esia n   J   E lec  E n g   &   C o m p   Sci,   Vo l 1 2 ,   No .   2 No v e m b er   201 8   :   6 0 7     6 1 1   610   th r o u g h   p r e - p r o ce s s i n g .   T h is   d ata  co llectio n   co n tain s   1 0 0 5   s p a m   an d   9 3 5   h a m   ( le g iti m a te)   co m m e n ts   [ 1 5 ] .   Af ter   th a t,  th d ata  n ee d   to   ch an g f ile  t y p f ir s w h ic h   i s   . tx t b ef o r test in g   o n   R ap id Mi n e r   an d   W ek a.       4 . 2   Resul t s   P re -   P ro ce s s i ng   On ce   all  th d ata  is   co llected ,   th p r e - p r o ce s s in g   s tep   is   p er f o r m ed .   On ce   d ata. tx is   i n s er t ed   in to   th to o l,  th to o w ill b p er f o r m e d   to k en izatio n ,   s to p w o r d s   r e m o v al  an d   s te m m i n g   p h ase.   T o k en izatio n   s ep ar ates   th s tr in g   b lo ck   b y   b lo ck .   T h u s ,   t h to k en izatio n   m ak e s   th p r o ce s s   o f   s to p w o r d s   r em o v al   b ec o m ea s y .   Sto p w o r d s   eli m i n ate  t h co m m o n l y   u s ed   w o r d   s u ch   a s   a” ,   a n ”,   th e”   a n d   n u m b er s   i n   th s e n te n ce s .   T h e   p u r p o s o f   s to p w o r d s   r e m o v al   is   to   s h o r te n   t h p r e - p r o ce s s i n g   ti m a n d   a v o id   th o s e   w o r d s   tak i n g   s p ac i n   t h d atab ase.   Nex t,  s te m m i n g   p u r p o s is   to   g e t h r o o w o r d   u s ed   in   q u er y ,   a v o id   f r o m   h a v i n g   eq u al  m ea n i n g   an d   b ec o m i n co m p lete  s en t en ce s .   Fo r   e x a m p le,   th w o r d s   s u b s cr ib a n d   p lease  r es p ec tiv el y   b ec o m e   s u b s cr ib ”  an d   p leas”.   He n ce ,   th o b tain ed   d ata  af ter   p r e - p r o ce s s in g   is   clea n ed .   Nex t,  t h p r o ce s s   d ata  n ee d   to   ex tr ac t in   e x ce l to   f ac ilit a te  n ex s tep   w h ic h   f ea tu r e s   ex tr a ctio n   ad   f ea t u r s elec tio n   [ 1 6 ] .     4 . 3   Resul t s   i n F ea t ure  E x t ra ct io n a nd   F ea t ure  Select io n   As  f ea t u r es  id en t if ied   f r o m   t h liter atu r r ev ie w ,   v ar io u s   f e atu r es  m a y   b ex tr ac ted   f r o m   Yo u T u b class i f icatio n   p u r p o s es.   B esid es,  t h d ata  alr ea d y   co n s is t s   o f   t w o   ( 2 )   clas s es  w h er e   th e   clas s es a r e   s p a m   a n d   “h a m   [ 1 5 ] .   T h u s ,   ea s y   to   ch o o s f ea t u r es  t h at   ce r tai n l y   l ab el  as  s p a m .   Yo u T u b co m m en ts   m a y   co n tai n   h y p er li n k s ,   te x t,  u p p er ca s an d   lo w er ca s c h ar ac ter s .   Ho w e v er ,   th o s u p p er ca s ch ar ac ter s   d o   n o ex i s a f ter   p r e - p r o ce s s in g   p h ase.   Af ter   p r e - p r o ce s s i n g ,   t h is   s t u d y   d ec id es  to   u s k e y w o r d s   as  f ea tu r s e lectio n .   T h ai m   f o r   f ea t u r ex tr ac tio n   i s   to   ex p lo r th ad v an ta g es o f   n e w   f ea tu r es i n   o r d er   to   g ain   h i g h   ac c u r ac y .         4 . 4   Cla s s if ica t io n Re s ult   I n   clas s i f icatio n ,   a   to tal  o f   s e v en   ( 7 )   alg o r ith m s   i m p le m e n t ed   in   R ap id Mi n er   an d   W e k w er s et  as   class i f ier s   in   d etec ti n g   Yo u T u b s p a m   co m m e n t s .   T h p u r p o s o f   i m p le m e n ted   t h 7   o f   al g o r ith m s   ar to   co m p ar t h ac c u r ac y .   T h cl ass i f ier s   w er f ed   a n d   te s ted   b y   t h s a m e   d ataset s   i n   cla s s i f y in g   Yo u T u b s p a m   b u t 6   d if f er e n t a lg o r it h m s   [ 1 6 ] .   T h class if icat io n   o f   ac cu r ac y   ac r o s s   s ev e n   ( 7 )   d if f er en class i f icatio n   alg o r it h m s   s u ch   as  Naïv e   B ay e s ,   Dec is io n   T r ee ,   Su p p o r Vec to r   Ma ch in e,   R an d o m   T r ee ,   R an d o m   Fo r est,  k - Nea r est  Neig h b o r   an d   L o g i s tic  u s in g   d ata  p r o p o r tio n   o f   7 0 :3 0 .   7 0 :3 0   m ea n s   7 0 f o r   tr ain i n g   a n d   3 0 f o r   test i n g .     Me an w h ile,   i n   W ek a,   Naï v B a y es,  Dec i s io n   T r ee ,   Su p p o r Vec to r   Ma ch in e,   R an d o m   T r ee ,   R an d o m   Fo r est an d   L o g is tic  u s in g   d ata   p r o p o r tio n   o f   6 0 :4 0 .   6 0 : 4 0   m ea n s   6 0 % f o r   tr ain i n g   an d   4 0 % f o r   test i n g .     4 . 5   Resul t s   Det ec t io n   T h tab le  2   an d   3   b elo w   s h o th ex p er i m e n w ith   d ata  p r o p o r tio n   o f   th p er ce n tag s p lit  tr ain in g   an d   test in g .   T h r es u lt  s h o w s   t h at  Na ïv e   B a y es   clas s if ier   g i v es  th e   h i g h est   ac cu r a c y   w h e n   tes tin g   i n   R ap id Min er   a m o n g   o th er   clas s if ier s .   I n   g en er al,   Naï v B ay es  r an k s   t h f ir s t,  f o llo w ed   b y   Dec is io n   T r ee   an d   L o g i s tic.   Me a n w h ile,   i n   W ek a,   th r es u lt  s h o w s   th e   ac cu r a c y   9 0 an d   ab o v e.   T h u s ,   th e   r esu lt s   o f   ac c u r a c y   as       T ab le  2 .   C lass if icatio n   A cc u r a c y   ( %)  in   W ek a   C l a ss i f i e r   Pr e c i s i o n   R e c a l l     F - m e a su r e   A c c u r a c y     N a ï v e   B a y e s   0 . 9 2 8 %   0 . 9 2 8 %   0 . 9 2 8 %   9 2 . 7 8 %   D e c i si o n   T r e e   0 . 9 2 2 %   0 . 9 2 0 %   0 . 9 2 0 %   9 2 . 0 1 %   L o g i st i c   0 . 9 2 8 %   0 . 9 2 8 %   0 . 9 2 8 %   9 2 . 7 8 %   S u p p o r t   V e c t o r   M a c h i n e   0 . 9 1 8 %   0 . 9 1 5 %   0 . 9 1 5 %   9 1 . 4 9 %   R a n d o m F o r e st   0 . 9 0 7 %   0 . 9 0 6 %   0 . 9 0 6 %   9 0 . 5 9 %   R a n d o m T r e e   0 . 9 0 4 %   0 . 9 0 2 %   0 . 9 0 2 %   9 0 . 2 0 %   k - NN    0 . 9 0 9 %   0 . 9 0 6 %   0 . 9 0 6 %   9 0 . 5 9 %       T ab le  3 .   C lass if icatio n   ac c u r ac y   ( %)  in   R ap id Min er     C l a ss i f i e r   A c c u r a c y   N a ï v e   B a y e s   9 2 . 7 8 %   D e c i si o n   T r e e   9 0 . 3 8 %   L o g i st i c   8 8 . 3 2 %   S u p p o r t   V e c t o r   M a c h i n e   7 4 . 4 0 %   R a n d o m F o r e st   7 3 . 5 4 %   R a n d o m T r e e   5 2 . 9 2 %   k - N e a r e st   N e i g h b o r   5 6 . 7 0 %     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esia n   J   E lec  E n g   &   C o m p   Sci     I SS N:  2502 - 4752       Yo u Tu b S p a C o mme n t D etec tio n   Usi n g   S u p p o r t V ec to r   Ma ch in a n d   K N ea r est N eig h b o r   ( A q liima   A z iz )   611   T h g o al  o f   th i s   r esear ch   is   t o   f in d   w h ich   al g o r ith m s   p r o v id h ig h   an d   b est  i n   ac cu r ac y ,   p r ec is io n   an d   r ec all  to   h elp   in   d etec tin g   u n w a n ted   co m m en ts   o n   Yo u T u b e.   B esid es,  th r esu lt  f o r   th is   p r o j ec m a y   a s   a   b aselin f o r   p eo p le  w h o   in t er ested   in   th e   Yo u T u b s p a m   co m m en t   an d   i m p r o v e   th r esu l ts   f o r   f u tu r e   co m p ar is o n s   [ 8 ] .   First  a n d   f o r e m o s t,  a   d ataset  o f   f iv e   ( 5 )   Yo u T u b co m m en ts   w er co llected   u s in g   p u b lic   an d   n o n - en co d ed   d ata  [ 8 ] .   T h is   d ata  w i ll b g o in g   to   test   w it h   d ata   m i n in g   to o f o r   co m p ar is o n   o f   r esu lt s   ac c u r ac y ,   b y   u s i n g   d i f f er e n t y p es  o f   al g o r i th m s .   I n d ir ec tl y ,   w ill  p r o v wh ich   al g o r ith m s   p r o v id th e   b est  r es u lt  a n d   m o r ac cu r ate.   B ased   o n   o b s er v atio n ,   s p a m   co m m e n t s   f o u n d   m o r th an   le g iti m ate  co m m en t s .     Fo r   f u tu r e   w o r k ,   s in ce   n o t   all  o f   t h al g o r ith m s   u s a s   cla s s i f ier s   g i v b es ac c u r ac y   f o r   e v er y   s i n g le   d ataset  in   R ap id Min er ,   th i s   p r o v es  th at  t h o s to p   th r ee   ( 3 )   alg o r ith m s   o f   Naïv B a y es,  Dec is io n   T r ee   an d   L o g i s tic  ar m o r ac c u r ate.   T h ese  to p   th r ee   ( 3 )   also   g iv e s   a n   ac c u r ac y   ab o v 8 0 %.  Ho w e v er ,   in   W ek t h o s e   s ev e n   ( 7 )   alg o r ith m s   in d icat h ig h   ac cu r ac y .   He n ce ,   W ek is   r ec o m m e n d ed   to   d et ec Yo u T u b s p am   co m m e n t.  W e k p r o v id es  m o r ac cu r ac y .   I n   ad d itio n ,   h y b r id   tech n iq u f o r   t h ese  th r ee   ( 3 )   alg o r ith m s   m a y   i m p r o v p er f o r m a n ce   i n   g e t tin g   h ig h   ac c u r ac y .   F u r th er m o r e,   t h m o r f ea t u r es  u s ed ,   th h i g h er   th e   p er ce n tag o f   ac cu r ac y .   B esid es,  to   en h a n ce   p er f o r m a n ce ,   cr ea te  n e w   to o ls ,   esp ec iall y   f o r   Yo u T u b s p a m   ca n   b m ad f o r   f u t u r r esear ch   s u ch   as T u b eSp a m .   T u b eSp a m   i s   an   ex a m p le  o f   n e w   to o l in   d e tectin g   s p a m   [ 8 ] .         ACK NO WL E D G E M E NT   W w o u ld   lik to   s a y   th a n k   y o u   to   Un i v er s iti  T u n   H u s s ein   On n   Ma la y s ia  ( UT HM )   f o r   k in d l y   p r o v in g   u s   w i th   t h i n ter n al  f u n d in g   ( Vo t B 2 9 0 0 0 ) .       RE F E R E NC E S   [1 ]   S c h e lt u s,  P . ,   Do r n e r,   V . ,   &   L e h n e r,   F .   ( 2 0 1 3 ).   L e a v e   a   Co m m e n t!   A n   In - De p th   A n a l y sis  o f   U s e Co m m e n ts  o n   Yo u T u b e .   W irtsc h a ft sin f o rm a ti k ,   42 .   [2 ]   Ha m o u ,   R.   M . ,   Am in e ,   A . ,   &   T a h a r,   M .   (2 0 1 7 ).   T h e   Im p a c o f   th e   M o d e   o f   Da ta  Re p re se n tatio n   f o t h e   Re su lt   Qu a li ty   o f   th e   De tec ti o n   a n d   F il terin g   o f   S p a m .   In   O n t o lo g ie a n d   B ig   D a ta   Co n sid e ra ti o n fo E ff e c ti v e   In telli g e n c e (p p .   1 5 0 - 1 6 8 ).   IG G l o b a l.   [3 ]   A lsa l e h ,   M . ,   A larif i,   A . ,   A l - Qu a y e d ,   F . ,   &   A l - S a lm a n ,   A .   (2 0 1 6 ).   Co m b a ti n g   c o m m e n sp a m   w it h   m a c h in e   lea rn in g   a p p ro a c h e s.  P r o c e e d in g -   2 0 1 5   IEE 1 4 th   I n tern a ti o n a C o n f e re n c e   o n   M a c h i n e   L e a rn in g   a n d   A p p li c a ti o n s ,   ICM LA   2 0 1 5 ,   2 9 5 3 0 0 .   h tt p s:/ /d o i. o rg / 1 0 . 1 1 0 9 /IC M L A . 2 0 1 5 . 1 9 2   [4 ]   Eu ro p e a n   Un i o n   A g e n c y   f o Ne t w o rk   a n d   In f o rm a ti o n   S e c u rit y .   ( 2 0 1 7 ).   ENI S A   th re a lan d sc a p e   re p o rt  2 0 1 7   -   EU   L a w   a n d   P u b l ica ti o n s.   h tt p s:// d o i . o rg /1 0 . 2 8 2 4 /9 6 7 1 9 2   [5 ]   Da ta,  G . ,   &   Re g u latio n ,   P .   (2 0 1 8 ) .   F ra u d   &   se c u rit y ,   (A p ril ).   [6 ]   S a h ,   U.  K.,   &   P a rm a r,   N.  (2 0 1 7 ) .   A n   a p p ro a c h   f o M a li c io u s S p a m   De tec ti o n   in   Em a il   w it h   c o m p a ris o n   o f   d if f e r e n t   c las si f iers .   [7 ]   M a n w a r,   S .   R. ,   L a m b h a te,  P . ,   &   P a ti l ,   J.  (2 0 1 7 ).   Clas sif ica ti o n   M e th o d f o S p a m   De tec ti o n   In   On li n e   S o c ia l   Ne tw o rk .   [8 ]   A lb e rto ,   T .   C. ,   L o c h ter,  J .   V . ,   &   A l m e id a ,   T .   A .   (2 0 1 5 ,   De c e m b e r).   T u b e sp a m Co m m e n sp a m   f il terin g   o n   y o u tu b e .   I n   M a c h i n e   L e a r n in g   a n d   Ap p li c a ti o n s   ( ICM L A),   2 0 1 5   I EE 1 4 t h   I n ter n a t io n a l   Co n fer e n c e   o n   ( p p .   1 3 8 - 1 4 3 ).   IEE E.   [9 ]   Ha y a ti ,   P . ,   &   P o td a r,   V.  (2 0 0 9 ,   J u n e ).   T o w a rd   sp a m   2 . 0 a n   e v a lu a ti o n   o f   we b   2 . 0   a n ti - sp a m   m e th o d s.  In   I n d u strial   In f o rm a ti c s,  2 0 0 9 .   IND IN  2 0 0 9 .   7 th   I EE I n tern a ti o n a C o n f e re n c e   o n   ( p p .   8 7 5 - 8 8 0 ).   IE E E.   [1 0 ]   Ka u sh a l,   R. ,   S a h a ,   S . ,   Ba jaj,   P . ,   &   Ku m a ra g u ru ,   P .   (2 0 1 6 ,   De c e m b e r).   Kid s T u b e De tec ti o n ,   c h a ra c teriz a ti o n   a n d   a n a ly sis  o f   c h il d   u n sa f e   c o n ten &   p ro m o ters   o n   Yo u T u b e .   In   Pri v a c y ,   S e c u rity  a n d   T ru st   ( PS T ),   2 0 1 6   1 4 th   An n u a l   Co n fer e n c e   o n   (p p .   1 5 7 - 16 4 ) .   IE EE .   [1 1 ]   Af z a l,   H.,   &   M e h m o o d ,   K.  ( 2 0 1 6 ,   Ja n u a ry ).   S p a m   f il terin g   o f   b i - li n g u a tw e e ts  u sin g   m a c h in e   lea rn in g .   In   Ad v a n c e d   C o mm u n ica ti o n   T e c h n o lo g y   ( ICACT ),   2 0 1 6   1 8 th   In te rn a ti o n a Co n fer e n c e   o n   (p p .   7 1 0 - 7 1 4 ).   IEE E.   [1 2 ]   W u ,   F . ,   &   Hu a n g ,   Y.  ( 2 0 1 7 ).   S o c ial  S p a m m e a n d   S p a m   M e s s a g e   De t e c ti o n   in   a n   O n li n e   S o c i a Ne t w o rk Co d e tec ti o n   A p p ro a c h .   S o c ia Ne two rk   An a lys is:  In ter d isc i p li n a ry   Ap p ro a c h e s a n d   Ca se   S tu d ies ,   2 2 5 .   [1 3 ]   P h a n ,   A .   V . ,   L e   Ng u y e n ,   M . ,   &   Bu i,   L .   T .   (2 0 1 7 ) .   F e a tu re   w e ig h ti n g   a n d   S VM  p a ra m e ters   o p ti m iz a ti o n   b a se d   o n   g e n e ti c   a lg o rit h m f o c las si f ica ti o n   p ro b lem s.   Ap p li e d   In telli g e n c e ,   46 (2 ),   4 5 5 - 4 6 9 .   [1 4 ]   G u rso y ,   M .   E. ,   In a n ,   A . ,   Ne r g iz,  M .   E. ,   &   S a y g in ,   Y.  (2 0 1 7 ).   Dif fe re n ti a ll y   p riv a te  n e a re st  n e ig h b o r   c las si f ica ti o n .   Da t a   M in i n g   a n d   K n o w led g e   Disc o v e ry ,   31 ( 5 ),   1 5 4 4 - 1 5 7 5 .   [1 5 ]   U y sa l,   A .   K.,   G u n a l,   S . ,   Erg in ,   S . ,   &   G u n a l,   E.   S .   (2 0 1 3 ).   T h e   imp a c o f   f e a tu re   e x trac ti o n   a n d   se lec ti o n   o n   S M S   sp a m   f il terin g .   El e k tro n ik a   Ir  El e k tro tec h n ik a ,   1 9 (5 ),   6 7 7 2 .   h tt p s: // d o i . o rg /1 0 . 5 7 5 5 /j 0 1 . e e e . 1 9 . 5 . 1 8 2 9   [1 6 ]   S a d o o n ,   O.  H.,   &   Yu so f ,   Y.  (2 0 1 7 ).   De tec ti n g   M a li c io u Us e in   Yo u T u b e   Us in g   Ed g e   Ra n k   Ba se d   F e a tu re   S e t.   In ter n a ti o n a J o u rn a o S o ft   Co mp u t in g ,   12 ( 1 ),   7 - 1 2 .     Evaluation Warning : The document was created with Spire.PDF for Python.