I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   11 ,   No .   4 A u g u s t   2021 ,   p p .   3 6 1 7 ~ 3 6 2 8   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 11 i 4 . pp 3 6 1 7 - 3 6 2 8           3617       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   Tex cla ss ificatio m o d el f o r   m eth a m phe ta m i ne - r el a ted  tw eets  in Sou theas t  Asia   using  dual da ta p reproces sing  t e ch niques       Na ro ng s a k   Cha y a ng k o o n,  Ano ng na rt   Sriv iho k   De p a rtme n o f   Co m p u ter S c ien c e ,   F a c u lt y   o f   S c ien c e ,   Ka se tsa rt  Un iv e rsit y ,   T h a il a n d       Art icle   I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   2 8 ,   2 0 2 0   R ev i s ed   J an   4 ,   2 0 2 1   A cc ep ted   J an   1 8 ,   2 0 2 1       M e th a m p h e ta m in e   a d d ictio n   is  a   p ro m in e n p r o b lem   in   S o u t h e a st  A sia .   Dru g   a d d icts  o f ten   d isc u ss   il leg a a c ti v it ies   o n   p o p u lar  so c ial  n e tw o rk in g   se r v ice s.   T h e se   in d iv id u a ls  s p re a d   m e ss a g e o n   so c ial  m e d ia  a a   m e a n o f   b o t h   b u y in g   a n d   se ll in g   d ru g o n li n e .   T h is  p a p e p ro p o se a   m o d e l,   th e   tex t   c las si f ica ti o n   m o d e o f   m e th a m p h e ta m in e   t w e e ts  in   S o u th e a st  As ia”   (T M TA ),   to   id e n ti fy   w h e th e a   twe e f ro m   S o u th e a st  A sia   is   re late d   to   m e th a m p h e tam in e   a b u se .   T h e   r e se a rc h   a d d re ss e th e   we a k n e ss   o f   b a g   o f   w o rd (Bo W b y   in tro d u c in g   Bo W   a n d   W o rd 2 V e c   f e a tu re   se lec ti o n   (BW F tec h n iq u e s.  A   d o m a in - b a se d   f e a t u re   se lec ti o n   m e th o d   w a p e r f o rm e d   u sin g   th e   Bo W   d a tas e a n d   W o rd 2 Ve c .   T h e   B W F   d a tas e p ro v id e d   a   s m a ll e r   n u m b e o f   f e a tu re th a n   th e   Bo W   a n d   T F IDF  d a tas e t.   W e   e x p e rim e n ted   w it h   th re e   c a n d id a te  c las sif ier s:  S u p p o rt  v e c to m a c h in e   (S V M ),   d e c isio n   tree   (J4 8 a n d   n a iv e   b a y e s   (NB).  W e   f o u n d   t h a th e   J4 8   c las sif ie w it h   th e   BW F   d a tas e p ro v id e d   t h e   b e st   p e rf o rm a n c e   f o th e   T M TA   in   term o a c c u ra c y   (0 . 8 1 5 ) ,   F - m e a su re   (0 . 8 1 8 ),   Ka p p a   (0 . 5 2 8 ) ,   M a tt h e w c o rre latio n   c o e ff icie n (0 . 5 2 9 a n d   h ig h   a re a   u n d e th e   ROC  Cu rv e   (0 . 7 6 3 ) .   M o re o v e r,   T M TA   p ro v id e d   th e   lo w e st  ru n ti m e   (3 . 4 8 0   se c o n d s u sin g   t h e   J4 8   w it h   t h e   BW F   d a tas e t.     K ey w o r d s :   Data   p r ep r o ce s s in g     Featu r s elec t io n   Me th a m p h eta m i n   T ex t c lass if icatio n     T w ee t   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Nar o n g s a k   C h a y an g k o o n     Dep ar t m en t o f   C o m p u ter   Scie n ce ,   Facu l t y   o f   Scie n ce   Kasets ar t U n i v er s it y   B an g k o k   1 0 9 0 0 ,   T h ailan d   E m ail:  n ar o n g s a k . ch a y @ k u . th       1.   I NT RO D UCT I O N   So u t h ea s A s ia  is   co n s id er ed   ce n tr o f   m et h a m p h eta m i n p r o d u ct io n   b ec au s o f   m a n y   r elate d   ar r ests ,   w h ic h   co n tin u to   r is an n u all y   a f ter   in cr ea s i n g   f o u r - f o ld   f r o m   1 9 9 8   to   2 0 1 4   [ 1 ] .   Dr u g   ad d icts   o f te n   talk   ab o u ac ti v ities   r elate d   t o   m et h a m p h eta m i n o n   p o p u lar   s o cial  n et w o r k i n g   s er v ice s .   So m t w ee ts   ar e   p u b lis h ed   o n   s o cial   m ed ia  f o r   th p u r p o s es  o f   b u y in g   a n d   s ellin g   d r u g s   o n li n e.   Ho w e v er ,   litt le  r esear c h   h as   ex a m in ed   t h d e v elo p m e n o f   tex t   clas s if icatio n   m o d els   f o r   t w ee ts   r elati n g   to   m et h a m p h eta m in e   [ 2 ] .   T h is   s tu d y s   o b j ec tiv is   to   p r o p o s n e w   d ata  p r ep r o ce s s in g   t e ch n iq u f o r   m et h a m p h eta m i n e - r elate d   t w ee ts   in   So u t h ea s Asi a.   Fo r   th is   p u r p o s e,   w h av in tr o d u ce d   m o d el  ca ll ed   th te x cla s s i f icat io n   m o d el  o f   m et h a m p h eta m i n t w ee ts   i n   So u t h ea s A s ia  u s in g   d u al  d ata  p r ep r o ce s s in g   tech n iq u e s   ( T M T A ) ”.   A   cr itica l   p r o ce s s   in   th d ev e lo p m en o f   th T MT A   w a s   d ata  p r ep r o ce s s i n g   u s i n g   th b a g - of - w o r d s   ( B o W )   m o d el,   b asic,  class ical,   s tr aig h t f o r w ar d   tech n iq u e,   p o p u lar   f o r   d ata  p r ep r o ce s s in g   in   te x class i f ic atio n .   T h is   m eth o d   co n s id er s   t h f r eq u e n c y   o f   ea ch   w o r d   as  class i f ica tio n   f ea tu r k n o w n   a s   o n e - h o r ep r esen tatio n .   E ac h   w o r d   is   r ep r esen ted   b y   s p ar s v ec t o r   co n s is ti n g   o f   its   i n d ex   a n d   f r eq u en c y   [ 3 ,   4 ] .   A s   f ea t u r es  m a y   p o te n tiall y   r u n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l 11 ,   No .   4 A u g u s t   2021   :   3 6 1 7   -   3628   3618   in to   m u ltip le  v ec to r s ,   B o w s   w ea k n ess   is   th e   li k eli h o o d   o f   r esu lt in g   i n   a   lar g er   s ize   i n   th f o r m   o f   h i g h - d i m en s io n al  v ec to r s   [ 5 ] .   T h cu r r en s t u d y   r ed u ce d   t h is   w e ak n e s s   o f   B o W   b y   p r o p o s in g   th B W tech n iq u e,   n o v el  ap p r o ac h   co n s is t in g   o f   B o W   an d   W o r d 2 Vec   f ea tu r s elec tio n   co m p r i s i n g   t w o   s tep s .   T h f ir s s tep   cr ea ted   tex t   r ep r esen tatio n   d ataset  u s i n g   B o W .   T h s ec o n d   in v o lv ed   a   d o m ai n - b ase d   f ea t u r s elec t io n ,   p er f o r m ed   u s i n g   th B o W   d ataset  an d   W o r d 2 Vec .   W b eg an   b y   co llecti n g   t w ee t s   f r o m   T w itter   th at   o r ig i n ated   f r o m   So u t h ea s A s ia  an d   d i v i d in g   th e m   in to   t w o   cla s s es,  n a m el y   ab u s an d   n o n - ab u s e.   W th e n   e x p er i m e n ted   w it h   t h r ee   clas s i f icatio n   alg o r it h m s ,   in cl u d in g   s u p p o r v ec to r   m a ch in ( SV M) ,   d ec is io n   tr ee   ( J 4 8 )   an d   n aiv b a y es  ( NB ) .   W m ea s u r ed   th e   p er f o r m a n ce   o f   ea c h   m o d el  b ased   o n   ac cu r ac y ,   F - m ea s u r e,   th A r ea   u n d er   th R OC   c u r v ( A U C ) ,   Kap p a,   Ma tth e w s   co r r elatio n   co ef f ici en ( MCC )   an d   r u n ti m e.   Fin a ll y ,   w co m p ar ed   o u r   m o d el  w it h   t h r ee   d if f er e n t   d ata  p r ep r o ce s s in g   tec h n iq u e s   ( B o W ,   T F I DF,  B W F).   T h ex p er i m e n tal   r esu lts   s h o w e d   th at  t h T MT A ,   u s i n g   th J 4 8   an d   B W F d ataset,   p r o v id ed   th h ig h est p er f o r m an ce   m ea s u r e m en ts .   T h is   r esear ch   co n tr ib u te s   to   th liter atu r a   n e w   d ata  p r ep r o ce s s in g   tec h n iq u f o r   class i f y in g   m et h a m p h eta m i n e - r elate d   t w e ets.  B W p r o v id es  s m a ller   d ataset  th a n   tr ad itio n al  o r   w id el y   u s ed   tech n iq u e s   s u c h   a s   B o W   an d   T F I DF.  F u r th er m o r e,   th e   T MT A   m o d el  ca n   ac c u r atel y   id en ti f y   n ar co tic  m et h a m p h eta m i n t w ee t s .   He n ce ,   th is   m o d el  ca n   b d e v el o p ed   as  an   ap p licatio n   s y s te m   to   m o n ito r   t w ee t s   r elate d   to   m et h a m p h eta m i n o n   th T w i tter   p latf o r m   i n   So u t h ea s Asi a.   A lt h o u g h   h an d f u l   o f   r esea r ch er s   h a v u s ed   d if f er e n c lass i f ier s   to   d ev e lo p   tex cla s s i f icatio n   m o d el s   f o r   t w ee t s   r elate d   to   illeg al  d r u g s ,   f e w   r esear ch   s t u d ies  ar av ailab le.   P h a n   et  a l.   [ 2 ]   d ev elo p ed   a   m o d el  to   d etec t h s h ar in g   o f   t w ee t s   r elate d   to   illeg al  d r u g s ,   i n cl u d in g   m ar ij u an a,   co ca in an d   h er o in .   T h e   au th o r s   co n d u cted   th eir   r esear ch   in   r u r al  r eg io n   o f   th Un ited   States   o f   Am er ica  ( US A ) .   T h eir   d ataset  w a s   d iv id ed   b y   ex p er ts   i n to   2   class es:  A b u s o r   n o n - ab u s e.   B o W   an d   T F - I DF  w er u s ed   as  d ata  p r ep r o ce s s in g   tech n iq u es,   a n d   3   class i f ier s   w er u s ed SV M,   J 4 8   an d   NB .   T h s tu d y   f i n d in g s   r e v ea led   th at  t h b est  m o d el  w a s   th J 4 8   alg o r ith m   u s in g   t h T F I DF  m et h o d ,   w h ic h   p r o v id ed   th h ig h est  F - m ea s u r e   o f   0 . 7 4 8 0 .   R ag in i   an d   An an d   [ 6 ] ,   i n   a   s t u d y   a d d r ess in g   t h m u lti - clas s   c las s i f ica tio n   p r o b lem   f o r   d is a s ter   ev e n t   i n   I n d ia,   co llected   7 0 , 8 1 7   r elev an t w e ets  f r o m   2 0 1 4   to   2 0 1 5 .   T h ey   d iv id ed   th t w ee t s   i n to   7   class es:  f o o d ,   w ater ,   s h elter ,   a n d   m ed ical  e m er g en c y ,   p eo p le  tr ap p ed ,   co llap s ed   s tr u ctu r a n d   elec tr ici t y .   Nex t,  t h a u t h o r s   cr ea ted   m o d el s   u s i n g   S VM   an d   NB   cl ass i f ier s .   T h b est - p er f o r m i n g   m o d el  in   t h is   ca s u s ed   t h S VM   class i f ier   w it h   th T F - I DF   d ataset.   W an g   et   a l .   [ 7 ]   co m p ar ed   th e f f icie n c y   o f   d ata  p r ep r o ce s s in g   tech n iq u es  co n s is tin g   o f   B o W ,   T F I DF,  P V - DM   an d   P V - DB OW .   T h d ataset  u s ed   in   th e x p er i m e n t,  b ased   o n   th Sh a n g h ai  a n d   Sh e n zh e n   Sto ck   E x c h a n g e s ,   w a s   d i v id ed   in to   2   d atasets s m all   clas s   a n d   b ig   clas s .   T h class i f icatio n   m o d els   w er NB ,   lo g is t ic  r eg r ess io n ,   SVM,   K - n ea r est  n eig h b o u r   ( K NN)   an d   Dec is io n   T r ee .   T h r esear ch er s   r ep o r ted   th at  t h s m all  c lass   d ataset,   u s i n g   t h S VM   al g o r ith m   w i th   t h T F - I D d ataset,   d e m o n s tr ated   t h h i g h e s t   ac cu r ac y   o f   0 . 8 3 5 5 .     Gh o s h   et  a l [ 8 ]   ad d r ess ed   t h m u lti - cla s s   c lass if ica tio n   p r o b lem   f o r   d is a s ter   e v en ts   co n s is ti n g   o f   ea r th q u a k es,  h u r r ican e s ,   elec tr ical  o u tag es  a n d   d r o u g h t.  T h ex p er i m en ta t w ee ts   i n   th 2 0 1 5   d ataset  r elate d   to   th Nep al  ea r th q u a k i n   Ap r il  o f   th at  y ea r .   T h T F I DF  m et h o d   p r o v id ed   th d ataset  f o r   th m o d el s   th at   w er cr ea ted   u s i n g   th e   f o llo w i n g   clas s if ier s : N B ,   SV M,   De ci s io n   T r ee ,   A d aB o o s t,  r an d o m   f o r est a n d   g r ad ien t   b o o s tin g .   Acc o r d in g   to   t h r esu lt s ,   t h m o d el  cr ea ted   u s i n g   SVM   w it h   th e   T F - I DF  d ataset  p r o v id ed   t h e   h ig h e s F - m ea s u r o f   0 . 9 1 7 8 .   B u r el  an d   A la n [ 9 ]   also   ad d r ess ed   d is aster   ev e n t s   w ith   d ataset  th at  co n s i s ted   o f   2 8 , 0 0 0   t w ee ts   o n   v ar io u s   cr is es  b et w ee n   2 0 1 2   an d   2 0 1 3 .   T h eir   t w o   m o d els  w er b ased   o n   th e   co n v o lu tio n al  n e u r al  n e t w o r k   ( C NN)   clas s if ier   u s in g   w o r d - e m b ed d in g   d atase an d   t h S VM   class if ier   u s in g   th T F - I DF  d ataset.   T h r es u lts   s h o w ed   t h at  C N w it h   w o r d - e m b ed d i n g   d ataset  d i d   n o s ig n i f ica n tl y   o u tp er f o r m   SVM  w it h   t h T F - I DF  d ataset.   T h liter atu r r ev ie w   also   co v er s   clas s i f ier s   f o r   th d ev elo p m en t   o f   tex clas s i f icatio n   m o d els   u s i n g   t w ee ted   d ata  w i th   clas s i f ier s   co n s i s ti n g   o f   S VM ,   J 4 8   an d   NB .   T h S VM   class i f ier   w it h   T F I DF  w a s   w id el y   u s ed   to   d ev elo p   th te x clas s i f icatio n   m o d el.   A d d itio n all y ,   r esear c h er s   ch o s th J 4 8   an d   NB   class i f ie r s   to   d ev elo p   th tex t c las s i f ic atio n   m o d el.   T ex r ep r esen tatio n   is   p ar o f   n at u r al  la n g u a g p r o ce s s in g   ( N L P ) ,   w h i ch   co n v er t s   tex t   d ata  in to   n u m er ic  v ec to r s   t h at  th m ac h in ca n   m a n ip u late.   Nu m er o u s   m et h o d s   ca n   p er f o r m   tex d ata  co n v er s io n .   O n e   s i m p le  ap p r o ac h   g i v es  ea c h   w o r d   o n e - h o r ep r esen ta tio n ,   s u c h   as  B o W .   I n   ad d itio n ,   T F - I DF  tex r ep r esen tatio n   i s   p o p u lar   t ec h n iq u f o r   d ev elo p in g   te x t c l ass i f icatio n   m o d el.   As  m en tio n ed ,   B o W   in v o lv e s   co llectio n   o f   w o r d s   th at  r ep r esen t s   th f ea tu r e s   o f   th te x b y   t h w o r d   f r eq u e n c y .   Fo r   ex a m p le,   w o r d   h as   v al u o f   o n e   if   it  ap p ea r s   o n ce   i n   th e   tex t.  T h v ec to r   r ep r esen tatio n   o f   te x u s i n g   B o W   is   an   u n s tr u ctu r ed   tex d o cu m e n [ 3 ,   4 ] .   Fu r th er m o r e,   ter m   f r eq u en c y   ( T F)  is   ca lcu latio n   o f   th f r eq u e n c y   o f   w o r d   th at   ap p ea r s   in   th d o cu m e n r elati v to   th e   to tal  n u m b er   o f   w o r d s   in   th d o cu m e n t.  A   h i g h   T v alu e   in d icate s   t h e   i m p o r tan ce   o f   th w o r d .   I n   ad d itio n ,   in v er s d o cu m e n f r eq u en c y   ( I DF)   is   th i n v er s o f   th w o r d   f r eq u e n c y   in   t h d o cu m e n t.  A   h i g h   I D v alu in d icate s   an   i m p o r tan w o r d ,   w h ic h   s h o u ld   ap p ea r   o n l y   in   t h at  ca te g o r y   an d   n o in   o t h er   ca teg o r ies.  T h er ef o r e,   ter m   f r eq u en c y - i n v e r s d o cu m e n f r eq u e n c y   ( T F - I DF)   is   th w e ig h t   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Text  cla s s ifica tio n   mo d el  fo r   meth a mp h eta min e - r ela ted   tw e ets in   S o u th ea s t.. .   ( N a r o n g s a C h a ya n g ko o n )   3619   in d icati n g   t h i m p o r ta n ce   o f   t h w o r d .   T F - I DF  d eter m i n es  t h w eig h o f   th w o r d   ( w )   in   d o cu m en ( d )   th at   ap p ea r s   in   th d o cu m e n t,  b ase d   o n   ( 1 )   [ 1 0 ,   1 1 ] .      =   ( ,   ×   )   ( 1 )     T o m as  M ik o lo v   d ev elo p ed   W o r d 2 Vec   as  to o f o r   N L P .   T h is   to o l,  w h ic h   e m p lo y s   d ee p   n e u r al   n et w o r k s   t h at  tr ai n   w o r d   ass o ciatio n s   to   s y n o n y m o u s   w o r d s ,   is   u s ed   to   cr ea te  p r e - tr ain ed   w o r d   e m b ed d in g   m o d el   t h at  i s   tr ai n e d   f r o m   th co r p u s .   W o r d 2 Vec   h as  t w o   d if f er en t   al g o r ith m s :   T h S k ip - g r a m   m o d el  a n d   co n tin u o u s   b ag - of - w o r d s   ( C B OW ) .   T h o s m o d els  r ep r esen f ea tu r es  t h at  u s th v ec to r   n u m b er .   S y n o n y m   w o r d s   ca n   b f o u n d   b y   u s i n g   t h co s in s i m ilar it y   f u n ctio n   b et w ee n   t h t w o   v ec to r s   [ 1 2 ] .   C o s i n s i m ilar it y   i s   s ta tis tic al  tech n iq u u s ed   to   m ea s u r e   th s i m ilar it y   b et w ee n   t w o   d o cu m e n t s   ( 1 , 2 )   r ep r esen ted   b y   n u m er ic  v ec to r s   in   th p r o j ec tio n   s p ac e.   A   co s i n s i m ilar it y   v a lu clo s er   to   o n e   s u g g e s ts   s i m ilar   d o cu m e n ts alter n ati v el y ,   v al u t h at  i s   clo s er   to   ze r o   s u g g est s   d is s i m ilar   o n e s .   C o s i n e   s i m ilar it y   i s   ca lcu lated   as s h o w n   i n   ( 2 [ 1 3 ] .      ( 1 , 2 ) =   1 , 2 ( 1 . 2 ) 1 / 2 + ( 1 . 2 ) 1 / 2   ( 2 )     Data   clas s if icatio n   is   th p r o c ess   o f   cr ea tin g   m ac h i n lear n i n g   m o d els   in   w h ich   r elatio n s h ip   e x is ts   b et w ee n   t h f ea tu r es  a n d   clas s es  o f   a   d ataset.   P o p u lar   d a ta  class i f icatio n   al g o r ith m s   ar S VM   [ 1 4 ] ,   J 4 8   [ 1 5 ]   an d   NB   [ 1 6 ] .   SVM  is   a   cla s s i f icatio n   al g o r ith m   d e s i g n ed   f o r   b in ar y - cla s s   p r o b lem s .   S VM   class i f ier s   cr ea te  a   d ec is io n   b o u n d ar y   i n   h y p er p lan th at  d iv id es  t h d ata  in to   t w o   class e s   in   th f ea t u r s p ac u s i n g   n o n - p r o b a b ilis tic  b in ar y   b ased   o n   lin ea r   f u n ctio n .   T h f u n ctio n   d eter m i n es  d ec is io n   b o u n d ar y   t h at  m a x i m ize s   th m ar g in   b et w ee n   t h s u p p o r v ec to r s .   Ho w e v er ,   f u n ctio n s   d ef i n i n g   t h d ec is io n   b o u n d ar y   ca n   b e   p o ly n o m ia an d   r ad ial  b ased .   T h ad v an tag o f   t h SVM  class i f ier   is   t h at  it  d o es  n o c au s a n   o v er f it tin g   p r o b lem   f r o m   t h m o d el  m e m o r iz in g   to o   m an y   o f   t h tr ai n in g   s et.   T h er ef o r e,   th e   m o d e ca n n o clas s i f y   th e   test   d ataset   to   its   b est  ab ilit y   [ 1 4 ] .   I n   co m p ar is o n ,   J 4 8   i s   Dec i s io n   T r ee   class i f ic at io n   al g o r ith m .   J 4 8   class i f ier s   s elec t h f ea t u r w it h   t h h ig h es in f o r m at io n   g ain   v al u e,   w h ich   i s   t h en   u s e d   as  th r o o n o d o f   th tr ee .   T h m o d el  is   cr ea ted   u s i n g   to p - d o w n   g r ee d y   s ea r ch   th at  s e lects  f ea tu r e s   f r o m   th r o o n o d e.   T h J 4 8   class if ier   i s   s u itab le  f o r   l ar g d atasets   b ec a u s o f   its   l o w er   r u n ti m [ 1 5 ] .   Fin all y ,   NB   class i f ier s   u s a   co n d itio n al  p r o b ab ilit y   ca lc u l atio n .   P   ( |   B )   is   t h co n d itio n al  p r o b ab ilit y   o r   p r o b ab ilit y   t h at  e v en B   o cc u r s   f ir s a n d   is   f o llo w ed   b y   e v en A .   P   ( A   ∩  B )   is   t h j o in p r o b ab ilit y   o r   th p r o b ab ilit y   th at  e v en A   a n d   ev en B   w il b o th   o cc u r .   ( B )   is   th p r o b a b ilit y   th at  ev e n B   w ill  o cc u r .   T h NB   class if ier   m a k es  it  ea s y   to   tr ain   m o d el s   u s i n g   d ataset  w i th   lar g n u m b er   o f   f ea t u r es,  s u ch   a s   tex d ata s ets.  T h co n d itio n al  p r o b ab ilit y   ca lcu latio n   is   s h o w n   i n   ( 3 )   [ 1 6 ] .     P   ( A   |   B ) =   P   ( A     B ) P   ( B )   ( 3 )     P er f o r m a n ce   m ea s u r e m e n ts   a r th m ea s u r e m en ts   o f   te x t   class i f icatio n   m o d els  t h at  a s s es s   th e ir   ac cu r ac y .   Ho w e v er ,   th i s   p r o ce s s   m a y   s o m e ti m e s   e n d   u p   r e v is i n g   t h m o d el  a n d   ev al u ati n g   th te x m i n i n g   p r o ce s s   u n t il  t h m o d el  i s   th m o s ac c u r ate.   A cc u r ac y   is   ca lcu lated   f r o m   t h co r r ec class i f icatio n   o f   t h e   m o d el  t h at  co n s id er s   all  clas s e s   d iv id ed   b y   al l d ata,   as sh o w n   in   ( 4 )   [ 1 7 ] .       =    +   + +  +    ( 4 )     F - m ea s u r is   an   o v er all  v a lu e   th at  m ea s u r es  t h co r r elatio n   b et w ee n   p r ec is io n   a n d   r ec all   v al u es,  a s   s h o w n   in   ( 5 )   [ 1 8 ] .       =  / (  +  )  =  / (  +  )        =   2   ×       ×        +      (5 )     A U C   i s   t h ar ea   u n d er   th r e ce iv er   o p er atin g   c h ar ac ter is t i ( R OC )   c u r v g r ap h .   A U C   i s   th ar ea   u n d er   t h e   2 g r ap h   to   th e   x - a x is   ( r ep r esen ti n g   t h FP )   an d   th y - ax is   ( r ep r esen tin g   th e   T P ) ,   as  s h o w n   in   ( 6 )   [ 1 9 ].      =   1 +   2   ( 6 )     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l 11 ,   No .   4 A u g u s t   2021   :   3 6 1 7   -   3628   3620   T h Kap p a   co ef f icien is   s t atis tic  u s ed   to   ex a m in t h co n s i s te n c y   o f   th r es u lts   o f   cla s s i f icatio n   b et w ee n   t w o   clas s es.  T h d ata s et  u s ed   in   th e x p er i m e n d o es  n o h av to   h a v n o r m al  d is tr ib u tio n   o r   n o n - p ar am etr ic  s ta tis t ics.   P o   is   t h o b s er v ed   p r o b a b ilit y   o f   ag r ee m e n t,  an d   P e   is   th h y p o th etica ex p ec ted   p r o b a b ilit y   o f   ag r ee m e n t,  as s h o w n   i n   ( 7 )   [ 2 0 ] .      =   1   ( 7 )     MCC   is   a   m ea s u r o f   t h e f f i cien c y   clas s i f icatio n   r es u lts   t h at  i s   u s ed   w it h   t w o - cla s s   d at asets .   T h e   MCC   v al u d eter m in e s   t h b a lan ce   o f   clas s if icatio n   r e s u l ts   w it h   a   v al u b et w ee n   - 1   an d   +1   b ein g   ca lc u lated   u s i n g   T P ,   T N,   FP   an d   FN,  as sh o w n   i n   ( 8 )   [ 2 1 ,   2 2 ] .      =  ×   ×  (  +  ) (  +  ) (  +  ) (  +  )   ( 8 )     R u n ti m p er f o r m a n ce   is   ca lc u lated   f r o m   t h 3   co m p o n e n t s   o f   th ac t u al  w o r k i n g   ti m e:   tr ain   ti m e ,   test   ti m an d   m o d el  ti m [ 2 3 ] .       2.   P RO P O SE AL G O R I T H M   T h B W alg o r ith m   w as  d o m ai n - b ased   f ea t u r s elec ti o n   tech n iq u p er f o r m ed   u s i n g   th B o W   d atase an d   W o r d 2 Vec .   T h is   alg o r ith m   f il ter ed   th f ea t u r es   o f   t h B o W   d ataset  to   p r o d u ce   n e w   d ata s et  f o r   th cr ea tio n   o f   te x cla s s i f ic atio n   m o d el.   T h ad v an ta g o f   t h is   al g o r ith m   w a s   t h at  it  cr e ated   B W d ataset   s m al ler   th a n   t h B o W   d ataset.   T h B W alg o r i th m   in cl u d e d   t w o   s tep s .   T h f ir s t   s tep   i n v o lv ed   cr ea ti n g   th e   B o W   d ataset,   co n s is tin g   o f   th s et  o f   a n   in s ta n ce   w h er b o w   s u c h   t h at  ea c h   b o w   w as  i n s tan ce   1   to   i n s ta n ce   n ,   as sh o w n   i n   ( 9 ) .      = {  1 ,  2 , ,  }   ( 9 )     w as  s et  o f   f ea t u r es  i n   t h B o W   d ataset   w h er W   co n tain ed   th s et  o f   f ea t u r es  s tar tin g   f r o m   f ea t u r 1   to   f ea tu r w ,   as s h o wn   in   ( 10 ) .     = {   1 ,   2 , ,   }   ( 1 0 )     T h s ec o n d   s tep   in v o lv ed   d o m a in - b ased   f ea t u r s elec tio n   tech n iq u e,   p er f o r m ed   u s i n g   B o W   an d   W o r d 2 Vec .   T h d o m ai n - b ase d   f ea tu r s elec t io n   tech n iq u u s ed   th r ee   s tep s :     W o r d 2 Vec   w as  u s ed   to   p r o d u ce   p r e - tr ain ed   w o r d   e m b ed d in g   m o d el  f r o m   th m et h a m p h eta m in t w ee t   d ataset.   W u s ed   th S k ip - g r a m   m o d el,   an   al g o r it h m   t h at   g en er ated   th p r e - tr ain ed   wo r d   em b ed d in g   m o d el  u s i n g   W o r d 2 Vec .   T o m as  Mi k o lo v   s u g g ested   th is   alg o r ith m ,   w h ic h   w as  s u p er io r   f o r   in f r eq u en t   w o r d s .   T h o s w o r d s   co n s i s ted   o f   tec h n ical   ter m s ,   s la n g   n a m an d   s y n o n y m   n a m e.   T h S k ip - g r a m   m o d el   s elec ted   in f r eq u e n w o r d s   to   ca lcu late  th v ec to r   n u m b er .   T h u s ,   i n f r eq u e n t   w o r d s   h ad   a   h i g h er - q u al it y   v ec to r   n u m b er   th a n   w h en   u s i n g   C B OW   [ 1 2 ] .   T h p r e - tr ain ed   w o r d   em b ed d in g   m o d el  co n s i s ted   o f   1 0 0 - d i m en s io n a l   f ea t u r es   r ep r esen t ed   b y   v ec to r   n u m b er .   W d ef i n ed   th e   1 0 0 - d i m e n s io n al  f ea tu r es  in   f o cu s i n g   o n   r u n t i m co m p ete n cie s   th at   w er u s ed   to   cr ea te  th p r e - tr ain ed   w o r d   e m b ed d in g   m o d el  f r o m   lar g e   co r p u s .     T h s et  o f   d o m ai n - b ased   f ea t u r es ( SDB F)  w a s   cr ea ted   b y   m e asu r i n g   th co s i n s i m ilar it y   b et w ee n   d o m ai n   k e y w o r d s   i n   t h p r e - tr ain ed   wo r d   em b ed d in g   m o d el.   O u r   r e s ea r ch   u s ed   t h k e y w o r d   met h a mp h eta min e ”  as th co m m o n   n a m o f   m et h a m p h eta m i n e.          =           (                 ,  )       T h SDB w as  s o r ted   b y   d e s ce n d i n g   co s i n s i m ilar it y .   I f   th co s in s i m ilar it y   w as  e q u al  to   o r   g r ea ter   th a n   0 . 8 ,   th o s f ea t u r e s   w er s elec ted   f o r   in cl u s io n   as  f il ter   f ea t u r es  o f   t h B o W   d ataset.   T h e   SDB F   co n tain ed   t h s et  o f   f ea t u r es st ar tin g   f r o m   f ea t u r 1   to   f ea tu r w' ,   as sh o w n   in   ( 11 ) .     S DB F   = {   1 ,   2 , ,   }   ( 1 1 )     T h B o W   d ataset  w a s   f i lter e d   to   k ee p   o n ly   t h f ea tu r es  i n   th SDB F.  Nex t,  t h B o W   d a taset  w as   co n s id er ed   b ased   o n   t h e   s u m m ed   f r eq u en c y   in   ea ch   i n s ta n ce   o f   t h d atase t.  I f   t h s u m   f r eq u e n c y   o f   a n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Text  cla s s ifica tio n   mo d el  fo r   meth a mp h eta min e - r ela ted   tw e ets in   S o u th ea s t.. .   ( N a r o n g s a C h a ya n g ko o n )   3621   in s ta n ce   w as   eq u al  to   ze r o ,   th at  in s tan ce   w a s   d elete d   f r o m   t h e   B o W   d ataset.   T h is   r e s ea r ch   u s ed   th e   R   p r o g r am m i n g   p ac k a g to   i m p le m e n t h B W al g o r ith m   [ 2 4 ] .   T h p r o p o s ed   d ata  p r ep r o ce s s in g   tec h n iq u e   co n s is ted   o f   th B W F a lg o r it h m ,   as s h o w n   i n   Fi g u r 1 .         In p u t :   = {  1 ,  2 , ,  }                           M e t h a m p h e t a m i n e   T w e e t   D a t a set     Ou t p u t :        = {  1 ,  2 , ,  } .   1   Pre - t r a i n e d   w o rd   e m b e d d i n g   m o d e l   =   W o r d 2 V e c ( Me t h a m p h e t a m i n e   T w e e t   D a t a se t )   2   S D B F   =   C o si n e   S i m i l a r i t y   ( P re - t ra i n e d   w o r d   e m b e d d i n g   m o d e l ,   k e y w o r d s )   3   S D B F   i s so r t e d   b y   d e sce n d i n g   c o si n e   si mi l a r i t y   4   Fo r   e a c h       in   S D B F   5                   I f   c o si n e   si mi l a r i t y   v a l u e   l e ss t h a n   0 . 8   6   ……. . .       is   r e mo v e d   f r o S D B F   7                   E n d   I f   8   E n d   F o r   9   R e t u r n   S D B F   d a t a se t                                                                                                                                         S D BF   = {   1 ,   2 , ,   }   10      d a t a se t   C o p y   o f     11      d a t a se t   i IN N E R   J o i n     a n d   S D B F                                                                   = {   1 ,   2 , ,   }   12   Fo r   e a c h      i n    d a t a s e t     13                 |  |   i t h e   s u m fr e q u e n c y   o f   a n   i n s t a n c e   i n      14                 If   |  e q u a l   t o   0   1 5   ……. . .      i s re mo v e d   f r o m      d a t a se t   1 6                 E n d   I f   1 7   E n d   F o r   18   R e t u r n      d a t a se t     Fig u r 1 .   B W F a lg o r ith m       Fro m   Fi g u r 1 ,   t h r esu lt  o f   t h B W alg o r ith m   w as  n e w   d ataset,   ca lled   th B W d atas et”,   w h ic h   u s ed   th s a m tex r ep r esen tatio n   o u tco m es  f r o m   th B o W   d ataset.   T h is   d ataset  w a s   u s ed   f o r   tex t   class i f icatio n   in   t h at  t h w o r d   f r eq u en c y   w a s   u s ed   f o r   th f e atu r o f   th tr ai n i n g   w i th   t h c lass i f ier   alg o r it h m .   Ho w e v er ,   th B W d ataset  h a d   f e w er   f ea t u r es  an d   in s ta n ce s   th a n   th B o W   d ataset.   T h B W co n tain ed   th e   s et  o f   v ec to r izatio n   ( b o w ' ) ,   w h er ea ch   v ec to r izatio n   w as  f r o m   in s ta n ce   1   to   in s ta n ce   m ,   as  s h o w n   in   ( 12 ) :          = {  1 ,  2 , ,  }   ( 1 2 )     P r o o f:     L et  w   b th e   n u m b er   o f   f ea tu r es   in   B o W .   L et  S DB F   b t h e   s et  o f   f ea t u r es.   S DB F   d er iv e s   f r o m   th e   co s in s i m i lar it y   u s in g   t h t h r esh o ld   o f   0 . 8 .   L et  w'   b th n u m b er   o f   f ea t u r es   in   S DB F .   T h B W F   d ataset  i s   d er iv ed   f r o m   B o W   w it h   o n l y   t h f ea t u r es   i n   S DB F .   T h u s ,   th n u m b er   o f   f ea t u r es  in   t h B W F   d ataset  m u s b e   at  m o s w' .   Mo r eo v er ,   th B WF  d ataset  is   p r o d u ce d   b y   r e m o v in g   ( in s tan ce   o f )   B o W   in   wh ich   t h s u m s   o f   al l   f ea t u r f r eq u en cie s   ar eq u al  to   0 .   T h er ef o r e,   th n u m b er   o f   in s tan ce s   in   t h e   B W F   d atase t   m u s b e   less   th a n   th at  o f   B o W .       3.   RE S E ARCH   M E T H O D   T h is   r esear ch   co n s is ted   o f   t w o   o b j ec tiv es.  T h f ir s w a s   th d ev elo p m en o f   th B W F”  d ataset.   T h s ec o n d   w a s   th d ev elo p m e n o f   th T M T A ,   w h ich   co n s is t ed   o f   th f o llo w i n g   s tep s t wee co llectio n ,   d ata  p r ep r o ce s s in g ,   cla s s i f icatio n ,   p er f o r m a n ce   te s ti n g   an d   h y p o th esi s   tes tin g ,   a s   s h o w n   i n   t h o v er v ie w   o f   t h e   r esear ch   f r a m e w o r k   i n   Fi g u r 2 .     3 . 1 .     T w ee t   co llect io n   3 . 1 . 1 .   Sy no ny m   ide ntif ica t io n   T h is   p r o ce d u r in v o lv ed   th id en tif icatio n   o f   k ey w o r d s   r elate d   to   m eth am p h etam in co n s is tin g   o f   th co m m o n   n am e,   s lan g   n am an d   s tr ee n am e.   T h ese  w er co llected   an d   id en tif ied   b y   th UK  p o lice  [ 2 5 ] .   I n   ad d itio n ,   w u s ed   th co m m o n   n am o f   m eth am p h etam in to   m ea s u r co s in s im ilar ity   w ith   Go o g le  New s   v ec to r s   [ 2 6 ]   to   lo o k   f o r   ad d itio n al  s lan g   n am es  th at  h ad   n o b ee n   co llected   an d   id en tif ied   b y   th UK  p o lice.     3 . 1 . 2 .   T w ee t   re t riev a l   T w ee r etr iev al  i s   th s elec tio n   o f   s h o r tex o n   T w itter   r elat ed   to   m eth a m p h e ta m in t h at  w a s   p o s ted   b y   u s er s   i n   So u th ea s A s ia,   s p ec if icall y   T h ailan d ,   I n d o n e s ia,   an d   M y an m ar .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l 11 ,   No .   4 A u g u s t   2021   :   3 6 1 7   -   3628   3622       Fig u r 2 .   R esear ch   f r a m e w o r k       3 . 1 . 3 .   T w ee t   la belin g   T w ee t s   w er lab eled   b y   an   ex p er f r o m   t h R o y a T h ai  P o li ce   Fo r en s ics  O f f ice  in to   2   class es:  No n - ab u s o r   ab u s e.   No n - ab u s t wee ts   m e n tio n ed   th p en alt y   f o r   u s i n g   m et h a m p h eta m i n o r   its   u s a s   m ed ici n e.   T h ab u s cla s s   co n tai n ed   t wee ts   ab o u th e   ille g al  u s e   o f   m eth a m p h eta m i n e,   i n cl u d in g   t wee ts   p r o m o tin g   th e   u s o f   m et h a m p h eta m i n e,   s u c h   as e n co u r ag i n g   s u b s ta n ce   ab u s to   r ed u ce   o b esit y .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Text  cla s s ifica tio n   mo d el  fo r   meth a mp h eta min e - r ela ted   tw e ets in   S o u th ea s t.. .   ( N a r o n g s a C h a ya n g ko o n )   3623   3 . 1 . 4 .   M et ha m ph et a m ine t w ee t   da t a s et   ( M T D)   W co llected   2 , 8 9 9   t w ee t s   f r o m   o n lin e   s o cial  m ed ia  r elate d   to   m et h a m p h eta m i n i n   So u t h ea s Asi a   th at  an   e x p er f r o m   t h R o y a T h ai  P o lice  Fo r en s ics  O f f ic s u b s eq u e n tl y   lab eled .   T h ese  d ata  w er d iv id ed   in to   t w o   cla s s e s 2 , 1 7 0   in s tan ce s   o f   n o n - ab u s an d   7 2 9   in s t an ce s   o f   ab u s e,   f o r   to tal  o f   2 3 , 1 7 5   w o r d s .   T h o u tp u t o f   t h is   s tep   w as M T D,   w h o s p r o p er ties   ar s h o w n   i n   T a b le  1 .       T ab le  1 .   C h ar ac ter is tics   o f   M T D   I n st a n c e s     2 , 8 9 9   N u mb e r   o f   C l a sse s     2   N u mb e r   o f   C l a ss   M e mb e r s   N o n - A b u se   A b u se   2 , 1 7 0   7 2 9   T o t a l   F e a t u r e s (w o r d s)     2 3 , 1 7 5       3 . 2 .     Da t a   prepro ce s s ing   T h is   p r o ce s s   co n s is ted   o f   co r p u s   p r ep ar atio n ,   tex t r ep r esen ta tio n   an d   B W F.     3 . 2 . 1 .   Co rpus   prepa ra t io n   C o r p u s   p r ep ar atio n   i n clu d ed   s to p   w o r d   eli m in at io n   a n d   s te m m in g .   Sto p   w o r d   eli m i n atio n   i n v o l v ed   r e m o v i n g   s o m w o r d s   t h at   w e r n o t i m p o r tan t   an d   d id   n o n ee d   to   b f u r th er   an al y ze d .   Sto p   w o r d   eli m i n atio n   co n s is ted   o f   m a k i n g   a ll  w o r d s   lo w er ca s e,   cu tti n g   m ar k er s ,   cu tti n g   tab s ,   cu tt in g   s t o p   p o in ts   an d   cu tti n g   s to p   w o r d s ,   s u c h   as   o n ”,   i n ”,   to ”  an d   t h e” .   Ste m m i n g   w as   th m o d if ica tio n   o f   w o r d s   t h at  h ad   th e   s a m s te m   m ea n in g   b u w er w r i tten   d i f f er en tl y ,   s u c h   as  ea t”  an d   ea tin g ”.   Ste m m in g   r ed u ce d   t h n u m b er   o f   f ea t u r es  o f   th m et h a m p h eta m in d ata s et  [ 2 7 ] .     3 . 2 . 2 .   T ex t   re presenta t io n   T h p r o ce s s   o f   tex r ep r ese n t atio n   w as   p ar o f   N L P   th at   co n v er ted   te x to   v ec to r .   Vec to r izatio n   cr ea ted   s et  o f   v ec to r s   n u m b er   r ep r esen tin g   te x t w ee t s   t h a w er u s ed   to   cr ea te  te x cl ass i f icatio n   m o d el.   T h class if ier   co u ld   o p er ate  o n   th tex v ec to r s .   W u s ed   d ata  p r ep r o ce s s in g   tech n iq u e s   co n s is tin g   o f   B o W ,   TF I DF  an d   B W F,  u s i n g   B o W ,   p o p u lar   tex v ec to r izatio n   m o d el,   as  a   b aseli n e.   I f   w o r d s   ap p ea r ed   in   th e   t w ee t s ,   t h en   t h f r eq u e n c y   w a s   co u n ted   as  1 o th er w i s e,   it  w a s   co u n ted   as  0   [ 3 ,   4 ] .   T h T F - I DF  alg o r it h m ,   a   d ata  p r ep r o ce s s in g   tech n iq u e   th at  r ep lace d   t h te x w it h   w e ig h v alu e s ,   ca lc u lated   t h w e ig h o f   i m p o r ta n ce   th at  w o r d s   u s ed   a s   f ea t u r f o r   ea ch   t w ee t.  W d eter m in e d   th at  a n   i m p o r tan f ea t u r s h o u ld   n o ap p ea r   i n   ev er y   t w ee t.  T h T F I DF  m et h o d   is   w id el y   u s ed   i n   te x m i n in g   r esear ch   [ 1 0 ,   1 1 ] ,   w h ile   B W r ep r esen ts   t h e   n e w   d ata  p r ep r o ce s s in g   tec h n i q u th at  o u r   r esear ch   p r o p o s ed .   T h is   alg o r it h m   p er f o r m ed   th d o m ain   f ea t u r es   s elec tio n   o f   t h B o W   d ata s et.     3 . 3 .     Cla s s if ica t io n   C las s i f icatio n   w as  t h p r o ce s s   o f   cr ea tin g   te x clas s i f icatio n   m o d els.  I n   t h i s   s t u d y ,   t h cla s s i f icatio n   alg o r ith m s   SVM   [ 1 4 ] ,   J 4 8   [ 1 5 ]   an d   NB   [ 1 6 ] ,   class i f ier s   f o u n d   i n   t h W ek a   s o f t w ar e,   w er u s ed   to   cr ea te  t h tex clas s i f icati o n   m o d el s .   T h W ek v er s io n   3 . 9   p r o g r a m ,   w h ic h   is   o p en   s o u r ce   an d   w id el y   u s ed   in   r esear ch   f o r   th is   p u r p o s e,   w as  u s ed   to   d ev elo p   th tex t c lass if ica tio n   m o d el s   [ 2 8 ,   2 9 ] .     3 . 4 .     P er f o r m a nces t esting   W u s ed   1 0 - f o ld   cr o s s - v a lid atio n   f o r   th m ea s u r e m e n t o f   T MT A   p er f o r m an ce   u s i n g   v ar io u s   m etr ics :   ac cu r ac y   [ 1 7 ] ,   F - m ea s u r [ 1 8 ] ,   A UC   [ 1 9 ] ,   Kap p [ 2 0 ] ,   M C C   [ 2 1 ,   2 2 ]   an d   r u n ti m [ 2 3 ] .   T h 1 0 - f o ld   cr o s s - v alid atio n   tec h n iq u i s   p o p u lar   m e th o d   to   o b tain   r eliab le   test   r es u lts   b ec a u s all  d ata  p o in ts   ar u s ed   f o r   tr ain i n g   a n d   v alid atio n ; e ac h   d ata  p o in t is u s ed   to   b test ed   ex ac tl y   o n ce   [ 2 8 ] .     3 . 5 .     H y po t hes is   t esting   T h W ilco x o n   R an k   Su m   T est  w a s   u s ed   to   in v est ig ate   5   d if f er e n p er f o r m an ce   m ea s u r e m en t s   ( ac cu r ac y ,   F - m ea s u r e,   A U C ,   Kap p a,   MCC )   b et w ee n   th e   p r o p o s ed   an d   ca n d id ate  m o d els  to   d eter m i n t h e   d if f er e n ce s   i n   5   p er f o r m an ce   m ea s u r e m e n t s   at  s i g n i f ica n c lev el  o f   0 . 0 5   [ 3 0 ,   3 1 ] .       4.   RE SU L T S AN D I SCU SS I O   T h is   s ec tio n   d escr ib es  a n d   d is cu s s es  th e x p er i m e n tal   r esu lt s .   I i n clu d es   f o u r   s u b - ch ap ter s ,   p r esen ted   ac co r d in g   to   th t wo   o b j ec tiv es  an d   b ased   o n   th ch ar ac ter is tics   o f   t h B W d ataset,   in f o r m atio n   g ain ,   cla s s i f icat io n   p er f o r m a n ce   an d   h y p o th e s is   te s ti n g .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l 11 ,   No .   4 A u g u s t   2021   :   3 6 1 7   -   3628   3624   4 . 1 .     Cha ra ct er is t ics o f   B WF   da t a s et   T h f ea tu r r ed u ctio n   p er f o r m an ce   u s in g   t h B W alg o r ith m   w as  co m p ar ed   w i th   t wo   p o p u lar   tech n iq u es B o W   an d   T F I D F.  As  T ab le  2   s h o w s ,   th B W d ataset  h ad   f e w er   f ea t u r es  ( 9 6 9 )   an d   in s tan ce s   ( 2 , 4 4 6 )   th an   th B o W   an d   th T F - I DF  d atasets .   T h B W alg o r ith m   w as  h i g h l y   e f f icie n a f ea t u r r ed u ctio n .   T h ex p er im e n tal  r es u lt s   d e m o n s tr ated   th at  t h B W d ataset  in cl u d ed   9 6 9   f ea tu r es  o u o f   th to tal  2 3 , 1 7 5   f ea t u r es  in   t h m e th a m p h e ta m in t w ee d ataset.   T ab le  2   s h o w s   th B W d ataset,   w h ic h   h a d   s m a ller   n u m b e r   o f   f ea t u r es  a n d   in s ta n ce s   t h a n   t h B o W   an d   T F - I DF  d atasets .   T h o s f ea t u r es  w er f il t er ed   f ea tu r es  o f   th e   B o W   d ataset  u s i n g   S DB F.  T h er ef o r e,   th B W alg o r ith m   w as  e f f ec ti v at  h a n d lin g   th s e m a n tic  w o r d s   ass o ciate d   w ith   m et h a m p h et a m i n e,   s u c h   as  s la n g   n a m es  o r   s y n o n y m s   f o r   m eth a m p h eta m i n e.   T h is   i m p le m en ta tio n   w a s   d if f er en f r o m   t h B o W ,   as   th latter   r ed u ce s   f ea t u r es b y   r e m o v i n g   in f r eq u en w o r d s .       T ab le  2 .   C o m p ar is o n   o f   d ata  p r ep r o ce s s in g   t ec h n iq u es   C h a r a c t e r i st i c   D a t a   P r e p r o c e ssi n g   T e c h n i q u e   B o W   TF - I D F   B W F   N u mb e r   o f   F e a t u r e s   1 0 , 9 2 6   1 0 , 4 6 4   9 6 9   N u mb e r   o f   I n st a n c e s   2 , 8 9 9   2 , 8 9 9   2 , 4 4 6       4 . 2 .     I nfo r m a t io n g a in    I n f o r m a tio n   g a in   w a s   ap p lied   to   m ea s u r t h q u alit y   o f   t h f ea t u r es  u s ed   to   cr ea te  D ec i s io n   T r ee .   T h in f o r m atio n   g a in   test s   f o r   th B W F d atase t id en ti f ied   s e v er al  i m p o r tan f ea t u r es,  i n cl u d in g   “m e th ”,   “lab ”,   cr y s tal”,   ice” ,   s m o k e” ,   p o lice” ,   n e w s ”,   r ep o r t”,   s e x y ”  an d   “f at”.   T h w o r d s   “m e th ”  a n d   lab ”  w er e   i m p o r tan f ea t u r es  i n   t h B W d ataset  as  t h e y   w er u s ed   in   t w ee t s   th a m en tio n ed   lab o r ato r y - p r o d u ce d   m et h a m p h eta m i n e.   T h w o r d s   cr y s tal”  an d   “ice ”  ar s lan g   n a m e s   f o r   m et h a m p h eta m in e;  b o th   h ad   h ig h   in f o r m atio n   g ai n ,   i n d icati n g   t h f ea tu r e s   p o te n tial  f o r   th p r ed ictio n   class es   u s i n g   t h D ec is io n   T r ee .   T en   i m p o r tan f ea tu r e s   ar s h o w n   i n   T ab le  3 .   T ab le   3   s h o w s   t h ex p er i m e n tal  r esu lts   o f   t h in f o r m at io n   g ai n   th at  w a s   u s ed   to   test   th f ea t u r e   q u alit y   o f   t h B W d ataset.   H ig h   in f o r m at io n   g ain   i n d icate d   th i m p o r ta n f ea tu r es  f o r   th e   p r ed ictio n   class es   b ased   o n   th D ec is io n   T r ee .   T h o s f ea t u r es  h ad   s tr o n g   p o w e r   in   class i f y i n g   th clas s es  b as ed   o n   th D ec is io n   T r ee .   I n f o r m atio n   g a in   s h o w e d   i m p o r tan f ea t u r es  s u c h   as  “n e w s ”,   p o lice”   a n d   r ep o r t”  in   t h n o n - ab u s e   class   t w ee t s ; i n   co n tr ast,  “f at”  an d   “sex y ”  w er f ea t u r es o f   t h ab u s class   t w ee ts .       T ab le  3 .   I m p o r tan t f ea t u r es o f   B W F d ataset  u s i n g   i n f o r m atio n   g ai n   R a n k e d   F e a t u r e   I n f o r mat i o n   G a i n   ( d e sce n d i n g   o r d e r )   me t h   0 . 0 9 5 1 4   l a b   0 . 0 3 7 0 1   c r y st a l   0 . 0 3 5 1 1   i c e   0 . 0 2 5 4 2   smo k e   0 . 0 2 3 2 9   p o l i c e   0 . 0 2 1 4 3   n e w s   0 . 0 1 6 4 0   r e p o r t   0 . 0 1 0 6 5   se x y   0 . 0 1 0 4 8   f a t   0 . 0 0 5 5 5       4 . 3 .     Cla s s if ica t io n per f o r m a nce   T h class if icatio n   p er f o r m a n c co m p ar is o n   o f   t h th r ee   p r ep r o ce s s in g   tec h n iq u e s   u s ed   to   p r o d u ce   B o W ,   T F I DF  an d   B W d a tasets   ar s h o w n   i n   T ab le s   4 ,   5   an d   6 .   First,  th p er f o r m an ce   o f   t h SV class i f ier   w it h   t h B o W   d ata s et  h ad   t h h i g h est  ac c u r ac y   ( 0 . 8 1 3 ) ,   F - m ea s u r ( 0 . 8 0 3 )   an d   MC C   ( 0 . 4 6 5 ) .   Ho w e v er ,   th i s   clas s i f ier   u s ed   w i th   t h B W d ataset  h ad   th h ig h e s A U C   ( 0 . 7 2 0 )   a n d   Kap p ( 0 . 4 6 1 ) .   Mo r eo v er ,   th B W F d ataset  h ad   th lo w e s t r u n ti m ( 0 . 8 2 0   s ec o n d s )   w ith   th SVM  clas s i f i er .   T ab le  4   d is p lay s   th clas s i f icatio n   p er f o r m an ce   co m p ar is o n s   o f   t h t h r ee   p r ep r o ce s s in g   tech n iq u es c o m b i n e d   w it h   SVM.   T h d ec is io n   t r ee   u s in g   th J 4 8   class if ier   w it h   th B W F   d ataset  h ad   th h ig h es s co r es  in   all  m ea s u r es,  i n clu d i n g   ac cu r ac y   ( 0 . 8 1 5 ) ,   F - m ea s u r ( 0 . 8 1 8 ) ,   A U C   ( 0 . 7 6 3 ) ,   Ka p p ( 0 . 5 2 8 )   an d   MCC   ( 0 . 5 2 9 ) ,   an d   th lo w e s r u n t i m ( 3 . 4 8 0   s ec o n d s ) .   T ab le  5   p r esen ts   th class if icatio n   p er f o r m a n ce   co m p ar is o n s   f o r   th i s   class i f ier .   T h NB   class if ier   w it h   t h B o W   d ataset  h ad   th h ig h est  ac c u r ac y   ( 0 . 7 9 5 ) ,   F - m ea s u r ( 0 . 7 8 9 ) ,   Kap p ( 0 . 4 2 8 )   an d   MCC   ( 0 . 4 3 0 ) .   Ho w e v er ,   w h en   co m b i n e d   w i th   th e   B W d ataset,   t h i s   class if ier   h ad   t h e   h ig h e s A U C   ( 0 . 8 1 9 )   an d   th e   lo w e s r u n ti m e   ( 0 . 4 0 0   s ec o n d s ) .   T h class i f icatio n   p er f o r m an ce   co m p ar is o n s   ar s h o w n   i n   T ab le  6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2088 - 8708       Text  cla s s ifica tio n   mo d el  fo r   meth a mp h eta min e - r ela ted   tw e ets in   S o u th ea s t.. .   ( N a r o n g s a C h a ya n g ko o n )   3625   T ab le  4 .   C lass if icatio n   p er f o r m an ce   c o m p ar i s o n   u s i n g   SV M   M e a su r e me n t   S V M   C l a ss i f i e r   B o W   D a t a se t   ( b a se l i n e )   TF - I D F   D a t a se t   B W F   D a t a se t   A c c u r a c y   0 . 8 1 3   0 . 8 1 2   0 . 8 0 5   F - m e a su r e   0 . 8 0 3   0 . 7 9 4   0 . 8 0 0   A U C   0 . 7 0 8   0 . 6 8 4   0 . 7 2 0   K a p p a   0 . 4 5 6   0 . 4 2 4   0 . 4 6 1   M C C   0 . 4 6 5   0 . 4 4 6   0 . 4 6 3   R u n t i me   ( se c o n d s)   3 3 . 3 1 0   1 1 . 5 8 0   0 . 8 2 0       B ased   o n   th cla s s i f icatio n   p e r f o r m an ce   co m p ar is o n s   i n   T ab les   4 ,   5   an d   6 ,   th p r o p o s ed   m o d el  th at   co m b i n ed   t h J 4 8   class i f ier   with   t h e   B W d ataset  s h o w ed   t h b est   p er f o r m a n ce   f o r   th e   T MT A   b ased   o n   th e   f o u r   m ea s u r es  o f   ac cu r ac y ,   F - m ea s u r e,   Kap p an d   MCC .   I n   co m p ar is o n ,   th SV class if ier   w it h   t h B W d ataset  w a s   th b es t b ased   o n   r u n t i m e,   a n d   th NB   clas s if ier   w it h   t h B W F d ataset  p r o v id ed   th h i g h e s A U C .       T ab le  5 .   C lass if icatio n   p er f o r m an ce   c o m p ar i s o n   u s i n g   J 4 8   M e a su r e me n t   J4 8   C l a ss i f i e r   B o W   D a t a se t   ( b a se l i n e )   TF - I D F   D a t a se t   B W F   D a t a se t   A c c u r a c y   0 . 8 0 7   0 . 8 0 7   0 . 8 1 5   F - m e a su r e   0 . 8 0 4   0 . 8 0 5   0 . 8 1 8   A U C   0 . 7 2 3   0 . 7 3 5   0 . 7 6 3   K a p p a   0 . 4 7 4   0 . 4 7 4   0 . 5 2 8   M C C   0 . 4 7 5   0 . 4 7 5   0 . 5 2 9   R u n t i me   ( se c o n d s)   6 1 . 0 6 0   6 2 . 5 5 0   3 . 4 8 0       T h r esu lt s   f r o m   T ab les  4 ,   5   an d   6   co m p ar t h p er f o r m an ce   m ea s u r e m e n ts   f o r   S VM ,   J 4 8   an d   NB ,   r ev ea lin g   t h at  th m o d el  b u ilt   o n   th J 4 8   class if ier   an d   u s i n g   t h B W d ataset  w a s   th b est.  I n   s h o r t,  th i s   m o d el  p r o v id ed   t h b est  p er f o r m a n ce   m ea s u r e m e n t s   ( ac cu r ac y ,   F - m ea s u r e,   Kap p a,   MCC ) .   T h h i g h es t   ac cu r ac y   w as  s h o w n   i n   ter m s   o f   th co r r ec tn ess   o f   t h e   d ata  class i f icatio n   u s in g   th i s   m o d el .   T h B W d ataset  in cl u d ed   1 , 8 2 7   in s tan ce s   o f   n o n - ab u s t w ee ts   an d   6 1 9   i n s ta n ce s   o f   ab u s t w ee ts .   T h is   m o d el  co u ld   b p r ed icted   to   c o r r ec 1 , 5 6 5   n o n - ab u s t w ee ts   a n d   4 2 8   ab u s t w ee t s .   A d d itio n all y ,   th is   m o d el  p r o v id ed   t h e   h ig h e s F - m ea s u r v al u e s .   T h is   r es u lt  s h o w ed   t h at  th m o d el  d em o n s tr ated   ac cu r ate  c lass i f icatio n   o f   th e   in ter est cla s s ,   w h ich   w a s   t h ab u s t w ee t s .       T ab le  6 .   C lass if icatio n   p er f o r m an ce   c o m p ar i s o n   u s i n g   NB   M e a su r e me n t   N B   C l a ss i f i e r   B o W   D a t a se t   ( b a se l i n e )   TF - I D F   D a t a se t   B W F   D a t a se t   A c c u r a c y   0 . 7 9 5   0 . 4 9 0   0 . 7 9 4   F - m e a su r e   0 . 7 8 9   0 . 4 9 5   0 . 7 8 5   A U C   0 . 7 9 7   0 . 7 6 2   0 . 8 1 9   K a p p a   0 . 4 2 8   0 . 1 6 5   0 . 4 1 4   M C C   0 . 4 3 0   0 . 2 6 0   0 . 4 1 9   R u n t i me   ( se c o n d s)   6 . 1 9 0   7 . 8 7 0   0 . 4 0 0       T h A U C   v al u es  o f   J 4 8   w it h   th B W d ataset  w er clo s t o   1   as  s h o w n   in   T ab le  5 ,   in d icatin g   th a t   th clas s if icatio n   r es u lts   o f   J 4 8   w it h   th B W d ataset  h ad   h ig h   tr u p o s iti v v a lu e s .   T h f in d i n g s   r ev ea led   th at  J 4 8   w it h   t h B W d ata s et  h ig h l y   c lass if ied   th e   ab u s clas s   ( h er e,   an   in v ita tio n   t w ee t   to   co n s u m e   m et h a m p h eta m i n e) .   T a b le  5   s h o w s   t h m o d el  g e n er ated   u s in g   J 4 8   w it h   th B W d ataset,   w h ic h   h ad   th e   h ig h e s Kap p a n d   MC C   v al u es,  s u g g es tin g   h i g h   co n s is te n c y   i n   cla s s i f icat io n   b et w ee n   t h e   t w o   clas s es  ( ab u s e   o r   n o n - ab u s e) .   T h B W d ataset  w a s   f itted   to   th J 4 8   class i f ier   b ec au s e   th f ea tu r e s   i n   t h B W d ataset  w er s i m ilar   to   th k e y w o r d   “m et h a m p h eta m i n e” .   T ab le  3   s h o w s   t h f ea tu r es  th at   h ad   h ig h   i n f o r m atio n   g ai n .   T h er ef o r e,   th o s f ea t u r es  w er e   u s ed   as  co n d itio n   f o r   clas s i f icatio n   b ased   o n   t h D ec is io n   T r ee ,   an d   th en   t h J 4 8   class if ier   w a s   u s ed   as a   s u b s et  o f   th D ec i s io n   T r ee .     4 . 4 .     H y po t hes is   t esting   As  d ep icted   in   T ab le  7   th e   W ilco x o n   r an k   s u m   te s t   r es u lts   s u g g es ted   th at  t h p r o p o s ed   m o d el  b ase d   o n   th J 4 8   class i f ier   u s in g   t h B W d ataset  w as  t h b est.  T h is   m o d e w as  p r esen ted   as  T M T A   b ec au s t h f i v p er f o r m a n ce   m ea s u r e m e n ts   ( ac cu r ac y ,   F - m ea s u r e,   AUC,  Kap p a,   MC C )   w er s i g n if ica n tl y   h i g h er   th a n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l 11 ,   No .   4 A u g u s t   2021   :   3 6 1 7   -   3628   3626   f o r   th s i x - ca n d id ate  m o d el s   w ith   P - Val u o f   0 . 0 4 3 .   Ho w e v er ,   J 4 8   w it h   t h B W d ataset  y ield ed   p er f o r m a n ce   m ea s u r e m e n ts   t h at  w er n o s i g n if ica n tl y   h ig h e r   th an   NB   u s i n g   th B OW   an d   B W d ataset  w it h   P - Valu o f   0 . 2 2 5 .   T h W ilco x o n   r an k   s u m   te s t   r es u lt s   f o r   th p er f o r m a n ce   m ea s u r em en ts   ar s h o w n   i n   T ab le  7 .       T ab le  7 .   W ilco x o n   r an k   s u m   t est f o r   p er f o r m an ce   m ea s u r e m en ts   P r o p o se d   M o d e l   C a n d i d a t e   M o d e l   P - V a l u e   J4 8   w i t h   B W F   S V M   w i t h   T F - I D F   0 . 0 4 3   S V M   w i t h   B O W   S V M   w i t h   B W F   J4 8   w i t h   T F - I D F   J4 8   w i t h   B O W   N B   w i t h   T F - I D F   N B   w i t h   B O W   0 . 2 2 5   N B   w i t h   B W F       T ab le  7   s h o w s   t h r es u lt s   o f   t h W ilco x o n   r an k   s u m   test ,   wh ich   w as   tes ted   at  s i g n if ica n ce   lev el   o f   0 . 0 5 .   T h m ea s u r ed   v al u es  f o r   th ac cu r ac y ,   F - m ea s u r e,   A U C ,   Kap p an d   MCC   o f   th p r o p o s ed   m o d el  w er e   co m p ar ed   w it h   th ei g h ca n d id ate  m o d els.  T h ex p er im en tal  r es u lts   s u g g ested   t h e s f i v p er f o r m a n ce   m ea s u r e m e n t s   o f   th p r o p o s ed   m o d el  w er b etter   th an   f o r   th s ix   ca n d id ate  m o d els  at  s ig n if ican ce   le v el  o f   0 . 0 5   w it h   s tati s tical  co n f id e n ce   lev el  o f   9 5   p er ce n t.   T h er ef o r e,   th J 4 8   class if ier   u s in g   t h B W d ataset  w as  u s e d   in   d ev elo p in g   t h T MT A   b e ca u s t h i s   m o d el   p r o v i d ed   th e   h ig h es f o u r   p er f o r m a n ce   m ea s u r e m en ts   ( ac cu r ac y ,   F - m ea s u r e,   Kap p an d   M C C )   a n d   p r o v id ed   lo w   r u n t i m e   as  s h o w n   i n   T ab le  5 .   Fu r t h er m o r e,   th i s   m o d el  p r o v id ed   s ig n i f ica n tl y   h ig h e r   p er f o r m a n ce   m ea s u r e m e n t s   th an   th s ix - ca n d id ate  m o d els   as   s h o w n   i n   T ab l 7 .   P r ev io u s   r esear ch   cr ea ted   te x class i f icat io n   m o d el s   u s i n g   t w ee t   d ata  b ased   o n   SVM,   J 4 8   an d   NB   class i f ier s .   A lt h o u g h   SVM  w it h   T F I DF  is   s till   w id el y   u s ed   f o r   th d ev elo p m e n o f   te x cl ass i f icatio n   m o d els   [6 - 9 ] ,   w f o u n d   t h at  t h T MT A ,   u s i n g   J 4 8   w ith   t h B W F   d ataset,   p r o v id ed   h ig h er   v al u es  f o r   p er f o r m an ce   m ea s u r e m e n t s   th a n   SVM  w it h   T F I DF.  I n   p a r ticu lar ,   th T MT A   u s i n g   J 4 8   w i th   t h B W d ataset  h ad   lo w er   r u n ti m t h a n   s u c h   w id el y   u s ed   tech n iq u es a s   B o W   an d   T F I DF.       5.   CO NCLU SI O N     W p r o p o s ed   n e w   m o d el,   ca lled   th T M T A ,   to   id en tify   w h et h er   T w itter   t w ee w as  r elate d   to   m et h a m p h eta m i n u s e   o r   ab u s b ased   o n   d ata   ex tr ac ted   f r o m   T w itter   i n   So u t h ea s t   Asi a.   v ital   p r o ce s s   i n   t h e   T M T A   is   d ata  p r ep r o ce s s in g .   T h is   r esear ch   ad d r ess ed   th w ea k n ess   o f   B o W   in   ter m s   o f   f ea tu r s e lectio n   u s i n g   t h B o W   d ataset  an d   W o r d 2 Vec .   A   n o v el  d ata  p r ep r o ce s s i n g   tech n iq u e,   th B W a lg o r ith m ,   u s ed   t h e   tex v ec to r izatio n   m et h o d   in   th s a m w a y   a s   th B o W   d at aset;  h o w ev er ,   th p r o p o s ed   B W alg o r ith m   w as   ap p lied   u s in g   t h f ea t u r s ele c tio n   o f   th B o W   d ataset  to   p r o d u ce   B W d ataset.   T h is   ap p r o ac h   r esu lted   in   a   s m al ler   n u m b er   o f   f ea t u r es  t h an   s u ch   w id el y   u s ed   tec h n i q u es  as   B o W   an d   th e   T F - I D d atasets .   T h n e d ataset  w as   u s ed   f o r   th e   T MT A   d ataset.   T h d ev e lo p m en t   o f   t h T MT A   co n s is ted   o f   f o u r   s tep s .   First,  w co llected   d ata  w it h   k e y w o r d s   r elate d   to   m et h a m p h eta m i n f r o m   t h T w itter   d ata  s tr ea m .   Seco n d ,   d ata   p r ep r o ce s s in g   tec h n iq u es  w er ap p lied ,   in clu d in g   co r p u s   p r ep ar atio n   an d   tex r ep r esen t atio n   co n s is ti n g   o f   B o W ,   T F - I DF  an d   B W F.  T h ir d ,   w e x p er i m e n ted   an d   p r o p o s ed   tex class if icatio n   m o d el  u s i n g   t h r ee   ca n d id ate  clas s i f ier s :   SVM,   J 4 8   an d   NB .   L astl y ,   w e   co m p ar ed   t h p er f o r m an ce   o f   t h v ar io u s   te x t   class i f icatio n   m o d els  t h at  wer cr ea ted   f r o m   th ab o v th r ee   class i f ier s   u s in g   th r ee   d ata   p r ep r o ce s s in g   tech n iq u es.  T h p er f o r m an ce   m ea s u r e m e n t s   in cl u d ed   ac cu r ac y ,   F - m ea s u r e,   A UC ,   Kap p a,   MCC   an d   r u n ti m e.   A d d itio n al l y ,   t h T MT A   m o d el  d ev elo p m en u s ed   t h J 4 8   class i f ier   w it h   t h B W d ataset.   T h is   m o d el   p r o d u ce d   th h ig h e s v a lu e s   f o r   ac cu r ac y   ( 0 . 8 1 5 ) ,   F - m ea s u r ( 0 . 8 1 8 ) ,   Kap p a   ( 0 . 5 2 8 )   an d   MCC   ( 0 . 5 2 9 ) ,   h ig h   A U C   ( 0 . 7 6 3 )   an d   lo w   r u n ti m ( 3 . 4 8 0   s ec o n d s )   u s in g   t h J 4 8   class if ier .   T h ese  r esu lt s   s h o w ed   t h at  t h e   p r o p o s ed   T M T A   w a s   f i tted   to   th T w itter   d ataset  co llected   in   th i s   s t u d y .   T h T M T A   u s i n g   J 4 8   w i th   t h B W d ataset  p r o v id ed   h ig h er   p er f o r m an ce   m ea s u r e m en ts   t h an   s u ch   tr ad itio n al  tec h n iq u es  a s   SVM  w it h   T F I DF.  C o n s eq u en tl y ,   t h T MT A   u s i n g   t h J 4 8   class if ier   co u ld   b co n v er ted   to   an   if - t h en   r u le - b ased   d ec is io n   tr ee T h is   r u le  m ig h b i m p le m e n ted   f o r   p r o to t y p s o f t w ar t o   h elp   th p o lice  o f   t h n ar c o tics   co n tr o b o ar d   id en ti f y   s h o r m e s s a g es r elate d   to   d r u g   ab u s e.   T h B W alg o r ith m   ca n   b u s ed   f o r   d ata  p r ep ar atio n   s te m m in g   f r o m   t h d ev e lo p m en o f   a   tex t   class i f icatio n   m o d el  b ased   o n   d if f er e n d o m ai n ,   s u c h   as  a m p h eta m i n u s in   T h ailan d   o r   illeg al   ad v er tis e m en t s   f o r   n u tr itio n al  s u p p le m e n t s .   P o lice  h a v f o u n d   ten s   o f   t h o u s an d s   o f   a m p h e t a m i n n et w o r k s   o n   Evaluation Warning : The document was created with Spire.PDF for Python.