I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   25 ,   No .   3 Ma r ch   20 22 ,   p p .   1 6 7 2 ~ 1 6 7 8   I SS N:  2 5 0 2 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /ijeecs.v 25 .i 3 . pp 1 6 7 2 - 1 6 7 8           1672       J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   Ana ly sis  of  na me d - enti ty ef fec o text c la ss ificatio n   o traff ic  a ccident  da ta usi ng  ma chine learni ng       Anug ra h Dw ia t m a j a   P utr a ,   Abba   Su g a nd a   G irsa ng   D e p a r t me n t   C o m p u t e r   S c i e n c e ,   B I N U S   G r a d u a t e   P r o g r a m M a s t e r   o f   C o mp u t e r   S c i e n c e ,   B i n a   N u sa n t a r a   U n i v e r si t y ,   Ja k a r t a ,   I n d o n e si a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   8 2 0 2 1   R ev is ed   Dec   9 2 0 2 1   Acc ep ted   J an   11 2 0 2 2       Wi th   th e   risi n g   n u m b e o a c c id e n ts  in   In d o n e sia ,   it   is  stil n e c e ss a ry   to   e v a lu a te  a n d   a n a ly z e   a c c id e n d a ta.  Th e   c a teg o riza ti o n   o traffi c   a c c id e n d a ta  h a b e e n   d e v e lo p e d   u sin g   w o rd   e m b e d d in g ,   h o we v e a d d i ti o n a wo rk   is   n e e d e d   t o   a c h iev e   b e tt e re su lt s .   S e v e ra i n fo rm a ti v e   n a m e d   e n ti ti e a re   fre q u e n tl y   s u fficie n t   to   d iffere n ti a te  wh e th e o n o t   in fo rm a ti o n   o n   a   traffic   a c c id e n e x ists.  Na m e d - e n ti ti e a re   in fo rm a ti o n a c h a ra c teristics   th a c a n   o ffe d e tails  a b o u a   tex t.   Th e   i n flu e n c e   o n a m e d - e n ti t ies   o n   th e m a ti c   tex c a teg o riza ti o n   is  e x a m in e d   i n   t h is  p a p e r.   Th e   i n fo rm a ti o n   wa s   c o ll e c ted   u sin g   a   Twit ter   so c ial  m e d ia   c ra wl.   P re p ro c e ss in g   is   d o n e   a t h e   b e g in n in g   o f   th e   p ro c e ss   t o   m o d if y   a n d   d e le te  u se fu l   tex a s   we ll   a lab e l   sp e c ifi e d   e n ti ti e s.  On   s u p p o r t   v e c to r   m a c h in e   (S VM) ,   sc h e m e   c o m p a riso n we re   p e rfo rm e d   fo r   i)  wo r d   e m b e d d in g ,   ii )   th e   n u m b e o o c c u rre n c e o n a m e d   e n ti ti e s ,   a n d   ii i)  t h e   c o m b i n a ti o n   o t h e   two   is  k n o w n   a a   h y b r id .   Th e   h y b ri d   sc h e m e   p ro d u c e d   a n   imp ro v e m e n in   c las sifica ti o n   a c c u ra c y   o 9 0 . 2 7 %   wh e n   c o m p a re d   t o   wo r d   e m b e d d i n g   sc h e m e   a n d   o c c u rre n c e o n a m e d   e n ti ti e sc h e m e ,   a c c o rd in g   to   tes ts  c o n d u c ted   u sin g   1 . 8 8 5   d a ta  c o n sistin g   o f   7 8 8   a c c id e n d a ta an d   1 . 0 6 7   n o n - a c c id e n d a ta.   K ey w o r d s :   C las s if icatio n   Ma ch in lear n in g   Nam ed - en tity   S o cial  m ed ia   T r af f ic  ac cid en t a n aly s is   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   An u g r ah   Dwiatm aja  Pu tr a   C o m p u ter   Scien ce   Dep ar tm e n t,  B I NUS  Gr ad u ate  Pro g r am Ma s ter   o f   C o m p u ter   Scien ce   B in Nu s an tar Un iv er s ity   J ak ar ta,   I n d o n esia   E m ail:  an u g r a h . p u tr a@ b in u s . ac . id ,   an u g r ah d p u tr a@ g m ail. co m       1.   I NT RO D UCT I O N   I n   I n d o n esia,  th f r eq u en cy   o f   ac cid en ts   is   ex tr em ely   s ig n if ican t,  with   all  ty p es  o f   in ju r ies,  in clu d in g   d ea th .   Acc o r d in g   to   W o r ld   Hea lth   Or g an izatio n   ( W HO)   d a ta  [ 1 ]   in   2 0 1 6 ,   3 1 . 2 8 2   p e o p le   d ied   in   a   to tal   o f   1 0 6 . 6 4 4   r o a d   ac ci d en ts   in   I n d o n esia,  with   7 8 %   o f   m ales  an d   2 2 %   o f   wo m e n .   T h is   im p lie s   th at  1 2 , 2   p er s o n s   d ied   in   tr af f ic  ac cid e n f o r   e v er y   1 0 0 , 0 0 0   in h a b itan ts ,   r esu ltin g   in   m o r tality   r ate  o f   2 9 . 3 %.   I n   r ec en y ea r s ,   th er h as  b ee n   s u r g in   th e   r esear ch   o f   tr a f f ic  ac cid en ts   as  r esu lt  o f   cr o wd s o u r cin g   d ata  to   s u p p lem e n co n v en tio n al  tech n iq u es  an d   u n co v er   n ew  f ac ts .   T witter ,   wh ich   h as  g o tten   lo o f   atten tio n   in   r ec en y ea r s ,   is   s lo wly   b ec o m in g   ac k n o wled g ed   as  s o u r ce   o f   in f o r m atio n   f o r   u s er s '   d ir ec co n tr ib u tio n s   to   ev en t   d etec tio n .   T witter   h as  at  least  3 0   m ill io n   u s er s   in   2 0 1 0   [ 2 ] .   T witter   cr ea tes  an   o n lin ec o s y s tem   in   w h ich   in f o r m atio n   is   g en er ated ,   co n s u m e d ,   p r o m o ted ,   d is s em in ated ,   d is co v er ed ,   an d   s h ar ed   f o r   p a r ticu lar   r ea s o n s ,   m o s o f   wh ich   ar lin k ed   to   co m m u n ity   an d   s o cial  ac tiv itie s   r ath er   th an   f u n ctio n al  task - o r ien te d   g o als.  As  r e s u lt,  s o cial   m ed ia  s ites   lik T wit ter   will   s er v as  d ata  s o u r ce s ,   an d   it  will  b p o s s ib le  to   o b tain   wid r an g o f   in f o r m atio n   f r o m   d i v er s g r o u p   o f   in d i v id u als in   tim ely   way .   I n f o r m a t i o n   m a y   b e   e as i l y   c o l le c t e d   a n d   t h e n   a n a l y z e d   a n d   ca t e g o r i s e d   a c c o r d i n g   t o   c e r t a i n   c a t e g o r i es  u s i n g   t h i s   e n o r m o u s   a m o u n t   o f   d a t a ,   p a r t i c u l a r l y   i n f o r m a t i o n   r e l a t i n g   t o   t r a f f i c   a c ci d e n t s   s u ch   a s   [ 3 ] T h is   s tu d y   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2         A n a lysi s   o f n a med - e n tity e ffect  o n   text  cla s s ifica tio n   o f tra ffic a cc id en t d a ta   …  ( A n u g r a h   Dw ia tma ja   P u tr a )   1673   u s es  c r awlin g   to   co llect  d ata  o n   tr af f ic  ac cid e n ts ,   wh ich   is   th en   ca teg o r ize d   in to   two   ca te g o r ies:   tr u o r   f alse  o n   tr af f ic  ac cid en t   n ews.  Face b o o k ' s   f astt ex tech n iq u e   is   u s ed   to   weig h wo r d   r ep r esen tatio n s .   T h wo r d s   i n   th d o cu m e n ar u s ed   as  q u an titativ ch ar ac ter is tics   in   s ev er al  tech n iq u es  to   tex ca t eg o r izatio n   th at  ar b ased   o n   th m ac h in lear n in g   ( ML )   alg o r ith m .   T h ass u m p t io n   b eh in d   th is   tech n iq u is   th at  th f r eq u en cy   o f   p ar ticu lar   ter m s   in   tex is   a   g o o d   p r e d icto r   o f   b r o ad   to p ic.   T h is   im p lies   th at  n am ed   en titi es  co u ld   b b etter   f it   f o r   tex t   d o c u m en t   c ateg o r izatio n .   T h e   in f lu en ce   o f   n am ed - e n titi es  o n   th ca te g o r izatio n   o f   tr af f ic  ac cid en in f o r m atio n   d ata   tex t   will  b i n v esti g ated   i n   th is   s t u d y .   T h e   co m p ar is o n   will  b d o n e   in   t h r ee   wa y s u tili zin g   f u n d am en tal  tec h n iq u es  th at  wo r d   em b e d d in g   ( W o r d   E m b ed d in g ) ,   th n u m b er s   o f   o cc u r en cy   n am ed   en titi es  ( Nam ed   E n titi es),   an d   m ix   o f   th two   ( Hy b r id ) .   T h d ataset  f r o m   t h p r e v io u s   s tu d y   [ 3 ]   will  b e   u tili ze d   an d   co m b in e d   with   th m o s r ec en cr awlin g   d ataset,   wh ich   will  th en   b lab eled   with   n am ed - en titi es.  I n   ML ,   th e   b asic  alg o r ith m s   t o   b e   u tili ze d   a r s u p p o r t   v ec to r   m ac h i n ( SVM ) .   T h e   f o llo w in g   ar e   s o m e   o f   th e   s tu d y ' s   co n tr ib u tio n s :   i)   T h e   d ataset  is   m ad u p   o f   p r ep r o ce s s ed   tex f r o m   p r io r   r esear ch   d atasets   an d   n ew   cr awlin g   m eth o d s .   Fu r th er m o r e,   th e   d ata  e n tity   lab elin g   is   d o n with   th h elp   o f   a   p r e s et  lab el ii)  T ex t   ca teg o r izatio n   f o r   t r af f ic  ac ci d en d ata  u s th SVM  m eth o d ,   w h ich   co m p ar es  p r e d ef in ed   n am e d   en titi es  to   th r ee   p r ed eter m i n ed   s ch em as:  wo r d   em b ed d i n g ,   n am e d   en titi es,  an d   h y b r id .   T h d ata  u tili ze d   in   th is   s tu d y   is   th r esu lt  o f   cr awlin g   f r o m   th s o cial  n etwo r k in g   s ite  T wit ter ,   wh ich   y ield ed   1 , 8 8 5   r esu lts .   T h s tu d y   th en   co n ce n tr ates so lely   o n   th u s o f   I n d o n esian   a n d   th p r ev i o u s ly   s p ec if ied   s et  o f   n am ed   th in g s .       2.   RE S E ARCH   M E T H O D   W eb   cr awle r s   h av b ee n   ar o u n d   alm o s t a s   lo n g   as th wo r l d   wid web .   I n   1 9 9 3 ,   th f ir s t c r awle r   was   im p lem en ted .   Fo r   m in in g   h u g d atasets ,   we b   cr awlin g   i s   u s ed   to   in d ex   in f o r m atio n   o n   web s ite  u tili zin g   u n if o r m   r eso u r ce   lo ca to r   ( UR L )   an d   a n   a p p licatio n   p r o g r a m m in g   i n ter f ac e   ( API ) .   C r awle r s   lead   to   a   p r o ce s s   o f   d o cu m en s h ar in g ,   m o r a b o u in ter ac tiv co n ten t,  an d   ev en   f u ll - f le d g ed   ap p s   as  th web   ad v an ce s   [ 4 ] Af ter   Face b o o k   an d   I n s tag r am ,   T witter   i s   th wo r ld ' s   th ir d   m o s p o p u la r   o n lin e   s o cial  n et wo r k   ( OSN) ,   with   a   s im p le  d ata  m o d el  an d   d ir ec t   d ata  ac ce s s   API .   I t' s   th er ef o r e   ex ce llen f o r   s o cial  n etwo r k   r esear ch   in v o lv in g   h u n d r ed s   o f   m illi o n s   o f   p e o p le  [ 5 ] .   W h en   it  ca m to   d a ta  ac ce s s ,   T witter   u s ed   to   h av f air l y   lib er al  ap p r o ac h   [ 6 ] .   T witter   b eg a n   im p o s in g   to u g h er   lim itatio n s   in   2 0 2 1 ,   as  s tated   b y   th o f f icial  T witter   b lo g   [ 7 ] ,   b ec au s it  was  co n ce r n ed   th a th ir d - p ar ty   s er v ices  wo u ld   ex p lo it  th API   an d   d ev el o p   ap p s   th at  b asically   m im ick ed   its   p r im ar y   f ea tu r e .   T witter   h as  s tr aig h tf o r war d   d ata  d eliv er y   s tr ateg y   th at   is   s u p p o r ted   b y   a   h ig h ly   ef f icien an d   s ca lab le  i n f r astru ctu r e   [ 8 ] .   T h er a r n u m er o u s   way s   to   ac ce s s   in f o r m atio n   f r o m   T witter ,   o n o f   wh ich   is   to   u tili ze   th T witter   d ev elo p er   p ag e' s   ap p licatio n   p r o g r am   i n te r f ac ( API ) .   I n   n u m er o u s   ap p licatio n   d o m ain s ,   SVM  is   o n o f   th m o s r esil ien an d   r o b u s class if icatio n   an d   r eg r ess io n   m eth o d s .   T h b asic  g o al  o f   SVM  is   to   u s s u r f ac th at  o p tim izes  th m ar g in   b etwe en   class es  in   th tr ain in g   s et  to   s ep ar ate  t h e m   [ 9 ] ,   [ 1 0 ] .   s et  o f   n   in s tan c es  is   r eq u ir ed   to   tr ain   an   SV M.   E ac h   ex am p le  is   m ad u p   o f   two   p ar ts an   in p u v ec to r   x an d   lab el  y i.  Ass u m th at  th tr ain in g   s et  is   ( x 1 ,   y 1 ) ( x 2 ,   y 2 ) ,   . . .   ,   ( x n , y n ) .   Fo r   W e' l l u s th ex a m p le  o f   two - d im en s io n al  in p u t,  i.e . ,   x     R 2 ,   f o r   illu s tr atio n   p u r p o s es.  T h er ar e   v ar io u s   h y p er p lan es  th at  ca n   b s p lit,  an d   th d ata  ca n   b d iv id ed   lin ea r ly .   T h g e n er aliza b ilit y ,   o n   th o t h e r   h an d ,   is   d e p en d e n t o n   t h p o s i tio n   o f   th e   s ep ar ato r   h y p e r p lan an d   th h y p e r p lan with   th e   g r ea test   m ar g i n .     A   n a m e d   e n ti t y   is   t e r m   t h a t   d e n o t e s   t h at   a n   el e m e n h a s   p r o p e r t i e s   w i t h   a   g r o u p   o f   o t h e r   i t e m s   [ 1 1 ] .   E n tity   ex tr ac tio n   f r o m   s et  o f   wo r d s   is   m eth o d   o f   d etec tin g   an d   class if y in g   en titi es,  also   k n o w n   as  n am ed   en tity   r ec o g n itio ( NE R ) .   NE R   is   s ig n if ican in   d if f er e n n atu r al  lan g u a g p r o ce s s in g   ( NL P )   task s   s u ch   as   tex in ter p r etatio n ,   in f o r m atio n   r etr iev al,   au to m atic  tex s u m m ar izatio n ,   m ac h in e   tr an s latio n ,   a n d   k n o wled g e   b ase  d ev elo p m e n t,  in   a d d itio n   to   th k e y   s u b task   o f   in f o r m atio n   ex tr ac tio n   [ 1 2 ] .   T h e   NE R - b ased   clu s ter in g   m eth o d   p u lls   n am ed   item s   f r o m   g r o u p s   b ased   o n   co n tex tu al   s im ilar ity .   T h u s o f   u n lab el ed   d ata ,   ac co r d in g   to   C o llin s   [ 1 3 ] ,   lo wer s   th m o n ito r in g   n ee d s   to   o n ly   s ev en   b asic p r in cip les.     NE R   is   u s ed   in   s u p er v is ed   lear n in g   to   s o lv m u lti - class   clas s if icatio n   an d   s eq u en ce   lab elin g   p r o b lem s   [ 1 4 ] .   T h e   f ea tu r es  i n   an n o tated   d ata   s am p les  ar e   m eticu lo u s ly   co n s tr u cted   to   r ef lect  ea ch   tr ain in g   o cc u r r e n ce .   Ma ch i n lear n i n g   tech n iq u es  ar e   th en   u s ed   t o   ex am in e   th e   m o d el   in   o r d er   to   d etec s im ilar   p atter n s   in   p r ev io u s ly   u n s ee n   d ata.   I n   s u p er v is ed   NE R   s y s tem ,   f ea tu r en g in ee r in g   is   cr itical.   f ea tu r e   v ec to r   r ep r esen tatio n   is   a   te x ab s tr ac tio n   in   wh ich   o n e   o r   m o r b o o lea n ,   n u m er ic,   o r   n o m in al  v alu es   r ep r esen a   wo r d   [ 1 5 ] .   T h e   s u p er v is ed   NE R   h as  m ad e   ex t en s iv u s o f   th e   wo r d   lev el   f u n cti o n ,   lis s ea r ch   f ea tu r e,   an d   c o r p u s   f ea tu r e.   M an y   m ac h in lear n in g   m et h o d s   h av b ee n   b u ilt  in   th s u p e r v is ed   NE R   b ased   o n   th ese  ch ar ac ter is tics   [ 1 6 ] ,   [ 1 7 ] .   Acc id en t - r elate d   r esear ch   h a s   in cr ea s ed   in   r ec en y ea r s   as  r esu lt  o f   cr o wd s o u r cin g   d ata  to   s u p p l em en estab lis h ed   ap p r o ac h es  an d   u n co v e r   n ew  f ac ts .   T witter ,   wh ich   h as  g o tten   lo o f   p r ess   in   r ec en y ea r s ,   h as  s tead ily   g ain ed   ac ce p tan ce   as  a   s o u r ce   o f   in f o r m atio n   f o r   u s er s   d ir ec t   co n t r ib u tio n s   to   ev e n d etec tio n .   T h er e   wer at  least  3 0   m illi o n   T witte r   u s er s   in   2 0 1 0 ,   wh ile  th e r wer 3 3 0   m i llio n   in   2 0 1 9   [ 1 8 ] T witter   cr ea tes  an   o n lin ec o s y s tem   wh er in f o r m atio n   i s   g en er ated ,   co n s u m ed ,   p r o m o ted ,   d is s em in ated ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  25 ,   No .   3 Ma r ch   20 22 :   1 6 7 2 - 1 6 7 8   1674   f o u n d ,   an d   s h ar ed   f o r   p ar ticu l ar   co m m u n ity   a n d   s o cial  r ea s o n s   r ath er   th an   task - o r ie n ted   f u n ctio n al  o n es   [1 9] As a  r esu lt,  s o cial  m ed ia  s ites   lik T witter   will ser v as d ata  s o u r ce s ,   allo win g   f o r   th r a p id   r etr iev al  o f   wid e   r an g o f   in f o r m atio n   f r o m   l ar g n u m b er   o f   in d iv id u als.   S ep ar atin g   d ata  t h at  co n tain s   o r   d o es  n o co n tain   tr af f ic  ac cid en in f o r m ati o n   r e q u ir es  d ata  p r o ce s s in g .   T h is   is   b ec au s u tili zin g   th k ey wo r d   "a cc id en t"  in   th e   cr awlin g   tech n iq u will  also   r etu r n   d ata  th at  d o es  n o co n ta in   tr af f ic  ac cid en in f o r m atio n   b u h as  th s am wo r d   co m p o n e n t.  I n   t h p ap e r ,   Sap u tr o   a n d   Gir s an g   [ 3 ] ,   ac h iev ed   th b est  ac cu r ac y   o f   8 8 %   in   h is   s tu d y   b y   ca teg o r izin g   u tili zin g   th SV ap p r o ac h   b ased   o n   Fas tTe x t r ep r esen tatio n   to   tac k le  th p r o b lem .   Sev er al  in f o r m ativ n am e d   en titi es  ar f r eq u en tly   s u f f i cien to   d if f er en tiate  wh eth er   o r   n o in f o r m atio n   o n   tr af f ic  ac cid en ex is ts .   Fo r   ex am p le,   in f o r m atio n   o n   tr af f ic  ac cid e n ts   wi ll  in clu d ad d itio n al   d etails  s u ch   as  lo ca tio n ,   ca s u alty   in ju r y ,   an d   tim e.   I n   th m ea n wh ile,   d ata  th at  d o es  n o in clu d ac ci d en t   in f o r m atio n   is   less   lik ely   to   h av s ev er al  s ets  o f   s u c h   d ata.   As  r esu lt,  we  b eliev th at   n am ed   en titi es  ar a   f ea tu r th at  m a y   b u tili ze d   t o   s ep ar ate  d ata  in to   d e f in ed   ca t eg o r ies.  T h is   is   d u to   th e   f ac t   th at  n am ed   e n titi es   ar d is tr ib u ted   ac r o s s   t h e   ite m   r esp o n s th eo r y   ( I R T )   h ie r ar ch y   i n   v ar io u s   ca te g o r ies.  On   ar ticles  d ata  [ 2 0 ] th u s ag e   o f   n am ed   e n titi es  in   tex class if icatio n   was  u s ed   to   ca teg o r ize   th e   ca teg o r ies  o f   p r esid en tial  elec tio n   n ews  d ep en d in g   o n   th eir   n ati o n   o f   o r ig in ,   r esu ltin g   in   an   in cr ea s in   t h m ic r o   av er ag F1   s co r e   f o r   t h e   clo s est ca teg o r y   to   8 1 . 4 % .       3.   P RO P O SE M E T H O   h ier ar ch ical  te x class if icati o n   aim s   to   class if y   ea ch   in c o m in g   d o cu m e n in to   ze r o ,   o n e ,   o r   s ev er al   ca teg o r ies  in   th tex h ier ar ch y .   On ap p r o ac h   to   th is   tech n o lo g y ,   SVM  with   co m b in atio n   s ch em e,   h as   d em o n s tr ated   s ig n if ican b en e f its   in   v ar iety   o f   tex ca te g o r izatio n   task s .   SVM ' s   p er f o r m an ce   is   d ep en d e n o n   th k er n el  f u n ctio n s   an d   s lack   v ar iab les  u s ed .   T o   p u it  an o th er   way ,   o p tim izin g   th e   two   p ar am eter s   is   cr u cial  f o r   o p tim izin g   th SVM  alg o r ith m   [ 2 1 ] .   T h s tep s   o f   th is   r esear ch   m e th o d   ar d ep icted   in   Fig u r 1 .   T h is   r esear ch   u s es  d ataset  g ath er ed   f r o m   T witter   I n d o n esian   lan g u ag e   an d   k e y wo r d s   th at  c o r r esp o n d   to   "tr af f ic   ac cid en ts " .   T o   s ee   h o th e   n am ed - en tity   im p ac ts   th s o cial  m ed ia  tex ca teg o r izatio n   o f   tr af f ic  ac cid e n in f o r m atio n ,   th class if icatio n   tech n iq u will  b e   co u p led   wit h   th n am ed - e n tity   ap p r o ac h   as  tex r ep r esen tatio n .   T o   cl ea r   d ata  f r o m   n o is e,   p r ep ar atio n   is   r e q u ir ed   ea r ly   o n .   T h f in al  s tag e   is   to   ass ess   th m o d el  to   s ee   h o n a m e d - en titi es  af f ec t h tex t c lass if icatio n   m o d el  an d   wh ich   m o d el  p r o d u ce s   th b es t r esu lts .           Fig u r e   1.   Pro p o s ed   m et h o d       T h h y b r id   s ch em is   p r esen t ed   as  n ew  s ch em th at  co m b in es  th wo r d   em b ed d i n g   an d   n am e d   en tity   s ch em as.   As  illu s tr ate d   in   Fig u r 2 ,   t h h y b r id   s ch em e   is   co n s tr u cted   b y   i n t eg r atin g   s en ten ce   p r o b a b ilit y   ev alu atio n s   ag ai n s lab els.   T h e   co m p u ted   r atio   i s   th en   u s ed   to   ca lcu late   th c o n tr ib u tio n   o f   ea c h   s ch em to   th h y b r i d   s ch em e,   en s u r in g   th at  th c o n tr ib u tio n s   ar b alan ce d   an d   th at  t h d ata  p r ed ictio n   f in d in g s   ar as a cc u r ate  as p o s s ib le.     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2         A n a lysi s   o f n a med - e n tity e ffect  o n   text  cla s s ifica tio n   o f tra ffic a cc id en t d a ta   …  ( A n u g r a h   Dw ia tma ja   P u tr a )   1675       Fig u r e   2 .   Hy b r id   s ch em e   co n c ep t       4.   RE SU L T S AN D I SCU SS I O   4 . 1 .     Da t a   c o llect io n   E n tity   tag g in g   is   th in itial  s tep   b ef o r p r ep r o ce s s in g .   T h i s   en ab les  th cr ea tio n   o f   d i v er s tex ts   co n tain in g   th in g s   th at  h av s ig n if ica n ce   b u ar d elete d   d u r in g   p r ep r o ce s s in g   an d /o r   ar p o o r ly   co m p r eh e n d ed   b y   co m p u ter s .   Data   f r o m   cr awl  r esu lts ,   as  s h o wn   in   T ab le  1 ,   will  b clea n ed   th r o u g h   m a n y   s tep s   o f   th p r ep r o ce s s in g   m o d el.   T h lo wer   ( )   m eth o d   f r o m   Py th o n ' s   s tr in g   m o d u le  is   u s ed   to   f o ld   th ca s es.  Usi n g   th Py th o n   s tr in g   p ac k ag e ,   s u p er f lu o u s   ch a r ac ter s   s u ch   as  em o tic o n s ,   web s ite  UR L s ,   p u n ctu atio n   m ar k s ,   d o u b le  s p ac es,  an d   n e wlin es  ar r em o v ed .   B ec au s th n atu r al  lan g u ag to o k it  ( NL T K )   lib r ar y   d o es  n o t c u r r e n tly   s u p p o r t I n d o n esi an ,   th s tem m in g   p r o ce s s   in   I n d o n esian   is   ca r r ied   o u u s in g   t h s astra wi  lib r ar y ,   wh ich   h as  s h o wn   to   b f air ly   ex ce llen at  h an d lin g   th I n d o n esian   lan g u a g s tem m in g   p r o ce s s .   T h NL T lib r ar y   is   u s ed   in   th to k en izi n g   p r o ce s s   to   d iv id s en te n ce s   in to   lis ts   w ith   s p ac ch ar ac ter   s ep ar ato r .   T h e   NL T an d   s astra wi  lib r ar ies  ar u s ed   in   th s to p w o r d   elim in atio n   p r o ce d u r e.   T h e   s to p wo r d   r e m o v a l   p r o ce d u r will b s tr en g t h en e d   b y   u s in g   two   lib r a r ies,  wh ich   will c o m p en s ate  f o r   ea ch   o th er ' s   in ad eq u ac ie s.       T ab le   1 .   E x am p le  o f   cr awlin g   p r o ce s s   r esu lt   C o l u m n   Ex a m p l e   C r e a t e d _ A t   Th u   F e b   2 2   1 8 : 0 9 : 5 7   + 0 0 0 0   2 0 2 1   Id   1 3 9 7 9 7 8 3 9 7 9 6 0 0 6 5 0 2 4   F u l l _ T e x t   D u a   Tr u k   A d u   B a n t e n g   D i   P a t i   B e r mu l a   S a a t   H i n o   C o b a   S a l i p   M o t o r ,   B e g i n i   K r o n o l o g i n y a . \ N \ N sel e n g k a p n y a   K l i k   Ta u t a n   B e r i k u t   I n i .   \ N # P a t i   # K r o n o l o g i   # K e c e l a k a a n   # Tr u k   \ N \ N h t t p s: / / T. C o / V k 1 p r h h d z p       4 . 2 .     Na m ed - ent it ies t a g g ing   L ab elin g   n am ed   en titi es  f o r   t h ter m s   in   th e   d ataset  co m p letes  th is   p h ase.   I n   th is   s tu d y   [ 2 2 ] ,   t h s p ec if ied   en tity   r elate s   to   v ar i o u s   n am e - en titi es  co n n ec ted   with   tr af f ic.   T h is   p h ase  is   co m p leted   b y   lab elin g   n am ed   en titi es  f o r   ter m s   in   th d ata  co llectio n .   I n   th is   s tu d y   [ 2 2 ] ,   th s p ec if ied   e n tity   co r r esp o n d s   to   v ar io u s   n am en titi es  th at  ar ass o ciat ed   with   tr af f ic.   T ab le  2   lis ts   th n am ed   en tity   ca teg o r ies  th at  h av b ee n   d e f in ed   an d   h a v s tr o n g   r elatio n s h ip   with   th ac cid en t   d ata.   W h en   tag g in g ,   th e   o u tco m e   o f   t h is   g r o u p   is   u tili ze d   to   cr ea te  n am ed   en tity   lab el  g r o u p .   T h r esear ch er   cr ea ted   th lab elin g   ap p licatio n   u s in g   th L ar av el   f r am ewo r k   [ 2 3 ]   an d   th Po s t g r eSQL   d atab ase.   E n tity   tag g in g   is   d o n o n   d ata  th at  h as  b ee n   ac q u ir e d   in   a   ce r tain   len g th   o f   tim e.   Fig u r 3   an d   Fig u r 4   d ep ict  th o u tc o m es o f   th ta g g in g   p r o ce d u r e .       T ab le  1 .   L is t o f   n am ed - e n titi es a n n o tated   En t i t y   N a me   Ex a m p l e   DAT   D a t e   S e p t e m b e r ,   2 0 1 9 ,   B e s o k   LO C   Lo c a t i o n   R a w a m a n g u n ,   J a k a r t a ,   C h i n a ,   C i p a l i ,   S e mara n g   O R G   O r g a n i z a t i o n   Li o n   A i r ,   B U M N ,   P o l r i ,   K e m e n h u b   TI M   Ti me   1 5 . 2 4 ,   P a g i ,   M a l a m   V EH   V e h i c l e   A v a n z a ,   I n n o v a ,   B o e i n g ,   M o b i l ,   B u s           Fig u r 1 .   E n tity   tag g in g   p r o ce s s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  25 ,   No .   3 Ma r ch   20 22 :   1 6 7 2 - 1 6 7 8   1676         Fig u r e   4 .   Am o u n ts   o f   ea ch   en t ity       4 . 3   Da t a   pre - pro ce s s ing   Data   p r o ce s s in g   is   o n o f   th m o s im p o r tan asp ec ts   o f   th e   d ata  an aly s is   p r o ce s s ,   an d   it  f r eq u e n tly   n ec ess itates  m o r wo r k   an d   t im [ 2 4 ] .   I n   th is   p h ase,   we' ll  tag   n am ed   en titi es.  T h is   en a b les  th c r ea tio n   o f   d iv er s tex ts   co n tain in g   th in g s   th at  h av s ig n if ican ce   b u ar d elete d   d u r in g   p r ep r o ce s s in g   an d /o r   ar p o o r l y   co m p r eh e n d ed   b y   c o m p u te r s .   Data   will  b e   clea n ed   th r o u g h   m an y   s tep s   o f   t h p r ep r o c ess in g   m o d el.   T h e   lo wer ( )   m eth o d   f r o m   Py th o n ' s   Strin g   m o d u le  is   u s ed   to   f o ld   th ca s es.  Usi n g   th Py th o n   Strin g   p ac k ag e,   s u p er f lu o u s   ch ar ac ter s   s u ch   as e m o tico n s ,   web s ite  UR L s ,   p u n ctu atio n   m ar k s ,   d o u b le  s p ac es,  an d   n ewlin es a r e   r em o v ed .   T h s tem m in g   p r o ce s s   i s   an   im p o r tan p r e - p r o ce s s in g   p h ase  th at,   d ep en d in g   o n   th lan g u ag e   em p lo y ed ,   m ig h b c o n s id er ed   to u g h   s tep   to   co m p lete.   T h am o u n o f   m o r p h o lo g ic al  co m p lex ity   o f   a   lan g u ag ca n   im p ac s tem m in g   o u tco m e [ 2 5 ] .   B ec au s th NL T lib r ar y   [ 2 6 ] ,   wh i ch   is   u s ed   f o r   th s tem m in g   p r o ce s s ,   d o es  n o c u r r en tly   s u p p o r t   I n d o n esian ,   t h s tem m in g   p r o ce s s   in   I n d o n esian   is   ca r r ied   o u t   u s in g   th Sas tr awi  lib r ar y   [ 2 7 ] ,   wh ich   h as  p r o v ed   to   b f ai r ly   co m p eten in   h an d lin g   th I n d o n esian   lan g u ag e   s tem m in g   p r o ce s s .   T h NL T lib r ar y   is   u s ed   in   th e   to k e n izin g   p r o ce s s   to   d iv id e   s en ten ce s   in to   lis ts   with   a   s p ac ch ar ac ter   s ep ar ato r .   T h e   NL T an d   Sas tr awi  lib r ar ies  ar u s ed   in   th s to p wo r d   eli m in atio n   p r o ce d u r e.   T h s to p wo r d   r e m o v al   p r o ce d u r will  b e   s tr en g th e n ed   b y   u s in g   two   li b r ar ies,  wh ich   will  c o m p en s ate  f o r   ea c h   o th er ' s   in ad eq u ac ies.  T h n u m b er   o f   en titi es  ca lcu lated   in   ea ch   r ep o r is   u s ed   as  p ar a m eter   in   th n am ed   en titi es   an d   h y b r i d   s ch em e T h Fas tTe x wo r d   em b e d d i n g   p r o ce d u r is   ca r r ied   o u with   th u s o f   p r e - t r ain ed   I n d o n esian   lan g u ag e   m o d els,  wh ich   m ay   b f o u n d   at  Fas tTe x t' s   web s ite  [ 2 8 ] .   E m o ji  r e m o v al,   p u n ctu atio n   r em o v al,   ca s f o l d in g ,   s tem m in g ,   s to p wo r d ,   to k en izatio n ,   an d   r ep r esen tatio n   o f   Fas tTe x wo r d s   ar all  s tep s   o f   d ata  p r e - p r o c ess in g   th at  ar ex ec u ted   u s in g   th W o r d 2 Vec   m o d el.   T h e   n u m b er   o f   en titi es  ca lcu lated   in   ea ch   r ep o r is   u s ed   as  p ar am eter   in   th e   NE   an d   c o m b in atio n   m o d elin g   t ec h n iq u es.   T a b le  3   s h o ws th o u tco m es o f   th p r e - p r o ce s s in g .       T ab le   3 .   T h r esu lts   o f   th p r e - p r o ce s s in g   P r o c e ss e d   Te x t   V e c t o r i z e d   T e x t   En t i t y   C o u n t   I s Acc i d e n t   [ b r u k ,   k e c e l a k a a n ,   ma u t ,   l i b a t k a n ,   2 ,   mo b i l ,   1 . . .   [ 0 . 1 1 7 5 9 9 9 0 5 ,   0 . 1 7 2 6 9 9 9 6 ,   0 . 9 8 9 5 ,   0 . 5 1 7 8 0 0 0 3 ,   . . .   [ 2 ,   0 ,   0 ,   0 ,   1 ,   3 ]   1   [ 1 3 ,   1 4 t e r j a d i ,   k e c e l a k a a n ,   b e r u n t u n ,   j l ,   m a y j . . .   [ - 0 . 0 6 2 5 0 0 0 1 ,   0 . 3 7 5 9 ,   - 0 . 0 4 5 6 0 0 0 1 2 ,   - 0 . 0 9 2 6 ,   0 . . .   [ 1 ,   0 ,   1 ,   0 ,   0 ,   0 ]   1   [ k e c e l a k a a n ,   s i a n g ,   j l ,   l a h o r ,   b a t u ,   k e j a d i a n , . . .   [ 0 . 2 0 8 3 9 9 9 8 ,   - 0 . 0 7 2 9 9 9 9 9 ,   - 0 . 5 5 7 1 ,   0 . 7 5 3 2 ,   0 . 5 . . .   [ 1 ,   0 ,   1 ,   0 ,   0 ,   1 ]   1   [ k e c e l a k a a n ,   j l ,   r a y a ,   ser a n g ,   p a n d e g l a n g ,   t e p . . .   [ - 0 . 5 8 9 4 9 9 9 5 ,   0 . 0 9 6 0 9 9 9 6 ,   0 . 2 9 9 7 ,   0 . 2 6 4 5 9 9 9 8 ,   . . .   [ 2 ,   1 ,   2 ,   0 ,   0 ,   0 ]   1   [ j u j u t su f e ss,  c h i l d h o o d ,   f r i e n d ,   mera n g k a p ,   c r . . .   [ 1 . 8 6 8 0 9 9 8 ,   - 1 . 1 4 7 7 0 0 1 ,   0 . 4 4 8 8 9 9 9 8 ,   1 . 4 2 0 4 ,   - 0 . . .   [ 0 ,   0 ,   0 ,   0 ,   0 ,   0 ]   0       4 . 4   T ra ini ng   cla s s if ica t io n us ing   t he  SV M   a lg o rit hm   T h th r ee   tech n iq u es m en ti o n ed   in   th p r ec ed in g   s ec tio n   ar e   u s ed   to   class if y   th d ata:     W o r d   em b e d d in g :   T h e   Fas tTe x W o r d   E m b ed d in g   m o d el  is   u s ed   t o   p r o v id e   th e   p o s itio n   v alu f o r   ea c h   tex t w h en   m o d elin g   u s in g   wo r d   r ep r esen tatio n .     Nam ed   en titi es : T h q u an tity   o f   ea ch   n am e d   en tity   in   tex t is u s ed   to   id en tify   th m ix   o f   e n t ities   in   tex wh en   m o d eli n g   with   en tity   ta g g in g .     Hy b r id C o m b in atio n   is   ac h ie v ed   b y   co m b in in g   th two   m o d els  m en tio n ed   ab o v e,   wh ich   th en   p r ed icts   a   tex t b y   co m p ar in g   ea ch   m o d el ' s   co n tr ib u tio n .   T h K - f o ld   cr o s s   v alid atio n   te ch n iq u is   u s ed   to   v alid ate  th e   tr ain in g   o u tco m es.  C r o s s   v alid atio n   is   a   tech n iq u th at   p r o v id es  s y s tem atic  way   f o r   ass ess in g   m o d el  ef f icac y   an d   co m p ar in g   m o d els  to   o n a n o th er .   T h is   tech n iq u e   ass u m es  th at  th m o d el  was  tr ain ed   o n   a   s ep ar ate  d ataset  f r o m   th e   o n e   th at  was  u s ed   f o r   test in g .   T h m o d el  f i n d s   r u les   in   o n d ataset  an d   th e n   v alu e s   th em   in   an o th er   d ataset.   Mo d el  ac cu r ac y   m ay   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2         A n a lysi s   o f n a med - e n tity e ffect  o n   text  cla s s ifica tio n   o f tra ffic a cc id en t d a ta   …  ( A n u g r a h   Dw ia tma ja   P u tr a )   1677   b o b jectiv ely   v er i f ied   u s in g   th v alid atio n   d ataset,   w h ich   p r o v id es  in f o r m atio n   o n   g e n u in class if icatio n   r esu lts   [ 2 9 ] .   T h d ataset  f o r   t h is   p r o ce d u r will  b d e r iv ed   v ia  d ata   v alid atio n .   T h is   tec h n iq u e   d iv id es  th e   d ataset  in to   ten   s ec tio n s   an d   c h an g es lo ca tio n s   ten   tim es a s   9 0 % tr ain in g   f o ld   a n d   1 0 % v alid atio n   f o ld .   I n   th is   s ch em e ,   we  e x am in ed   th co n tr ib u tio n   r atio s   o f   ea c h   s ch em e,   wh ich   r an g e d   f r o m   0 . 2   to   0 . 8 .   As  co n s eq u e n ce ,   th e   b est  a cc u r ac y   c o m p a r is o n   was  ac h i ev ed   wh e n   th e   wo r d   em b e d d i n g   s ch em e   an d   th e   n am ed   en titi es  s ch em wer e   co m b in ed   at   0 . 8 5   v s   0 . 1 5 .   A s   r esu lt  o f   th is   co m p ar is o n ,   th n am ed   en titi es  s ch em m ay   g iv p r o b a b ilit ies  as  s u p p lem en to   th e   h y b r id   s ch em e   wh ile  m ain tain in g   b alan ce d   co n tr ib u tio n   r atio   v alu e.   T h e   co m b in atio n   s tr ateg y   is   s h o w n   in   T ab le   4 ,   with   SVM  s u r p ass in g   th o t h er   two   b y   s co r o f   9 0 . 2 7 % .   T h is   d em o n s tr ates  th at  u s in g   n am ed   en titi es  in   th tr af f ic  a cc id en r ep o r d ata   ca teg o r izatio n   p r o ce s s   as  s u p p o r tin g   s ch em f o r   wo r d   em b ed d in g   h as  r esu lted   in   2 . 7 0 %   in cr ea s in   ca p ab ilit ies.  T h h y b r id   s ch e m h as  cr o s s - v alid atio n   s co r o f   8 1 . 9 8 % .   T h is   d em o n s tr ates  th at  th h y b r id   ap p r o ac h   wo r k s   ef f ec tiv ely   wi th   f r esh   d ata.       T ab le  2 .   R esu lts   o f   s ch em cla s s if icatio n   S c h e ma   A c c u r a c y   S c o r e   C r o ss V a l i d a t i o n   W o r d   Em b e d d i n g   0. 8 7 5 6 7 6   0. 8 0 8 0 6 9   N a med   E n t i t i e s   0. 8 1 0 8 1 1   0. 7 9 4 8 2 8   H y b r i d   0. 9 0 2 7 0 3   0. 8 1 1 5 9 5       5.   CO NCLU SI O AND  F U T U RE   WO RK   T h d ataset  in cl u d es  o f   d at in   its   o r ig in al   s tate,   d ata   lab elin g   r esu lts   f o r   d ef in e d   en titi es,  p r etr ea tm en t   p r o ce s s in g   r esu lts ,   an d   wo r d   em b e d d in g   r ep r esen tatio n   r esu lts .   An   ev alu atio n   o f   th e   p er f o r m an ce   o f   ea ch   s ch em is   ca r r ied   o u with   m o d el  a cc u r ac y   s co r e   b ased   o n   th e   s u g g ested   m o d elin g   s ch em to   ex am in e   th e   in f lu e n ce   o f   n am ed   en titi es  o n   th e   c ateg o r izatio n   o f   tr af f ic   ac cid e n d ata.   W h en   u s in g   h y b r id   s tr ateg y   with   th e   SVM  m o d el,   t h b est  ac cu r ac y   r esu lts   ar o b tain ed   at  9 0 . 2 7 % .   T h is   ap p r o ac h   o u tp er f o r m s   th ca teg o r izatio n   m eth o d   b ased   o n   t r ad itio n a wo r d   em b e d d in g ,   wh ich   s co r ed   8 7 . 5 7 %   in   th is   s tu d y ' s   co m p ar is o n .   I t' s   lik ely   th at  th e   n am e d   e n tity   s ch em p r o v id es  ex p lan atio n   to   th e   co m p r eh en s io n   o f   s en ten ce s   th at  ar e n ' ef f ec tiv e ly   r ep r esen ted   b y   wo r d   em b e d d in g ,   allo win g   th e   r esu lt  to   im p r o v e.   Ho wev e r ,   u s in g   th n u m b er   o f   o cc u r r en ce s   o f   n am ed   en titi es  as   an   o n ly   in p u f o r   tex ca teg o r izatio n   p r o d u ce d   p o o r   r esu lts ,   with   th lo west sco r o f   8 1 . 0 8 %   wh en   co m p a r ed   to   alter n ativ tech n iq u es.   T h is   d ataset  ca n   b ac q u ir ed   an d   u s ed   in   th f u tu r e   f o r   r esear ch .   L a b elin g   th d ata  f o r   t r ain in g   is   r eq u ir ed   to   im p r o v e   m ac h in e   lear n in g   with   b r o a d er   d ata   r an g e.   A d d itio n al   m ac h in e   l ea r n in g   ap p r o ac h es,   s u ch   as  d ee p   lear n in g ,   ca n   b e   en ab led   b y   in co r p o r atin g   s u f f icien tr ain in g   d ata .   I t' s   also   p o s s ib le  to   b r o ad e n   th lab elin g   o p tio n s   f o r   Nam e d   E n titi es.  B ec au s th p r o p o s ed   h y b r id   m eth o d   lar g el y   d e p en d s   o n   d ata  f r o m   n am ed   en tity   lab els,  ac cu r ate  lab elin g   o f   n am ed   e n titi es  is   r eq u ir ed   to   o f f e r   g o o d   s en ten ce   in ter p r etatio n .   I is   b eliev ed   th at  th c o m p u ter   w o u ld   b a b le  to   co m p r e h en d   t h m ea n in g   o f   t h wo r d   in   it s   co n tex in   g r ea te r   d ep th ,   wh ile  r em ain in g   s in g le  en tity .   C o llectin g   d ata  f r o m   s o u r ce s   o th er   th an   T witter ,   o n   th o th er   h an d ,   is   ad v is ed   in   o r d er   to   cr ea te  b ig g er   an d   m o r v ar ied   d ata b ases .       RE F E R E NC E S   [ 1 ]   R .   I sh r a t ,   G l o b a l   S t a t u s R e p o r t   o n   R o a d   S a f e t y   2 0 1 8 :   S u m mary ,   Wo r l d   H e a l t h   O rg a n i z a t i o n ,   n o .   1 ,   p .   2 0 ,   2 0 1 8 ,   A c c e sse d :   Ja n .   1 9 ,   2 0 2 2 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p : / / a p p s . w h o . i n t / b o o k o r d e r s.   [ 2 ]   R .   S u j a y ,   J.  P u j a r i ,   V .   S .   B h a t ,   a n d   A .   D i x i t ,   Ti m e l i n e   A n a l y si o f   T w i t t e r   U ser,”   Pr o c e d i a   C o m p u t e S c i e n c e ,   v o l .   1 3 2 ,     p p .   1 5 7 1 6 6 ,   2 0 1 8 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s.2 0 1 8 . 0 5 . 1 7 9 .   [ 3 ]   D .   A .   S a p u t r o   a n d   A .   S .   G i r sa n g ,   C l a s si f i c a t i o n   o f   t r a f f i c   a c c i d e n t   i n f o r mat i o n   u s i n g   m a c h i n e   l e a r n i n g   f r o so c i a l   me d i a ,   I n t e r n a t i o n a l   J o u r n a l   o f   Em e r g i n g   T ren d i n   E n g i n e e r i n g   R e se a rc h ,   v o l .   8 ,   n o .   3 ,   p p .   6 3 0 6 3 7 ,   M a r .   2 0 2 0 ,   d o i :   1 0 . 3 0 5 3 4 / i j e t e r / 2 0 2 0 / 0 4 8 3 2 0 2 0 .   [ 4 ]   A .   V .   D e u r se n ,   A .   M e sb a h ,   a n d   A .   N e d e r l o f ,   C r a w l - b a se d   a n a l y s i o f   w e b   a p p l i c a t i o n s:   P r o sp e c t a n d   c h a l l e n g e s ,   S c i e n c e   o f   C o m p u t e r   Pr o g r a m m i n g ,   v o l .   9 7 ,   n o .   P 1 ,   p p .   1 7 3 1 8 0 ,   Ja n .   2 0 1 5 ,   d o i :   1 0 . 1 0 1 6 / j . s c i c o . 2 0 1 4 . 0 9 . 0 0 5 .   [ 5 ]   D .   A n t o n a k a k i ,   P .   F r a g o p o u l o u ,   a n d   S .   I o a n n i d i s,  A   su r v e y   o f   Tw i t t e r   r e s e a r c h :   D a t a   m o d e l ,   g r a p h   s t r u c t u r e ,   s e n t i m e n t   a n a l y s i s   a n d   a t t a c k s,   E x p e rt   S y st e m s w i t h   Ap p l i c a t i o n s ,   v o l .   1 6 4 ,   p .   1 1 4 0 0 6 ,   F e b .   2 0 2 1 ,   d o i :   1 0 . 1 0 1 6 / j . e sw a . 2 0 2 0 . 1 1 4 0 0 6 .   [ 6 ]   Tw i t t e r 1 0   Y e a r   S t r u g g l e   w i t h   D e v e l o p e r   R e l a t i o n |   N o r d i c   A P I | .   h t t p s: / / n o r d i c a p i s . c o m/ t w i t t e r - 10 - y e a r - st r u g g l e - w i t h - d e v e l o p e r - r e l a t i o n s /   ( a c c e sse d   A p r .   2 7 ,   2 0 2 1 ) .   [ 7 ]   D e l i v e r i n g   a   c o n si s t e n t   Tw i t t e r   e x p e r i e n c e .   h t t p s : / / b l o g . t w i t t e r . c o m / d e v e l o p e r / e n _ u s/ a / 2 0 1 2 / d e l i v e r i n g - c o n s i st e n t - t w i t t e r - e x p e r i e n c e   ( a c c e ss e d   A p r .   2 7 ,   2 0 2 1 ) .   [ 8 ]   Th e   I n f r a st r u c t u r e   B e h i n d   T w i t t e r :   S c a l e .   h t t p s: / / b l o g . t w i t t e r . c o m / e n g i n e e r i n g / e n _ u s / t o p i c s / i n f r a s t r u c t u r e / 2 0 1 7 / t h e - i n f r a s t r u c t u r e - b e h i n d - t w i t t e r - sc a l e   ( a c c e sse d   A p r .   2 8 ,   2 0 2 1 ) .   [ 9 ]   K .   Ta k e u c h i   a n d   N .   C o l l i e r ,   B i o - me d i c a l   e n t i t y   e x t r a c t i o n   u si n g   S u p p o r t   V e c t o r   M a c h i n e s,”   i n   Pro c e e d i n g o f   t h e   {A C L 2 0 0 3   w o r k sh o p   o n   N a t u r a l   l a n g u a g e   p r o c e ssi n g   i n   b i o m e d i c i n e   - ,   2 0 0 3 ,   p p .   5 7 6 4 ,   d o i :   1 0 . 3 1 1 5 / 1 1 1 8 9 5 8 . 1 1 1 8 9 6 6 .   [ 1 0 ]   J.  C e r v a n t e s,  F .   G a r c i a - La m o n t ,   L.   R o d r í g u e z - M a z a h u a ,   a n d   A .   L o p e z ,   A   c o m p r e h e n s i v e   su r v e y   o n   s u p p o r t   v e c t o r   ma c h i n e   c l a ss i f i c a t i o n :   A p p l i c a t i o n s,   c h a l l e n g e a n d   t r e n d s,   N e u ro c o m p u t i n g ,   v o l .   4 0 8 ,   p p .   1 8 9 2 1 5 ,   S e p .   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . n e u c o m. 2 0 1 9 . 1 0 . 1 1 8 .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci Vo l.  25 ,   No .   3 Ma r ch   20 22 :   1 6 7 2 - 1 6 7 8   1678   [ 1 1 ]   A .   G o y a l ,   V .   G u p t a ,   a n d   M .   K u mar ,   R e c e n t   N a me d   En t i t y   R e c o g n i t i o n   a n d   C l a ssi f i c a t i o n   t e c h n i q u e s :   A   s y s t e mat i c   r e v i e w ,   C o m p u t e r   S c i e n c e   Re v i e w ,   v o l .   2 9 ,   p p .   2 1 4 3 ,   A u g .   2 0 1 8 ,   d o i :   1 0 . 1 0 1 6 / j . c o sr e v . 2 0 1 8 . 0 6 . 0 0 1 .   [ 1 2 ]   M .   P a ş c a ,   D .   L i n ,   J .   B i g h a m,   A .   L i f c h i t s,   a n d   A .   Ja i n ,   O r g a n i z i n g   a n d   s e a r c h i n g   t h e   W o r l d   W i d e   W e b   o f   f a c t -   S t e p   o n e :   T h e   q u e - mi l l i o n   f a c t   e x t r a c t i o n   c h a l l e n g e ,   Pr o c e e d i n g o f   t h e   N a t i o n a l   C o n f e r e n c e   o n   Art i f i c i a l   I n t e l l i g e n c e ,   v o l .   2 ,   2 0 0 6   p p .   1 4 0 0 1 4 0 5 ,   A c c e sse d :   Ja n .   1 9 ,   2 0 2 2 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s: / / r e s e a r c h . g o o g l e / p u b s / p u b 6 9 / .   [ 1 3 ]   J. - H .   K i m,  I . - H .   K a n g ,   a n d   K . - S .   C h o i ,   U n s u p e r v i se d   n a m e d   e n t i t y   c l a ssi f i c a t i o n   m o d e l a n d   t h e i r   e n se mb l e s,   i n   Pr o c e e d i n g o f   t h e   1 9 t h   i n t e rn a t i o n a l   c o n f e re n c e   o n   C o m p u t a t i o n a l   l i n g u i st i c - ,   2 0 0 2 ,   p p .   1 7 ,   d o i :   1 0 . 3 1 1 5 / 1 0 7 2 2 2 8 . 1 0 7 2 3 1 6 .   [ 1 4 ]   D .   M .   B i k e l ,   S .   M i l l e r ,   R .   S c h w a r t z ,   a n d   R .   W e i sc h e d e l ,   N y m b l e :   A   h i g h - p e r f o r m a n c e   l e a r n i n g   n a me - f i n d e r ,   i n   5 t h   C o n f e re n c e   o n   A p p l i e d   N a t u r a l   L a n g u a g e   Pr o c e s si n g ,   AN L 1 9 9 7   -   Pr o c e e d i n g s ,   1 9 9 7 ,   p p .   1 9 4 2 0 1 ,   d o i :   1 0 . 3 1 1 5 / 9 7 4 5 5 7 . 9 7 4 5 8 6 .   [ 1 5 ]   A .   S u l t a n ,   A . - H .   A mee n ,   M .   F a r e a ,   O .   F u a d ,   a n d   T.   B a g a s h ,   A   B i o me d i c a l   N a me d   E n t i t y   R e c o g n i t i o n   U si n g   M a c h i n e   L e a r n i n g   C l a s si f i e r a n d   R i c h   F e a t u r e   S e t ,   I J C S N S   I n t e r n a t i o n a l   J o u r n a l   o f   C o m p u t e S c i e n c e   a n d   N e t w o rk   S e c u ri t y ,   v o l .   1 7 ,   n o .   1 ,     p .   1 7 0 ,   2 0 1 7 .   [ 1 6 ]   J.  L i ,   A .   S u n ,   J .   H a n ,   a n d   C .   L i ,   A   S u r v e y   o n   D e e p   Le a r n i n g   f o r   N a me d   E n t i t y   R e c o g n i t i o n ,   I EEE   T ra n s a c t i o n o n   K n o w l e d g e   a n d   D a t a   En g i n e e ri n g ,   p p .   1 1 ,   2 0 2 0 ,   d o i :   1 0 . 1 1 0 9 / t k d e . 2 0 2 0 . 2 9 8 1 3 1 4 .   [ 1 7 ]   J. - H .   K i m   a n d   P .   W o o d l a n d ,   A   r u l e - b a s e d   n a me d   e n t i t y   r e c o g n i t i o n   s y s t e m fo r   s p e e c h   i n p u t ,   2 0 0 0 ,   p p .   5 2 8 5 3 1 .   [ 1 8 ]   Tw i t t e r :   m o n t h l y   a c t i v e   u s e r w o r l d w i d e   |   S t a t i s t a , ”  h t t p s : / / w w w . st a t i st a . c o m / st a t i st i c s / 2 8 2 0 8 7 / n u mb e r - of - mo n t h l y - a c t i v e - t w i t t e r - u s e r s/   ( a c c e sse d   Ju l .   0 3 ,   2 0 2 0 ) .   [ 1 9 ]   A .   G a l - T z u r ,   S .   M .   G r a n t - M u l l e r ,   T .   K u f l i k ,   E.   M i n k o v ,   S .   N o c e r a ,   a n d   I .   S h o o r ,   T h e   p o t e n t i a l   o f   s o c i a l   me d i a   i n   d e l i v e r i n g   t r a n s p o r t   p o l i c y   g o a l s ,   T r a n sp o r t   P o l i c y ,   v o l .   3 2 ,   p p .   1 1 5 1 2 3 ,   M a r .   2 0 1 4 ,   d o i :   1 0 . 1 0 1 6 / j . t r a n p o l . 2 0 1 4 . 0 1 . 0 0 7 .   [ 2 0 ]   Y .   G u i ,   Z .   G a o ,   R .   Li ,   a n d   X .   Y a n g ,   H i e r a r c h i c a l   t e x t   c l a ss i f i c a t i o n   f o r   n e w a r t i c l e s   b a se d - o n   n a me d   e n t i t i e s ,   i n   L e c t u re   N o t e s   i n   C o m p u t e r S c i e n c e   ( i n c l u d i n g   su b se ri e L e c t u re  N o t e s i n   A rt i f i c i a l   I n t e l l i g e n c e   a n d   L e c t u r e   N o t e i n   Bi o i n f o r m a t i c s) ,   v o l .   7 7 1 3   LN A I ,   S p r i n g e r   B e r l i n   H e i d e l b e r g ,   2 0 1 2 ,   p p .   3 1 8 3 2 9 .   [ 2 1 ]   Y .   Ta n ,   A p p l i c a t i o n s ,   i n   G p u - B a se d   Pa r a l l e l   I m p l e m e n t a t i o n   o f   S w a rm   I n t e l l i g e n c e   A l g o r i t h m s ,   El s e v i e r ,   2 0 1 6 ,   p p .   1 6 7 1 7 7 .   [ 2 2 ]   M .   S c h i e r s c h ,   V .   M i r o n o v a ,   M .   S c h mi t t ,   P .   T h o mas,   A .   G a b r y sza k ,   a n d   L.   H e n n i g ,   A   G e r ma n   c o r p u f o r   f i n e - g r a i n e d   n a m e d   e n t i t y   r e c o g n i t i o n   a n d   r e l a t i o n   e x t r a c t i o n   o f   t r a f f i c   a n d   i n d u st r y   e v e n t s,”   L R EC   2 0 1 8   -   1 1 t h   I n t e r n a t i o n a l   C o n f e re n c e   o n   L a n g u a g e   Re s o u rce a n d   E v a l u a t i o n A p r .   2 0 1 9 ,   p p .   4 4 3 7 4 4 4 4 ,   A c c e ss e d :   J a n .   1 9 ,   2 0 2 2 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s : / / a r x i v . o r g / a b s/ 2 0 0 4 . 0 3 2 8 3 v 1   [ 2 3 ]   R .   Y .   H e ,   D e s i g n   a n d   I mp l e m e n t a t i o n   o f   W e b   B a se d   o n   L a r a v e l   F r a mew o r k ,   i n   Pro c e e d i n g o f   t h e   2 0 1 4   I n t e rn a t i o n a l   C o n f e re n c e   o n   C o m p u t e S c i e n c e   a n d   El e c t r o n i c   T e c h n o l o g y ,   v o l .   6 ,   2 0 1 5 ,   d o i :   1 0 . 2 9 9 1 / i c c se t - 1 4 . 2 0 1 5 . 6 6 .   [ 2 4 ]   S .   R a m í r e z - G a l l e g o ,   B .   K r a w c z y k ,   S .   G a r c í a ,   M .   W o ź n i a k ,   a n d   F .   H e r r e r a ,   A   s u r v e y   o n   d a t a   p r e p r o c e ss i n g   f o r   d a t a   st r e a m   mi n i n g :   C u r r e n t   st a t u a n d   f u t u r e   d i r e c t i o n s,”   N e u r o c o m p u t i n g ,   v o l .   2 3 9 ,   p p .   3 9 5 7 ,   M a y   2 0 1 7 ,   d o i :   1 0 . 1 0 1 6 / j . n e u c o m. 2 0 1 7 . 0 1 . 0 7 8 .   [ 2 5 ]   M .   N a i l i ,   A .   H .   C h a i b i ,   a n d   H .   H .   B e n   G h e z a l a ,   C o m p a r a t i v e   st u d y   o f   A r a b i c   s t e mm i n g   a l g o r i t h ms  f o r   t o p i c   i d e n t i f i c a t i o n ,   P ro c e d i a   C o m p u t e r   S c i e n c e ,   v o l .   1 5 9 ,   p p .   7 9 4 8 0 2 ,   2 0 1 9 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s. 2 0 1 9 . 0 9 . 2 3 8 .   [ 2 6 ]   V .   N .   G u d i v a d a   a n d   K .   A r b a b i f a r d ,   O p e n - S o u r c e   L i b r a r i e s ,   A p p l i c a t i o n   F r a mew o r k s,  a n d   W o r k f l o w   S y st e ms  f o r   N LP,   i n   H a n d b o o k   o f   S t a t i st i c s ,   v o l .   3 8 ,   El s e v i e r ,   2 0 1 8 ,   p p .   3 1 5 0 .   [ 2 7 ]   sast r a w i / s a st r a w i :   H i g h   q u a l i t y   s t e mm e r   l i b r a r y   f o r   I n d o n e s i a n   L a n g u a g e   ( B a h a s a ) ,   h t t p s: / / g i t h u b . c o m / s a st r a w i / sas t r a w i   ( a c c e s se d   A p r .   2 8 ,   2 0 2 1 ) .   [ 2 8 ]   P .   B o j a n o w s k i ,   E.   G r a v e ,   A .   J o u l i n ,   a n d   T .   M i k o l o v ,   E n r i c h i n g   W o r d   V e c t o r w i t h   S u b w o r d   I n f o r ma t i o n ,   T r a n s a c t i o n o f   t h e   Asso c i a t i o n   f o r   C o m p u t a t i o n a l   L i n g u i st i c s ,   v o l .   5 ,   p p .   1 3 5 1 4 6 ,   D e c .   2 0 1 7 ,   d o i :   1 0 . 1 1 6 2 / t a c l _ a _ 0 0 0 5 1 .   [ 2 9 ]   M .   R a f a ł o ,   C r o ss   v a l i d a t i o n   m e t h o d s:   A n a l y si b a se d   o n   d i a g n o st i c o f   t h y r o i d   c a n c e r   me t a s t a s i s,”   I C T   E x p ress ,   M a y   2 0 2 1 ,     d o i :   1 0 . 1 0 1 6 / j . i c t e . 2 0 2 1 . 0 5 . 0 0 1 .       B I O G RAP H I E S O F   AUTH O RS       Anu g r a h   Dw i a tm a ja   P u tr a           is  c u rre n tl y   a   so ftwa re   e n g in e e a n d   p ro jec m a n a g e r   a a   n a ti o n a c o m p a n y .   He   e a rn e d   h is  M .   Ko m .   a Bisa   N u sa n tara   Un iv e rsit y ,   De p a rtme n t   o f   In fo rm a ti c En g i n e e rin g ,   Ja k a rta  In d o n e sia ,   i n   2 0 2 1 ,   a n d   c o m p lete d   h is  u n d e rg ra d u a te   e d u c a ti o n   fro m   th e   De p a rtme n t   o In f o rm a ti o n   S y ste m s,  S e p u lu h   N o p e m b e In sti tu te  o f   Tec h n o l o g y ,   S u ra b a y a   I n d o n e si a ,   in   2 0 1 8 .   He   wa a   F u ll   S t a c k   De v e lo p e r   a Ril iv . c o S u ra b a y a ,   in   2 0 1 6 2 0 1 8   a n d   a ls o   wo r k e d   a a   we b   d e v e l o p e r   in   v a rio u p ro jec ts  in   2 0 1 5 2 0 1 9 .   He   c a n   b e   c o n tac ted   a e m a il a n u g ra h d p u tra@g m a il . c o m .         Abb a   S u g a n d a   G irs a n g           is  c u rre n tl y   lec tu re a m a ste in f o rm a ti o n   tec h n o lo g y   a Bin a   Nu sa n tara   Un iv e rsity   Ja k a rt a .   He   o b tain e d   P h . D.  d e g re e   in   t h e   In stit u te  o Co m p u ter  a n d   Co m m u n ica ti o n   E n g in e e rin g ,   De p a rtme n o f   El e c tri c a E n g in e e rin g   a n d   Na ti o n a l   Ch e n g   K u n g   Un iv e rsity ,   Tain a n ,   Taiwa n ,   in   2 0 1 4 .   He   g ra d u a ted   b a c h e l o fr o m   t h e   De p a rtme n o f   El e c tri c a En g i n e e rin g ,   G a d jah   M a d a   Un i v e rsity   (UG M ),   Yo g y a k a rta  In d o n e sia ,   i n   2 0 0 0 .   He   t h e n   c o n ti n u e d   h is  m a ste rs  d e g re e   in   t h e   De p a rtme n o C o m p u ter S c ien c e   in   t h e   sa m e   u n iv e rsity   i n   2 0 0 6 2 0 0 8 .   He   wa a   sta ff  c o n su lt a n p r o g ra m m e in   Be th e sd a   Ho sp it a l,   Yo g y a k a rta,  i n   2 0 0 1   a n d   a lso   wo rk e d   a a   we b   d e v e lo p e in   2 0 0 2 2 0 0 3 .   He   th e n   jo i n e d   th e   fa c u lt y   o De p a rtme n t   o In fo rm a ti c En g i n e e rin g   in   Ja n a b a d ra   Un i v e rsity   a a   lec tu re i n   2 0 0 3 - 2 0 1 5 .   He   a lso   tau g h t   so m e   su b jec ts  a t   so m e   u n i v e rsi ti e in   2 0 0 6 2 0 0 8 .   His   re se a rc h   i n tere sts  i n c lu d e   sw a rm   in telli g e n c e ,   c o m b in a t o rial  o p ti m iza ti o n ,   a n d   d e c isio n   su p p o rt  sy st e m .   He   c a n   b e   c o n tac ted   a t   e m a il a g irsa n g @b i n u s.e d u .     Evaluation Warning : The document was created with Spire.PDF for Python.