T E L KO M NIK A , V ol . 17 No. 6,  Dec em be r   20 1 9,  p p.3 0 8 6~ 3 099   IS S N: 1 69 3 - 6 93 0 accr ed ited   F irst  Gr ad e b y K em en r istekdikti,  Decr ee  No: 2 1/E/ K P T /20 18   DOI:   10.12928/TE LK OM N IK A .v 1 7 i 6 . 11711      30 86       Rec ei v ed   Nov e mb er  8 , 2 01 8 ; Rev i s e J un e 2 8 , 2 0 1 9 A c c ep ted   J ul y  2 4 , 2 01 9   An   ad apt i v e   clu sterin g   an d   clas sificati on   algo ri th m     for   T w itt er   dat a   streami ng   in   A p ache   Sp ark         Raed   A.   Has an* 1 ,   Ro y ida   A.   Ibrah em   A lha ya li 2 ,     Nashw an   Dh e y a a   Z ak i 3 ,   A h med   Hu ss i en   A li 4   1 Fa c u l ty   of   Al - Dou r   T e c h n i c a l   i n s ti t u te /   N o e rth e rn   T e c h n i c a l   Uni v e rs i ty ,   M o s e l ,   4 1 0 0 2 ,   Ira q   2 Dep a rt m e n t   of   Co m p u t e r   En g i n e e r i n g ,   C o l l e g e   of   En g i n e e ri n g ,   Uni v e r s i ty   of   D i y a l a ,   Diy a l a ,   Ira q   3 Uni v e rs i ty   of   In f o rm a ti o n   T e c h n o l o g y   and   c o m m u n i c a ti o n s ,   Col l e g e   of   E n g i n e e r i n g ,   B a g h d a d ,   Ira q   4 AL   Sa l a m   Un i v e rs i ty   Co l l e g e   Com p u t e r   Sc i e n c e   De p a rt m e n t   Ba g h d a d ,   I ra q   *C o rre s p o n d i n g   a u th o r   e - m a i l :   ra e d .i s c .s a @g m a i l . c o m 1 ,   ro y i d a .a l h a y a l i @e n g i n e e ri n g .u o d i y a l a .e d u .i q 2 ,   n a s h w a n a l a n i @u o i t c .e d u .i q c o m 3 ,   m s c .a h m e d .h .a l i @g m a i l .c o m 4       Ab strac t   On - going   b i g   d a t a   fr o m   s o c i a l   n e two r k s   s i te s   a l i k e   Twi tt e r   or   Fa c e b o o k   h a s   b e e n   an   e n tr a n c i n g   h o ts p o t   fo r   i n v e s t i g a ti o n   by   r e s e a r c h e r s   in   c u rr e n t   d e c a d e s   as   a   r e s u l t   of   v a ri o u s   a s p e c t s   i n c l u d i n g     up - to - d a te - n e s s ,   a c c e s s i b i l i t y   and   p o p u l a ri t y ;   h o wev e r   a n y way   t h e re   m a y   be   a   tra d e   o ff   in   a c c u ra c y .   M o re o v e r,   c l u s te ri n g   of   twi tt e r   d a t a   has   c a u g h t   th e   a tt e n ti o n   of   re s e a r c h e r s .   As   s u c h ,   an   a l g o r i th m   wh i c h   c a n   c l u s te r   d a ta   wi th i n   a   l e s s e r   c o m p u ta ti o n a l   t i m e ,   e s p e c i a l l y   fo r   d a ta   s tre a m i n g   is   n e e d e d .   Th e   p r e s e n te d   a d a p t i v e   c l u s te ri n g   a n d   c l a s s i fi c a t i o n   a l g o ri t h m   is   u s e d   fo r   d a ta   s tre a m i n g   in   A p a c h e   s p a rk   to   o v e r c o m e   th e   e x i s ti n g   p ro b l e m s   is   p r o c e s s e d   in   tw o   p h a s e s .   In   t h e   fi rs t   p h a s e ,   th e   i n p u t   p r e - p ro c e s s e d   twi t te r   d a ta   is   v i a b l y   c l u s te r e d   u t i l i z i n g   an   Im p ro v e d   Fu z z y   C - m e a n s   c l u s t e r i n g   a n d   th e   p ro p o s e d   c l u s te ri n g   is   a d d i ti o n a l l y   i m p ro v e d   by   an   Ad a p t i v e   Pa rti c l e   s warm   o p ti m i z a ti o n   ( PSO )   a l g o ri th m .   F u rth e r   t h e   c l u s te re d   d a ta   s tre a m i n g   is   a s s e s s e d   u t i l i z i n g   s p a r k   e n g i n e .   In   th e   s e c o n d   p h a s e ,   th e   i n p u t   p r e - p ro c e s s e d   Hig g s   d a ta   is   c l a s s i fi e d   u t i l i z i n g   th e   m o d i f i e d   s u p p o r t   v e c to r   m a c h i n e   (M SV M )   c l a s s i fi e r   wit h   g r i d   s e a r c h   o p ti m i z a ti o n .     At   long   l a s t   th e   o p ti m i z e d   i n fo rm a ti o n   is   a s s e s s e d   in   s p a r k   e n g i n e   a n d   th e   a s s e s s e d   e s te e m   is   u t i l i z e d   to   d i s c o v e r   an   a c c o m p l i s h e d   c o n fu s i o n   m a tri x .   Th e   p ro p o s e d   work   is   u ti l i z i n g   Twi t te r   d a t a s e t   and   Hi g g s   d a ta s e t   fo r   th e   d a ta   s tre a m i n g   in   Ap a c h e   S p a rk .   Th e   c o m p u ta ti o n a l   e x a m i n a ti o n s   e x h i b i t   t h e   s u p e ri o ri t y   of   p re s e n te d   a p p ro a c h   c o m p a r i n g   w i th   th e   e x i s ti n g   m e t h o d s   in   te rm s   of   p re c i s i o n ,   r e c a l l ,   F - s c o re ,   c o n v e rg e n c e ,   RO C   c u r v e   a n d   a c c u ra c y .     Key w ords :   c l a s s i f i c a ti o n c l u s t e ri n g ,  d a t a  s tr e a m i n g o p t i m i z a ti o n p re - p ro c e s s i n g     Copy righ t   ©   2 0 1 9   Uni v e rsi t a s   Ahm a d   D a hl a n.   All   righ t s   r e s e rve d .       1.   Int r o d u ctio n   O v er   r ec e nt   y e ars ,   bu s i ne s s es   and   as s oc i at i o ns   d i dn 't   ha v e   to   s tore   and   p erf or m   m uc h   tas k s   and   an a l y t i c s   on   i n f or m ati on   of   the   c l i en ts   [1].   T he   need   to   c h an g e   ev er y th i n g   i nt o   i nf orm ati on   is   q ui t e   e ng a ge d   to   f ul f i l   th e   n ec es s i ti es   of   the   g en eral   po p ul ati on .   A l o ng   th es e   l i n es ,   bi g   da t a   c am e   i nto   i m ag e   in   the   r ea l   t i m e   bu s i ne s s   e x a m i na ti on   of   proc es s i ng   d ata .   P r es en t l y ,   i nd i v i d ua l s   are   c om m un i c ati n g   t he i r   o pi ni o ns   thr ou gh   on l i n e   bl o gs ,   c o nv ers ati on   f orm s   and   f urther m ore   s o m e   on l i n e   ap pl i c a ti o ns   l i k e   F ac eb o ok ,   T wi tte r ,   and   so   on   [2,   3].   In   t he   m os t   r ec en t   de c ad e ,   the r e   has   be e n   an   en orm ou s   de v e l o pm en t   in   the   ut i l i z at i on   of   m i c r o   bl og g i ng   s ta ge s ,   l i k e   T w i tte r   [4]   whi c h   is   o v er po w ere d   by   as t on i s h i n g   s ta ti s ti c s   [5].     W i de s pread   i nf or m ati on   ac c u m ul ati on   f r om   ne w s   s ou r c es   and   m i c r o   bl o gs   has   de l i v ered   hu g e   l i terar y   da ta   i nf orm ati on   s tr ea m s   th at   are   tr y i n g   to   pr oc es s   and   ex am i ne .     T he   i de nt i f i c ati on   of   r i s i n g   oc c as i on s   f r om   data   s tr ea m s ,   f or   ex a m pl e,   T w i tt er   has   go tt en   de v el op i ng   c on s i de r at i on   f r om   an al y s ts   [6,   7].   T w i tte r   is   the   en orm ou s   on l i ne   s oc i al   ne t wor k i ng   webp ag e   tha t   pres um ab l y   en de d   up   ord i n ar y   s urf i ng   s i tes   by   a   l arg e   n um be r   of   c l i en ts .   T w i t ter   s up po r ts   i ts   c l i en t   to   ex pres s   the   s en ti m en ts   or   thi nk i ng   wi t h   r es pe c t   to   c erta i n   c i r c u m s tan c es   of   r ea l - w or l d   ha p pe n i n gs   [8] .   T w i tte r   i n v es t i ga tes   t he   t ho ug hts   by   ut i l i z i n g   c l i e nt's   po s ts ,   bl o gs ,   a nd   r ev i e w s   to   s up po r t   n um er ou s   as s oc i at i on s   w h i c h   a r e   hook   up   w i t h   T w i tt er   f or   en ha nc i n g     the   c l i en t   s en t i m en ts   and   g ov ernm en ta l   i s s ue s ,   and   r e c o m m en de r   f r a m ew ork   [9 - 11].   A pa c h e   s p ark   is   a   q ui c k ,   broad l y   us ef ul   an d   d i s tr i b ute d   proc es s i ng   pl atf or m   that   uti l i z es   di s pe r s ed   m em ory   ge ne r a l i z ati on   to   proc es s   hu ge   v ol um e   of   i nf or m ati on   ef f ec ti v el y .   A pa c h e   s pa r k   is   ad ap ta bl e   an d   v e r s ati l e   c om pu ti ng   f r am ew o r k   c o m pris es   of   e ff ec ti v e   API   a nd   h i gh er   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A n a da p ti v e c l us teri ng   an c l as s i fi c at i on  al go r i thm  fo r   T wi tte r ...  ( Rae d A . Has a n )   3087   r eq ue s t   ap pa r at us es   that   are   good   wi th   h ad o op   [12].   As   of   l ate ,   a na l y s i ng   en orm ou s   un s tr uc tured   i nf orm ati on   is   a   bu s i ne s s   ne e d.   Cl us ter   a na l y s i s   is   o ne   of   the   m i ni n g   i s s ue s   uti l i z e d   f or   i nv es ti g ati on   l i k e   a s s es s m en t   m i ni ng ,   s e nt i m en tal   i n v es ti ga t i o n   an d   p op u l ari t y     ex am i na ti on   [ 13 ].   Cur r e nt   s y s t em s   us e   de v i c es   an d   ad v an c es   to   proc es s   T w i tt er   i nf or m ati on   whi c h   are   ut i l i z i n g   e v e nt   pr oc es s i ng   a nd   one   m es s ag e   at   ti m e   i n v es t i ga t i o n   [1 4].   A   s tan do ut   am on gs t   the   l at es t   s tud i es   uti l i z e d   s e v era l   l ea r n i n g   f r a m ew ork s   [15]   s uc h   as   K - Neares t   Ne i g hb o ur   ( K NN ) ,   S up p ort   V ec tor   M ac hi n e   ( S V M),   Ra nd om   F ores t   ( R F ) ,   and   Naï v e   B a y es   ( NB )   [ 16 ,   17].   T he   RF A   g en erat es   be tte r   r ec a l l ,   prec i s i on ,   and   F - m ea s ure   v al u es .   S V M   al l   p erf or m ed   s i m i l arl y   by   a c hi e v i n g   ab o ut   93%   ac c ura c y   in   e v er y   grou p.   In   e v er y   on e   of   th es e   prio r   s tud i es   i n v es ti ga t i on s ,   c l as s i f i c ati on   w as   us ed   f or   s pa m   di s c ov er y   on   T wi tte r .   T he   an om al y   i de nti f i c at i on   f r am ew ork   i m p r ov em en t   is   f or   di s ti ng ui s h i ng   s pa m m ers   on   T w i tte r   u t i l i z i ng   ac c ou nt   data   and   s tr ea m i ng   t w e ets   [18,   19].   T he   m ai n   c on tr i bu t i o ns   c an   be   s tat ed   as :   1)   pre - proc es s ed   uti l i z i ng   an   Im prov e d     F u z z y   C - m ea ns   c l us teri n g   to   v i ab l y   c l us ter   th e   at w i t ter   i nf orm ati on   the n   the   c l us teri ng     is   ad di t i on al l y   i m prov e d   by   uti l i z i ng   an   A d ap t i v e   P art i c l e   s w arm   op ti m i z at i on   ( P S O )   al go r i t hm   2)   p re - proc es s ed   i nf orm ati on   is   c l as s i f i ed   ut i l i z i n g   th e   m od i f i ed   s up po r t   v ec tor   m ac hi ne   ( MS V M)   c l as s i f i er   wi th   gri d   s ea r c h   op ti m i z at i o n.T hi s   arti c l e   is   pres en te d   in   d i f f erent   s ec ti on s   as   f ol l o w s :   the   r el a ted   pre v i ou s   s t ud i es   to   th e   pr op os e d   s y s t em   w ere   r ev i e wed   in   s e c ti on   2,   w h i l e     s ec ti on   3   br i ef l y   di s c us s ed   the   s ug g es ted   ap pro ac h.   In   s ec ti on   4,   t he   ex p erim en tal   r es ul ts   w ere   di s c us s ed   w h i l e   s ec ti on   5   p r es en ted   the   c on c l us i on .       2.   Re se a r ch   M eth o d   A   H y pe r tex t - I nd uc e d   T op i c   S ea r c h   ( HIT S )   w as   s ug g es ted   by   L ei l e i   et   al .   [20]   ba s ed     on   t he   T op i c - Dec i s i on   s tr ate g y   ( T D - HIT S )   and   a   La te nt   D i r i c h l et   A l l oc a ti o n   ( LDA ) - ba s e d     T hree - S tep   d i s pl a y   ( T S - LD A ) .   T he   f r a m ew ork   w as   s u gg es te d   f or   i nf l ue nti al   s pre ad ers   de t ec ti o n   and   i de nti f i c at i on   in   s oc i a l   m ed i a   data   s tr e am s .   T h e   prop os ed   T DHIT S   c an   ea s i l y   i de nti f y     the   nu m be r   of   the m es   as   di ff erent   r el ate d   po s ts   in   a   h u ge   nu m be r   of   po s ts .   TS - LDA   c an   i d en t i f y   po w erf ul   prop ag at ors   of   tr en d i ng   e v en t   b as ed   on   th e   c l i en t   da ta   and   th e   p os t.   On   a   T w i tte r   da tas et ,   th e   r es u l ts   s ho wed   the   ef f i c i en c y   of   th e   s ug ge s ted   m eth od s   in   e v e nts   r ec og n i ti on   and   in   di s ti ng u i s hi ng   po w erf ul   ev e nt   prop ag ato r s .   S ha ng s on g   L i a ng   et   a l .   [ 21 ]   prop os ed   a   w ork   f or   ha nd l i n g   t he   i s s ue   of   c l i en t   c l us t erin g   wi th   r eg ar ds   to   the i r   d i s tr i bu t ed   s h ort   t ex t   s tr ea m s .   To   ac qu i r e   b ett er   c l i en t   c l us ter i ng   pe r f or m an c e,   the y   pro po s ed   a   t w o - us er   c oo p erat i v e   i nte r es t   f ol l o wi ng   m od el s   that   go   f or   f ol l o wi ng   c h an g es   of   ev er y   c l i en t's   d y n am i c   po i nt   di s s em i na ti on   as   a   te am   w i th   t he i r   f ol l o w ers   d y n am i c   s ub j ec t   di s pe r s i on s ,   ba s ed   bo th   wi th   r es p ec t   to   the   c o nte n t   of   c urr en t   s ho r t   m es s ag es   and   the   r ec en t l y   e v a l u ate d   c on v e y a nc es .   T he y   al s o   s ug ge s t ed   2   c o l l ap s ed   G i bb s   s am pl i n g   f r a m ew ork s   f or   the   c oo pe r ate   i nd uc em en t   of   the   d y n am i c   ad v an ta ge s   of   the   c l i en ts   f or   both   s ho r t -   and   l o ng - term   c l us teri ng   r e l i an c e   po i nt   m od el s .   S tr ea m i ng   da ta   is   o ne   of   t he   c on s i de r at i on s   ac c ep ti n g   ho ts p ots   f or   c on c ep t - ev o l ut i on   s tud i es .   At   the   po i nt   whe n   an ot he r   c l as s   h ap p en s   in   t he   i nf or m ati on   s tr e am   it   v e r y   w e l l   m a y   be   c on s i de r e d   as   an o the r   i d ea   thus   th e   c on c ep t - ev ol uti o n.   T ah s ee n   et   a l .   [2 2]   hi gh l i g hte d     the   prob l em   by   c h arac teri z i ng   a   ne w   c ol l ab orati v e   s tr ate g y   c a l l ed   c l as s - ba s ed   gro up   w h i c h   s w a ps   the   c on v en t i o na l   " c hu nk - ba s ed "   m eth od   f or   r ep eti ti v e   c l as s   i d en t i f i c ati on .   T he   s tud y   di s c us s ed   t he   att r i bu t e   of   t he   2   d i f f erent   tec h ni q ue s   in   c l as s - ba s e d   gr ou p   in   or de r   to   pro v i de   the i r   d eta i l e d   an al y s i s   and   c l arif i c ati o n.   T he y   al s o   prov e d   the   s up erio r i t y   of   the   " c l as s - ba s ed "   groups   o v er   proc ed ures   by   m ea ns   of   ob s erv ati o n al   m eth od ol og y   on   v ari o us   be nc hm ar k   da ta ba s es   c om pris i ng   w e b   r em ar k s   as   tex t   m i ni ng   c h al l en ge .   Le k ha   et   al .   [23]   de v e l op ed   a   f r a m ew ork   f or   open - s ou r c e   bi g   d ata   c a l l ed   A pa c h e   S pa r k   whi c h   is   a   c l ou d - b as ed   f r am ew ork   that   f oc us   on   the   de v e l op m en t   of   m ac hi n e   l ea r n i n g   f r a m ew ork   w i th   r es pe c t   to   bi g   da t a   s tr ea m i ng .   In   t hi s   f r a m ew ork ,   the   us er   t weet s   hi s /h er   he al t h   tr ai ts   and   t he   a pp l i c at i on   get   th e   eq u i v al en t   pr og r es s i v e l y ,   ex tr i c ate s   th e   tr ai ts   and   de v e l o p   m a c hi ne   l e arni ng   f r am ew o r k   to   an ti c i pa te   c l i en t's   he al th   s tat us   whi c h   w as   the n   l eg i ti m ate l y   i nf orm ed   to   hi m /he r   i m m ed i ate l y   to   m a k e   s ui tab l e   ac ti o n.   S en t hi l   an d   Us ha   [2 4]   wor k ed   on   c ate go r i z i ng   s tr ea m s   of   T w i tte r   da ta   ba s ed   on   s en ti m en t   a na l y s i s   us i ng   h y b r i di z at i o n.   T he   s tud y   us e d   a   UR L - ba s e d   s ec ur i t y   d e v i c e   to   c o l l ec t   600   m i l l i on   o pe n   t wee ts   whi l e   f ea ture   s e l ec ti on   was   ap pl i e d   f or   s en ti m en t   i nv es ti g ati on .     T he   ternar y   c l as s i f i c ati o n   was   pe r f or m ed   ba s ed   on   a   p r e - proc es s i ng   s tr ate g y   w h i l e   the   r es ul ts   of   Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N: 16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 6,  D ec em be r  20 19 :   30 8 6 - 3 09 9   3088   the   t w e ets   s en t   by   t he   u s ers   are   c ol l ec ted .   T he n,   a   h y bri di z at i o n   ap pr oa c h   ba s ed   on   3   op ti m i z at i o n   m eth od s   ( P S O ,   GA   and   DT )   w as   a p pl i ed   f or   c l as s i f i c ati o n   ac c urac y   us i n g   s en ti m en t   an al y s i s .   T he   r es ul ts   w er e   c om pa r ed   w i t h   pre v i ou s   w ork s ,   and   th ei r   d ev el o pe d   s tr ate g y   de m on s tr ate s   a   greate r   t ha n   di f f erent   c l as s i f i e r s   an al y s i s .       3.       P r o p o s ed   M eth o d o lo g y   3.1 .   P h as e   1:   A d apt iv e   Cl u steri n g   f o r   T w it t er   Dat a   S t r ea ms   in   A p ac h e   S p a r k     T he   pres en t ed   tec hn i q ue   c on s i s ts   of   t he   s ub s eq ue n t   s tep s :   i ni ti a l l y ,   i np u t   t wi tt er   data   is   pre - proc es s ed   us i ng   tok en i z ati on   and   s top   w ord   r em ov a l   proc es s es .   T he n   th e   pre - proc es s ed   data   is   ef f ec ti v el y   c l us tere d   uti l i z i ng   an   Im prov e d   F u z z y   C - m ea ns   c l us teri ng   wi th   A d ap t i v e   P arti c l e   s w arm   op ti m i z at i o n   ( P S O )   al go r i t hm .   F i na l l y   twi tt er   da t a   s tr ea m i ng   us i n g   our   propos e d   m eth od   is   ex am i ne d   in   a p ac he   s pa r k   en gi ne .   T he   f l o w   d i ag r am   of   thi s   prop os ed   t wi tte r   da t a   s tr ea m i ng   uti l i z i ng   ph as e   1   m eth od ol o g y   is   g i v en   in   F i g ure   1.           F i gu r e   1 .   F l o w   d i a gram   of   p ha s e   1   prop os ed   m eth od o l og y       3.1.1 .   P r epro ce s sing   In   th e   pro po s ed   t w i tte r   d a ta   s tr ea m i ng ,   at   f i r s t   the   i np ut   da t a   us e d   f or   the   pr op os ed   prof i c i en t   i nf orm ati on   s tr ea m i ng   is   tak en   f r o m   the   da tas et   [2 5 - 30] .   Her e,   is   th e   t w i tt er   i n pu t   da tas et .   At   t ha t   p oi nt   the   i n pu t   t wi tte r   d ata   is   prepr oc e s s ed   uti l i z i ng   tok en i z at i o n   and   s top   wor d   r em ov al   proc es s es   w h i c h   are   uti l i z e d   to   ex pe l   the   c on f l i c ti ng   i nf orm ati on   or   no i s y   i nf orm ati on   f r o m   da tas et.   Inp ut   d ata   prepr oc es s i ng   i nc or po r ate s   t he   ac c om pa n y i ng   proc es s e s   [31] .   a.   S y m bo l i z a ti o n   S y m bo l i z a ti o n   is   the   tas k   of   s pl i tt i ng   t he   i n pu t   i nf or m ati on   up   i nt o   pi ec es ,   c al l e d   t ok en s ,   po s s i bl y   in   th e   m ea nti m e   di s c ardi n g   c ertai n   c ha r ac ter s ,   l i k e   pu nc tua ti o n.   B as i c a l l y ,   tok en i z at i o n   is   th e   wa y   t o w ard   s ep arati ng   t he   g i v en   tex t   i n to   un i ts   c al l ed   tok en s   and   it   is   ut i l i z ed   f or   f urther   ha nd l i ng .   T he   tok en s   m i gh t   be   w ords ,   n um be r   and   pu nc tua t i on   s am pl e   [3 2 - 35] .   T he   r ea s on   f or   s y m bo l i z a ti on   is   to   ex pe l   a l l   the   pu nc t ua t i on   m ar k s   l i k e   c om m as ,   f ul l   s top ,   h y p he n   and   brac k ets .   T he   i np ut   da t a   af ter   a pp l y i n g   the   tok en i z at i on   is   g i v en   in   ( 1) :     ̅ = { 1 , 2 , 3 , , }   ( 1 )     w he r e,   ̅    is   th e   tok en i z e d   d a ta   an d   = 1 , 2 , 3 , , .   b.   S top   w ord   r em ov a l   A f ter   tok en i z i ng ,   th e   tok en i z ed   i nf orm ati on   ( ̅ )   is   gi v e n   as   the   c on tr i bu t i on   f or   s top   wor d   r em ov i ng   a nd   h ere   s om e   un de s i r e d   w ords   ar e   r ej ec te d   by   ut i l i z i ng   s top   wor d   e l i m i na ti on .   S to p   wor ds   w i l l   be   w ords   that   ar e   by   a nd   l arg e   t ho u gh t   to   be   f uti l e.   T he   pu r po s e   f or   thi s   proc ed ure   is   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A n a da p ti v e c l us teri ng   an c l as s i fi c at i on  al go r i thm  fo r   T wi tte r ...  ( Rae d A . Has a n )   3089   uti l i z ed   to   av oi d   c on j un c t i o n,   r el ati on a l   wor ds ,   art i c l es   and   other   c o nt i nu ou s   w ord s ,   l i k e   ad v erbs ,   ac ti on   w ords   a nd   ad j ec ti v es   f r o m   tex tua l   i nf or m ati o n   [36 ] .   S om e   of   the   as   of ten   as   p os s i bl e   uti l i z ed   s to p   wor ds   are   " a" ,   " m e" ,   " of " ,   'th e',   'he',   's he ',   ' y ou '.   T he   tok en i z ed   i nf orm ati on   s ub s eq ue nt   to   ap pl y i ng   the   s top   w ord   el i m i na ti on   is   gi v en   in   ( 2) :     = { 1 , 2 , 3 , , }   ( 2 )     he r e ,     is   the   prepr oc es s ed   s et   of   data   af ter   el i m i na ti n g   s top   w ords   and   = 1 , 2 , 3 , , .     3.1.2 .   Dat a   A g g r egat ion     A gg r e ga t i on   is   the   proc es s   of   s pl i tti ng   a   s et   of   ob j e c ts   in   the   da tas et   i nt o   s ub s ets   or   c l us ter.   E ac h   s u bs et   is   a   c l us ter,   and   att r i bu tes   in   a   c l us ter   are   s i m i l ar   to   ea c h   a no t he r .     T he   propos ed   m od i f i ed   f uz z y   c l us teri n g   al go r i t hm   ( MF CM)   is   us ed   f or   eff ec ti v e   c l us teri ng   where   the   pe r f orm an c e   of   the   MFCM   de p en ds   upon   the   u pd at i ng   t he   m e m be r s hi ps   f un c ti on   us i ng   s i gm oi d   f un c ti on .   A dd i ti on a l l y   MFCM   pe r f or m an c e   is   i m prov ed   by   us i ng   s up po r t   v al ue   b as ed   ad ap ti v e   P S O   al go r i t hm .   T he   prepr oc es s ed   data   is   op ti m i z ed   us i ng   s up po r t   v al ue   ba s e d   ad ap ti v e   PSO   al go r i t hm   be fore   m od i f i ed   f u z z y   c - m ea ns   c l us teri n g   [3 7] .     Cl us teri ng   is   the   proc es s   of   s ep arati n g   a   s et   of   i te m s   in   the   da t as et   i nto   s ub s ets   or   c l us ter.   E v er y   s ub s et   is   a   c l us ter,   an d   tr ai ts   in   a   gro up   are   l i k e   ea c h   a no t he r .   T he   propos ed   m od i f i ed   f uz z y   c - m ea ns   c l us teri ng   a l go r i thm   ( MFCM)   is   uti l i z ed   f or   v i ab l e   c l us teri ng   where     the   ex ec ut i on   of   t he   MFC M   r e l i es   on   t he   up da t i ng   t he   m em be r s hi p   f un c ti on s   uti l i z i ng   s i gm oi d   f un c ti on .   A l s o   MFCM   ex ec u ti on   is   i m prov e d   by   ut i l i z i ng   s up po r t   v a l ue   ba s e d   ad ap t i v e   PSO   [ 38 ] .   a.   S up p ort   v al ue   b as ed   ad a pti v e   PSO   T he   PSO   was   d ev el o pe d   as   a   h eu r i s t i c   po pu l at i on - b as ed   o pti m i z a ti o n   m eth od   whi c h   was   i ns p i r ed   by   th e   f l oc k i ng   b eh a v i ou r   of   b i r ds .   T he   P S O   is   pr es en te d   as   a   c ol l ec ti o n   of   pa r ti c l es   w h i c h   i nd i v i d ua l l y   r ep r es en ts   a   po te nti al   s ol uti o n   [ 39 ] .   T he   pa r t i c l es   p urs ue   a   ba s i c   be ha v i or:   c op y   t he   ac c om pl i s h m en t   of   ne i gh b ou r i ng   p arti c l es   an d   i ts   o w n   ac c om pl i s he d   tr i um ph s .   T he   l oc at i on   of   a   pa r ti c l e   is   thu s l y   af f ec ted   by   th e   be s t   p arti c l e   in   a   n ei g hb o urhoo d,        j us t   as   th e   arr a ng em en t   f ou nd    .   P art i c l e   po s i t i on     is   ba l an c e d   uti l i z i n g     the   ac c om pa n y i ng   c on d i ti o n:     ( + 1 ) = ( ) + ( + 1 )   ( 3 )     w he r e,   t he   v e l oc i t y   c om po n en t     s i gn i f i es   the   s t ep   s i z e.   T he   v el oc i t y   is   u pd ate d   v i a   ( 4) :     ( + 1 ) = ( ) + 1 1 {   ( ) } + 2 2 {  ( ) }   ( 4 )     w he r e,     is   t he   i ne r t i a   w e i gh t,   1   and   2   are   t he   ac c el erat i o n   c oe f f i c i en ts   1 , 2 [ 0 , 1 ] ,        is   the   i nd i v i d ua l   be s t   po s i t i o n   of   pa r ti c l e   ,   an d      is   the   be s t   po s i t i on   of   the   p arti c l es .     At   tha t   po i nt,   Map   t he   l oc ati o n   of   ea c h   pa r t i c l e   i nt o   s ol uti on   s pa c e   and   ev al u ate   i ts   f i tne s s   es tee m   as   i nd i c ate d   by   t he   s up po r t   v a l ue   b as ed   f i tne s s   f un c ti on .   In   t he   m ea nti m e,   up da te          and       po s i ti on   if   r eq ui r e d.   T he   s up p ort   v al ue   is   es ti m ate d   by   uti l i z i ng   ( 5) :     ̅ = 1 2 . . . . . . 1 + 2 + . . . . . .   ( 5 )     Her e,   ̅   de n ote s   t he   s u pp o r t   v a l ue ,   1 , 2 , ,   s i gn i f i es   the   i n p ut   po pu l at i on .   T hi s   up da ti n g   proc es s   is   pr oc ee ds   un t i l   a   c r i teri on   is   m et,   u s ua l l y   it   us ed   f or   f i nd i ng   op t i m u m   s ol uti on   throug h   n um be r   of   i terat i o n s .   T he   ps eu d o   c o de   of   s up po r t   v a l ue   b as ed   ad a pti v e   PSO   al go r i t h m   is   gi v e n   in   A l g orit hm   1 .       A l g orit hm  1:  S up p ort  v al ue   ba s e a da pt i v P S O   al g orit h m     Ste p 1 :   I nitia liza t io n   Set th i n itial  s ize  k’   = 0   Set a   p o p u latio n   s ize  o f   NP   Set v elo citie s   s ize  v o f   t h in s ec t   Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N: 16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 6,  D ec em be r  20 19 :   30 8 6 - 3 09 9   3090   Set   2 :   W h ile  co n d itio n   n o t r ea ch ed   Do   Fo r   1   to   N P   Ste p 3 :   Ca lcula t      a nd      E v alu a te  th f it n es s   o f   p ar ticle s   u s in g   ( 5 )   Ste p 4 :   Upda t po s it io n a nd   v elo cit y   C alcu late  th p o s itio n s   a n d   v el o cities o f   in s ec u tili zi n g   ( 3 )   a n d   ( 4 )   E n d   Fo r   Ste p 5 :   I ncre a s t he  g ener a t io n c o un t   k’   k’   1   E n d   w h ile     b .   Mo di f i e d   f u z z y   C - m ea ns   ( MFCM)   c l us ter i ng     F u z z y   c - m ea ns   is   a   c l us t erin g   m eth od   whi c h   pe r m i ts   th e   s i t ua t i on   of   on e   d ata s et   be l on g i ng   to   m ore   than   on e   c l us ter   at   a   t i m e.   T he   s u gg es te d   MFCM   c l us teri ng   prov i de s   b ett er   c l us teri n g   p erf or m an c e   c om pa r ed   to   the   c on v en ti on al   F C M   c l us t erin g   m eth od s .   In   m od i f i ed   f uz z y   c   m ea ns   c l us ter i ng ,   Let   = { 1 , 2 , 3 , , }   be   t he   s et   of   data   po i nts   af ter   ad a pti v e   pa r ti c l e   s w arm   op t i m i z a ti on   an d   = { 1 , 2 , 3 , , }   be   t he   s e t   of   c en ters .   T he   ps eu do   c od e   of   m od i f i ed   f uz z y   c - m ea ns   c l u s teri ng   al go r i t hm   is   gi v e n   in   al g orit hm   2,       A l g orit hm  2:  ps eu do  c o de   o f   m od i f i ed  f u z z y  c - m ea ns  c l us teri ng         T he   MFCM   a l go r i thm   al l ots   data   to   e v er y   c l as s   by   u ti l i z i ng   f u z z y   m em be r s hi ps .     T he   m od i f i ed   o bj ec ti v e   f un c ti on   f or   pa r ti t i on i n g   th e   i np u t   da t as et   i nto   c l us ters   is   d ef i ne d   as ,      = (  ) = 1 = 1 2   ( 6 )       i n   ( 6),     r ep r es en ts   the   d ata ,   is   the     c l us ter   c e nte r   and     is   th e   c on s t an t   es tee m .   W h ere,   s i gm oi d   f un c ti on     de n ote s   the   w e i g hte d   m ea n   di s ta nc e   in   c l us ter   ,   and   it   is   ad ap ted   f or     the   ef f ec ti v e   c l us ter i ng   in   ( 6 )   gi v en   by :     = {  2 = 2  = 1 } 1 2   ( 7 )     T he   f un c ti on   of   be i ng   m em be r   s i gn i f i es   the   l i k el i h o od   of   data   f l e w   w h i c h   c om e   fr o m   s a m e   c l us ter.   T he   probab i l i t y   of   da t a   in   F C M   al go r i t h m   is   ba s ed   on   the   d i s ta nc e   of   i nd i v i du a l     M od i fi e d  f u z z y  C - m e an s  c l u s te r i n g   I n p u t:   i npu t   I p p p p p . . . . , , , 3 2 1 =   be   t he   s e t   of  d a t a   point s   a ft e a da pt i v e   p a rt i c l e   s w a rm   op t i m i z a t i on   a nd   J q q q q q . . . . , , , 3 2 1 = be   t he  s e t  of in i t i a l i z e c e nt e rs .   O u tp u t:   Cl us t e re d dat a     Be gi n     1.   I ni t i a l i z e  t he   c e n t roi ds ,   J j q j , . . . . 1 , =   2.   Ca l c ul a t e   t he  fuz z y  m e m be rs hi p   n J   b y  e qu a t i on ( 6 ),   3.   A t   J - s t e p :  c a l c ul a t e  t he  fuz z y  c e nt e rs  v e c t ors     ij v us i ng  ( 8 )   4.   Comput e  t h e   w e i g ht e d me a n dis t a nc e     i us i ng  (7)     5.   U pdat e  t he   c l us t e r c e n t roi ds     j z   6.   I f  a l g ori t hm c onv e rg e s  t he n S T O P ;   7.     O t he rw i s e  re t urn to s t e p 2  unti l  t h e  a l g ori t hm c onv e rg e s ;     8.   re t urn {Clus t e r}    En d   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A n a da p ti v e c l us teri ng   an c l as s i fi c at i on  al go r i thm  fo r   T wi tte r ...  ( Rae d A . Has a n )   3091   i ns ec t   w i th   ot he r   te am   in   s am e   c l us ter.   T he   f un c ti on s   of   m e m be r s hi p   and   c l us t er   c en ter   v ec tors   are   up da t ed   by   t he   v e l oc i t y   and   pa r ti c l e   p os i t i on s   by   ( 8)   and   ( 9).      = 1 ( ) 2 1 = 1   ( 8 )     the  c l us ters   c en tr oi d   v al ue s   are   c om pu ted   by   u ti l i z i ng   ( 9)     =  . = 1  = 1   ( 9 )     al g orit hm   wi l l   c o nti nu e   r un ni n g   t i l l   th e   c ha ng e   b et w e e n   t w o   i t erati on s   r e ac h   th e   ,   f or   the   g i v en   s en s i ti v i t y   thres ho l d.     ma x   ( )  ( + 1 ) <   ( 10 )     where,     =   a   term i na ti on   c o nd i t i o n   l y i n g   in   t he   r an g e   of   0   and   1,   w h i l e     =   the   i ter ati o n   s tep s .   Repe at   th e   s tep s   un t i l   ef f i c i en t   c l us teri n g   r ea c h ed .     3.2 .   P h as e   2:   E f f ec t iv e   Cl as sific atio n   f o r   Hig g s   Dat a   S t r ea ms   in  A p a che   S p a r k     In   t he   s ec on d   s tag e,   the   Hi gg s   da ta   s tr e am i ng   is   v i ab l y   pe r f orm ed   by   pre - pro c es s i ng   the   i np u t   i nf orm ati on .   T he n   the   pre - proc es s ed   i nf orm ati on   is   c l as s i f i ed   u ti l i z i n g   the   m od i f i ed   s up po r t   v ec tor   m ac hi ne   ( MS V M)   c l as s i f i er   w i t h   g r i d   s ea r c h   op t i m i z at i on .   At   l on g   l as t     the   o pti m i z e d   i nf orm ati on   is   as s es s ed   in   s p ark   en gi n e   the n   t he   as s es s ed   es tee m   is   uti l i z ed   to   di s c ov er   th e   c o nf us i on   m atri x   is   ac c om pl i s he d.   T he   pro po s ed   s ta ge   2   wor k   ut i l i z i ng   H i gg s   da tas ets   f or   the   da t a   s tr ea m i ng   in   A pa c he   S p ark .   T he   f l ow   di ag r am   of   ph as e   2   m eth o do l og y   f or   the   ef f ec ti v e   c l as s i f i c ati on   of   hi gg s   da ta   s tr ea m s   is   gi v e n   in   F i g ure   2.           F i gu r 2 .   F l o w  d i a gram  of  p ha s e 2   prop os ed  m eth od o l og y       3.2.1 .   P r epro ce s sing   In  the   prop os ed   H i gg s   da ta  s tr e am i ng f i r s the   i np ut  i nf or m ati on   uti l i z e f or     the   pro po s ed   ef f ec ti v i nf o r m ati on   s tr ea m i ng   i s   tak en   f r o m   the   da tas et   = { 1 , 2 , 3 , , } Her e,    i s   the   H i gg s   i n pu t   d ata s et.   T he t he   i n pu t   H i g gs   i nf orm ati on   i s   pre proc e s s ed   ut i l i z i ng   Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N: 16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 6,  D ec em be r  20 19 :   30 8 6 - 3 09 9   3092   tok en i z a ti o a nd   s to wor r em ov al   proc es s es   w h i c a r uti l i z e t ex pe l   c o nf l i c ti ng   i nf or m ati on   or  no i s y   i nf orm ati on   f r o m   da tas et.   H ere,  th i n pu t   da ta  i s   f i r s prepr oc es s e b y   u ti l i z i ng   tok en i z a ti o proc es s   g i v en   i ( 1)  a nd   s ub s e qu e ntl y   t ok en i z e da ta  i s   proc es s ed   b y   ut i l i z i n s top   wor d rem ov al   proc es s  gi v e n i n  ( 2).     3.2.2 .   Dat S t r ea min g  Cl a ss if ica t ion  G r id S ea r ch B as ed M o d if ied S v m   T he   S V as   b i n ar y   c l as s i f i c ati o m eth od   i s   r e l i an o the   s tr uc t ural   r i s k   m i ni m i z at i on   ap pro ac h.  T he   S V i n i ti at es   b y   m ap pi ng   t he   tr a i ni n da ta  i nt h y pe r p l a ne   whi c d i v i d es     2 c l as s es  of  i nf orm ati on   i n t he  f ea ture  s pa c an d  m ax i m i z e t he   ed g e o f  d i v i s i o n a m on g i ts el f  an d   tho s f oc us es   l y i ng   c l os es t   to  i t.  T hi s   d ec i s i on   s urf ac w o ul d   th en   be   ab l t b ut i l i z ed   as   a   r ea s on   f or  c ate go r i z i ng   u nk no w i nf orm ati on   [39] S V c l as s i f i c ati on   i s   i m prov e b y   us i n ne t w ork   grid   s ea r c op t i m i z ati on T he   gr i s ea r c i m prov e m en ad e qu a tel y   t un es   th S V M   pa r am ete r s  f or the  be tte r   a s s ort m en t.    In   ( 11 ) ,       =   t he   i n pu t   s pa c e,   =   i np u t   v ec tors ,   = { 1 , 1 }   =   target   s pa c e,     =   c l as s es ,   and   = { ( 1 , 1 ) , , ( , ) }   =   tr ai ni n g   s et.   In   the   S V M,   the   m os t   ex tr em e   edge   h y pe r p l a ne   ex ec ute s   the   pa r ti t i o ni ng   of   th e   2   b ou nd arie s   = { 1 , 1 } ,   i . e.   th e   h y p erpl an e   whi c h   m ax i m i z es   th e   c l os es t   di s ta nc e   to   the   d ata   p oi nts   an d   pro v i de s   the   op t i m u m   po pu l ar i z ati on   on   ne w   m od el s .   H en c e,   a   ne w   p oi nt     c an   be   c ate go r i z e d   by   f i r s t   de f i ni ng     the   as s ortm en t   f un c ti on   ( ) :         ( ) = s gn ( ( , ) +  )   ( 11 )     w he r e,      =   th e   s u pp ort   v ec t ors ,   ( , ) =   k ernel   f un c t i on ,     =   wei g hts ,   =   nu m be r   of   tr a i ni n g   s a m pl es ,     =   of f s et   pa r am ete r .   If   ( ) = + 1 ,     is   in   t he   po s i ti v e   c l as s ,   if   ( ) = 1 ,     is   in     the   ne g ati v e   c l as s .   T r ai n i n g   S V M   r eq ui r es   the   s ol uti o n   of   th e   ac c om pa n y i n g   o pti m i z at i on   i s s ue   ex pres s ed   in   ( 12 )   a nd   ( 1 3)   so   as   to   a tta i n   t he   wei g ht   v ec tor     an d   th e   of f s et   .       min , , 1 2 + 0   ( 12 )     w he r e   ( 1 4)   is   s ub j ec t   t o:     ( ( ) + ) 1 , 0   ( 13 )     T he   r ea s on   f or   em pl o y i n g   th e   G a us s i an   S V M   w h i c h   em pl o y s   p aram ete r s     an d     ga m m a   ( )   is   to   tr an s f orm   t he   c om po ne nt   v ec tor   s p ac e   i nto   the   i nc en s em en t   of   r em ote ne s s   s uc h   that   pa r t i ti on   c an   be   pe r f or m ed   w i t h   h i g he r   a c c urac y .   T he   di v ers i on   is   ac c om pl i s he d     us i ng   t he   k ernel   f un c ti on   ( , ) = ( ) ̃ ( ) ,   c ha r ac teri z ed   f or   th e   G au s s i an   S V M   is   ( , ) =  ( 2 ) , > 0 .   T he   c ho i c e   of   proper   l e ar ni n g   p aram ete r s   is   a   s i gn i f i c an t   s tep   in   ac q ui r i ng   v er y   m uc h   tu ne d   s up p ort   v ec tor   m ac hi ne s .   F or   th e   m os t   pa r t,   the   s ett i n gs   of   the s e   pa r am ete r s   de pe nd   on   a   grid   s e arc h.   T he   ps eu do   c od e   f or   the   op ti m i z at i on   of   SVM   pa r am ete r   uti l i z i ng   G r i d   s ea r c h   f or   better   c l as s i f i c ati on   is   gi v en   in   al g orit hm   3.   T he   S V i n i ti al i z to   m ai p aram ete r s     an ga m m ( )   an t he   proc ed ure   of   op ti m i z at i o b y   i s o l at i n t h h y p er - pl a ne   to   ge t   i de nti c al   wa y   of   w ork   ou t   th i n f or m ati on   a nd   the s are  th pa r am ete r   of   S V c l as s i f i er  f or  the   r eg ul ari z ati on   T he   pa r am ete r     c ha r ac teri z es   the   m i s tak of   da ta  f l ew.  W h en   the   v al ue   of     i nc r ea s es   the   m i s tak r ate   al s i nc r ea s es   an d   brin gs   d o w t he   n um be r   of  pe r m i tte po i nts   i the   err or  r an ge A   s m al l er  v a l u o f   en c ou r a ge s   a b i gg er er r or  ga up o n t he  i s o l at i on  of  th h y p er - pl an e.  F or  G au s s i a S V M,  the       pa r am ete r  i s   de term i ne as   i af f ec ts   i ts   h y p er - l i ne   ad a pta bi l i t y T o   r ed uc t he   v a l ue s   of   the   h y p er - pl an e   l i n i s   a l m os l i n ea r an d   f or  i nc r e as i ng   th nu m be r s i t   w ork s   ou t o   b progr es s i v e l y   c urv ed E x pa n di ng   t he   v a l ue   of     to  ov er - f i tti ng   on   wor k   ou da t a.  T hi s   grid   s ea r c b as ed   m od i f i ed   S V M   c l as s i f i c ati on  pro v i de s  th e e ff ec ti v proc es s  of  da ta  s tr e am i ng .     Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A n a da p ti v e c l us teri ng   an c l as s i fi c at i on  al go r i thm  fo r   T wi tte r ...  ( Rae d A . Has a n )   3093   A l g orit hm  3 :   Mo di f i e S V wi th  G r i d s ea r c op t i m i z ati on           4.   Result s   and   Dis cussion   T he   i m pl e m en tat i on   of   ou r   propos ed   da t a   s tr ea m i ng   us i n g   a da pt i v e   c l us teri n g   an d   c l as s i f i c ati on   is   p erf or m ed   in   the   w ork i ng   s ta ge   of   J av a   ap ac he   s p ark .   T he   T w i tt er   da t as et   a nd   Hi gg s   da t as et   is   uti l i z e d   to   as s es s   the   pro po s ed   t wi tt er   da ta   s tr e am i ng .   In   or de r   to   i n v es ti g ate   the   pe r f orm an c e   of   the   propos ed   da ta   s tr ea m i ng   is   di s ti ng u i s he d   w i t h   the   ex i s t i n g   arti f i c i a l   bee   c ol on y   ( A B C)   op t i m i z ati o n   and   G en eti c   a l go r i thm   ( G A )   tec hn i q ue s   in   r eg ards   of   Rec al l ,   P r ec i s i o n,   F - m ea s ure   and   Con v erge nc e.     4.1 .   P er f o r man c e   A n al ys is   of  P r o p o se d   Clu ste r ing   T he   s tat i s ti c al   m etri c s   of   F - s c ore,   prec i s i o n,   an d   r ec al l   c an   be   ex pres s ed   in   the   ter m s   of   T P F P F N,   an T N   W he r e,   TP   ( tr ue   po s i ti v e),   FP   ( f al s e   po s i t i v e),   FN   ( f al s e   n e ga ti v e)   an d   TN   ( tr ue   ne g ati v e)   es t ee m s .   T he   pe r f orm an c e   of   our   propos ed   wor k   is   an al y s e d   by   ut i l i z i n g   the   s tat i s ti c a l   m ea s ures   m en ti o ne d   in   t hi s   s ec ti on .     4.1 .1 .   P r e cis ion     T he   f r ac ti on   of   da t a   r ec og ni z ed   w h i c h   are   ap propr i at e   to   the   ori gi na l   da ta   is   te r m ed     as   prec i s i o n :       =   +    ( 14 )     t he   c om pa r i s on   graph   of   pr op os ed   da ta   s tr e am i ng   us i ng   i m prov ed   f u z z y   c - m ea ns   c l us teri ng   wi t h   ex i s ti n g   F u z z y   C - m ea ns   c l us teri ng   ( F C M)   an d   K - m ea ns   c l us teri n g   in   term s   of   prec i s i on   is   ap pe ared   in   F i g ure   3.   It   d ep i c ts   the   pr op os e da t s tr ea m i ng   us i ng   i m prov ed   f uz z y   c - m ea ns   c l us teri n r es u l ti ng   wel l   i t erm s   of   prec i s i on   th an   t he   ex i s ti n F u z z y   C - m ea ns   c l us teri ng   ( F CM)   an K - m ea ns  c l us teri n g.     4.1. 2 .   Reca l l   Rec al l   as c ertai ns   th e   f r ac ti on   of   da t a   whi c h   are   a pp r o pria t e   to   the   q ue r y   d ata   t ha t   are   ef f ec ti v el y   r ec og ni z ed .     Evaluation Warning : The document was created with Spire.PDF for Python.
                            IS S N: 16 93 - 6 93 0   T E L KO M NIK A     V ol .   17 ,  No 6,  D ec em be r  20 19 :   30 8 6 - 3 09 9   3094     =   +    ( 15 )     T he   c o m pa r i s on   graph   of   propos ed   d ata   s tr ea m i ng   us i ng   i m prov ed   f u z z y   c - m ea n s   c l us teri n g   w i th   ex i s ti n g   F u z z y   C - m ea ns   c l us teri ng   ( F CM)   an d   K - m ea ns   c l us teri ng   in   term s   of   r ec al l   is   ap p ea r e d   in   F i g ure   4.   It   de pi c ts   t he   prop os ed   da ta   s tr ea m i ng   us i n i m prov ed   f u z z y     c - m ea ns   c l us teri n ( IFC M)   r es ul t i n wel l   i n   term s   of  r ec al l   tha t he   ex i s t i ng   F u z z y   C - m ea ns   c l us teri n g (F CM)  a nd   K - m e an s  c l us ter i ng .             F i gu r 3.  C om pa r i s on  grap h i n  te r m s     of  prec i s i on     F i gu r 4.  C om pa r i s on  grap h i n  te r m s  of   r ec al l         4.1. 3 .   F - S core   T hi s   v a l ue   d ete r m i ne s   th e   ac c urac y   of   a   tes t.   T he   be s t   F - m ea s ure   v al ue   is   1   w h i l e     the   wor s t   is   0.   F - m ea s ure   is   c o m pu ted   us i ng   ( 1 6).      = 2   ×    +     ( 16 )     T he   c o m pa r i s on   graph   of   propos e d   d ata   s tr e am i ng   us i ng   i m prov ed   f u z z y   c - m ea ns   c l us teri n g   wi th   ex i s ti n g   F u z z y   C - m ea ns   c l us teri ng   ( F CM)   and   K - m ea ns   c l us teri n g   in   term s   of     F - s c ore   is   ap pe ared   in   F i g ure   5.   It   d ep i c ts   the   pro po s ed   d ata   s tr ea m i ng   us i ng   i m prov ed   f u z z y     c - m ea ns   c l us teri ng   r es ul t i n wel l   i term s   o f   F - s c ore  t ha th ex i s ti ng   F u z z y   C - m ea ns   c l us teri ng   ( F CM)  an K - m ea ns  c l us teri ng .     4.1. 4 .   Co n v er g ence   G r aph   T he   c on v erg en c e   graph   of   the   s ug ge s ted   P S O   u s i ng   d ata   s tr ea m i ng   w i th   A B C   op ti m i z at i o n   and   GA   tec hn i qu es   is   g i v en   in   F i g ure   6.   In   th propos e d   P S O   s y s t em ,     the   c o nv erge nc oc c urs   b et w ee f i tn es s   an nu m be r   of   i tera ti o ns   i s   be tte r   tha th ex i s ti ng   A B C  an d GA c o nv ergenc e .     4.1 .5 .   Co mp u t atio n al  T ime   It  i s   t he   qu a nti t y   of   ti m tak en   f or  the   c om pl eti on   of   propos e t wi tte r   da t s tr ea m i ng   T he   c o m pu tat i o na l   t i m of  da ta  s tr ea m i ng   i s ec on ds   c an   be   o bta i ne f r o m   the   da ta  s tr ea m   s i z i n b i an the   bi t  r ate   i bi t /s ec  as :     =   ( 17 )     w he r e,  ̃   be   t he   c om pu tat i o na l   ti m of   c l as s i f i c ati on   be   th s i z of   the   d ata   s tr ea m   be   the   B i r at e.   T he   pe r f orm a nc r es u l of   ou r   propos e IFC wi th   ex i s t i ng   F CM   an K - m ea ns   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A     IS S N: 1 69 3 - 6 93 0       A n a da p ti v e c l us teri ng   an c l as s i fi c at i on  al go r i thm  fo r   T wi tte r ...  ( Rae d A . Has a n )   3095   c l us teri n i t erm s   of   c o m pu tat i o na l   ti m i s   g i v en   i n   F i gu r e   7.   It   d ep i c ts   the   p r op os ed   da t s tr ea m i ng   us i n i m prov ed   f u z z y   c - m ea ns   c l us teri n ( I F CM)   ac h i e v ed   b ett er   c om pu tat i o na l   t i m e   c o m pa r ed   to  F C a nd   K - m ea ns   c l us teri n g.  T he   c om pa r i s on   r es ul ts   r eg ardi ng   of   v ario us   pe r f or m an c m ea s ures  ut i l i z i ng  a da p ti v e c l us teri ng   i s  de p i c ted   i T ab l e 1 .           F i gu r 5.  C om pa r i s on  grap h i n  te r m s     of  F - s c ore     F i gu r 6.  C on v erge nc e g r a ph  of  prop os ed     P S O   uti l i z e d c l us ter i ng   w i t h  ex i s ti n g A B   an d G A  te c h ni qu es           F i gu r e   7 .   C om pa r i s on   grap h   in   term s   of   c o m pu tat i o na l   ti m e       4.2 .   A v er age   Cl as s if ica t ion   E r r o r   P er ce n t age   T he   c o m pa r i s on   as s es s m en t   of   the   c l as s i f i c ati o n   err o r   pe r c en ta ge   is   gi v e n   in   T ab l e   2.   T he   propos ed   m od i f i ed   s up po r t   v ec tor   m ac hi ne   ( M S V M)   c l as s i f i c ati o n   err or   pe r c en ta ge   is   s i gn i f i c an tl y   l es s er   tha n   th e   ex i s ti n g   S V M   an d   A nti - B a y es   Mu l ti   c l as s i f i c ati o n.       T ab l e 1 .   C om pa r i s on  of     P r op os e d C l us teri ng   M e t h o d   P r e c i s ion   R e c a ll   F - m e a s u r e   P r o p o s e d   I FC M   9 5 . 7   9 3 . 2   9 4 . 4 3   FC M   7 7 . 9   75   7 6 . 4 2   K - m e a n s   6 9 . 0 9   6 7 . 8 1   6 8 . 4 4     T ab l e 2 .   C om pa r i s on  of  P r o po s ed   Cl as s i f i c ati on   i n T erm s  A da pti v e C l us ter i ng   A lgo r it h m   C las s i f i c a t ion   E r r o r   P e r c e n t a g e   SVM   2 6 . 9 9   A n t i - B a y e s   M u lt i   C las s i f i c a t ion   1 5 . 9 9   P r o p o s e d   ( M S V M )   1 3 . 1 3       Evaluation Warning : The document was created with Spire.PDF for Python.