T E L K O M NIKA   T elec o mm un ica t io n,  Co m pu t ing ,   E lect ro nics   a nd   Co ntr o l   Vo l.   18 ,   No .   4 A u g u s t   2020 ,   p p .   1 8 7 4 ~ 1 8 8 3   I SS N:  1 6 9 3 - 6 9 3 0 ,   ac cr ed ited   First Gr ad b y   Ke m e n r is te k d i k ti,  Dec r ee   No : 2 1 /E/KPT /2 0 1 8   DO I : 1 0 . 1 2 9 2 8 / T E L KOM NI KA . v 1 8 i4 . 1 5 0 0 1     1874       J o ur na l ho m ep a g e h ttp : //jo u r n a l.u a d . a c. id /in d ex . p h p /TELK OM N I K A   Se m a n tics - ba sed   clustering  appro a ch f o r si m ila r     resea rch area  de t ection       M a rio n O luw a bu n m i A debi y i 1 ,   E mm a nu e l B .   Adig un 2 Ro s eline  O luw a s eun O g un d o k u n 3 ,     Abid e m E mm a nu el  A deniy i 4 P ea ce   Ay eg ba 5 ,   O lufun k O .   O la dip up o 6   1, 3, 4, 5 De p a rtm e n o f   Co m p u ter S c ien c e ,   Co ll e g e   o f   P u re   a n d   A p p li e d   S c ien c e s,  L a n d m a rk   Un iv e r sit y ,   Nig e ria   1, 2, 6 De p a rtm e n o f   Co m p u ter S c ien c e ,   Co v e n a n U n iv e rsity   Ot a ,   Nig e ria       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   6 2019   R ev i s ed   J an   22 2 0 2 0   A cc ep ted   Mar   18 2 0 2 0       T h e   m a n u a p ro c e ss   o f   se a rc h i n g   o u t   in d iv id u a ls   i n   a n   a lrea d y   e x isti n g   re se a rc h   f ield   is  c u m b e rso m e   a n d   ti m e - c o n su m in g .   P ro m in e n t   a n d   r o o k ie  re se a rc h e rs  a li k e   a re   p re d isp o se d   to   se e k   e x isti n g   re s e a rc h   p u b l ica ti o n i n     a   re se a r c h   f i e ld   o f   in tere st  b e f o re   c o m in g   u p   w it h   a   th e sis.  F ro m     e x tan li tera tu re ,   a u t o m a ted   si m il a re se a rc h   a re a   d e tec ti o n   sy st e m h a v e     b e e n   d e v e lo p e d   t o   so lv e   t h is   p ro b lem .   Ho w e v e r,   m o st  o f   th e m   u se   k e y w o rd - m a tch in g   tec h n iq u e s,  w h ich   d o   n o su f f icie n tl y   c a p tu re   th e   im p li c it   se m a n ti c o f   k e y w o rd th e re b y   lea v in g   o u so m e   re se a rc h   a rti c les .   In   t h is  stu d y ,   we   p ro p o se   th e   u se   o f   o n t o lo g y - b a s e d   p re - p ro c e ss in g ,   L a ten S e m a n ti c   In d e x in g   a n d   K - M e a n Cl u ste rin g   to   d e v e lo p   a   p r o to ty p e   sim il a re s e a rc h   a re a   d e tec ti o n   sy ste m ,   th a c a n   b e   u se d   to   d e term in e   sim il a re se a r c h   d o m a in   p u b li c a ti o n s.  O u p ro p o se d   sy ste m   so lv e th e   c h a ll e n g e   o f   h ig h   d i m e n sio n a li ty   a n d   d a ta  sp a rsity   fa c e d   b y   th e   trad it io n a d o c u m e n c lu ste r in g   tec h n iq u e .   Ou s y ste m   is  e v a lu a ted   w it h   ra n d o m l y   se le c ted   p u b li c a ti o n f ro m   f a c u lt ies     in   Nig e rian   u n iv e rsiti e a n d   re su lt sh o w   th a th e   i n teg ra ti o n   o f   o n t o lo g ies     in   p re p ro c e ss in g   p r o v id e s m o re   a c c u ra te clu ste rin g   re su lt s.   K ey w o r d s :   K - m ea n s   clu s ter i n g   L ate n t se m a n tic  i n d ex i n g   Nig er ia  U n iv er s it y   On to lo g y - b a s ed   p r ep r o ce s s in g   Se m a n tic s - b ased   cl u s ter i n g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   R o s eli n Olu w ase u n   O g u n d o k u n ,     Dep ar t m en t o f   C o m p u ter   Scie n ce ,     L a n d m ar k   U n i v er s it y ,     K w ar Sta te,   Nig er ia.     +2 3 4 7 0 3 6 2 6 1 5 0 4   E m ail:  o g u n d o k u n . r o s eli n e@ l m u . ed u . n g       1.   I NT RO D UCT I O N   B ac k g r o u n d   o f   s t u d y   Fo r   th p u r p o s o f   r esear c h ,   to p ics  an d   r elev a n ar ticle s   f r o m   d ig ital  lib r ar ies  a n d   o n li n d at ab ases   ar s o u g h f o r   in   o r d er   to   g ai n   b etter   u n d er s ta n d i n g .   T h ese  s o u r ce s   ar u s e f u i n   th r etr ie v al  o f   r elev a n ar ticle s   b y   r e n o w n ed   r esear c h er s   [ 1 ] .   C itatio n s   ( d o cu m en cites   an o th er ) ,   b ib lio g r ap h ic  co u p lin g   ( d o cu m en t s   s h ar i n g   r ef er en ce   in   t h eir   b ib lio g r ap h y )   an d   co - w o r d   lin k ag e s   ( d o cu m e n t s   s h ar ce r tai n   w o r d s )   ar e   s o m o f     th ex i s ti n g   m eth o d s   t h at  h a v b ee n   u s ed   to   id en tify   tex tu al  d o cu m e n t s   th at  ar n ec e s s ar y   f o r   r esear ch .   T r a d itio n al  d o cu m en clu s t er in g   ap p r o ac h es  d o   n o s u f f icie n tl y   ca p t u r s e m a n tic  r elatio n s   b et w ee n   k e y w o r d s   lead in g   to   a m b i g u it y   a n d   h i g h   d i m e n s io n alit y   th er eb y   r ed u cin g   t h ac cu r ac y   o f   clu s ter in g   r es u lt s   [ 2 ,   3 ] .   T r a d itio n al  clu s ter in g   m et h o d s   o f te n   i g n o r s e m a n tic   r elati o n s h ip s   o r   co n n ec tio n s   b et w e en   w o r d s   an d   th er e   p r o d u ce   in ac cu r ate  r ep r esen ta t io n s   o f   s u ch   ar t icles.  T ex d ata  ca r r y   h i g h   lev e s e m a n tic  i n f o r m atio n   an d   d i v er s v o ca b u lar y ,   h en ce   t h n ee d   f o r   tex t c lu s ter in g   tec h n iq u es to   i m p r o v q u alit y .   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l       S ema n tics - b a s ed   clu s teri n g   a p p r o a ch   fo r   s imila r   r esea r ch   a r ea   d etec tio n   ( Ma r io n   Olu w a b u n mi  A d eb iyi )   1875   W h en   p r o s p ec tiv r esear ch er   em b ar k s   o n   r esear ch   en d ea v o r ,   th r esear ch er   m u s co n d u c r ev ie w   o f   r elate d   w o r k s   alr ea d y   d o cu m en ted   in   liter atu r i n   th at  f iel d   f o r   r o b u s r esear ch   p u b licatio n .   T h r esear ch er   w o u ld   T h is   s tu d y   u tili ze s   d at aset  co n ta in i n g   b ib lio g r ap h ic   i n f o r m atio n   o f   Nig er ia n   r esear c h er s   a s   ca s s tu d y   an d   ap p lies   co - w o r d   lin k a g es  to   d eter m i n d o cu m e n ts   in   t h s a m f ield .   T h g o al  o f   t h is   s tu d y   is   to   d ev elo p     s e m an t ics - b ased   clu s ter i n g   f r a m e w o r k   f o r   d etec tin g   s i m ilar   r esear ch   ar ea s .   T h s y s te m   d eter m i n e s     th s u itab ilit y   o f   a n   au t h o r   to   r esear ch   f ield   b ased   o n   th s e m an tic  s i m ilar it y   b et w ee n   an   au th o r s   w o r k   an d   p r ev io u s   w o r k s .   T h is   w o u ld   b p ar ticu lar l y   u s e f u f o r   r esear ch er s   w h o   i n te n d   to   lo ca te  r esear ch er s   w it h i n   th eir   r esear ch   f ie ld   an d   s i m ilar   r esea r ch   f ie ld .   T h d etec tio n   o f   s i m i lar   r esear ch   ar ea s   b ased   o n   k e y w o r d s   co u ld   p r o v e   b en ef icia to   ter tiar y   in s tit u tio n s   o f   lear n in g   a n d   r esear ch   ce n ter .   T h r esear ch   n et w o r k s   cr ea ted   is   in ten d ed   to   en h a n ce   t h p r o s p ec t o f   r esear ch   co llab o r atio n s   in   t h co n ti n en t.   Ac co r d in g   to   [ 4 - 6 ] ,   th ex is ti n g   m et h o d s   th at   h av b ee n   u s ed   to   id en ti f y   tex t u al  d o cu m e n t s   th a t a d d r ess   p ar ticu lar   s u b j ec t m atter   i n cl u d e:   -   C itatio n s   ( d o cu m e n t c ite s   an o th er )   -   B ib lio g r ap h ic  co u p lin g   ( d o cu m en ts   s h ar i n g   r ef er e n ce   in   t h eir   b ib lio g r ap h y )   -   Co - w o r d   lin k ag e s   ( d o cu m e n t s   s h ar ce r tain   w o r d s )   T h p r o b lem     T r a d itio n al   d o cu m en cl u s ter i n g   ap p r o ac h es  d o   n o s u f f ic ie n tl y   ca p t u r s e m a n tic  r elatio n s   b et w ee n   k e y w o r d s   lead i n g   to   a m b i g u it y   an d   h i g h   d i m e n s io n alit y   t h er eb y   r ed u ci n g   t h ac c u r ac y   o f   clu s ter i n   r esu lt s   [ 7 ] .   E x is tin g   k e y w o r d   m atc h in g   tec h n iq u es  ca n   b s i g n i f ica n tl y   i m p r o v ed   b y   i n te g r atin g   s e m a n tic s   in   d o cu m en s i m i lar it y   co m p u tat io n .   T h d etec tio n   o f   s i m i lar   r esear ch   ar ea s   b ased   o n   k e y w o r d s   co u ld   p r o v e   b en ef icia to   ter tiar y   i n s ti tu t i o n s   o f   lea r n i n g   a n d   r esear ch   ce n tr es.  T h is   s tu d y   i n te n d s   to   u tili ze   d ataset  co n tain i n g   b ib lio g r ap h ic  in f o r m atio n   o f   Ni g er ia n   r esear ch er s   as  ca s s t u d y .   W e x p ec th r esear ch   n e t w o r k s   cr ea ted   to   en h an ce   t h p r o s p ec t o f   r esear ch   co llab o r atio n s   in   th co n ti n e n t   Th p r o p o s ed   s o lu tio n   I n   th is   s t u d y ,   an   au to m ated   s i m ilar   r esear ch   ar ea   d etec tio n   s y s te m   i s   p r o p o s ed   th at  g en er ates  s i m ilar   r esear ch   ar ea s   an d   p u b licatio n s   to   th at  o f   p r o s p ec tiv r ese ar ch er .   B ased   o n   th ex p er tis e   o f   th p r o s p ec tiv e   r esear ch er ,   th s y s te m   au to m at icall y   ass i g n s   p r o s p ec tiv r esear ch er s   to   alr ea d y   ex is ti n g   r esear ch er s   in   th s a m e   o r   s im i lar   r esear ch   f ield .   T h is   is   d o n u s in g   th s i m i lar it y   s co r o b tain ed   u s in g   th e   L S A   m o d el  an d     co s in s i m i lar it y   to   ca lc u late  t h s e m a n tic  s i m ilar it y   b et w ee n   t h e m .   T h p r o p o s ed   s y s te m   is   b u ilt  f o r   r esear ch er s   to   d etec s i m ilar   r esear ch   ar ea s   d ep en d in g   o n   th e ir   r esear ch   p r ef er en ce s .   T h s y s te m   is   ac ce s s ib le  a s     w eb   ap p licatio n .     T h er ef o r e,   th aim   o f   th r ese ar ch   w as  to   d ev elo p   s em a n ti cs - b ased   clu s ter in g   m et h o d   f o r   d etec tin g   s i m i lar   r esear ch   ar ea s   u s in g   Nig er ia n   p u b licatio n s   as  ca s s tu d y   an d   t o   ac h ie v th i s   ai m ,   th f o llo w i n g   o b j ec tiv es  w er ca r r ied   o u t ;   -   C r ea tio n   o f   d ataset   -   Dev elo p   f r a m e w o r k   f o r   s i m i lar   r esear ch   ar ea   d etec tio n   -   I m p le m e n t a   p r o to ty p f o r   th p r o p o s ed   f r a m e w o r k   -   Valid atio n   an d   ev a lu at io n   o f   t h e   p r o p o s ed   ap p r o ac h       2.   L I T E R AT U RE   R E VI E W   A   r e v ie w   o f   e x i s ti n g   s e m an t ic  clu s ter in g   tec h n iq u es  alr e ad y   d o cu m e n i n   liter at u r i s   o u tli n ed     b elo w   [ 8 ]   p r esen ted   d ee p   h y p er g r ap h   m o d el  f o r   s e n ti m en t c lass i f icatio n   an d   o n l in r e v ie w s .   T h m o d el  u s ed     h ier ar ch ical  cl u s ter i n g   alg o r ith m   to   d is co v er   s e m an tic  cli q u es.  T h m o d el,   test ed   w i th   m o v ie  r e v ie w s   a n d   p r o d u ct  r ev ie w s   ( b o o k s ,   DVD ,   elec tr o n ic  an d   k itc h e n )   w a s   co m p ar ed   w it h   s e v en   o t h er   m eth o d s   o f   s e n ti m e n class i f icatio n   a n d   r esu lts   s h o wed   th m o d el   o u tp er f o r m ed   al o th er   m et h o d s   i n   all   ca s e s .   A ls o ,   [ 9 ]   u s ed   s e m a n ti c   clu s ter i n g   to   lo ca te  a n d   ac ce s s   w eb   d o cu m e n ts .   T h te x co r p u s   i s   p r e - p r o ce s s ed ,   s te m m i n g   is   p er f o r m ed   u s i n g   th W o r d Net  o n to lo g y .   T h t er m   f r eq u en c y - i n v er s e   d o cu m en f r eq u en c y   al g o r ith m   was  u s ed   to   co n s tr u ct    f ea t u r m atr ix .   Hier ar ch ical  ag g lo m er ati v cl u s ter i n g   w as   u s ed   to   p er f o r m   clu s ter i n g   o n   th f ea t u r m a tr ix .     T h ap p r o ac h   u s ed ,   i m p r o v e d   th ac cu r ac y   o f   th c lu s ter s   g e n er ated .   T h d r a w b ac k   i s   th a Hier ar ch ical   ag g lo m er ati v cl u s ter i n g   is   n o s u itab le   f o r   lar g d ataset s .   Si m ilar l y ,   [ 1 0 ]   p er f o r m ed   en h a n ce d   s e m a n tic   clu s ter i n g   w i th   th W o r d Net  o n to lo g y .   T h tex co r p u s   w as  p r e - p r o ce s s ed   w i th   W o r d Net  o n to lo g y   to   p er f o r m   w o r d   s en s d is a m b i g u atio n .   T h ter m   f r eq u e n c y - i n v er s d o cu m en f r eq u e n c y   tech n iq u is   u s ed   to   d er iv e     f ea tu r r ep r esen tatio n   o f   t h w o r d s   in   th te x co r p u s .   T h K - Me a n s   clu s ter i n g   al g o r ith m   is   ap p lied   to   clu s ter   th f ea t u r v ec to r s   [ 1 1 ] .   T h p r e - p r o ce s s in g   m e th o d   u s ed   eli m i n ated   th d i m e n s io n alit y   p r o b lem   e n co u n ter ed   in   tr ad itio n al  d o cu m e n cl u s t er in g .   T h li m itat io n   is   t h at  th K - Me a n s   clu s ter in g   alg o r ith m   s u f f er s   f r o m     th lo ca o p ti m p r o b le m .   I n   [ 1 2 ]   as  w ell   u s ed   Se m a n t ic  clu s ter in g   to   s o lv e   t h to p ic  d r if p r o b le m     in   i n f o r m atio n   r etr ie v al  s y s t e m s .   Sear c h   s n ip p ets  ar p r ep r o ce s s ed   an d   ex tr ac th e   lo n g e s co m m o n   s u b s eq u en ce   b et w ee n   t w o   s n ip p ets  b y   GST .   E v alu a te  W o r d   s i m ilar it y   u s i n g   Ho w Net  o n to lo g y   a n d   co n s tr u ct  a   lex ic al  c h ai n   to   s elec f ea t u r es  o f   s n ip p ets.  A   f ea t u r v ec to r   is   co n s tr u cted   a n d   ev a lu ate   s n ip p et  s i m ilar ities .   Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l Vo l.  18 ,   No .   4 A u g u s t 2 0 2 0 :    1 8 7 4   -   1 8 8 3   1876   T h I m p r o v ed   C h a m eleo n   alg o r ith m   u s ed   f o r   clu s ter i n g   t h f ea t u r v ec to r s   i m p r o v ed   t h w it h i n - clas s   d en s it y   an d   b et w ee n - clas s   v ar iat io n   o f   th cl u s te r   lab els.  Ho w e v er ,   th C h a m eleo n   alg o r it h m   h a s   h ig h   ti m an d   s p ac e   co m p le x it y   w h ich   d o es  n o m a k it s u itab le  f o r   h ig h   d i m e n s i o n al  d atasets .   I n   [ 1 3 ]   u s ed   s em a n tic  cl u s ter i n g   to   clu s ter   s ea r ch   r esu lt  d o cu m en ts   b ased   o n   th s e m an tics   o f   r etr iev ed   d o cu m en ts .   A   s ea r ch   e n g in e   w as  q u er ied   to   r etr iev in f o r m at io n ,   th s ea r c h   en g i n e   r esu lts   w er th e n     p r e - p r o ce s s ed ,   an d   ex tr ac tio n   o f   f ea t u r es  w a s   ca r r ied   o u t.  T h f ea t u r es  w er en h a n ce d   u s in g   co n ce p t s   f r o m     an   o n to lo g y   a n d   s e m a n tic   n et w o r k .   A   d is s i m ilar i t y   m atr i x   o f   th d o cu m e n ts   w a s   cr ea ted   u s in g     th F lo y d - W ar s h all  a lg o r it h m   [ 1 4 ] .   T h Hier ar ch ical  a g g lo m er ati v cl u s ter i n g   al g o r ith m   is   u s ed   to   cl u s ter     th f ea t u r v ec to r s   i n   th s i m il ar it y   m atr i x .   Hig h   p r ec i s io n   r e s u lt s   w er o b tain ed   as  th ap p r o ac h   o u tp er f o r m ed   ex is t in g   ap p r o ac h es  f o r   w e b   s ea r ch   r es u lt  cl u s ter i n g .   Hier ar ch ical  a g g lo m er ati v clu s ter i n g   ca n   b co m p u tatio n all y   e x p en s i v to   u s f o r   lar g d atasets .   I n   [ 1 5 ]   also   p r o p o s ed   th u s o f   s e m an tic  clu s te r i n g   to   d eter m in s i m ilar   tex t d o cu m e n ts .   T h tex t c o r p u s   is   ex tr ac ted   an d   p r e - p r o ce s s ed .   T h ter m   f r eq u en c y - i n v er s e   d o cu m en f r eq u en c y   al g o r ith m   is   u s ed   to   id en ti f y   f r eq u e n tl y   o cc u r r in g   ter m s   a n d   co n s tr u ct  d o cu m e n m atr i x .   A   d o m ai n   o n to lo g y   is   co n s tr u ct ed   f r o m   th te x co r p u s   to   p r o v id v o ca b u lar y   f o r   f ilter i n g   r elev a n ter m s .     A   F u zz y   eq u iv ale n ce   r elatio n   is   u s ed   to   d eter m i n th lev el  o f   m e m b er s h ip   o f   ter m s   i n   th tex co r p u s .     Sin g u lar   v al u d ec o m p o s itio n   is   u s ed   to   tr an s f o r m   th d o cu m e n m atr ix   i n t o   co n ce p s p ac e.   B is ec tin g     K - m ea n s   alg o r it h m   i s   u s ed   to   p er f o r m   clu s ter in g   o f   t h co n ce p s p ac e.   T h u s o f   d o m a in   o n to lo g y   i n     th p r e - p r o ce s s in g   s ta g i m p r o v es  clu s ter in g   r esu lt s .   T h li m ita tio n   o f   t h m et h o d   is   th p er f o r m an ce   o f     th m et h o d   is   en t ir el y   d ep en d en o n   th q u alit y   a n d   co m p r eh en s i v en e s s   o f   t h o n to lo g y   u s ed .   I n   [ 1 6 ]   as  w el l   u s ed   s e m an t ic  clu s ter in g   to   class i f y   c u s to m er   r ev ie w s .   T h tex co r p u s   is   ex tr ac ted   b y   cr a w li n g   c u s to m er   r ev ie w eb s i tes  an d   th e n   it  is   p r e - p r o ce s s ed .   On to lo g y   is   u s ed   to   g en er ate  co n ce p m ap p in g   in   th tex co r p u s .   E u clid ea n   d is ta n ce   m etr ics  ar u s ed   to   ca lcu late  th s i m ilar it y   o f   s en te n ce s   i n   th b ag   o f   w o r d s   v ec to r   s p ac m o d el.   T h m o d if ied   K - Me an s   alg o r ith m   is   u s ed   to   clu s ter   th b ag   o f   w o r d s .   E x p er i m e n tal  r esu l t s   r ev ea led   th a t   th ac cu r ac y   o f   t h clu s ter s   g e n er ated   is   in cr ea s ed   w it h   t h u s o f   o n to lo g y   i n   th p r e - p r o ce s s i n g   s tag e.   Fu r t h er   m et h o d s   f o r   id en ti f y i n g   e x i s ti n g   co llab o r atio n s   b et w ee n   v ar io u s   r esear c h er s   f r o m   v ar io u s   p u b licatio n   d atab ases   ar p r esen ted   b elo w   [ 1 7 ]   d ev elo p ed   a   co - au t h o r s h ip   n et w o r k   to   r ev ea th in ter ac tio n s   b et w ee n   r esear ch er s .   A   s y s te m   f o r   s elec ti n g   co llab o r ato r   w i th   s i m ilar   r esear ch   i n ter es ts   f o r   j o in r esear ch   w a s   m o d eled   as  lin k   p r ed ictio n   p r o b lem .   Au t h o r s   w it h   s i m ila r   k n o w n   f ea tu r e s   w er d eter m i n ed   u s i n g   C o s i n e   s i m ilar it y   co m p u ted   o n   v ec t o r   co n s tr u cted   to   m o d el  th d escr ip tiv s tat is tic s   o f   v ar io u s   r esear ch   ac tiv itie s .   T h co - au th o r s h ip   n et w o r k   was  d eter m i n ed   u s in g   th h ier a r ch ical  clu s ter in g   o f   r esear ch   in ter est s   in   v ar io u s     co - o cc u r r en ce   n et w o r k s .   T h ey   also   u s ed   lo g is tic  r eg r es s io n   w it h   la s s o   r e g u lar izat io n   o n   n o r m alize d   f ea t u r e   v ec to r s .   T h d is ad v a n tag e   o f   th i s   ap p r o ac h   is   t h at  i n f o r m atio n   r etr iev al  w as  u s ed   t o   o b tain   d ata  f r o m     th b ib lio g r ap h y   d atab ase  a n d   th s e m a n tic  m ea n i n g   o f   t h te r m s   w as  n o t ta k e n   i n to   co n s id er atio n .   A   n o v el  ar ch itect u r w as  p r o p o s ed   b y   [ 18 f o r   j o in in g   m u ltip le  b ib lio g r ap h ic  s o u r ce s   to   id en tify   co m m o n   r esear ch   ar ea s   an d   r elatio n s h ip s   b et w ee n   au t h o r s   an d   th eir   p u b licatio n s .   T h s cien ti f ic  p u b licati o n s   w er r etr iev ed   f r o m   v ar io u s   b ib lio g r ap h ic  s o u r ce s   u s in g   A P I s   an d   L in k ed   d ata  p r ac tices,  t h d ata  is   an al y ze d   to   p r o v id s tr u ctu r an d   i f   t h er is   n o   e x p licit  s tr u ct u r e,   th d ata  m o d el  is   p r o d u ce d   u s in g   w eb   s cr ap in g .     An   o n to lo g y   m ap p in g   m o d el  is   u s ed   to   u n if y   t h d ata  f r o m   d if f er en b ib lio g r ap h ic  s o u r ce s ,   an d   d ata  d is a m b i g u at io n   is   p er f o r m ed   to   elim in ate  d ata  in co n s is te n cies  an d   d u p licatio n s .   A   v ec t o r   s p ac e   m o d el  o f     th r etr iev ed   in f o r m atio n   i s   g en er ated   u s in g   t h T F - I D al g o r ith m .   T h K - m ea n s   cl u s te r in g   al g o r ith m   u s i n g   th C o s i n Si m i lar it y   m ea s u r w as  u s ed   to   au to m atica ll y   d i s co v er   s i m ilar itie s   a n d   g r o u p   th au t h o r s   i n to   t h eir   r esear ch   ar ea s .   T h in f o r m atio n   r etr ie v al  m eth o d   u s ed   d id   n o u tili ze   s e m a n tics   i n   r etr iev in g     th i n f o r m atio n .   I n   [ 1 9 ]   p r o p o s ed   m eth o d   f o r   d eter m in i n g   co llab o r atio n s   b et w ee n   u n i v er s it y   r esear ch   a n d   in d u s tr y   r esear c h .   A   h eter o g e n eo u s   s o cial  n et w o r k   [2 0 ]   w a s   co n s tr u cted   to   d escr ib th r elatio n s h ip   b et w ee n   r esear ch er s   an d   co m p a n ies,  co m p an y   a n d   r esear ch er   ar d ee m ed   to   h av r elatio n s h ip   if   th e y   h a v e     co - au t h o r ed   ac ad e m ic  ar ticles,   co - p ar ticip ated   in   p r o j ec ts   o r   co - in v e n ted   p aten t s .   A   d ataset   [2 1 ,   2 2 is   cr ea ted   f o r   r esear ch er s   w h o   h a v d ir ec tl y   co llab o r ated   w it h   co m p an ies  b ef o r e,   it  is   ass u m ed   th at   r esear ch er s   w it h in     th e   s a m d o m ain   a s   th r esear ch er s   in   t h is   d atase ca n   co llab o r ate  w ith   t h e m .   C o m p a n y   s i m ilar it y   is   also   u s ed   to   d eter m i n p o ten tial  co llab o r atio n s ,   co m p a n ies  t h at  h a v w o r k ed   o n   s i m ilar   p ate n ts ,   ar t icles,  an d   p r o j ec ts .   Ke y w o r d s   ar ex tr ac ted   f r o m   co m p an y   tec h n o lo g ica d o cu m e n t s ,   p r e - p r o ce s s i n g   i s   t h e n   p er f o r m ed   u s i n g   to k en izat io n ,   s to p   w o r d s   r e m o v al,   n o r m aliza tio n   an d   s te m m i n g ,   t h v ec to r   s p ac m o d e is   u s ed   to   in d ex     th e x tr ac ted   k e y w o r d   f r eq u e n cies.  T h co s i n s i m ilar it y   m ea s u r is   u s ed   to   d eter m i n th s i m ilar it y   o f     th d if f er en co m p a n ies  u s i n g   th eir   k e y w o r d s ,   th to p   m o s s i m ilar   co m p an ie s   ar s to r ed   as  n eig h b o r   co m p a n ies  a n d   r esear ch er s   with   co n n ec tio n s   to   n eig h b o r in g   co m p a n y   ar p o ten tial  c o llab o r ato r s   o f   its   n eig h b o r in g   co m p an ie s .   T h ap p r o ac h   u s ed   b y   [2 3 to   p r ed ict  p o ten tial  r esear ch   co llab o r atio n s   in v o l v es     th u s o f   t h o n li n s o cial  n et w o r k   [2 0 to   d eter m i n t h co - au th o r s h ip   n et w o r k .   T h late n t   d ir ich let  allo ca tio n   ( L D A )   alg o r it h m   i s   u s ed   to   m o d el  s et  o f   to p ics f r o m   d o cu m e n t c o r p u s   co n s is t in g   o f   a u t h o r ed   p ap er s ,   th ese  ar th en   r ep r esen ted   i n   K - d i m en s io n al  v ec to r .   L D A   is   also   u s ed   to   d eter m i n t h co n ten s i m ilar it y   o f     Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l       S ema n tics - b a s ed   clu s teri n g   a p p r o a ch   fo r   s imila r   r esea r ch   a r ea   d etec tio n   ( Ma r io n   Olu w a b u n mi  A d eb iyi )   1877   th p ap er s .   T h w eig h ted   s u p p o r v ec to r   m ac h i n w as  u s ed   to   p er f o r m   li n k   p r ed ictio n   to   d eter m in p o ten t ial  co llab o r ato r s .   T h d r aw b ac k   o f   th is   m eth o d   is   t h at  t h u s o f   L D A   m ak e s   it c o m p u tatio n a ll y   ex p en s i v e.     2 . 1   Do cum e nt  clus t er ing   Do cu m e n cl u s ter in g   i s   t h tas k   o f   g r o u p i n g   a   s et  o f   te x d o cu m en ts   i n to   g r o u p s   o r   clu s ter s .   Do cu m e n t s   b elo n g i n g   to   th s a m cl u s ter   s h ar t h s a m f ea t u r es  w h ile  d o cu m en ts   i n   a n o th er   cl u s ter   d o   n o s h ar s i m ilar   f ea t u r es.  T r ad itio n al  d o cu m e n clu s ter in g   tech n iq u e s   u s e   b ag   o f   w o r d s   r ep r ese n tatio n w h ic h   d o   n o tak e   s e m a n tic s   in to   co n s id er atio n .   In   [ 2 ]   d escr ib ed   th ty p ical  p r o ce s s   o f   d o cu m en t c lu s ter in g   i n   Fig u r e   1.           Fig u r 1 .   Do cu m e n cl u s ter i n g   p r o ce s s   [ 2]       2 . 2         F ea t ure  re presenta t io n   2 . 2 . 1   Vec t o s pa ce   m o del   T h v ec to r   s p ac m o d el  ( VSM)   is   lar g el y   co n s id er ed   th b asic  m o d el  f o r   f ea tu r r ep r esen tatio n   a n d   h as  b ee n   m o d if ied   s e v er el y   to   ca ter   f o r   its   in ad eq u ac ies.  I n   th g e n er ic  VSM  m o d el,   ea c h   tex d o cu m e n is   r ep r esen ted   as f o llo w s :     : ( ) = [ 1 , , 2 , , , , ]               ( 1 )     T h ter m   f r eq u e n c y - in v er s d o cu m e n f r eq u e n c y   tec h n iq u h as b ee n   w id el y   u s ed   f o r   f ea tu r r ep r esen tatio n   o f   tex d o cu m e n ts ,   w h er is   th T F - I DF  w ei g h o f   ter m   in   d o cu m en d .   T   d en o tes  th tr an s p o s o p e r ato r ,   d en o tes   th d o cu m en t   d   as  w ei g h te d   ter m   v ec to r   i n   th m - d i m e n s io n al  s p ac o f   ter m s .   T h i s   f u n ctio n   co u ld   al s o   r ep r esen th m ap p in g   o f   d o cu m e n to   its   v ec to r   s p ac r e p r esen tatio n .   T h d o cu m en t s   ar th en   w e ig h ted   b y   th eir   i n v er s d o cu m en f r eq u en c y   ( I DF) .   T h is   w ei g h ti n g   i s   d o n to   d eter m in e   ter m s   t h at  ap p ea r   f r eq u en t l y   ac r o s s   th s et  o f   tex t d o cu m e n ts .   T h T F - I DF  m atr ix   i s   r ep r esen ted   t h u s :     (   )  =   ×                  ( 2 )     T h d r aw b ac k   o f   th VSM  m o d el  is   th at  it  s u f f er s   f r o m   th e   s p ar s it y   p r o b le m   an d   d o es  n o p er f o r m   w ell  w it h   lar g d o cu m e n ts   [ 2 4 ].     2 . 2 . 2   N - g r a m   m o del   T h N - g r a m   m o d el  tr ad itio n al l y   f o c u s e s   o n   b i - g r a m s ,   w h ich   ar p air s   o f   w o r d s   b u r ec en tl y ,   th u s e   o f   ch ar ac ter   N - g r a m s   an d   b y t N - g r a m s   i s   co m m o n p lace .   C h ar ac ter   N - g r a m   is   lan g u ag au to n o m o u s   tex t   r ep r esen tatio n   m e th o d .   T ex d o cu m e n ts   ar tr an s f o r m ed   in to   h ig h - d i m e n s io n al  f ea t u r v ec t o r s   w h er f ea tu r e s   r ep r esen s u b s tr in g s .   N - g r a m s   ar ty p ical l y   ad j ac en ch ar ac ter s   f r o m   t h alp h ab et.   T h d i m en s io n ali t y   o f     N - g r a m   f ea tu r e s   ca n   b as  h ig h   as  | A| ev e n   f o r   m id - r an g v alu e s   o f   N.   Gen er all y ,   o n l y   a   s izea b le   p o r tio n   o f   N - g r a m s   ar a v ailab le  i n   g i v en   s e t o f   tex t   d o cu m en t s .   T h N - g r a m   m o d el  h as  th f u r th er   ad v an ta g o f   b ein g   r o b u s an d   to ler an o f   g r am m atica an d   ty p o g r ap h ical  er r o r s   [2 5 ] .   T h lim itat io n   o f   th n - g r a m   m o d el  is   th at   th s e m a n tics   o f   w o r d s   a n d   w o r d   o r d er   is   n o t ta k en   in to   co n s id er atio n .     2 . 2 . 3   L a t ent   s e m a ntic   in dex ing   L ate n s e m a n tic  i n d ex i n g   i s   an   alg eb r aic  b ased   alg o r it h m   th at  is   u s ed   f o r   f ea tu r r ep r esen tat io n .     I w o r k s   b ased   o n   p r i m ar y   o r   laten s tr u ct u r to   t h w o r d   p atter n   u s ag in   a   tex d o cu m e n t   an d   u tili ze s   s tatis t ical  tech n iq u e s   in   d eter m in i n g   t h is   s tr u ctu r e.   I co n s id er s   laten h i g h er - o r d er   s tr u ctu r es   in   th r elatio n s h ip   b et w ee n   ter m s   an d   d o cu m e n t s .   T h i s   tech n iq u ca n   b ap p lied   to   s y n o n y m y   a n d   p o ly s e m y   p r o b le m s .   L a ten t   s e m a n tic  in d e x i n g   is   also   u s ed   f o r   d im e n s io n alit y   r ed u cti o n   u s i n g   s i n g u lar   v alu d ec o m p o s i tio n   ( SVD) .     Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l Vo l.  18 ,   No .   4 A u g u s t 2 0 2 0 :    1 8 7 4   -   1 8 8 3   1878   T h d r aw b ac k   o f   L SI  is   th at  it u s e s   b ag - of - w o r d s   ap p r o ac h   w h ic h   ca n   lead   to   u n s tr u ctu r ed   in f o r m a tio n   an d   it   o n l y   w o r k s   o n   s i n g u lar   ter m s   [ 2 6 ].     2 . 2 . 4   P ro ba bil is t ic  la t ent   s em a ntic   a na ly s i s   ( P L SA)     P r o b ab ilis tic  L S A   is   s tatis ti ca tech n iq u f o r   co - o cc u r r en ce   d ata.   P L SA   is   d er iv ed   f r o m   L S A   b y   m ak in g   it  a   p r o b ab ilis tic  m o d el.   P r o b ab ili s tic  L S is   b as ed   o n   co m b in atio n   d ec o m p o s itio n   d er iv ed   f r o m     laten clas s   m o d el,   u n li k th s tan d ar d   laten s e m a n tic  an a l y s i s   w h ich   i s   f r o m   li n ea r   alg e b r a.   Do cu m e n t s   ar e   m o d eled   as  m u lt in o m ial  co m b in at io n   o f   to p ics  w h ich   g i v es  r o o m   f o r   d o cu m e n t - d o cu m en co m p ar is o n .     T h is   m ak e s   P L S A   m o r p o p u lar   tech n iq u f o r   a n al y s is   o f   co - o cc u r r en ce   d ata.   P L SA   is   u s ed   to   m o d el,     th p r o b ab ilit y   o f   ea ch   co - o cc u r r en ce   as a   co m b i n atio n   o f   in d ep en d en m u lti n o m ial  d is tr ib u tio n s .     P ( w , d ) = ( ) ( | ) ( | ) = ( ) ( | ) ( | )         ( 3 )     P ( w , d )   is   t h s y m m etr ic  f o r m u latio n   w h er w   a n d   d   ar co m p u ted   f r o m   th e   late n cla s s   i n   s i m ilar   w a y s   u s in g   th co n d itio n a l p r o b ab ilit ies P( d | c)   an d   P ( w | c) ,   f o r   ea ch   d o cu m e n t   [2 7 ].       3.   M AT E RIAL   A ND  M E T H O DS   T h 2 0 1 0 - 2 0 1 8   P u b licatio n   d ata  f r o m   r an d o m l y   s elec ted   Ni g er ian   in s tit u tio n s   w a s   r etr ie v ed   th r o u g h   th Sco p u s   A P I   lis ted   in   th S co p u s   d atab ase.   E ac h   p u b licatio n   r etr iev ed   w it h   u n iq u E ls ev ier   I is   u s ed   to   r etr iev its   ab s tr ac w h ic h   b u il d s   d atab ase  o f   9 8 0 0   p u b licatio n   d ata.   T h ab s tr ac ts   ar co n c aten ated   an d   s to r ed   in   d atab ase  an d   th f ile  f o r m at  o f   th ab s tr ac ts   r etr iev ed   is   in   J av aScr ip t O b j ec t   No tatio n   ( J SON)   f ile  f o r m at.     3 . 1   Da t a   prepro ce s s ing   T h e   d atasets   w er o b tain ed   i n   th eir   r a w   f o r m   a n d   r eq u ir ed   tex p r o ce s s i n g   a n d   f o r m a tti n g   to   m a k th e m   i n tel lig ib le.   Sev er al  o p er atio n s   w er ca r r ied   o u o n   th d ataset s   to   ex tr ac th r eq u ir ed   tex ar e     d is cu s s ed   b elo w :   -   No n - p r i n tab le  ch ar ac ter s R e g u lar   ex p r es s io n s   w er u s ed   to   r e m o v c h ar ac ter s   t h at  d id   n o co n f o r m   to     th U n ico d tex t e n co d in g   f o r m at.   -   T o k en izatio n T h n atu r al  lan g u a g to o lk it  ( NL T K)   class   w as  u s ed   to   p er f o r m   to k en iza tio n   an d     th co n v er s io n   o f   ea ch   w o r d   to   lo w er ca s ch ar ac ter s .   -   Nu m b er   r e m o v a l T h e   b u ilt - in   p y t h o n   m o d u le  w as  u s ed   to   el i m i n ate  n u m b er s   b u n o w o r d s   r ep r esen tin g   n u m b er s .   -   Sto p   w o r d s   r e m o v al Usi n g   t h NL T to o lk it,  s to p   w o r d s   li s w as   u s ed   to   r e m o v f r eq u e n tl y   o cc u r r i n g   E n g l is h   w o r d s   s u c h   as c o n j u n ctio n s   a n d   p r ep o s itio n s   w h ic h   d o   n o t r ef lect  th co n te n t o f   t h tex t c o r p u s .   -   L e m m atiza tio n T h NL T w o r d n et  an d   th W o r d Net  L e m m atize r   w as  u s e d   to   o b tain   th s te m   v er s io n s   o f   ea ch   w o r d   in   th te x t c o r p u s .       4.   T H E   P RO P O SE SYS T E M   T h m a in   co m p o n en ts   i n cl u d d ataset  co llatio n ,   p r e - p r o ce s s i n g   &   d atab ase,   d o cu m en r ep r esen tat io n   m o d u le,   an d   th P atter n   d etec tio n   m o d u le.   T h s y s te m   ar ch itectu r is   laid   o u in   th Fi g u r 2 .   T h p r o p o s ed   f r a m e w o r k   co n s is t s   o f   t h p r esen tat io n   la y er ,   b u s in e s s   lo g ic   la y er   a n d   t h d ata  la y er ,   all  h av in g   th eir   r o les   i n   th to tal  f u n ctio n al it y   o f   t h s y s te m .   Fi g u r 3   p r esen t s   th e   th r ee - t ier   s h o w i n g   t h d if f er en la y er s   an d   t h eir   in ter ac tio n s .   -   P r esen tatio n   l a y er   Fro m   t h is   la y er ,   u s er s   ca n   i n p u q u er y   a n d   r ec eiv r e s p o n s to   t h eir   q u er y .   T h is   la y er   c an n o ca r r y   o u co m p u tatio n s   o n   it s   o w n ,   b u it  in ter ac ts   w i th   t h b u s i n e s s   lo g ic  la y er   th r o u g h   t h Dj an g o   w eb   f r a m e w o r k   to   p r o v id m o r f u n ct io n alitie s .     -   B u s i n ess   lo g ic  la y er   T h is   la y er   co n s i s ts   o f   t h P y t h o n   ap p licatio n ,   w h ich   p r o v id es  t h f u n ctio n alitie s   to   t h p r esen tat io n   la y er .   I also   in t er ac ts   w it h   th d ata  lay er   th r o u g h   p y t h o n   SQ L ite  co n n ec to r   to   p r o ce s s   n ec ess ar y   d ata  u s e f u f o r   th w o r k i n g   o f   t h s y s te m .   T h Gen s i m   l ib r ar y   i s   p y t h o n   lib r ar y   th at  i s   u s ed   f o r   d o cu m en r ep r esen tatio n   i m p le m en ta tio n   w h ile  t h n at u r al  lan g u ag to o l k it  h a n d les  n atu r al  la n g u a g co m p u tatio n s .   T h DB p ed ia  an d   W o r d Net  o n to lo g y   i s   u s ed   f o r   s e m a n tical l y   a n n o tati n g   d o cu m en ts .   -   Data   la y er   T h is   is   th la y er   w h er all  th in f o r m atio n   n ee d s   o f   th e   s y s te m   ar s to r ed .   SQL ite  i s   u s ed   as    th d atab ase  m a n a g e m e n t s y s t e m   p latf o r m   f o r   s to r in g   an d   m an ag i n g   r ec o r d s   o f   in d iv id u al  r ev ie w er s .   T h d ata   la y er   co m m u n icate s   w it h   th b u s i n es s   lo g ic  la y er   th r o u g h   p y t h o n   SQ L i te  co n n ec to r .     Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l       S ema n tics - b a s ed   clu s teri n g   a p p r o a ch   fo r   s imila r   r esea r ch   a r ea   d etec tio n   ( Ma r io n   Olu w a b u n mi  A d eb iyi )   1879   D a t a D a ta   S o ur c e s D oc um e nt   R e pr e s e nt a t i on K no w l e dg e   D i s cov e r y F i nd   G r oup s La be l   Gr oups D a t a   R e t r i e v a l P u bl i ca t i on  D a t a b a s e P a tt e r D e t e c ti o n C o nc e p W e i g ht i ng D a t a   E x t r a ct i on     Fig u r 2 .   P r o p o s ed   f r am e w o r k       U s e r   i nt e r f a c e B r o w s e r   ap pl i c at i o n D ja n g F r am e wor k P r e s e nt a t i o La y e r B us i n e s s   Log i La y e r D a ta   L a y e r S Q L i te   D a ta ba s e R e c o r o f   R e s e a r c he r   i nf o r m a ti o n G e ns i m   l i br ar y N L T K P y tho S Q L i te   C o nn e c to r P y thon H T ML ,   C S S D bp e di a nd  W or d N e O nto l og y     Fig u r 3 .   T h r ee - tier   ar ch itectu r e       4. 1   Act i v it y   d ia g r a m   I n   Fi g u r 4 ,   th f lo w   o f   ac tiv i ties   i n   s i m ilar   r esear c h   ar ea   d etec tio n   is   s h o w n .   T h d iag r a m   d is p la y s   th f lo w   o f   ac tiv ities   b et w ee n   t h u s er   an d   t h s y s te m .   T h f lo w   o f   ac t iv i ties   i n cl u d es r eg is tr at io n ,   lo g i n ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l Vo l.  18 ,   No .   4 A u g u s t 2 0 2 0 :    1 8 7 4   -   1 8 8 3   1880   u p lo ad in g   a n   e x is ti n g   p u b licat io n ,   th s y s te m   r ec o m m en d s   s i m ilar   p u b licat io n s ,   t h u s er   c h ec k s   t h r esear ch   ar ea ,   th r esu lt  i s   d is p la y ed ,   i f   th u s er   is   n o p leased   w it h   t h r esu lt,  th u s er   w ill  b r ed ir ec ted   to   th s i m ilar   r esear ch   ar ea   p ag to   ad j u s t th u p lo ad ed   p u b licatio n .       E n te r   R e g i s t r at i o da t a L og i n V i e U s e r   P age U pl o a pu b l i c a ti o n U pl oa pub l i c a ti o f o r   s i m i l a r i ty   c he c k S ta r t N e w   U s e r D i s p l a y   R e s ul ts D i s p l a y   R e s ul ts C h e c k   f o r   s i m i l a r   pub l i c a ti ons   i r e pos i to r y C h e c k   f o r   s i m i l a r   pub l i c a ti ons   i r e po s i to r y Y e s No     Fig u r 4 .   A cti v it y   d iag r a m       4. 2   Sequ ence   dia g ra m   Seq u en ce   d iag r a m s   m o d el  th d y n a m ic  b e h av io u r   o f   a   s y s te m t h e y   ar i n ter ac ti v d ia g r a m s   t h at   d ep ict  th p ass in g   o f   m e s s a g es  b et w ee n   o b j ec ts   in   s y s t e m .   T h m es s ag e s   ar p ass ed   f r o m   th u s er   to     th r eg is tr atio n   m o d u le,   an d   f r o m   th r eg is tr atio n   m o d u le   to   th d atab ase  an d   b ac k   to   th u s er   to   d is p la y     s u cc ess f u r eg is tr atio n .   Fig u r e   5   s h o w s   th s eq u en ce   d iag r a m   o f   th s i m ilar   r esear ch   p u b licatio n   d is co v er y   p r o ce s s   an d   h o w   m e s s a g es  ar ex ch a n g ed   b et w ee n   th d i f f er en m o d u les  f r o m   th u s er   to   th p u b licat io n   r ep o s ito r y   an d   b ac k   to   t h u s e r   w it h   th r es u lt o f   th m es s ag p ass ed   ac r o s s .         Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l       S ema n tics - b a s ed   clu s teri n g   a p p r o a ch   fo r   s imila r   r esea r ch   a r ea   d etec tio n   ( Ma r io n   Olu w a b u n mi  A d eb iyi )   1881   U s e r Si m i l a r i t C o m p u t a t i o n R e t r i e va l P u b l i ca t i o n   R e p o s i t o r y U pl oa ds   publ i ca t i o n S i m i l a r i t y   C om pu t a t i on R e t r i e v e   P ub l i c a t i ons R e t r i e v e P ub l i ca t i on s D i s pl a y   S I m i l a r   pu bl i ca t i o ns     Fig u r e   5 .   Seq u en ce   d iag r a m   f o r   s i m ilar   p u b licatio n   d is co v er y       5.   RE SU L T A ND  D I SCU SS I O N   5 . 1 .    E x peri m ent a r esu lt s   T h e   elb o w   cu r v w a s   u s ed   to   v alid ate  t h o p ti m a n u m b er   o f   cl u s ter s   b ef o r eh a n d ,   w u s ed   r an g e   o f   v alu e s   o f   an d   s elec ted   th o p tim al  v al u b ased   o n   th elb o w   cu r v o f   th clu s ter s .   T h ev alu atio n   o f     th cl u s ter s   g en er ated   w a s   p er f o r m ed   u s i n g   Sil h o u e tte  a n al y s is ,   w h ic h   r ev ea led   h i g h   le v el  o f   ac c u r ac y   a n d   co n s is ten c y   as  ev id en ce d   b y   an   av er ag 8 0 s il h o u e tte  s c o r f o r   all  th d ata  p o in ts   as  s h o w n   in   Fi g u r 6 .     T h f ig u r s h o w s   th at  t h n u m b er   o f   clu s ter s   i n cr ea s es  w i th   t h s co r es.           Fig u r 6 .   E v alu atio n   r esu lt s       6.   CO NCLU SI O N   I n   th i s   w o r k ,   a   p r o to t y p s y s t e m   w as   d ev elo p ed   to   p r o v id p latf o r m   f o r   en h an c in g   co ll ab o r atio n s   b et w ee n   r esear ch er s   i n   r esear ch   f ield   b y   e n ab li n g   r esear c h er   to   id en ti f y   o th er   r esear c h er s   in   g i v en   r esear ch   f ield .   A   r ig o r o u s   r ev ie w   o f   t h e   liter atu r w as  co n d u cted   t o   ex a m i n ex i s ti n g   ap p r o ac h es  th a h av e   b ee n   u tili ze d   in   d is co v er i n g   s i m i lar   r esear ch   ar ea s ,   th is   s t u d y   u ti lized   an   ap p r o ac h   in v o lv in g   th u s o f   p u b licatio n   d o cu m e n ts   s h ar i n g   ce r ta in   k e y w o r d s .   R a n d o m l y   s elec ted   Nig er ia n   U n i v er s it y   p u b licat io n   d o cu m e n ts   f r o m   2 0 1 0   to   2 0 1 8   w er r etr iev ed   an d   u s ed   as  ca s s tu d y .   T h is   ap p r o ac h   w as  m o d eled   as  clu s ter in g   p r o b lem .   I n   o r d er   t o   i m p r o v th ac cu r ac y   o f   th cl u s ter i n g   r es u lt s ,   th DB p ed ia  a n d   W o r d Net  o n to lo g y   w as  u s e d   to   ca p tu r d o m ain   ter m s   a n d   s e m a n tical l y   r ela t e d   ter m s   in   th e   p u b licatio n   d at aset  u s ed .   L SI  a n d   T F - I DF  wer u s ed   to   m o d el    th te x d o cu m e n t s   an d   g en e r ate  f ea tu r v ec to r s .   T h K - Me an s   cl u s ter in g   al g o r ith m   w a s   u s ed   to   clu s ter     Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6930   T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l Vo l.  18 ,   No .   4 A u g u s t 2 0 2 0 :    1 8 7 4   -   1 8 8 3   1882   th f ea t u r v ec to r s .   T h clu s ter in g   r es u lts   w er ev al u ated   u s in g   th s i lh o u e tte  an al y s i s   tech n iq u e,   w h ic h   r ev ea led   h ig h   i n tr a - c lu s ter   s i m ilar it y   o f   0 . 8   o n   th a v er ag ac r o s s   all  th d ata  p o in ts .   A   p r o to ty p s y s te m   w a s   d ev elo p ed   u s in g   P y th o n   p r o g r a m m in g   lan g u ag e,   w h ile  SQ L ite  Data b ase  Ma n ag e m e n S y s te m   w as  u s ed   to   m an a g t h d ata b ase.   Ou r   r es u lts   s h o w   t h at  t h p r o to t y p s y s te m   s h o w ed   h i g h   cl u s ter i n g   ac cu r ac y   a n d   co u ld   b d ep lo y ed   f o r   lar g s ca le  u t i lizatio n .       7.   CO NT RIB U T I O T O   K NO WL E D G E   T h is   w o r k   co n tr ib u tes  to   t h e   ex is ti n g   b o d y   o f   k n o w led g e   b y   d ev elo p i n g   p r o to t y p s y s te m   t h at  in te g r ates  o n to lo g y - b a s ed   p r e - p r o ce s s i n g ,   L aten Se m a n tic   I n d ex in g   an d   K - Me an s   clu s ter in g   to   d is co v er   s i m ilar   r esear ch   d o m ai n   p u b li ca tio n s .   T h s y s te m   d eter m i n es  th s i m ilar it y   b et w ee n   p u b licatio n   d o cu m e n ts   u s i n g   s e m an t ic  s i m ilar it y   tec h n iq u e s .   T h clu s ter in g   r es u lts   s h o w   an   i m p r o v e m en t h r o u g h   th u s o f   o n to lo g y   s e m a n tic s   i n   p r e - p r o ce s s i n g   th d o cu m e n ts .   I i s   al s o   b eliev e d   th at  t h is   ap p r o ac h   w i ll  b u s ef u f o r   u n ea r t h i n g   h id d en   an d   i m p licit p atter n s   in   th d o cu m e n t d ataset.       8.   RE CO M M E NDATI O N S A ND  F UT UR E   WO RK   Fo r   th s y s te m   to   b co n tin u o u s l y   r elev a n t,  th p u b lica tio n   r ep o s ito r y   w ill  h av to   u n d er g o   r eg u lar   u p d ates  to   i m p r o v t h r o b u s t n ess   o f   t h s y s te m .   He n ce ,   f o r   f u tu r i m p r o v e m en ts   i n   t h is   r es ea r ch ,   th f o llo w in g   r ec o m m e n d atio n s   ar p r o p o s ed :   -   T h s y s te m   ca n   b in teg r ated   w it h   lo ca ll y   av ai lab le  co n f er en ce   an d   j o u r n al  p u b licatio n   r ep o s ito r ies  to   p r o v id s i m ilar   r esear ch   ar ea   d etec tio n   s er v ice s .   -   T o   im p r o v t h p r e - p r o ce s s i n g   s ta g e,   a n   o n to lo g y   lear n i n g   m o d el   ca n   b i n co r p o r ated   in to   th co n ce p t     o f   w ei g h tin g   a n d   co n ce p t - d o cu m e n co n s tr u ctio n   s ta g to   p r o d u ce   d o m ai n   o n to lo g i es  p er tin e n to     th p u b licatio n   tex t c o r p u s .   -   Oth er   d o cu m en cl u s ter i n g   alg o r ith m s   co u ld   b u ti lized ,   s u c h   as  B i s ec ti n g   K - m ea n s   a n d     K - m ed o id s   alg o r ith m .   -   T h u s o f   s o m o t h er   d o cu m en r ep r esen ta tio n   tec h n iq u es  s u c h   as   W o r d 2 Vec   o r   R ec u r r en Ne u r al   Net w o r k   L a n g u a g ca n   b u s ed   to   im p r o v th s e m a n tic   s i m ilar it y   co m p u tatio n   a n d   f u r t h er   ca p tu r   th i m p l icit se m a n tics   o f   th t ex t c o r p u s .       ACK NO WL E D G M E NT S   T h is   r esear ch   is   f u ll y   s p o n s o r ed   b y   L a n d m ar k   Un i v er s i t y   C en tr f o r   R esear ch   a n d   Dev elo p m e n t,   L a n d m ar k   Un iv er s it y ,   O m u - Ar an ,   Nig er ia  a n d   C o v e n an Un iv er s it y   f o r   R esear c h   a n d   Dis co v er y   ( C U C R I D)   f o r   th eir   i m m e n s s u p p o r t in   t h is   r esear c h .       RE F E R E NC E S   [1 ]   Ca g li e ro   L . ,   Ch iu sa n o   S . ,   G a rz a   P . ,   Bru n o   G . ,   P a tt e r n   se m in in g   w it h   sc h e m a - b a s e d   c o n stra in t ,”   K n o wled g e - Ba se d   S y ste ms ,   v o l.   84 ,   p p .   2 2 4 - 38 ,   2 0 1 5 .   [2 ]   Na ik   M P . ,   P ra jap a ti   H B . Da b h V K. ,   A   su rv e y   o n   se m a n ti c   d o c u m e n c lu ste rin g ,”   2 0 1 5   IEE In ter n a ti o n a l   Co n fer e n c e   o n   El e c trica l,   Co mp u ter   a n d   Co mm u n ica ti o n   T e c h n o l o g ies   ( ICECCT ) ,   2 0 1 5 .   [3 ]   S z c z u k a   M . ,   Ja n u sz   A . ,   He rb a   K. ,   Clu ste rin g   o f   ro u g h   se re late d   d o c u m e n ts  w it h   u se   o f   k n o w led g e   fro m   DB   p e d ia ,”   In ter n a t io n a C o n fer e n c e   o n   R o u g h   S e ts a n d   K n o w led g e   T e c h n o lo g y ,   2 0 1 1 .   [4 ]   W a n g   Y.,   S o n g   S . ,   Zh o u   F . ,   Zh e n g   X . ,   Ch in e se   W e Ch a a n d   Blo g   Ho W o rd De tec ti o n   M e th o d   B a se d   o n   C h in e se   S e m a n ti c   Clu ste rin g ,”   In telli g e n Au to m a ti o n   a n d   S o ft   Co mp u ti n g v o l.   23 ,   n o .   4 ,   p p .   6 1 3 6 1 8 ,   2 0 1 7   [5 ]   V e ld e n ,   T h e re sa ,   Bo y a c k ,   Ke v in ,   G las e r,   Jo c h e n ,   K o o p m a n ,   Ro b ,   S c h a rn h o rst,   A n d re a W a n g ,   S h e n g h u i ,   Co m p a riso n   o f   to p ic ex trac ti o n   a p p r o a c h e s a n d   t h e ir  re su lt s ,   S c ien to me trics ,   v o l .   1 1 1 ,   p p .   1 1 6 9 - 1 2 2 1 ,   2 0 1 7 .   [6 ]   W a n g ,   S h e n g h u i ,   Ko o p m a n ,   Ro b . ,   Cl u ste rin g   a rti c les   b a se d   o n   se m a n ti c   sim il a rit y ,   S c ien to me trics ,   v o l.   1 1 1 ,     p p .   1 0 1 7 - 3 1 ,   2 0 1 7 .   [7 ]   Na ik   M .   P . ,   P ra jap a ti   H.   B. ,   Da b h V .   K. ,   A   su rv e y   o n   se m a n ti c   d o c u m e n c lu ste rin g ,   Pr o c e e d in g o f   2 0 1 5   IEE E   In ter n a t io n a C o n fer e n c e   o n   E lec trica l,   Co m p u ter   a n d   Co mm u n ica ti o n   T e c h n o lo g ies ,   2 0 1 5 .     [8 ]   Yu a n   X ,   S u n   M ,   C h e n   Z,   G a o   J,  L P . ,   S e m a n ti c   c lu ste rin g - b a se d   d e e p   h y p e rg ra p h   m o d e f o o n li n e   r e v ie w s e m a n ti c   c las si f ica ti o n   in   c y b e r - p h y sic a l - s o c ial  sy st e m s,”   IEE Acc e ss ,   v o l.   6 ,   p p .   1 7 9 4 2 - 5 1 ,   2 0 1 8 .   [9 ]   F a h a d   S .   A . ,   Ya f o o z   W .   M . ,   De sig n   a n d   d e v e lo p   se m a n ti c   tex tu a d o c u m e n c lu ste ri n g   m o d e l,   J o u rn a l   o f   C o mp u ter   S c ien c e ,   v o l.   3 .   n o .   2 ,   p p .   2 6 - 3 9 ,   2 0 1 7 .   [1 0 ]   M a h a jan   S . ,   S h a h   N.,   Ef f icie n p re - p ro c e ss in g   f o e n h a n c e d   se m a n ti c s b a se d   d istr ib u ted   d o c u m e n c l u ste rin g ,   2 0 1 6   3 rd   I n ter n a t io n a C o n fer e n c e   o n   Co mp u t in g   f o r S u sta i n a b le Glo b a De v e lo p me n t,   2 0 1 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI K A   T elec o m m u n   C o m p u t E C o n tr o l       S ema n tics - b a s ed   clu s teri n g   a p p r o a ch   fo r   s imila r   r esea r ch   a r ea   d etec tio n   ( Ma r io n   Olu w a b u n mi  A d eb iyi )   1883   [1 1 ]   Ola d e le  T .   O.,   A ro   T .   O.,   A d e g u n   A .   A . ,   O g u n d o k u n   R.   O.,   P re d ictio n   o f   S tu d e n t' A c a d e m i c   P e rf o r m a n c e   u sin g     K - m e n a Clu ste rin g   a n d   M u lt i p le  L in e a Re g re ss io n s,”   J o u rn a o E n g i n e e rin g   a n d   Ap p li e d   S c ien c e s ,   v o l.   1 4 ,   n o .   2 2 ,   p p .   8 2 5 4 - 8 2 6 0 ,   2 0 1 9 .   [1 2 ]   Zh a n g   H.,   W a n g   D.,   W a n g   L . ,   Zh u m in g   Bi. ,   Yo n g   Ch e n ,   A   se m a n ti c s - b a se d   m e th o d   f o c lu ste rin g   o f   Ch in e se   w e b   se a rc h   re su lt s,”   En ter p rise   In f o rm a ti o n   S y ste ms ,   v o l.   8 ,   n o .   1 ,   p p .   1 4 7 - 6 5 ,   2 0 1 4 .   [1 3 ]   S o li m a n   S .   S . ,   El - S a y e d   M .   F . ,   Ha ss a n   Y.  F . ,   S e m a n ti c   c lu ste rin g   o f   se a rc h   e n g in e   re su lt s,”   T h e   S c ien ti fi c   W o rld   J o u rn a l,   v o l .   2 0 1 5 ,   p p .   1 - 9 ,   2 0 1 5 .   [1 4 ]   Ola d e le  T . ,   A d e g u n   A . ,   Og u n d o k u n   R.   O .,  k e y in k a   A . ,   Ay e n L . ,   A p p li c a ti o n   o f   F l o y d - Wars h a ll ’s  A l g o rit h m   in   A ir  F re ig h S e rv ice   in   Nig e ria,”   In ter n a ti o n a J o u rn a o E n g in e e rin g   Res e a rc h   a n d   T e c h n o l o g y ,   v o l.   1 2 ,   n o .   1 2 ,     p p .   2 5 2 9 - 2 5 3 5 ,   2 0 1 9 .   [1 5 ]   Yu e   L . ,   Zu o   W . ,   P e n g   T . ,   W a n g   Y.,   Ha n   X . ,   A   f u z z y   d o c u m e n c lu ste rin g   a p p r o a c h   b a se d   o n   d o m a in - sp e c i f ied   o n t o lo g y ,   Da ta   &   Kn o wled g e   En g in e e rin g ,   v o l .   1 0 0 ,   p p .   4 8 - 6 6 ,   2 0 1 5 .   [1 6 ]   S u lt h a n a   A .   R. ,   S u b b u ra R. ,   A n   i m p ro v ise d   o n to l o g y - b a s e d   K - m e a n c lu ste rin g   a p p ro a c h   f o c las si f ica ti o n   o c u sto m e re v i e w s,”   In d ia n   J o u r n a o S c ien c e   a n d   T e c h n o l o g y ,   v o l .   9 ,   n o .   1 5 ,   p p .   1 - 6 ,   2 0 1 6 .   [1 7 ]   M a k a ro v   I. ,   Bu la n o v   O.,   Z h u k o v   L .   E. ,   Co - a u th o re c o m m e n d e sy ste m ,   In ter n a ti o n a l   Co n fer e n c e   o n   Ne two rk   An a lys is   NE T   2 0 1 6 M o d e ls,  Al g o rith ms ,   a n d   T e c h n o lo g ies   fo r   Ne two rk   An a lys is p p .   2 5 1 - 2 5 7 ,   2 0 1 6 .   [ 1 8 ]   S u m b a   X . ,   S u m b a   F . ,   T e l l o   A . ,   B a c u l i m a   F . ,   E s p i n o z a   M . ,   S a q u i c e l a   V . ,   D e t e c t i n g   s i m i l a r   a r e a s   o f   k n o w l e d g e   u s i n g   s e m a n t i c   a n d   d a t a   m i n i n g   t e c h n o l o g i e s ,   E l e c t r o n i c   N o t e s   i n   T h e o r e t i c a l   C o m p u t e r   S c i e n c e ,   v o l .   3 2 9 ,   p p .   1 4 9 - 6 7 ,   2 0 1 6 .   [1 9 ]   A ru m a wa d u   H.  I. ,   Ra th n a y a k a   R.   M .   K.  T . ,   Ill a n g a ra th n e   S .   K. ,   M i n in g   p r o f it a b il it y   o f   tele c o m m u n i c a ti o n   c u sto m e rs  u sin g   k - m e a n s c lu ste rin g ,   J o u rn a o Da t a   A n a lys is  a n d   In fo rm a t i o n   Pr o c e ss in g ,   v o l.   3 ,   n o .   3 ,   p p .   6 3 7 1 ,   2 0 1 5 .   [2 0 ]   Aw o tu n d e   J.  B. ,   Og u n d o k u n   R.   O.,   Ay o   F . ,   A ja m u   G .   J.,   A d e n i y i   E. ,   Og u n d o k u n   E.   O.,   S o c ial  M e d ia  Ac c e p tan c e   a n d   Us e   Am o n g   Un iv e rsit y   S tu d e n ts  f o L e a rn in g   P u r p o se   Us in g   UTAU T   M o d e l,   In ter n a ti o n a Co n fer e n c e   o n   In fo rm a t io n   S y ste ms   Arc h it e c tu re   a n d   T e c h n o l o g y ,   2 0 1 9   [2 1 ]   Og u n d o k u n   R.   O.,   A d e b iy i,   M .   O .,  A b ik o y e ,   O.   C. ,   Ola d e le,  T .   O.,   L u k m a n   A .   F.,   A d e n iy i   A.   E.,   A d e g u n   A.   A . ,   G b a d a m o si  B. ,   A k a n d e   N.   O . ,   Ev a lu a ti o n   o f   th e   sc h o las ti c   p e rf o rm a n c e   o f   stu d e n ts  i n   1 2   p ro g ra m f ro m   a   p riv a te  u n iv e rsity   in   th e   so u th - w e st g e o p o li ti c a z o n e   in   Ni g e ria ,”   p p .   1 5 4 ,   2 0 1 9 .   F 1 0 0 0 Re se a rc h   8   [ v e rsio n   1 ] .   [2 2 ]   Og u n d o k u n   R.   O. ,   A d e b iy M .   O.,   A b ik o y e   O.   C. ,   Ola d e le  T .   O.,   L u k m a n   A .   F.,   A d e n iy A .   E.,   A d e g u n   A .   A . ,   G b a d a m o si  B. ,   A k a n d e   N.   O. ,   Ev a lu a ti o n   o f   th e   sc h o las ti c   p e rf o rm a n c e   o f   stu d e n ts  i n   1 2   p ro g ra m f ro m   a   p riv a te  u n iv e rsity   in   th e   so u th - w e st g e o p o li ti c a z o n e   in   Nig e ria ,   2 0 1 9 .   F 1 0 0 0 Re se a rc h   8   [ v e rsio n   2 ].   [2 3 ]   Ola d e le  T .   O.,   Og u n d o k u n   R.   O.,   Ka y o d e   A .   A . ,   A d e g u n   A .   A . ,   A d e b i y M .   O.,   A p p li c a ti o n   o f   Da ta  M in in g   A l g o rit h m f o F e a tu re   S e lec ti o n   a n d   P re d ictio n   o f   Dia b e ti c   Re ti n o p a th y ,   In ter n a t io n a l   Co n fer e n c e   o n   Co mp u t a ti o n a S c ien c e   a n d   Its  A p p li c a ti o n s,   2 0 1 9 .   [2 4 ]   W a n g   Y.,   S o n g   S . ,   Zh o u   F . ,   Zh e n g   X . ,   Ch in e se   W e Ch a a n d   Blo g   Ho W o rd De tec ti o n   M e th o d   B a se d   o n   C h in e se   S e m a n ti c   Clu ste rin g ,   In telli g e n Au to m a ti o n   &   S o ft   Co m p u ti n g ,   v o l.   2 3 ,   n o .   4 ,   p p .   6 1 3 - 8 ,   2 0 1 7 .   [2 5 ]   Ch u a n   P .   M . ,   A li   M . ,   Kh a n g   T .   D.,   De y   N.,   L in k   p re d ic ti o n   i n   c o - a u th o rsh i p   n e tw o rk b a se d   o n   h y b rid   c o n te n sim il a rit y   m e tri c ,   Ap p li e d   I n telli g e n c e ,   v o l.   4 8 ,   n o .   8 ,   p p .   2 4 7 0 - 8 6 ,   2 0 1 8 .   [2 6 ]   De sh m u k h   A . ,   H e g d e   G . ,   L a th R. ,   G o v ik a rn   S . ,   A   li tera tu re   su rv e y   o n   late n se m a n ti c   in d e x in g ,   In ter n a ti o n a l   J o u rn a o E n g i n e e rin g   I n v e n ti o n s,”   v o l.   1 ,   n o .   4 ,   p p .   2 2 7 8 - 7 4 6 1 ,   2 0 1 2 .   [2 7 ]   S h a f iei  M . ,   W a n g   S . ,   Z h a n g   R. ,   M il io E . ,   T a n g   B. ,   T o u g a J.,   S p it e ri  R. ,   Do c u m e n re p re se n tatio n   a n d   d im e n sio n   re d u c ti o n   f o tex c lu ste rin g ,   2 0 0 7   IEE E   2 3 rd   i n ter n a ti o n a l   c o n fer e n c e   o n   d a t a   e n g i n e e rin g   wo rk sh o p ,   2 0 0 7 .       Evaluation Warning : The document was created with Spire.PDF for Python.