Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   1 3 ,  No.   2 Febr uar y   201 9 , pp.  4 92 ~ 498   IS S N: 25 02 - 4752, DO I: 10 .11 591/ijeecs .v1 3 .i 2 .pp 492 - 498          492       Journ al h om e page http: // ia es core.c om/j ourn als/i ndex. ph p/ij eecs   Foc us ed cr awlin g from th e basic a pp ro ach  to conte xt awa re  notificati on archi tectur e       Venug opal Bo ppana S andh ya P   S chool   of  Com p uti ng  Sci ence an Engi n ee ring ,   Vell ore   Instit u te  of  Technol og y ,   Chenna i   Campus ,   India       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved  J ul   7 ,  2018   Re vised  Oct   4 ,  2018   Accepte Nov   18 , 201 8       The   la rg and  wide  ran ge  of  informati on  has   bec om tough  ti m for  cra wler and  s ea rch   engi nes  t ext ra ct   re la t e d   informati on.   Thi paper   discusses  about   foc used  cra wl er al so  ca l le as   topi spe ci fi cra wler   and   var iations  of  foc used  cra wl ers  l e adi ng  to  distr ibu te arc hi tectur e ,   i. e . ,   context   awa re  not ifi c at i on  arc hitec ture.   To  get   th re le van page fr om   huge  amo unt  of  infor m at ion  av ai l abl e   in  th in te rne we  use  the  foc u sed  cra wl er .   Thi ca bring  o ut  the   releva nt  p age for  the   given  topi with  le ss   num ber   of   sea rch es  in  short  ti m e.   Here   t he  input   to  the   foc used  cra wler   is  topi c   spec ified  using  exe m pla r y   do cu m ent s,  but  no u sing  the  ke y wor ds.  Focused   cra wler avoi t he  sea r chi ng  of   al l   the  web  do cuments  instead   it   se arc h es  over   the  li nks  tha are   r eleva n to  th cr awler  boundar y .   Th Focused   cra wling   m ec ha nism   hel ps  us  to   save   CP ti m e   to  l arg e   extent  to  ke ep  th e   cra wl  up - to - da te .   Ke yw or ds:   Com plex  eve nt  proces sin g   Fo c us e cra wl er   To pic sp eci fic  craw le r   Copyright   ©   201 Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e .     Al l   rights re serv ed.   Corres pond in Aut h or :   Venu gopal B oppa na ,   School  of Com pu ti ng  Scie nce  and E ngineeri ng,    Vell or e  Insti tute o Tec hnolog y,   Che nn ai  Ca m pu s,   Che nn ai ,   I ndia .   Em a il srees.boppa na@gm ai l .co m       1.   INTROD U CTION   In   recent  days  m os of   the  la te st  inform at io is  avail able  f or   us   f ro m   the  internet.  B ut  the  great est   chall enge  is   to   get  the  releva nt   inf or m at ion   f or   t he  giv e t opic T his  ca a lso  le ad   to  e xtr act ing   th ir relevan t   inf or m at ion   from   the  web T his  ty pe  of   e xtr act ion i.e.,  e xtracti ng   bot re le van an irrel evan data  is  done  by   the  cl assic al   cr awler.   T his  le a to   wastage   of  CP ti m e,  m e m or an res ources  t la r ge   exte nt.  T he  breadt first  m echan ism   is  fo ll owed   by  the   cl assic al   craw le r   w hi ch  sea rch e al the  li nks  of  a   sing le   pa ren t.   Tha t   po s sible l in ks   m ay  co ns ist  of  irreleva nt  data  al ong wit th releva nt d at a.   To  res olv t he   ab ove  c halle ng e li ke   tim e,  s pace,  res ources   a nd  irre le van data,  t opic   s pecific   craw le or   fo c us e craw le rs  are  desig ne a nd   int rod uc ed .   These  are  m uch   bette tha cl assic al   craw le in  pro du ci ng   acc ur at data  for  the  giv e to pi c.  This  to pic  s pecific  cra wler   avo i ds   the  se arch i ng   of   t he   entire  web, instea se arch es  only  spec ific  area  of  t he web . T his c raw le r  foll ows  the m echan ism  o f  d e pth   first s earch .   The wo r king  of foc us ed  cra w le is di vid e i nto  t wo steps . In  the  f irst  ste p i rr el eva nt d at is separate d fro m   the  releva nt  data  and   t he  seco nd  ste is  sel ect ing   the  see pa ge   URL  w hich  helps  in  fin ding  the  ne xt  chil no des,  i.e.,  ne xt  li nks   for  the  releva nt  pa ges.   The  fo c us e cra wle hel ps   in  redu ci ng   th tim t cra wl,  m e m or to   store  the  cra wled  pa ges  or   to  store  the  visit ed  pa ges,  decr eases  ir r el evan data.  This  giv e th gr eat   i m pr ovem ent o ver the cla ssica l crawler .   The  cl assic al   f ocused  c ra wlers  a nd   t he  le ar ning  f oc us e c raw le r are  t he   two  sub  c ra wlers  of  the   fo c us e cra wle r.   T he  cl assic al   fo c us e cra wlers  are  giv e with  the  pr e defi ned   set   of  r ule to  pick  t he  re le van t   pag e f or  the  gi ven   t op ic .   Lea rn i ng   c ra wler  updates  t he  cra wling  li nk   by  l earn i ng  f ro m   the  trai ning  set .   This   trai ning set is  update d reg ularl y.       Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Foc us ed  cr awli ng  fr om the  ba sic  app r oach  to  c on te xt   awa r e noti fi cation . .. ( Venug opal B oppana )   493   2.   THE   CL AS SI FIC ATIO N   O F THE FO C U SED  CRAWL ER   Unde the  f oc us e cra wler   we  hav e   tw s ub  di visio ns   (i Lea rn i ng  f oc us e cra wler   ( ii Cl assic al  fo c us e cra wler.  U nder  the  le arn i ng   f oc us e cra wler as  s how in  Fig ure  1,   we  ha ve  two  s ub   div isi on:  (i )   ANN  base cl assifi er  (ii)  Fe edb ac m et ho d.   U nd e cl ass ic al   fo c us e c r awler  we  ha ve   two  s ub  di vision s   (i )   Sem antic   craw le (ii)  S ocial   Sem antic   Cra wler.    U nd e t he  sem antic   craw le we  ha ve   four   sub  div is ion (i)   On t ology  and   fo c us e cra wler  m od el   (ii)  Co ntext  base ap proac for  rele van ce  (iii On t ology  base cr awler  (iv)   FCA  base ap proac h.   U nd e the s ocial  sem antic  craw l er ( i) Ta g base ap proac cra wling   pro file  page ( ii )   On t ology ba se a p pr oach o nt ology we b res ources .           Figure  1 .   Cl assifi cat ion   of the  fo c us e c raw le r       3.   LIT ERATUR E SU RV E Y   Chak rab a rti   et   al [1 ]   int rod uced  the  fo c use cr awler  t the  w or ld The  fo c us e craw le r   first   desig ne was  base on   the  hy per te xt  str uctur e The  tw im po rtant  com po ne nts  in  the  work i ng  of   the   craw le r   are  the  cl assifi er  an the  dist il le r,   her we  div ide  t he  rele van p ag es  f rom   the  irreleva nt  pa ges  by  usi ng   th e   cl assifi er  a nd  to  fin the   see URL   we   us e   t he  disti ll er,  thi seed   UR le ads  us   t oth e r   releva nt  pa ges only  base on the  good see d URL  we  get  good  num ber  o f rel ev ant li nk s . T his f oc us e cra wle has p rove to  g ive a   bette res ult  than  the  cl assic a craw le r.   T he   fo c us e cra wler  is  able  to  bri ng  out  m or nu m ber   of  rel evant   pag e w he co m par ed  with  th cl assic al   craw le r.   B ut  the  f ocused  c raw le r   will   work   as  c la ssica craw le if  th e   seed  URL is  not sel ect ed  acc ur at e ly  or if  th e trai ning set  is not s uffici ent.     I H.  Zh a ng et al . [ 2] cla ssifi cat ion  w as do ne  u sing  the  Ar t ific ia l Neu ral Netw ork  ( ANN) , t his pape r   us e the  A NN  desig ne us in the   dom ai on t ology.  T he  m et ho dolo gy  in  this  pa per  co ns ist of  t hr ee  ste ps ,   the  f irst  ste is   data  pre par at i on,  sec ond  ste is  trai ni ng  sta ge  a nd   t he  la s sta ge  is  cra wl ing   sta ge.   Her e   in  the   trai ning sta ge AN N was  us e   In   S Chak ra ba rti  et   al [3 ]   oth er  ve rsion  of   the  le arn in f ocused  was  di scusse in  this   pap e r.   T he  m et ho dolo gy  in  t his  pa per   ta kes  the  t w cl assifi ers  in ste ad  of  si ng le   cl assifi er.  T he   nam of   th ose   tw cl assifi ers  are  crit ic   cl assifi er  and  ap pr e ntic cl assifi er.  T he   first  cl assifi e is  us e t col le ct   the  feedba ck  a nd  Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   2 F e br ua ry  201 9   :    4 92     498   494   the  seco nd  cl assifi er  is  use to  trai t he  ba sic   cl assifi er  base on  the  f eedb ac k.  He re   the  pe rfor m ance  of   getti ng   t he  rele van pa ges  is  i m pr ov e by  a ddin oth er   cl assifi er  to  trai t he  basic  cl assie us i ng  the  fe edb ac ob ta ine d.  The  featur w hich  are  us e t trai the  basic  cl assifi er  by  th s econd  cl a ssifie are  fu ll de pe nd e nt   featur e s.  T his  dep e ndent  feat ur e  great ly  r ed uces t he per for m ance of th e  classi fier.     The  a bove  th r ee  pap e rs  discuss e ab out  th le arn in f oc us e cra wler.  Now  w m ov to  sem antic  fo c us e cra wle rs  w hich  c om par the  m eaning   of  pa ge visit ed  with  the  se arch   to pic.  If   t he  m eaning   of   the  search  t op ic   m at ches  with  t he   pag e the that   pag is  c onsid ered   as r el eva nt   pag e o the rw is it   is  con side r ed  as  irreleva nt  pag e T c om par the  cra wled   pa ge  with  t he  se arch e t op ic   w us e   the  onto log y.   The   onto logy   m ai ntains  relat ed  w ords  of   t he   searche to pi c.    The  on t olo gy  wide ns   th search  a rea,  wh ic le ads  t m or e   releva nt p a ges a nd less ir relev ant p a ges. T hus,  usi ng the  ontolo gy, we ca n ea sil y com pu te  the r el e vance  of  t he   visit ed  pa ge.  T hu s the   on tol ogy  play a im portant  ro le   i releva nce  cal c ulati on .   To   ext ract  the  pag e wh ic h   are sem antic al l m at ching   with the  searc t opic  w e  can  use  the ontol og w it the  fo c us e d crawler     In   M.  Eh rig  et   al [4 ]   gav th introdu ct io and   work i ng  of  the  fo c us e c r awler  with  th on tol og y.  The  pa per   has   pro posed   m et hodo l og c onta inin c oupl of  cy cl es.  T he  fi rst  cy cl is  ontolo gy  cy c le   an seco nd  one  is  craw li ng  cy cl e T he  us er   que ry  co ntains  nu m ber   of   keyw ords,  the  relat ion s hi betwee the se   keyw ords  is  done  i th first   cy cl e.  In   the  seco nd   cy cl vi sit ed  pag es  ar colle ct ed  bas ed  on  the  key words   giv e by  us er In   t his  pa per   t hey  ha ve  ad op te the  brea dth -   first  m echan i sm   to  craw th releva nt  pa ge s.  But  the  disa dv a nta ge  of  this  pa pe is,  it   can  dec ide  w hethe par ti cula pa ge   is  releva nt  or  irreleva nt  pa ge   on ly   wh e c om plete  p a ge  is  dow nl oad e d. T his lea ds  t w ast e of  r eso ur ces .   Nex t,  we  sh ift   our  fo c us   on   to  the  so ci al   se m antic   fo cus ed  cra wlers.   T he  so ci al   sem a ntic  fo c us e craw le r us t he  so ci al   sit es  and   s ocial   w e bsi te to  get  m o re  releva nt  pa ge by  le arn i ng   the  us e pro file   an pr e fer e nces.   T his  w orki ng   of  fo c us e c raw l ing   us in t he  s ocio  netw ork  ha pro ve to  gi ve  the  bette re su lt s.  This  cra wlin m echan is m   us es  the  knowle dg e   of  m any  ex per peopl locat ed  in   m an places.  As  this  craw li ng  m echan ism   br ing s   tog et her   knowl edg e   of  m any  exp e rts  to   one   place,  t her e by  giv i ng   rise  to   m any  releva nt p a ges   for  the  searc he to pic.   To  reduce   the   effo rt  of  us e r   in  sea rc hing  the  rele van t   pa ge,   ta ggin i intr oduce i the   s ocial   netw ork.  This   reduce  t he  re s ource  us a ge  a nd  br i ng s   out  th m or releva nt   pag e tha t he   irrelev ant  pa ges.   So ci al   Sem ant ic   Fo cuse Cr awler  com bine bo th  sem antic   know le dge  and   so ci al   netw ork  to  ge m or releva nt  pa ges  and   li nks.  The  first  ap proac com bin ing   the  fo c us e cra wle rs  with  s ocial   netw ork  an ta gg i ng  was  giv e by  Z.  Z hang  et   al .   [5 ] The  f ocu s ed  cra wlin ba sed  on  the  profi le   pag e.   I Nidh Sin gh   [ 6] ,   sh ow e the  top ic   cl ass ific at ion   by  us ing   ver m ini m u m   te xt  wh ic is  avail able   in  URL.  In st ead  of  lo ok i ng  at   the  entire  we pa ge j ust   by  te xt  in  URL  we  ca cl assify   the  sentence  based   on   the  t op ic T his  pa per   intr oduc e on li ne  inc rem e ntal l earn i ng algorit hm  to  cl assify  the  URL.     new  tra ver s al   fr am ewo r in  f oc us ed   cra wling  ha bee pro po se by   Sit Ma i m un ah,   H usni  S   Sastram ihard j a Dw W i dyanto ro,  Kusp riy anto   [7 ]   w hic increase the  recall .A the  conve ntion al   f ocus e craw le r wer on ly   able  to  re ach  releva nt  w eb  docum ents  wh ic co nn ect ed  directl wh i ch  is  no suffic ie nt  as   there  m ay   exis web   doc um e nts  w hich  are  l ink e to  ide ntifie rele van w eb  doc um ents.Th is  can  be  ac hieve us in this  pro posal .   In   We ng  J,  Lim   E - P,  Jia ng  J,  He  [ 8]  pro po ses   T witt erRan a e xtension  to   Pa ge  Ra nk   al gorithm .Th is  al go rithm   m e asur e the  twit te rer infl uence  on   to pic - se ns it ivit y.The  pro posed  a rch it ect ure   perform top ic   disti ll at ion c onstr ucting  to pic  sp eci fic  relat ion s hip   netw or a nd  finall pro vid i ng   ra n ks  base on  to pic  se ns it ivit y.  A E ve nt   Fo c us e Cra wling  ( EFC)   a rch it ect ure  has   bee pro pose by  Fara g ,   M.M.   Gand   E.A . Fox.   [9] . This   cra wler   is  used   to  r et ri eve   h ighly   r eleva nt   web  p age which   ar s imila to   th sel ec t ed  see d   URL ’s  b y   the   cur at o r. Th is  pape r expl ai ns h ow foc used  cra w le r can   be   used  t buil d   an   eve n t m odel .   In  Ak y ol,  Me hm et   Ali,  et   al [10]  disc usse ab out  a   di stribu te a rc hi te ct ur w her e   distrib uted  fo c us e cra wler  and   distri bute com plex  even pr ocessin are  com bin e to  identify   th con te xt  of  th us ers   and   no ti fy  the m   accord in gly.   The  distrib ute fo c us e cra wler  can  be  use to  craw th web sit es  w hich  ar ob ta ine f ro m   var io us   data  so urces Her distrib uted  cra wler  is  us ed  t ser ve  m any  us ers The  r es ults  of   distrib uted cra wler  deliver ed   to the use rs  i n base d on their  con te xt.       4.   FOC US E D C RAWL ERS   The  oth e nam es  f or  the   we cra wler  a re  bots,  s pi der  et c.   The se  web  cr awlers   f or m   structu re  of  web  pa ges   an URL  base on  the  us e query.   This   sof tware,   base on  the  keyw or ds   i the   us e r   query   searche for  th URL  and   pr oduce the  relev ant  pag e s.  The  adv a nce an im pr ov e ver si on  o we cra wler  is  the  f oc us ed   C r awlers.   T hese  fo c us e c raw le rs  base on  th us e sea rch  t op ic   fin ds   t he  seed  URL  a nd   then   from   the  seed  U RL,  t he  c ra w le searc hes   th releva nt p a ge s.  T he  m ai ai m   of   the focus ed  c raw le is  t reduce   the  per ce ntage   of  ir releva nt  pag e with  t he   total   num ber   of  searc he pa ges  a nd  i ncr ea se  the   pe rcen t age  of   releva nt  pag es  with  the  total   nu m ber   of  fetched   pag es U nder  f oc us ed  c r awli ng   we  ha ve   two  m ai div isi ons  they  are (i) Cl a ssic f ocu se c r awler  (ii) Lea r ning  fo c us e c raw le r , as  sho wn in T able  1 .   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Foc us ed  cr awli ng  fr om the  ba sic  app r oach  to  c on te xt   awa r e noti fi cation . .. ( Venug opal B oppana )   495   4.1.     Classi c f ocuse d cra w le r   The  cl assic al   fo c us e cra wler  is  again  di vid e into  tw cra wlers,   th ey   are  (i)  So c ia Se m antic   Fo c us e Cra wler  (ii)  Sem antic   Fo c us e Cra wler.  T hese  a r div ide base on  tw c rite r ia ’s  first  on is   base on cra wlin ar ea an sec ond  on e  b a sed  on t he  m et ho d f ollo we t c heck  the r el e van ce  of the  f et ch ed  page .   The  w orkin of   pa ge  rele va nce  is  alm os sam e   as  co m pu ti ng   rele va nce  of   hype rtext  do c um ent.   This  cra wler  m ai ntains  the  qu e ue  to  c ollec al the  fetch ed  pa ges  an URL.  T hese  pa ges  are  ar ra nged  base on   t he  pr io rity   and  ra nk i ng  of   t he  pa ge T he  na m of   th is  qu e ue  is  pr i or it queue H ere  we  us t he   page   pr i or it crit erion   to  c heck   th relevan ce  of   the  pag e The  work i ng  of   pa ge  pri or it crit erio is  si m i la to  the  disti ll er.  The d ist il le can ex tr act  the r el eva nt   pag e s b detect ing  the  good  acce ss point.  A gain,  t get t he  g oo acce ss point t he  cra wler  nee d t ide ntify t he goo d hype rtext  nod e s.       Ba sed  on  the  app li cat io the   craw le m ai nt ai ns   the  var i ous  pr i or it que ue s.  I the  c ra wler  fi nd s   th e   irreleva nt  pa ge t hen   that  li nk   is  no inclu de in  the  que ue The  cra wler  stop sea rc hing  from   that  li n an searche f or   t he   oth e li nk   w hi ch  le ads  to  rel evan pages.  T his  the  m ajo di ff ere nce  betw een  cl assic al   f ocused  craw le r   a nd  ge ner ic   c ra wler.   Ma ny  searc e ng i nes  us e   t he se  ge netic   cr a wlers.  A fter   th cra wler  reac hes  t he  require num ber  of r el e van pa ges or  if t he  ti m e lim it ex ceeds,  c raw le sto ps  sear chi ng  a nd   retu rn  t he  r esult t the user.     4.2.     Le arnin g   fo c used cr awle r   The  sec ond  ty pe  of  f ocu se craw le r is  Learn i ng   Cra wle r These  cra wler  work   base on   the  trai ning   set . Th es e take  the f ee dbac usi ng  t he  trai ning set to  up date  the cra wlin li nk s  which  lead s to  m or nu m ber   of   releva nt  pages.   gro up   of   sa m ple  pag es  relat ed  to  the  sea rch e to pic  is  ta ken   as  the  tr ai nin datase t.   This   trai ning  set   he lps  in  detect in the  releva nt  and   i rr el e van pag e s.  T he  vari ou m et ho ds  are  f ollo wed   by   the  le arn in c ra wlers.     S om of   t hem   are  Ba ye sia cl assifi er Hidden   Ma r kov  M od el .     T com pu te   the  di sta nce   betwee c raw l ed   pag e  and  set  of train i ng pag es, we ca n use  con te xt gra ph s .     4.3.     Sem an tic  and  So ci al Sem antic  Fo c used  Craw le r   This  sect ion   de al with  the  de sign   of  sem antic   and   so ci al   se m antic   fo cuse craw le r.   T he craw on   diff e re nt  ty pes   of  Web  area us i ng  di ff e re nt  ap proac hes.  Fo c us e C ra wling  ba sed   on  Hu m an  Co gnit ion  (F CHC cra wling   a ppr oach   e xtracts  the  data   relat ed  to  relevan pa ges  fro m   the  bo okm ark gi ven   by  the  us er .   This  m a intai ns   nu m ber   of   rel at ed  or   sim i la wo r ds   f or   s ing le   keyw ord.  No a fter  the   us er  has  gi ve the  top ic   of  searc h,  th en  us in th si m i la wo r ds  the  craw le c an  easi ly   extract  the  web   li nks  of  releva nt  data.   These  tw cra wling   m echani s m wo r us i ng   tw diff e re nt  patte rns.  T he  two  patte r ns   are  Brea dt h - Fi rst  Patt ern   (BFP and  D ept h - Fi r st  Patt ern  ( DFP).   Th oth e var ia ti on  o f   f oc us e c raw le r   is  sem antic   focuse craw le r T his  is  al so   cal le as   dynam ic   se m a ntic  releva nce  craw li ng   ( DS R ).   T his  ar range   the  pa ges  visit ed  in   pr i or it y o rd e r.     4.4.     Foc used  Cr aw le r using   Hu man   C ognitio n   (F CHC)   To  pro duce  th best   res ults  i .e.  m or num ber   of  rele van pag e with  m i nim u m   li nk   se arch  by   the   fo c us e cra wle r,   the c hoic e of  the seed   URL s is v ery im po r ta nt as th is see url  h el ps  to find  t he  ot her   rel evan li nk s.  Du t this  eff ic ie nt  w orkin of  F oc use cra wlin this  can  be  ap pl ie with  s ocial   m edia,  her we  ca get  la r ge  nu m ber   of   bookm ark ed   pa ges   base on  the  us e i nterest.  From   t he  s ocial   m edi we  ca get  th inpu t   from  n um ber  of  people  with  va ried  i nterest l ocated at  v a rio us   place i n t he worl d.   Fr om   m any  ye ars,   t he  re searc her s   are  stu dying  on  how  t li nk   t he  s ocial   m edia  data  with  the  we pag e s ? ”  as   this   stu dy  can   help  to   br in out  m or nu m ber   of  rele van pa ge with   le ss  ti m and  res our ces.  T he   m ai com po ne nts  of   FCHC a r e :   a)   Sele ct ion of  se ed URL   Fo e ve ry  qu e r giv en  by  the   us er  the  sea rc en gin pr od uces  num ber   of   w eb  URL  from   tho se   URL,  to pr i ori ty   URL  are  c on si der e as  t he  see URLs   wh ic le ads  t m any  relevan URL.  Sele c ti on   of   seed  URL  ba se on  t he  to pic  giv e ca bri ng  la r ge  di ff e re nce  in  t he  res ul of   the  c raw l er.  go od   see URL   helps   the  c ra w le to  pro duce  the  be st  res ult.   Crawle ca s el ect   m or tha on e   see UR L,  by  this  sea r chin area ca n be  wider tha narr ow d i recti on.    b)   Crawl ing  ar e a   Fo ll owin ca be  ta ken   a s   craw li ng  a re a,  any  sit c on ta ini ng  the  data,  sit m ain ta inin the   bookm ark ing o the  p a ges.   c)   Pa ge  rel eva nc e crit eri on   Wh il c raw li ng  the   cra wler  m at ches  the  giv en   to pic  with   the  pag e visit ed  to  c hec wh et her  it   i s   releva nt or ir re le van page.         Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   2 F e br ua ry  201 9   :    4 92     498   496   d)   Pa ge priorit y c rit eri on   syst em atic  search  patte r m ot ivate by  hu m an  co gn it ion  is  us e as   the  pr io rity   crit erio f or  the   craw le r . T he  t wo searc h patt ern s  are  Brea dth   first  patte rn (B FP)  a nd  Dep t h first  patte rn (DFP )   e)   Terminati on c rit eri on   Ba sed  on  the  two  c onditi ons  the  craw le st ops  the  cra wlin g.   T he  first  co nd it io is  nu m ber   of   URLs   to b e  cra wled  e xceeds t he  lim i t and the  seco nd c onditi on is t il l t he  pr i or it qu e ue  is  em pty .     4.4.1  F CHC  S earchin P att erns   Using  bo t br e adth  first  patte r (B FP)  an de pth   first  patte r ( DFP)  t he  pa ges  ca be  sea r ched  to  get  the  releva nt  pag es.  T he  flo of   w orki ng   in  BFP  is  as  fo ll ow s,  in  this  first   al l   the  us ers  who  ta gged  th seed   pag e   are  place in  t he  qu e ue,  then  t he  cra wl er  sta rts  visit ing   the  pa ges  fro m   a ll   the  pag es   wh ic a re  ta gged   by   the  use r.  T his  is  done   to g et   t he   res ource o f   interest . Th e a fter  the   cra wler   fin ds   t he  relev ant  pa ges   the tho s e   pag e s ar e  sto re in  a  qu e ue.  Most o t he  cra wler  w ork base d on the B FP  c om par ed wit t he DFP .   Ther is  sli gh diff e rence   in  parsi ng  the  pag e in  DF C,   in  this  instea of   visit ing   the   pag es  f ro m   seed   URL  of  al us ers  at   sa m tim first  on us e is  pic ked   a nd  f r om   her pa rsing  is   done  ti ll   the  craw le r   reaches  the  re so urce  of  inter est   and   then  t he  craw le sta rting   agai the   par sin from   the  oth er  us er   ti l i t   reaches  the  res ource  of intere st. Th is  pro ce dure  conti nues t il l al l t he  us ers   are c om plete d.       4.5.     DSR  ba se d Se mantic  F ocuse d C r awle r   This  D SR  fetc hes  the  t opic   re le van pag es   f r om   the  par ti cul ar  area  us i ng   t he  m ulti thread ing   c once pt.  To  get  m or re le van pa ges  on  a   gi ven  to pic   we   can   use   dom ai ontolo g y.   Mostl f or  the   ed ucati onal   pu rpose   we  ca n use t he do m ai ontol ogy t e xpan t he  to pic.     4.5.1  DSR   b ase d S em antic  F ocus ed  C r awl er Framew or k   T de sig the  eff ic ie nt  D SR  we  nee the  fol lowing  com ponen ts  they   a re  of   do m ai on t ology,  local   database pr i ori ty   qu eue ,   an the  pro po se m ult it hr eade Sem antic   F ocused  Cra wler.  SFC   ( Sem antic   Fo c us se Cra wler)   picks  the   web   pa ge  that   can  direct  the   craw le to  m a ny  oth e relev ant  pa ges.   Ge ne rall y,   SFC  sel ect to rate URL.  We  get  this  to p - rated  URL  f ro m   the  pri or i ty   qu e ue.   Here  to  par se  t he   we b,   nu m ber   of  pa r al le thread are  create d,  by   this  we  can  get  nu m ber   of   hyper li nks  at   sa m t i m e.  These  hype rlink s   are ad de t the   queue T hese h y per li nks  a re u s ed  to   pa rse  t he  web  to g et   m or of  num ber   re le vant   web   pa ges.     T he  se qu e nce   of  par si ng   of  the   URL  al so   pla ys  an  im po rtan this  order   of  par si ng   ca be  known   from   the  pr io rity   qu e ue.   T he  craw le r   sho uld  avo i the  visit ing   sam old   pa ge  nu m ber   of   tim es.  To  av oid   thi s   sit uation  an othe queue  is  m a i ntained  wh ic stores  the  pag e visit ed.   The  hype rlink of   t he  releva nt  pa ge are   store in  se parat e d at abase  to be  us e f or lat er  purpose .     4.6.     C omp reh ensi ve  Tr av ers al  f ocus ed  C r awl er   The  co nventi onal   fo c us e cr awlers  f ollo the  top   dow appr oach   in  or der   to  get  the  top ic   s pecific  web  doc um ent w hich  is useful  w he the re  is  only   on e   li nk  wh ic is  to pic al ly   sp eci fic.  But  if  the roo t n od e  of   web   do c um ent  con sist of   a nothe releva nt  do c um ent  li nk ed  to  this  node   the  craw le cannot  go  bac an because   of   thi we  will   get  l ow   re cal l.To  im pr ov recall     this  fr am ewo r has  be en  propose im pr oves  the   recall   of   th cr awli ng   i an  i m pr essive  m an ner.  To  im pr ove  this  le xic on   li st  is  prepa red   w her do c um ent   releva nce ca n be asse ssed  from   the local  on t ology.     4.7.   Event F ocus e d C r awle r   This  is  an  arc hi te ct ur w her even m od el li ng   can  be  do ne  us in E ven F ocused  Cra wle r.   Ba sed  on   the  co ntext  an ty pe,   the  e ve nts  can  be  re cognise an r epr ese nted Th con te xt  her e   is  no thi ng   bu t   when ,   where T he  ty pe  m eans   wha t This  can  be  use to  prepa re  li st  of   seed  UR L’s  base on  t he  eve nts.  Usi ng   th e   even t m od el  a na ly sis can b e  don e  on e ve nt c ollec ti on s.     4.8.     The C onte xt  Focuse Cra w le r   This  helps  us e to  query  the   search   en gin e   for  pag t hat  ha li nk   with  par ti c ular  docum ent.  This   m echan ism   is  po s sible  is  C onte xt  Fo c us e Crawler   (CFC ) T his  qu e ry  he lps  to   co ns t ruct   co ntext   gr aph  of  pag e w hich  ar at   m ini m u m   distance  f ro m   t he  URL  of   the  pag giv e by  the  us e r.   T his  m ini m u m   dista nce  i s   decide base on   the  ap plica ti on He re  th m ini m u m   di sta nce  is  the  nu m ber   of  li nk us e to  rea ch  the   releva nt  pa ge   f ro m   the  pa ge   URL  giv e by  the  use r.  T his  const ru ct e st r uctu re  ca be  us e in   the  t rainin of  the  cl assifi er.  The the  cl ass ifie di vid es  t he  pag es   acco rd i ng   t the  t op ic .   This  divi sion   is  base on  th e   distance tr ave r sed by t he  cra wler t reac t he  ta r get  do c um ent.   They are  tw s ta ges  in  contex t fo c us e c raw l er:   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Foc us ed  cr awli ng  fr om the  ba sic  app r oach  to  c on te xt   awa r e noti fi cation . .. ( Venug opal B oppana )   497   1)   An   init ia li zat i on   ph a se:   In   this  co ntext  graph   a nd   ass oci at ed  c la ssifiers   are  con st ru ct e f or   eve ry  see do c um ents   2)   c raw li ng  ph ase:   I this   se arch  en gin e   by   us in cl assi f ie tra ver se   to   reac t he  relevan t   doc um e nt.  Ba sed upo th ese li nk s  up da ti on  i c on te xt  gr a ph are  do ne .       Table  1 .   Su m m ary o Cra wler s   Crawler   Na m e   Descripti o n   Clas sic f o cu sed  cr awler   This  cr awl er  m ain t ain s th e qu eu e to co llect all  th e f etch e d  pag es  an d  URL.   Lear n in g  f o cu sed  cr awler   Take th e f eedb ack u sin g  the trainin g  s et to u p d ate the cr a wlin g   lin k s wh ich  leads  to  m o re  n u m b e o f  r elev an p ag es   Fo cu sed  Crawling  bas ed  on  Hu m an  C o g n itio n  ( FCHC craw lin g   This  app roach  extr acts th e data  relate d  to relevan t pag es f ro m  the  b o o k m arks  giv en  by  th e us er .   Fo cu sed  Crawler  u sin g  Hu m an  Co g n itio n  ( FCHC )   Extracts la rge n u m b er  o f  bo o k m arked  pag es b ased   o n  the u ser  in terest   FCHC  Sea rchin g  Patter n s   Uses  bo th  breadth  f irst pattern  ( BFP an d  dep th  f irst patt ern (D F P)  to  searc h  the r elev an t pag es   DSR b ased  Se m an tic Focu sed  Crawl er   This  f etch es th e top ic r elev an t pag es  f ro m  the p articula r  ar ea  us in g   th m u lt ith readin g   co n cept This  us es  th e do m ain  on to lo g y   Co m p r eh en siv e T r av ersal fo cu sed  Crawler   This  us es to p  do wn  app roach  in o rder to get th e top ic s p ecif ic web  d o cu m en ts   Even t Focu sed  Cra wler   To ex tract  th e  r ele v an t pag es ev en t m o d ellin g  anal y sis  is us ed .   The Co n tex t Focu sed  Crawle r   Help s th e sear ch   e n g in e to q u ery  f o p ag e that h as a lin k  with a  p articular  d o cu m e n t.  This  qu ery h elp s to  con stru ct a  co n tex t grap h   o f  pag es       5.   F OCUSE D CRAWLE I N CO NTE X T  A W A RE NO TIFIC ATIO N  ARCHIT EC TURE   In  pull - ba sed   s yst e m   us er  m a m iss  so m of   the   im po rtan inf or m at ion   or  can not  get  t he  updated   inf or m at ion This  can  be  res olv e by  us in the  pu s h - base noti ficat ion   te chn i qu e This   can  be  achiev ed  by   introd ucin th fo c us e cra w le in  co ntext  awar noti ficat ion Usi ng   t his  te chn iq ue the   us er  ca receive  th e   la te st  info rm ation   base on  t he  co ntexts  s pe ci fied  by  the   us er T he  bi ggest   ad va ntage   of   t he  pus h - ba sed   no ti ficat io is  it   helps  t he  use rs  to   get  t he  l at est   inform at i on  by  a voidin c on ti nu ous  queryi ng  by  the   us e r.  Her t he   us er   first  nee t s pecify  his   inte rested  t op ic   a nd  c on te xt,  bas ed  on   t he  inte r est   giv e by  the  us er  fo c us e c raw l er  se nd  the   no ti ficat ion   of   la te st  inf or m at ion   a bout  t hat  pa rtic ular  t op ic .   This   al so  sen t he   no ti ficat io to   the user  base d on the c onte xt  i.e. lo cat io n, ti m e etc   The  c on te xt  ca be   di vid e i nto   t wo   cat e gories  first  one  is   exter nal  an s econd  is  i nternal W ca get  the  inf orm at ion   ab out  pla ce,  tem per at ure,  li gh t,  s ound,   and   ai pressu re  by  usi ng  the   sens or s This  t ype  of   inf or m at ion  com es  un de exte rn al  conte xt.  T he  inter nal con te xt ar e the u se prefe ren ces To  achie ve  the  b et te resu lt s,   the   di stribu te a rch i te ct ur need  t be  desig ne to  tra ve rse  t he  require U RL  an t se nd  the   no ti ficat io to  the  us er  ba sed  on   bo t intern al   and   exter nal   con te xt.  T he  us er  ca receiv the  no ti ficat ion   via   SMS,  chat - bot  m essages,  e m ai l The  fr am e work   need   to  be  desig ne suc that  it   sh ould  al low  the  use t sp eci fy  the  c onte xt  to  receive  the  inf or m at ion T he  use ca sp eci fy  the  ti m e,  locat ion noti ficat ion   m eth od  to   receive t he  in f or m at ion . T he  F igure  2   s hows  the a rch it ect ur e of c on ce ptu al  f ram ework.           Fig ure   2 .  Archi te ct ur of  C on ceptual  fr am ework       The  va rio us   da ta   so ur ce ar faceb ook,   t witt er,  we bs it es  and   c on te xt   data  con side red   is  tim e,   locat ion keyw ords,   pr e fer e nc es  of   th us e r.   Now  c on te xt  da ta   and   data  sources  a re  m ai n ta ined  on  distribu t e m essaging   que ue.   N ow  base on  the  in for m at ion   and   c onte xt  sp eci fied   by  the  us er di stribu te proc essing  eng i ne  usi ng  the  data  st or e in  cl oud  a ppli cat io ser ve r,   se nd   t he  noti ficat ion t the  us e rs  us i ng  SMS,  e m ai or chat  bot. T hi s d ist rib uted  pro ces sin e ng i ne  c onsist s of  distrib uted cra wler a nd  distribu te ce e ng i ne .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   1 3 , N o.   2 F e br ua ry  201 9   :    4 92     498   498   6.   CONCL US I O N   The  f oc us e c raw le so l ved   m any  prob le m of   t he  gen e r ic   craw le a nd   help e to  get   the  m or releva nt  pa ges   with  m ini m um   nu m ber   of   traversa ls.  We   ha ve  gi ven  a   over view  of  m any  ver si on s   of  the  fo c us e cra wler  by  sp eci fyi ng   it s   adv antages   and   disa dvant ages.  T he  f ocused  cra wler  ha bro ught  good  a nd   gr eat   c ha ng e   in  sea rch i ng  f or  th e   gi ven  us er  qu e ry.  T s earch   the  c omplet we t ge the  rele va nt  pa ges   m or than  on e   fo cu sed  cr awl er  can  be  us ed This  giv es  le ss  nu m ber   of  irreleva nt  pa ge and   m or num ber   releva nt  pa ges   base on  the  us er   query.   A ccordin t th ab ov e   disc usse fo c us e c r awler  us e ta gs  an on t ology  to  ge relevan pa ge and   al s to   exp a nd  the  ar ea  of   sea rch i ng.  By   us in m or e ff ic ie nt  ta gg i ng   m et ho the  pe rfor m ance  of   f ocu se cra w le can   be   im pro ved.  We  c an  al s in cl ud the  c onte xt  awar e   no ti ficat io in   fo c us ed  c rawl er  to  br i ng   out  m or relevan pa ges.   We   can  i m pr ove  the  fo c us e cr awler   perform ance  by   m achine  le ar ning  al gorithm s.  T his  helps   to  c om par the   we pa ges  wi th  co nte nt  post ed  by   the user.  T o process t his c on t ent w e  m ay  u se the text  m ini ng alg or it hm  lik featur e   sel e ct ion .       REFERE NCE S   [1]   S.  Chakra b arti,   M.  Berg ,   and   B .   Dom .   Focused   Crawli ng N ew  Approac h   to   Topic - spec if ic  W eb  Resourc e   Discove r y . Journ al  of   Computer  Net work . 1999 ;   3 1(11 - 16)  :1623 - 1640.   [2]   Z.   H.  T ao,   K.  B.   Yeong,   K.  H.  Gee .   An  ont olog y - b ase app roa ch  to  l ea rn a ble   foc used  c ra wling.   Journal  of  Information  Sc ience . 2008 ;   178(2 3):4512 - 4522.   [3]   S.  Chakra bar ti,  K.  Punera ,   and   M.  Subram an y am.  Ac c elerated   Foc used  Craw li ng  through  Online   R elev an ce  Fe edba ck.   In   Proce ed ings o 11 t Inte rn at ion al confere nc on   W orld  W ide  W eb.2002;  148 - 159.   [4]   M.  Ehri g,   and  A.  Mae dch e.   Onto logy - fo cuse cra wli ng  of  web  do cume nts.   In  proc ee dings  of  ACM   s y m posium   on   appl i ed  computi ng,   pp .   1174 - 11 78,   2003   [5]   Z.   Zha ng ,   O.  Nasraoui   and  R.   Zwol.   Ex plo it ing  Tags   and   Soci al  Profi l es  to  Impr ove   F ocuse Cra wli ng .   Inte rna ti ona Joi nt  Confer ences o W eb  Int el l ige n ce   and  In te l li ge n Agent   T ec hnol og y ,   pp .   136 - 13 9,   2009   [6]   Singh,  Nidhi,   e t   al .   Lar ge  scal url - based  cl a ss if ic ati on  using   onli ne  in cre me ntal   le arning .   1 1th  Inte rn at ion a Confer ence  on   Mac hine L ea rni ng  an Appl ications   (ICMLA),  2 012 .   Vol .   2 .   IE E E,   2012 .   [7]   Siti   Maimunah,   Hus ni  Sastram iha rdj a,   Dw W id y an toro,   Ku spri y an to.   C T - FC m ore   Com pre hensive   Tr ave rs al  Focused  Crawler.  TEL KOMNIK A   Tele communic ati on,   Computin g,   El e ct ronics  a nd  Contro l   Vol.   10,   No.  1,   Marc 2012 189    198.   ISS N:  1693 - 6930.   [8]   W eng  J,L im  E - P,Jia ng  J,He  Q. Tw it te rRank:   fi n ding  topi c - s ensitive   inf lu ent ia t wit te rers .   Proc e edi ngs  of  the   third  ACM   int ern a ti o nal   conf er enc e   o W eb  sea r ch an data  m ini ng .   N ew  York,   US A. 2010;  261 - 270.   [9]   Fara g,   M . M.G.  and  E . A.Fox.  B uil ding  and  archivi ng  ev ent  web  co ll e ct ions:   foc used  cr aw le appr oa ch.   in   Bul letin   of  I EEE   Technical   Comm it tee  on   Digit a l Libr aries.   2015;  p. 1 - 2.     [10]   Ak y ol ,   Mehm et   Ali,   et   al . Con te x Aware  Noti f ic ati on  Archi t ec t ure  Based  on  Distribute Fo cuse Craw li ng  in   the   Bi Data  Era European,   M edi t err anean,   a n Middle   Ea st er Confer ence  o Inform at ion  Sy stems . Springer ,   Cham,  2017.       Evaluation Warning : The document was created with Spire.PDF for Python.