I AE I nte rna t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   5 ,   No .   4 ,   Dec em b er   2 0 1 6 ,   p p .   143 ~ 148   I SS N:  2252 - 8938           143       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J A I   Pars er Ex traction  of Triples  in  U nstructu red Tex t       Sh a un   D’ So uza   T e c h n ica Lea d ,   W ip ro   L im it e d ,   Ba n g a lo re Ka rn a tak a In d ia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Au g   1 4 ,   2 0 1 6   R ev i s ed   Oct   1 8 ,   2 0 1 6   A cc ep ted   No v   2 1 ,   2 0 1 6       T h e   w e b   c o n tain v a st  re p o sito ri e o f   u n stru c tu re d   tex t.   W e   in v e stig a te  th e   o p p o rt u n it y   f o b u il d i n g   a   k n o w led g e   g ra p h   f ro m   th e s e   tex s o u rc e s.  W e   g e n e ra te  a   s e o tri p les   w h ich   c a n   b e   u se d   in   k n o w led g e   g a th e rin g   a n d   in teg ra ti o n .   W e   d e f in e   th e   a rc h it e c tu r e   o f   a   lan g u a g e   c o m p il e f o p ro c e ss in g   su b jec t - p re d ica te - o b jec tri p les   u sin g   th e   Op e n NL P   p a rse r.   W e   im p le m e n a   d e p th - f irst  se a rc h   trav e rsa o n   th e   P OS   tag g e d   s y n tac ti c   tree   a p p e n d in g   p re d ica te  a n d   o b jec in f o rm a ti o n .   A   p a rs e e n a b les   h ig h e p re c isio n   a n h ig h e re c a ll   e x trac ti o n o f   sy n tac ti c   re l a ti o n sh i p a c ro ss   c o n j u n c ti o n   b o u n d a ries .   W e   a re   a b le  to   e x trac 2 - 2 . 5   t im e th e   c o rre c e x trac ti o n o f   Re V e rb .   T h e   e x trac ti o n a re   u se d   in   a   v a riet y   o f   s e m a n ti c   w e b   a p p li c a ti o n a n d   q u e stio n   a n sw e rin g .   W e   v e rify   e x trac ti o n   o f   5 0 , 0 0 0   tr ip l e o n   t h e   Clu e W e b   d a tas e t.   K ey w o r d :   NL P   Op en   in f o r m atio n   ex tr ac t io n   R elatio n   e x tr ac tio n   Co p y rig h ©   2 0 1 6   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Sh a u n   D So u za ,   T ec h n ical  L ea d   ( C T Of f ice ) W ip r o   L i m ited ,   B an g alo r e Kar n ata k a I n d ia   E m ail:  s h a u n . d s o u za 1 @ w ip r o . co m       1.   I NT RO D UCT I O N   T h er is   co n s id er ab le  a m o u n o f   r esear c h   i n   n atu r al   lan g u a g p r o ce s s i n g   ( N L P ) .   W ith   t h av ailab ilit y   o f   lar g er   s et   o f   NL P   to o ls   li k Op en N L P   [ 3 ] ,   it  is   to d a y   p o s s ib le  to   P OS  t ag   a n d   ch u n k   v a s t   a m o u n o f   u n s tr u ctu r ed   te x t h at  is   a v ailab le  o n   t h i n ter n e t.  P r o j ec ts   lik C l u eW eb ,   Op e n I E   an d   W ik ip ed ia   p r o v id co r p u s   o f   te x d ata   w h ic h   ca n   b u s ed   f o r   o n to l o g ical  e n g in ee r i n g .   Op en N L P   s u p p o r ts   th e   P OS  tag g in g   an d   ch u n k i n g   o f   d ata.   I o u tp u ts   p ar s tr ee   f o r   th d ata  w h ic h   en ca p s u late s   th s y n tac tic  co n te n in   a   n - ar y   tr ee   d ata  s tr u ctu r e.   P OS  tag   d ata  p r o v id es  h ig h er   lev el  o f   u n d er s ta n d in g   as  co m p ar ed   to   b ag   o f   w o r d s   ap p r o ac h   to   w eb   s ea r c h   to d ay .   W ex p lo r o p p o r tu n itie s   f o r   lan g u a g in f er en ce   an d   u n d er s ta n d in g   th r o u g h   s u b j ec t - p r ed icate - o b j ec t a n al y s is   o f   w eb   s ca le  u n s tr u ctu r ed   d ata.   Var io u s   m et h o d s   ar u s ed   to   ex tr ac s u b j ec t - p r ed icate - o b j ec tr ip les  i n   u n s tr u ct u r ed   d ata.   DB p ed ia   ex tr ac to r   is   u s ed   to   g e n er ate  tr ip les u s in g   a n n o tated   f ield   i n f o r m at io n   i n   W ik ip ed ia.   Op en I E   [ 1 ]   u s ed   P OS a n d   ch u n k er   d ata  w h ile  C lau s eI E   [ 2 ]   u s es a   p ar s er   to   o u tp u t a   s et   o f   w o r d   tr ip les.   B o o ts tr ap p in g   f u n ctio n s   u s N - g r a m   m o d els  to   g e n er ate  te m p late  f o r   g iv e n   co m b i n atio n   o f   n o u n   p h r ases .   T h ese  ar u s ed   to   s ea r ch   lar g er   co r p u s   o f   d ata  f o r   s i m ilar   te m p lates   an d   g en er ate  v al u es.  NE R   tag g er s   ar u s ed   to   an n o tate  p er s o n   an d   lo ca tio n   i n f o r m atio n .   W ass u m co n te x t f r ee   g r am m ar   ( C FG)   f o r   E n g li s h   la n g u ag [ 4 ] .     ( N ,   Σ ,   R ,   S)       {n o n - ter m i n al  s y m b o ls }   Σ    {ter m i n al  s y m b o ls }     {r u les} o f   t h f o r m   →  Y 1 Y n   f o r   n     0 ,     N,   Y i     (   Σ)     s tar t s y m b o l { T OP }   {S,   NP ,   VP,  PP ,   D T ,   VB ,   NN,   I N}    Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  5 ,   No .   4 ,   Dec em b e r   2 0 1 6   :   1 4 3     1 4 8   144   S =   S   Σ   w o r d   in   t h E n g li s h   la n g u ag e     R   =     →  NP   VP     VP     →  VB     VP     →  VB   NP     VP     →  VP   PP     NP     →  DT   NN     NP     →  NP   PP     PP    →  I NP         2.   RE S E ARCH   M E T H O D   W f o u n d   a   li m itatio n   o f   e x tr ac to r s   th at   w er u n ab le  to   ex tr ac t h v er b   p h r a s ac c u r atel y   a n d   in s tead   ap p en d ed   lar g a m o u n t   o f   ad d itio n al   w o r d s   i n cl u d in g   th e   tr aili n g   n o u n   a n d   p r ep o s itio n   co n te x t.  T h ex tr ac to r s   w er u n ab le  to   p r o ce s s   s e n te n ce   a n d   co n j u n cti o n   v a lu e s   r es u lti n g   i n   in co r r ec v er b   a n d   o b j ec t   p h r ases .   p ar s tr ee   is   ab le  to   ca p tu r co n j u n ctio n   a n d   o b j e ct  p h r ase   in f o r m a tio n   co r r ec tly .   A lt h o u g h   t h er e   i s   an   o v er h ea d   o n   t h p ar s in g   ti m e.   W ev al u ate  t h p ar s er   tr ee   f o r   s eq u en ce s   o f   NP   n o u n   p h r ases   ( s u b j ec t,  o b j ec t )   an d   V B   -   v er b s   ( p r ed icate ) .   Op en NL P   g en er at es  p ar s tr ee   u s in g   t h C FG  r u les.  W i m p le m e n a n   i n - o r d er   tr av er s al  o f   t h e   s y n tactic  tr ee   to   d etec SVO  p h r ases .   W m ai n tai n   lis o f   all  NP   p h r ases   in   th s e n ten ce .   W th en   tr av er s e   th tr ee   to   d etec t su b j ec t o b j ec t p air s   an d   th p r ed icate .       f u n c t i o n   S U B JEC T - NOUN - P H R A S E( p a r se )     k i d s     C H I L D ( p a rse )     f o r   i   =   1   t o   S I Z E( k i d s do       if   T Y P E( k i d s [i ] =   N P   t h e n         su b j e c t   k i d s [ i ]         f o r   j   i   +   1   t o   S I Z E( k i d s do           if   T Y P E( k i d s [j ] )   =   V P   |   P P   |   S B A R   t h e n             e x p l o re d     a n   e mp t y   se t               w h i l e   k i d s [j ]   n o t   i n   e x p l o r e d   do               e x t r a c t i o n     A P P EN D ( su b j e c t ,   P R ED I C A T E - V ER B - P H R A S E( k i d s [ j ] ))               P R I N T ( e x t ra c t i o n )                 S U B JEC T - N O U N _ P H R A S E( k i d s [ i ] )     f u n c t i o n   P R ED I C A T E - V ER B - P H R A S E( p a rs e r e t u r n s   so l u t i o n ,   f a i l u r e   k i d s     C H I L D ( p a r se )   i n i t i a l i z e   p re d i c a t e   st r i n g   t o   b e   e mp t y       f o r   i   =   1   t o   S I Z E( k i d s do       if   T Y P E( k i d s [i ] )   =   V P   |   S   t h e n         if   k i d s [i ]   n o t   i n   e x p l o r e d   t h e n           r e t u r n   A P P EN D ( p red i c a t e ,   P R ED I C A T E - V ER B - P H R A S E( k i d s [ i ] ))       e l se   i f   T Y P E( k i d s [i ] )   =   V B   |   JJ |   R B   |   M D   |   T O   |   A D V P   |   D T   |   N N   |   I N   t h e n         p re d i c a t e   ←  A P P EN D ( p red i c a t e ,   k i d s[i ] );     f o r   j   i   +   1   t o   S I Z E( k i d s do           if   T Y P E( k i d s [j ] )   =   N P   |   P P   |   A D JP   |   S   |   S B A R   t h e n             r e t u r n   A P P EN D ( p red i c a t e ,   O B JE C T - N O U N _ P H R A S E( k i d s [ j ] ))     a d d   p a r se   t o   e x p l o r e d     r e t u r n   f a i l u r e     Fig u r 1 .   Su b j ec t - P r ed icate   P h r ase  A l g o r ith m                   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       P a r s er E xtra ctio n   o f Tr ip les i n   Un s tr u ctu r ed   Text   ( S h a u n   D S o u z a )   145   f u n c t i o n   O B JEC T - NOUN - P H R A S E( p a rs e r e t u r n s   so l u t i o n ,   f a i l u r e   f o u n d   ←  f a l se   k i d s     C H I L D ( p a r se )   i n i t i a l i z e   o b j e c t   st r i n g   t o   b e   e mp t y       f o r   i   =   1   t o   S I Z E( k i d s do       if   T Y P E( k i d s [i ] )   =   N P   |   S   t h e n         f o u n d   ←  t r u e         if   k i d s [i ]   n o t   i n   e x p l o r e d   t h e n           r e t u r n   A P P EN D ( o b j e c t ,   O B JE C T - NOUN - P H R A S E( k i d s [i ] ))         e l se           r e t u r n   A P P EN D ( o b j e c t ,   G ET - C O V ER ED - T EX T ( k i d s [ i ] ))             e l se   i f   T Y P E( k i d s [i ] )   =   P P   t h e n   if   k i d s [i ]   n o t   i n   e x p l o r e d   t h e n           r e t u r n   A P P EN D ( o b j e c t ,   O B JE C T - P R EPO S TI O N - P H R A S E( k i d s [ i ] ))   e l se           r e t u r n   A P P EN D ( o b j e c t ,   G ET - C O V ER ED - T EX T ( k i d s [ i ] ))       el se   i f   T Y P E( k i d s [i ] )   =   I N   |   T O   t h e n         o b j e c t   ←  A P P EN D ( o b j e c t k i d s [ i ] )       a d d   p a r se   t o   e x p l o r e d     if   n o t   f o u n d   a n d   T Y P E( p a rse )   =   N P   t h e n       r e t u r n   A P P EN D ( o b j e c t p a rse )       r e t u r n   f a i l u r e     f u n c t i o n   O B JEC T - P R EPO S I TI O N - P H R A S E( p a rse r e t u r n s   so l u t i o n ,   f a i l u r e   k i d s     C H I L D ( p a rse )   i n i t i a l i z e   p re p o si t i o n   st r i n g   t o   b e   e mp t y       f o r   i   =   1   t o   S I Z E( k i d s do       if   T Y P E( k i d s [i ] )   =   N P   a n d   n o t   i n   e x p l o re d   t h e n         r e t u r n   A P P EN D ( p rep o s i t i o n ,   O B JE C T - NOUN - P H R A S E( k i d s [ i ] ))       e l se   i f   T Y P E( k i d s [i ] )   =   P P   a n d   n o t   i n   e x p l o re d   t h e n   r e t u r n   A P P EN D ( p rep o s i t i o n ,   O B JE C T - P R EPO S TI O N - P H R A S E( k i d s[i ] ))       e l se   i f   T Y P E( k i d s [i ] )   =   I N   |   T O   |   JJ  |   A D V P   t h e n         p re p o si t i o n   ←  A P P EN D ( p re p o s i t i o n ,   k i d s [ i ] )       a d d   p a r se   t o   e x p l o r e d     r e t u r n   f a i l u r e     Fig u r 2 .   Ob j ec P h r ase  A l g o r ith m       W im p le m e n d ep th - f ir s s e ar ch   o n   th n - ar y   p ar s tr ee .   W s ea r ch   th p ar s tr ee   f o r   a   n o u n - v er b   p h r ase  in d icati n g   th s u b j ec t - p r ed icate   -     Fig u r e   1 .   T h n o u n   p h r ase  i s   u s ed   as  t h s u b j ec in   th cl au s e W lo o k   f o r   v er b   p h r ase  VP   o r   p r ep o s itio n   p h r ase  PP   in   th s ib lin g s .   I n   t h ca s o f   s u b s e q u en co n j u n ctio n s   C C   a n d   W HNP   p h r ases ,   w e   co n tin u to   s ea r ch   th e   s ib li n g   n o d es.  Fo r   all  f o u n d   VP ,   P P   w s ea r ch   f o r   t h p r ed icate   cl au s in   th e   s e n te n ce .   p r ed icate   clau s e   co n s is t s   o f   s eq u e n ce   o f   v er b ,   ad j ec tiv es,   ad v er b   an d   m o d al  id en ti f ier s .   T h ese   ar ap p en d ed   to   s tr in g   o f   p r ed icate s .   VP   p h r as es  ar s ea r ch ed   r ec u r s iv el y   ti ll  w f i n d   ter m i n al  NP   o b j ec t   clau s e.   W r ep r ese n t h SV in   t h tr ip les   f o r m at.   W e   u s e   tr ai n i n g   s et   o f   2 0 0   p h r ases   f r o m   ea r lier   p u b licatio n s   o n   i n f o r m atio n   ex tr ac tio n .   T h ese  g i v u s   r an g o f   p ar s tr ee s   to   ev al u ate   th e   s ea r ch   o n   an d   r ef in e.   E ar lier   w o r k   o n   in f o r m at io n   e x tr ac tio n   w a s   li m ited   to   th ca p ab ilit ies  o f   th P OS  an d   C h u n k er   ta g s .   Ver b   p h r ases   w er d etec ted   u s i n g   s tati s tical  p r o b ab ilit ies  o f   f r eq u e n tl y   o cc u r r in g   p atter n s   in   t h E n g li s h   lan g u a g e.   W i m p le m en t a   r i g o r o u s   p ar s tr ee   d esig n   w h ic h   p r eser v es th la n g u a g s y n tax   o f   th te x t d ata.   As  th er is   h i g h   a v ailab ilit y   o f   co m p u ti n g   to d a y   in   t h clo u d ,   w i m p le m en th S VO  p ar s er   as  an   o f f li n f u n ct io n   to   p r o ce s s   t h s y n tactic  tr ee .   W p ar s all   th s e n te n ce s   i n   t h te x a n d   g en er ate  p ar s ed   o u tp u t.  T h is   is   s u b s eq u en t l y   u s ed   to   g e n er ate  th S VO  tr i p les.  W ith   th a v ailab ilit y   o f   co m p u ti n g   w ca n   i m p r o v p er f o r m a n ce   o f   t h p ar s er   b y   p ar allelizi n g   t h p ar s i n g   o f   in p u t se n ten ce s .   W co n tr ast  t h SV tr ip les   w ith   p ast  r esear c h   i n clu d i n g   Op en I E   an d   C la u s eI E .   W f in d   t h at  a   p ar s er   b ased   ap p r o ac h   i s   ab le  to   ex tr ac lar g n u m b er   o f   S VO ’s   ac cu r atel y .   Av ailab ilit y   o f   s y n tac tic  p ar s tr ee   also   en ab les  u s   to   ex tr ac tr ip les  w i th   r ed u ce d   a m b i g u i t y .   T h o b tain ed   tr ip les  m ap   ex a ctl y   to   s u b - tr ee s   i n   th s e n ten ce   p ar s tr ee   an d   ca p tu r all  th s e m a n tic  i n f o r m atio n     s u b j ec p r e d icate .   T h n - ar y   p ar s tr ee   en ca p s u lates t h s y n tactic  s tr u ctu r o f   th s en ten ce   co m p lete l y .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  5 ,   No .   4 ,   Dec em b e r   2 0 1 6   :   1 4 3     1 4 8   146   W ar ab le  to   p r ec is ely   e x tr a ct  SVO  i n f o r m atio n .   I n   t h i n i tial r ev i s io n   o f   th e   co d w i m p le m en ted   p r ed icate   ex tr ac tio n s   to   in cl u d th t r ailin g   n o u n   p h r ase.   T h is   w a s   u p d ated   to   r eso lv th o b j ec clau s to   co n tain   th n o u n   p h r ase  NP   an d   tr aili n g   p r ep o s itio n   p h r ase  P P   -   Fi g u r 2 W u s s et  o f   h e u r is tic s   to   m ax i m ize  th n u m b er   o f   tr ip le s   g e n er ated   f o r   ea ch   n o u n   p h r ase,   v er b   p h r ase.       3.   RE SU L T A ND  AN AL Y SI S   T h SVO  ex tr ac tio n s   ar co h er en as  Op en N L P   ca p tu r es  t h lan g u ag s y n ta x   in   t h p ar s tr ee .   W co m p ar th n u m b er   o f   ex tr ac tio n s   w i t h   th R e Ver b   ex tr ac to r .   W e   o b s er v lar g er   n u m b er   o f   tr ip les  as  w e   ar s ea r ch in g   f o r   all  n o u n   p h r ases   i n   t h o b j ec t.  T h NL P   p ar s er   is   ab le  to   ex tr ac lar g e   n u m b er   o f   tr ip le s   m atc h in g   R eVe r b   an d   C la u s I E .   E x a m p le  s e n te n ce   T h p r in cip al  o p p o s itio n   p ar ties   b o y co tted   th p o lls   a f ter   ac cu s atio n s   o f   v o te  r ig g in g ,   an d   th o n l y   o th er   n a m o n   th b allo w as a   litt le  k n o w n   c h alle n g er   f r o m   m ar g i n al  p o liti ca l p ar t y           Fig u r 3 An   E x a m p le  Se n ten ce   P ar s T r ee       (" Th p r in cip a l o p p o s itio n   p a r ties " ,   " b o yc o tted " ,   " th p o lls ")   (" Th p r in cip a l o p p o s itio n   p a r ties " ,   " b o yc o tted " ,   " th p o lls   a fter   a cc u s a tio n s ")   (" Th p r in cip a l o p p o s itio n   p a r ties " ,   " b o yc o tted " ,   " th p o lls   a fter   a cc u s a tio n s   o f v o te  r ig g in g ")   (" Th e   o n ly  o t h er n a me  o n   th b a llo t " ,   " w a s " ,   " a   litt le  kn o w n   ch a llen g er ")   (" Th e   o n ly  o t h er n a me  o n   th b a llo t " ,   " w a s " ,   " a   litt le  kn o w n   ch a llen g er fr o a   ma r g in a l p o liti ca l p a r ty ")     T h ab o v ex tr ac tio n s   ar la b elled   co r r ec tly   i n   t h R eVe r b   d ataset  an d   co n tai n   s o m e   r ed u n d a n t   ex tr ac tio n s .   W ev alu ated   th p ar s er   ex tr ac tio n   o n   th C lu e W eb 1 2   d ataset  an d   w er ab le  to   ex tr ac m o r th a n   5 0 , 0 0 0   tr ip les.  W f o u n d   th a t   th p ar s er   w as  ab le  to   p er f o r m   o n   p ar   w it h   R eVe r b   a n d   C lau s I E .   T h is   w as   ac h iev ed   u s in g   t h s y n tactic  f u n ct io n alit y   i n   t h p ar s tr ee   -   Fi g u r 3 .   I d e m o n s tr ates  t h ab ilit y   o f   p ar s er   b ased   ap p r o ac h   in   ex tr ac ti n g   h ig h   q u alit y   tr ip les.      W v er if ied   th e   ex tr ac t io n s   f o r   s a m p le   s et  o f   s en te n ce s   i n   t h Op e n I E   an d   C la u s I E   p u b licatio n s .   T h ese  w er u s ed   to   en s u r p r e cisi o n   i n   th p ar s er   e x tr ac tio n s .   W ad d itio n all y   r an   th e   p ar s er   o n   t h C l u eW eb   d ata  an d   co m p ar ed   th n u m b e r   o f   ex tr ac tio n s   w it h   t h alter n ati v ap p r o ac h es.  W m ea s u r ed   th d is tr ib u tio n   o f   t h n o u n   an d   v er b   s u b - tr e es  i n   t h s e n te n ce   te x -   T ab le  1 .   W f o u n d   t h at  1 0 o f   th p h r ases   w er p r ep o s itio n al.   T h d en s it y   o f   th n o u n   an d   v er b   p h r ases   ar in   ag r ee m e n w it h   th E n g l is h   co n te x f r ee   g r a m m ar   ( C F G) .       T ab le  1 .   P h r ase  D is tr ib u tio n   N o u n   F r e q u e n c y   NP   →  NN   1 4 %   NP   →  N P   P P   1 2 %   NP   →  D T   N N   1 2 %   NP   →  N N   N N   6%     V e r b   F r e q u e n c y   VP   →  V B   N P   1 6 %   VP   →  V B   V P   1 0 %   VP   →  T O   V P   9%   VP   →  V B   P P   8%   VP   →  VB     6%     P r e p o si t i o n   F r e q u e n c y   PP   →  I N   N P   8 1 %   PP   →  T O   N P   9%         E ar lier   w o r k s   li k Op e n I E   an d   R eVe r b   h a v lo o k ed   at  t h ex tr ac tio n   o f   s u b j ec t - v er b - o b ject  ( SVO)   tr ip les.  T h ey   w er h o w e v er   b ased   p r i m ar il y   o n   th a v ailab il i t y   o f   P OS a n d   ch u n k er   d ata.   S tr u ctu r o f   th v er b   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       P a r s er E xtra ctio n   o f Tr ip les i n   Un s tr u ctu r ed   Text   ( S h a u n   D S o u z a )   147   an d   n o u n   p h r ase s   w er d eter m i n ed   u s in g   s ta tis tica d is tr ib u tio n   o f   t h p h r ases   in   te x d ata.   C lau s I E   u s ed   d ep en d en c y   p ar s er   in   r eso l v in g   th SVO  r elatio n s .     P r o j ec ts   lik DB p ed ia  [ 5 ]   w er d esig n ed   to   e x tr ac s tr u ct u r e d   d ata  in   th e   in f o r m a tio n   b o x   an d   m ap   it   to   an   o n to lo g y .   T g r ep 2   [ 6 ]   en ab le  u s   to   ex tr ac a n d   p ar s tr ee   w it h o u ex p licit l y   co d in g   th r u le s .   A   s et  o f   r eg u lar   ex p r es s io n s   ar u s ed   t o   ex tr ac m atc h in g   s u b - tr ee s .           Fig u r 4 .   Nu m b er   o f   C o r r ec t N o n - r ed u n d an t E x tr ac tio n s       W ev alu ated   n u m b er   o f   ex t r a ctio n s   o n   th R eVe r b ,   W ik ip ed ia  an d   NY T   d ataset.   W e   o b tain ed   th e   s a m p le  d atase f r o m   t h C lau s I E   s o u r ce s .   W w er ab le  to   ex tr ac m o r th a n   2 0 0 0   SVO   in   t h d atase w it h   1 0 0 0   m atch i n g   th C la u s I E   ex tr ac tio n s .     As  all   th e   ex tr ac ted   r esu l ts   ar s e m an t icall y   ac cu r ate,   th e   p r ec is io n   o f   t h r es u lt s   i s   ~0 . 9 .   T h is   v alu e   is   i n d ep en d en t o f   t h d atase t a n d   is   d er i v ed   f r o m   t h e x tr ac ti o n   g r a m m ar   r u le s .   T h ex tr ac t io n s   ar b ased   o n   a   r u le  b ased   s y s te m   a n d   ca p tu r th s y n tax   o f   t h E n g lis h   lan g u ag e.   So m o f   th SVO  o u tp u ts   ar in co r r ec d u to   th a m b ig u it ies  i n   t h la n g u a g p ar s tr ee   i n cl u d in g   co n j u n ctio n s   i n   n o u n   p h r a s e s .   W v er i f ied   t h ex tr ac ted   tr ip les  to   m ea s u r th r ec all  o f   th d ata.   T h r ec all  v alu is   f u n c tio n   o f   th e   g r a m m ar .   W ca n   r ef in t h r u les  to   f i n d   ad d itio n al  tr ip les  in   th d ata.   T h is   w o u ld   in cr ea s th r ec all  o n   t h ex tr ac ted   v al u es.  W m ea s u r ed   an   av er a g r ec al l v al u o f   6 0 % o n   t h tr ip le s   -   T ab le  2 .   W u s ed   th e x tr ac tio n s - all - lab eled   as   a   b aselin f o r   o u r   co m p u tatio n .   T h ese  in clu d all  t h ex tr ac tio n s   f r o m   R e Ver b ,   C lau s I E   a n d   o th er   OI E   u tili tie s .   W esti m a ted   p r ec is io n   o f   0 . 8   f o r   th p ar s er   ex tr ac tio n s .   W f o u n d   t h at  t h p ar s er   was  ab le  to   ex tr ac 2 - 2 . 5   ti m es  th co r r ec ex tr ac tio n s   o f   R e Ver b   an d   8 0 o f   th co r r ec t   n o n - r ed u n d an C lau s I E   ex tr ac tio n s   -   E rr o r!   Ref er enc s o urce   no t   f o un d. .       T ab le  2 .   P r ec is io n   an d   R ec all  Valu es  f o r   Var io u s   Data s ets     P r e c i si o n   R e c a l l   N Y T       0 . 8   0 . 6 4   W i k i p e d i a   0 . 8   0 . 7 1   R e V e r b   0 . 8   0 . 5 3       4.   CO NCLU SI O N     W p r esen ted   m et h o d o lo g y   f o r   ex tr ac tio n   o f   s u b j ec t - p r ed icate - o b j ec tr ip les  in   te x t   co r p u s .   W e   p lan   to   ex te n d   t h is   w o r k   to   lar g er   o n to lo g ical   en g i n ee r in g   f o r   k n o w led g in f er e n ce .   W f o u n d   th at  a   s y n tactic  p ar s er   w a s   ab le  to   ac cu r atel y   e x tr ac tr ip les   in   t ex t.  W ex p lo r ed   o p p o r tu n itie s   to   f u r t h er   ex te n d   th is   w o r k   i n   tr an s lati n g   an   u n s tr u ctu r ed   co r p u s   o f   d ata  in to   a   s e m a n tic  o n to lo g y .   A   u s er   is   ab le  to   ex p lo r th e   tex t u s i n g   tr ip les   s tr u ct u r e.   P r o v id s tate m e n t h at  w h a is   e x p ec ted ,   as  s tated   i n   t h " I n tr o d u ctio n "   ch ap ter   ca n   u lti m atel y   r esu lt  i n   " R es u lts   a n d   Dis c u s s io n "   ch ap ter ,   s o   th er is   co m p a tib ilit y .   Mo r eo v er ,   it  ca n   also   b ad d ed   th e   p r o s p ec o f   th d ev elo p m e n o f   r esear ch   r esu l ts   an d   ap p licatio n   p r o s p ec ts   o f   f u r t h er   s t u d ies  in to   th n e x t   ( b ased   o n   r esu lt a n d   d is c u s s io n ) .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938   IJ - AI    Vo l.  5 ,   No .   4 ,   Dec em b e r   2 0 1 6   :   1 4 3     1 4 8   148   RE F E R E NC E S     [1 ]   Et z io n O,  F a d e A ,   Ch r isten se n   J,  S o d e rlan d   S ,   M a u sa m   M.  Op e n   I n fo rm a t io n   E x tra c ti o n th e   S e c o n d   G e n e ra ti o n P r o c e e d in g s o f   th e   T w e n t y - S e c o n d   In ter n a ti o n a Jo i n C o n f e re n c e   o n   A rti f icia In telli g e n c e ,   2 0 1 1 .   [2 ]   Co rro   L D,  G e m u ll a   R Cl a u sIE:  C la u se - B a se d   O p e n   I n f o rm a ti o n   E x tra c ti o n .   P r o c e e d in g o f   th e   2 2 n d   I n tern a ti o n a l   Co n f e re n c e   o n   W o rld   W id e   W e b ,   2 0 1 3 .   [3 ]   Op e n NL P ,   se e   h t tp s:// o p e n n l p . a p a c h e . o rg .   [4 ]   Ho p c ro f J,  Ullm a n   J ,   In tr o d u c ti o n   to   a u t o m a ta t h e o r y ,   lan g u a g e s,  a n d   c o m p u tatio n .   A d d is o n - W e sle y ,   1 9 7 9 .   [5 ]   A u e S ,   Bize r   C ,   Ko b il a ro v   G ,   Leh m a n n   J,  C y g a n iak   R,   Iv e Z ,   D Bp e d ia:  A   n u c leu f o a   w e b   o f   o p e n   d a ta.  In   T h e   S e m a n ti c   W e b .   2 0 0 7 ;   4 8 2 5 :   7 2 2 - 7 3 5 ,   S p rin g e r .   [6 ]   T g r e p 2 ,   se e   h tt p :/ /t e d lab . m it . e d u / ~ d r/T g re p 2 .       B I O G RAP H O F   AU T H O R       S h a u n   D’So u z a   o b tain e d   a   M . S . E.   d e g re e   in   El e c tri c a En g in e e rin g   f ro m   th e   Un iv e rsit y   o M ich ig a n ,   A n n   A rb o a n d   a   B. S .   d e g re e   in   Co m p u ter  S c ien c e ,   El e c tri c a a n d   Co m p u ter  En g in e e rin g   f ro m   Co rn e ll   Un iv e rsity .   He   is  c u rre n tl y   w o rk in g   a a   T e c h n ica L e a d   in   th e   CT O   Off ic e   a W ip ro .   His  re se a rc h   i n tere sts  in c lu d e   m a c h in e   lea rn in g ,   c o m p il e rs,  a lg o rit h m s   a n d   s y ste m s.           Evaluation Warning : The document was created with Spire.PDF for Python.