I AE S In t er na t io na l J o urna l o f   Ro bo t ics a nd   Aut o m a t io ( I J RA)   Vo l.  1 5 ,   No .   1 Ma r ch   20 2 6 ,   p p .   1 07 ~ 1 21   I SS N:  2722 - 2 5 8 6 DOI 1 0 . 1 1 5 9 1 /i jr a . v 1 5 i 1 . pp 1 07 - 1 21           107       J o ur na l ho m ep a g e h ttp : //ij r a . ia esco r e. co m   Autono mo us  reco nstruction  of str i p - shredde d docu ments v ia   self - supe rv ised de ep learning  and g lo ba l optimiza tion       Yi - Cha ng   Wu,  P ei - Sh a n Ch i a ng ,   Ya o - Cheng   L iu   D e p a r t me n t   F o r e n s i c   S c i e n c e   D i v i si o n ,   I n v e st i g a t i o n   B u r e a u ,   M i n i s t r y   o f   J u st i c e ,   T a i p e i ,   Ta i w a n       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   J u l 7 ,   2 0 2 5   R ev is ed   Feb   1 3 ,   2 0 2 6   Acc ep ted   Feb   2 1 ,   2 0 2 6       Au to n o m o u re c o n stru c ti o n   o f   m e c h a n ica ll y   sh re d d e d   d o c u m e n ts   is  a   lab o r - in ten siv e   c h a l len g e   i n   fo re n sic   a n d   a rc h iv a w o rk fl o ws ,   p a rti c u larly   fo r   sc rip ts  with   c o m p lex   stru c t u r e su c h   a S imp li fied   Ch i n e se .   Wh il e   trad it io n a m a n u a re a ss e m b ly   is  ted io u s,  e x isti n g   d i g it a to o ls  t y p i c a ll y   re ly   o n   e x ten si v e   h u m a n   i n terv e n ti o n .   Th is  p a p e p re se n ts  a n   a u to m a ted   re a ss e m b ly   fra m e wo rk   t h a i n teg ra tes   a   li g h twe ig h c o n v o lu t io n a fe a tu re   e x trac to with   g lo b a c o m b in a to rial  o p t imiz a ti o n .   B y   a d a p ti n g   t h e   e sta b li sh e d   S q u e e z e Ne v 1 . 1   b a c k b o n e ,   we   e m p lo y   a   tas k - sp e c ifi c   se lf - su p e rv ise d   lea rn in g   stra teg y   tra in e d   o n   sy n t h e ti c a ll y   sh re d d e d   sa m p les ,   e n a b li n g   t h e   a d a p ted   m o d e t o   c a p tu re   lo c a stro k e   c o n ti n u it y   a n d   e d g e - g e o m e try   c u e s   with o u t   m a n u a l   a n n o tatio n .   Th e   fra m e wo rk   i n fe rs  p a irwise   re latio n sh i p fro m   c a li b ra ted   e d g e - re g io n   in p u ts,  o rg a n izin g   c o m p a ti b il it y   sc o re in to   a n   a sy m m e tri c   trav e li n g   sa les m a n   p ro b lem   (ATS P f o r m u latio n .   Th e   o p ti m a fra g m e n t   se q u e n c e   is  so l v e d   d e term in isti c a ll y   u sin g   t h e   Co n c o r d e   TS P   so lv e r,   y ield i n g   a   g lo b a ll y   c o n siste n re c o n stru c ti o n .   Ex p e rime n tal  re su l ts  o n   p h y si c a ll y   sh re d d e d   d o c u m e n ts  d e m o n stra te   re c o n stru c ti o n   a c c u ra c ies   o f   8 6 . 5 %   fo r   S imp l ifi e d   C h i n e se   a n d   9 4 . 8 %   fo r   Wes tern   sc rip ts.  Th e se   re su lt in d ica te  th a th e   p ro p o se d   p i p e li n e   e ffe c ti v e ly   g e n e ra li z e fro m   sy n t h e ti c   trai n in g   d a ta  to   re a l - wo rl d   sc e n a rio s ,   p r o v i d in g   a   p ra c ti c a l,   h ig h - t h ro u g h p u f o u n d a ti o n   fo r   a u to m a ted   d o c u m e n t   re c o v e ry   u n d e c o m p u tat io n a c o n stra i n ts t y p ica o ro b o t ic o e m b e d d e d   s y ste m s.   K ey w o r d s :   Au to n o m o u s   r ec o n s tr u ctio n   C h in ese  tex t p r o ce s s in g   Fo r en s ic  s cien ce   Fu lly   co n v o l u tio n al  n e u r al  n etwo r k s   Glo b al  o p tim izatio n   Self - s u p er v is ed   lear n in g   Strip - s h r ed d ed   d o cu m en ts   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Yi  C h an g   W u   Fo r en s ic  Scien ce   Div is io n ,   I n v esti g atio n   B u r ea u ,   Min is tr y   o f   J u s tice   No .   7 4 ,   Z h o n g h u R d . ,   Xin d ia n   Dis t.,   New   T aip ei  C ity   2 3 1 ,   T aiwa n   ( R . O. C . )   E m ail: sh in ten wu @ g m ail. co m       1.   I NT RO D UCT I O N   T h r ec o n s tr u ctio n   o f   s h r ed d ed   p ap er   d o cu m en ts   is   to p ic  o f   s ig n if ican r elev a n ce   to   f o r en s ic   s cien ce ,   in v esti g ativ d is cip li n es,  an d   ar ch ae o lo g y ,   an d   h a s   g ar n er ed   in cr ea s in g   atten tio n   in   r ec en y ea r s .   Fo llo win g   th f all  o f   th e   B er lin   W all  in   1 9 8 9 ,   th Mi n is tr y   f o r   State  Secu r ity   o f   E ast  Ger m an y   ( Stas i)   attem p ted   to   d estro y   a   v ast  a m o u n o f   in tellig en ce   d o c u m en ts ,   r esu ltin g   in   o v er   1 6 , 0 0 0   b ag s   o f   s h r e d d ed   m ater ials .   As  s h o wn   in   Fig u r 1   [ 1 ] ,   an   em p lo y ee   is   h o l d in g   f r ag m en ts   o f   th s h r e d d ed   Stas f iles .   T h Ger m an   g o v e r n m en t m o b ilized   ap p r o x im ately   4 0   p e r s o n n el,   an d   af ter   s ix   y ea r s   o f   ef f o r t,  o n ly   3 0 0   d o cu m e n ts   wer s u cc ess f u lly   r ec o n s tr u ct ed   [ 2 ] .   T h r ec o v er y   p r o ce s s   r em ain s   o n g o in g   to   th is   d ay .   Sch au er   et  a l.   [ 3 ]   s u g g ested   th at  s h r ed d e d   d o c u m en ts   ca n   b r eg ar d ed   as  v ar iatio n   o f   co n v en tio n al  jig s aw  p u zz les.  Pu zz le - s o lv in g   tech n i q u es  h a v b ee n   ex ten s iv ely   ap p lied   in   d iv er s d o m ain s ,   i n clu d in g   b io s en s i n g   [ 4 ] [ 6 ] ,   im a g r ec o n s tr u ctio n   [ 7 ] [ 1 0 ] ,   s p ee ch   u n s cr am b lin g   [ 1 1 ] ,   [ 1 2 ] ,   b an k in g   [ 1 3 ] ,   an d   f o r e n s ic  an aly s is   [ 1 4 ] [ 1 6 ] .   I n   ar ch ae o lo g y ,   s u ch   tech n iq u es  ass i s in   th id en tific atio n   o f   cu ltu r al  h er itag an d   th r esto r atio n   o f   ar tifa cts     [ 1 7 ] [ 2 0 ] .   I n   leg al  in v esti g a tio n s ,   th ey   ar em p lo y e d   to   r ec o v er   d elib er ately   d am ag ed   d o cu m e n ts   an d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 2 5 8 6   I AE I n J   R o b   &   A u to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 07 - 1 21   108   p h o to g r ap h s   [ 2 1 ] [ 2 3 ] .   Fu r th e r m o r e,   in   m ilit ar y   c o n tex ts p ar ticu lar ly   in   co m b at  z o n es th ey   a r cr u cial  f o r   r ec o g n izin g   r em n an ts   o f   d estr o y ed   d o cu m en ts .   I n   s u m m ar y ,   f r ag m e n r ec o n s tr u ctio n   tec h n o lo g ies  p lay   a   v ital  r o le  in   th e   r etr iev al   o f   f o r e n s ic  ev id en ce ,   p r eser v atio n   o f   c u ltu r al  ass ets,  an d   ac q u is itio n   o f   m ilit ar y   in tellig en ce .   Du to   th i r r eg u la r   s h ap es,   d iv er s s izes,  an d   la r g n u m b er   o f   r em ai n in g   f r ag m e n t s ,   m an u al  r ec o n s tr u ctio n   is   h ig h ly   in ef f i cien an d   o f ten   in f ea s ib le.   C o n s eq u en tly ,   t h co m p lete  r ec o n s tr u ctio n   p r o ce s s ,   en co m p ass in g   s ca n n in g ,   an al y s is ,   an d   r ea s s em b ly ,   m u s b am en ab le  to   f u ll  au to m atio n .   T h m eth o d o lo g y   p r esen ted   h er e   is   d esig n ed   as  co r co m p o n e n with in   an   a u to m ated   p i p elin e.   T h e   in teg r atio n   b eg in s   at  th e   d o cu m e n d ig itizatio n   s tag e,   wh er h ig h - r eso lu tio n   o v er h ea d   s ca n n er s   ca p tu r f r ag m en im ag es  in   co n s is ten an d   r ep ea tab le   m a n n er .   T h ese  d ig itized   f r ag m e n ts   ar th e n   d ir ec tly   s tr ea m ed   in to   th e   p r o p o s e d   d ee p   lear n in g - b ased   r ec o n s t r u ctio n   f r am ewo r k ,   wh ich   p er f o r m s   co m p atib ilit y   esti m atio n   an d   g lo b al   r ea s s em b ly   with o u h u m an   in ter v en tio n .   B y   c o m b in i n g   p h y s ical  d o cu m en s en s in g   with   au to n o m o u s   v is u al   p er ce p tio n   an d   o p tim izatio n - b ased   d ec is io n   m ak in g ,   th e   p r o p o s ed   s y s tem   n atu r ally   f i ts   in to   r o b o tic  an d   au to m ated   d o cu m e n t p r o c ess i n g   wo r k f lo ws.           Fig u r 1 .   s taf f   m e m b er   d is p lay in g   s h r ed d ed   d o cu m e n ts   o r ig in ally   d estro y e d   b y   th Stas i,  an   o r g an izatio n   k n o wn   f o r   its   ex ten s iv in f o r m an t n etwo r k   u s ed   to   m o n ito r   E ast Ge r m an   citizen s   [ 1 ]       T h ef f icien c y   o f   m an u al   r ec o n s tr u ctio n   o f   s h r ed d e d   d o cu m en ts   is   in f lu en ce d   b y   s ev er al  f ac to r s ,   in clu d in g   t h co m p lex ity   o f   th d o cu m e n t,  th n atu r o f   th d estru ctio n   p r o ce s s ,   an d   th n u m b er   a n d   s h ap e   o f   th f r a g m en ts .   E v en   with   th e   aid   o f   ar tific ial  in tellig en ce   s y s tem s ,   th ese  f ac to r s   s ig n if ican tly   im p ac t h tim e   r eq u ir ed   f o r   r ec o n s tr u ctio n .   R esear ch   o n   s h r ed d ed   d o cu m e n r ec o n s tr u ctio n   en c o m p ass es  m u ltip le  s u b f ield s ,   wh ich   ar o f ten   d i f f er en tiated   b y   s h r ed d i n g   m eth o d s   ( e. g . ,   m ec h an ical  cu ttin g   o r   m an u al   tear in g ) ,   d o cu m en t   ty p es  ( e. g . ,   b lack - an d - wh ite  o r   co lo r ,   tex t - o n ly ,   im ag es,  o r   m ix ed   co n ten t ) ,   an d   r ec o n s tr u ctio n   a p p r o ac h es  ( e. g . ,   f u lly   au t o m ated   o r   h u m a n - ass is ted   s y s tem s ) .   C u r r en tly ,   m o s s tu d ies  lev er ag in g   m o d er n   tech n o lo g y   f o r   r ec o n s tr u ctio n   f o c u s   o n   s im u latin g   s h r ed d in g   s ce n ar io s ,   wh er id en tify i n g   a n d   i n teg r atin g   ad jace n f r ag m e n ts   r em ain s   th co r ch allen g e.   G iv en   th at  m o s d o cu m en ts   ar e   d estro y ed   v ia  m ec h an ical  s h r ed d in g   r ath er   th an   m an u al  tear in g ,   a n d   co n s id er i n g   th at  b lack - an d - wh ite  tex d o cu m e n ts   ar th m o s co m m o n   ty p e,   th is   s tu d y   f o cu s es  o n   d e v elo p in g   r ec o n s tr u ctio n   s y s tem   f o r   m ec h an ically   s h r ed d ed   b lac k - an d - wh ite  p r in ted   d o cu m e n ts .   Ad d itio n ally ,   we  ce n ter   o u r   wo r k   o n   Simp lif ied   C h in ese wid ely   u s ed   y et  u n d e r - ex p lo r ed   lan g u ag i n   th liter atu r e.   R ec o n s tr u ctio n   r esear ch   f u n d a m en tally   r elies  o n   v is u al  cu es.   T h is   p r esen ts   p ar ticu la r   ch a llen g f o r   tex t - b ased   d o c u m en ts   d u to   th eir   lim ited   co lo r   in f o r m ati o n   ( i.e . ,   b in ar y   b lack - an d - wh ite  ap p ea r an ce ) .   E ar l y   ap p r o ac h es  to   tex d o cu m e n t   r ec o n s tr u ctio n   p r im ar ily   r eli ed   o n   p u zz le - p iece   s h ap e   f ea tu r es  to   d eter m in e   f r ag m en ad jace n cy   [ 2 4 ] [ 2 6 ] .   Ho wev er ,   s in ce   m ec h an icall y   s h r ed d ed   f r ag m e n ts   ten d   to   h av h ig h l y   s im ilar   s h ap es,  co n v en tio n al  s h ap e - b ased   alg o r ith m s s u ch   as  th o s u s in g   p o ly g o n al  ap p r o x i m atio n   to   s im p lify   cu r v m atch i n g ar u n s u itab le  f o r   o u r   tar g et  s ce n ar io .   So m m eth o d s   [ 2 7 ] [ 3 1 ]   h av f o cu s ed   o n   co lo r   d is tr ib u tio n ,   u tili zin g   co lo r   in f o r m atio n   to   ass ess   th co m p atib ilit y   b etwe en   f r a g m en ts .   W h ile  s u ch   ap p r o ac h es  lev er ag th r ich er   in f o r m atio n   p r esen in   co lo r   im ag es  co m p ar ed   to   b i n ar y   ( b lack - an d - wh ite)   d ata,   th ey   ty p ically   n eg lect  th ed g d eg r ad atio n   ca u s ed   b y   m ec h an ical  s h r ed d i n g .   As  r esu lt,  th ey   ar n o ap p licab le  to   th r ec o n s tr u ctio n   o f   b lack - an d - w h ite  tex tu al  d o cu m en ts .   L in   et  a l.   [ 3 2 ]   in tr o d u ce d   a n   a p p r o ac h   u s in g   av er a g wo r d   len g th   t o   r ep r esen E n g lis h   ch ar ac te r s   an d   a p p lied   f r ag m en e n c o d in g   to   d escr ib d o cu m e n lay o u ts .   Pra n d ts tetter   an d   R aid [ 3 3 ]   f o r m u lated   t h r ec o n s tr u ctio n   o f   s tr ip - s h r e d d ed   d o cu m en ts   as  Evaluation Warning : The document was created with Spire.PDF for Python.
I AE I n J   R o b   &   A u to m   I SS N:   2722 - 2 5 8 6         A u to n o m o u s   r ec o n s tr u ctio n   o f str ip - s h r ed d ed   d o cu men ts   vi a   s elf - s u p ervis ed   d ee p   lea r n in g     ( Yi - C h a n g   Wu )   109   v ar ian o f   th e   class ical  T r av elin g   Salesma n   Pro b lem   ( T SP ) ,   an d   p r o p o s ed   v ar ia b le  n ei g h b o r h o o d   s ea r ch   m eth o d   to   o p tim ize  th e   r ec o n s tr u ctio n   p r o ce s s   in   a   s em i - a u to m ated   f r am ewo r k .   B alm [ 3 4 ]   an d   Mo r a n d ell  [ 3 5 ]   em p lo y ed   b in a r y   im ag e   r ep r esen tatio n s   to   m o d el  th e   b l ac k - an d - wh ite  ap p ea r an ce   o f   t ex tu al  d o cu m e n ts .   T h ey   a d d r ess ed   th e   is s u o f   v er tical  m is alig n m en b etwe e n   ad jace n t   f r a g m en ts   b y   r esp ec tiv ely   co m p u tin g   weig h ted   p i x el  co r r elatio n   an d   q u an tify in g   th e   d e g r ee   o f   m is alig n m en b etwe en   b lack   p i x el  r eg i o n s .   L i   et  a l.   [ 3 6 ]   f u r th er   ad v a n ce d   th ese  r u le - b ased   ap p r o ac h es  b y   u s in g   g eo m etr ic  tem p lates  an d   b la n k - ar ea   d etec tio n   to   r ec o n s tr u ct  r ec tan g u lar   E n g lis h   f r ag m e n ts .   Ho wev er ,   s u ch   m eth o d s   d ep en d   h ea v ily   o n   t h p r ed ictab ilit y   o f   W ester n   ch ar ac ter   lay o u ts   an d   o f ten   s tr u g g le  with   th ir r e g u lar   s tr o k d en s ities   o f   o th er   s cr ip ts .   So m s tu d ies  h av ev alu ated   f r ag m e n co m p atib ilit y   b y   an aly zin g   th d eg r ee   o f   ch ar ac ter   c o n tin u ity   al o n g   s h r ed d e d   ed g es.   Fo r   in s tan ce ,   Per et  a l.   [ 3 7 ]   i n v esti g ated   th e   u s o f   OC R   f ea tu r es  f o r   s u p e r v is ed   c h ar ac t er   r ec o g n itio n   an d   alig n m en t,  p r o p o s in g   a n   E n g l is h   OC R - b ased   m eth o d   th at   e m p lo y s   ch a r ac ter   h is to g r am s   to   m atch   f r ag m e n b o u n d ar ies.  T h eir   f in d in g s   in d icate d   th at  r ec o n s tr u cti o n   ac cu r ac y   d ec r ea s es  n o n - m o n o to n ic ally   as  th n u m b er   o f   tex lin es  d im in is h es.  Paix ao   et  a l.   [ 3 8 ]   an al y ze d   th s h ap es  o f   ch ar ac ter   g r o u p i n g s   to   class if y   d if f er en t   s y m b o l c o m b in atio n s   an d   ca lc u late  th co m p atib ilit y   o f   f r ag m en t p air s .   Dee p   lear n in g   h as   ac h iev ed   s tate - of - th e - ar p er f o r m an ce   i n   co m p u ter   v is io n   task s   s u ch   as  im ag e   class if icatio n ,   o b ject  d etec ti o n ,   an d   s eg m e n tatio n .   Un li k ea r lier   tem p late - m atch in g   tech n iq u es  [ 3 6 ] ,   co n v o l u tio n al  n e u r al  n etwo r k s   ( C NNs)  ar ca p ab le  o f   ca p t u r in g   f in e - g r ain ed   s tr o k c o n t in u ity   an d   lear n i n g   task - s p ec if ic  r ep r esen tatio n s   d ir ec tly   f r o m   r aw   p ix els.  Sh o lo m o n   et  a l.   [ 3 9 ]   u s ed   n eu r al   n etwo r k s   to   p r e d ict  wh eth er   two   p u zz le  p iece   ed g es  s h o u ld   b e   ad jace n b y   f ee d i n g   th eir   ed g e   p ix el  i n f o r m atio n   in to   t h n etwo r k .   Ho wev er ,   th ese  m eth o d s   wer d esig n ed   f o r   s y n th etica lly   g e n er ated   f r ag m en ts   an d   n o t f o r   r ea l - wo r ld   s h r ed d ed   d o cu m e n ts .   Mo s p r io r   r esear ch   f o cu s es  o n   W ester n   lan g u ag es,  wh ich   d if f er   s ig n if ica n tly   f r o m   C h in ese  in   ter m s   o f   ch ar ac ter   s tr u ctu r e.   C h in ese  ch ar ac ter s   ar s q u ar e - s h ap ed ,   s p atially   u n if o r m ,   an d   in d ep en d en u n its ,   u n lik W ester n   lan g u ag es  wh ich   ar co m p o s ed   o f   lin ea r ,   h o r izo n tally   ar r an g e d   letter s .   Stan d ar d   p r i n ted   C h in ese  ch ar ac ter s   ex h ib it  a   1 :1   h eig h t - to - wid th   r atio .   W h e n   C h in ese  d o cu m e n ts   ar s h r e d d ed ,   th e   r esu ltin g   f r ag m en ts   m a y   c o n tain   eith e r   d am ag ed   ch ar ac ter s   al o n g   th ed g es  o r   b lan k   r e g io n s   co r r es p o n d in g   to   in ter lin e   s p ac in g .   T h is   s tu d y   attem p ts   t o   ad d r ess   th r ec o n s tr u ctio n   o f   s h r ed d e d   C h in ese  d o cu m e n t s   u n d er   r ea l - wo r l d   co n d itio n s   b y   lev er a g in g   d ee p   lear n in g   m o d els  [ 4 0 ]   in   a   s elf - s u p er v is ed   lear n in g   f r am ew o r k ,   e n ab lin g   la r g e - s ca le  s am p le  ex tr ac tio n   an d   lear n in g   f r o m   u n lab eled   d ata.   Ou r   f in d in g s   m ay   also   o f f er   v alu ab le  in s ig h ts   f o r   d o cu m e n r ec o n s tr u ctio n   in   lan g u ag es  with   s im ilar   lo g o g r ap h ic  wr itin g   s y s tem s ,   s u ch   as  J ap an ese  an d   Ko r ea n .   T h r em ain d er   o f   th is   p a p er   is   o r g an ized   as  f o llo ws.  Sectio n   2   d etails  th p r o p o s ed   au to n o m o u s   r ec o n s tr u ctio n   f r am ewo r k ,   e n co m p ass in g   d o c u m en d ig itiz atio n ,   its   in teg r atio n   with   au to m ated   s ca n n in g   s y s tem s ,   s elf - s u p er v is ed   s am p le  g en e r atio n ,   m o d el   tr ain in g   with   th e   Sq u ee ze Net  b ac k b o n e,   a n d   th g lo b a l   o p tim izatio n   s ea r ch   v ia  AT SP .   Sectio n   3   r e p o r ts   th e   e x p er im en tal  r esu lts ,   in clu d in g   c o m p r e h en s iv e   p er f o r m an ce   b en c h m ar k i n g   a g ain s ex is tin g   m eth o d o lo g ies .   Sectio n   4   co n clu d es  th p ap er   b y   s u m m ar izin g   o u r   f in d in g s   an d   d is cu s s in g   p o ten tial f u tu r d ir ec tio n s   f o r   r ea l - wo r ld   r o b o tic  ap p licatio n s .       2.   M E T H O D   T h is   s tu d y   aim s   to   d ev elo p   m o d el  th at  q u an tifie s   th co m p atib ilit y   b etwe en   p air s   o f   d o cu m e n f r ag m en ts .   Du to   th lab o r - i n ten s iv n atu r o f   c r ea tin g   r e al - wo r ld   s h r ed d e d   d atasets   an d   th lack   o f   p u b lic   d atasets   f o r   s tr ip - s h r ed d ed   d o cu m en ts ,   we  ad o p s elf - s u p er v is ed   lear n i n g   ap p r o ac h   th at  au to m atica lly   d eter m in es  f r ag m en ad jace n c y   d u r in g   th s am p lin g   p r o ce s s .   Sp ec if ically ,   we  s im u late  d o cu m en s h r ed d in g   d ig itally   an d   ex tr ac t   f r a g m en t p air s   as  tr ain in g   s am p les.  I n   th is   p r o ce s s ,   ad jace n t   f r ag m en t p air s   ar la b eled   a s   p o s itiv s am p les,  wh ile  n o n - ad jace n p air s   ar e   lab eled   as   n eg ativ s am p les.  A   f u lly   c o n v o lu ti o n al  n e u r al   n etwo r k   ( FC NN)   is   tr ain ed   a s   b in ar y   class if ier .   T h b es t - p er f o r m in g   m o d el   is   u s ed   t o   ev alu ate  p air wis co m p atib ilit y   b ased   o n   lo ca v is u al  co n ten o f   ea c h   f r a g m e n t.  T h r esu ltin g   m atc h in g   s c o r es  ar s to r ed   in   m atr ix ,   wh ich   is   s u b s eq u en tly   u s ed   as  in p u f o r   g r ap h - b ased   o p tim izatio n   alg o r ith m   to   d eter m in th o p tim al  r ea s s em b ly   s eq u en ce .   T h m o d el  is   v alid ated   u s in g   r ea s h r ed d ed   d o cu m e n ts .   T h e   f o llo win g   s ec tio n s   d etail  th k ey   s tep s   o f   th e   p r o p o s ed   s y s tem ,   in clu d in g   d o cu m e n d ig itizatio n ,   tr ai n in g   s am p le   g en e r atio n ,   s elf - s u p er v is ed   t r ain in g ,   p air wis co m p atib ilit y   s co r in g ,   an d   o p tim izatio n - b ased   r e ass em b ly .   T h o v er all  wo r k f lo is   illu s tr ated   in   Fig u r 2 .     2 . 1 .     Do cu m ent   dig it iza t io n   C o m m er cial  s h r ed d er s   ty p ical ly   p r o d u ce   eith er   s tr ip - cu ( s p ag h etti - lik e)   o r   c r o s s - cu f r ag m en ts .   I n   th is   s tu d y ,   we  f o cu s   o n   th r ec o n s tr u ctio n   o f   s tr ip - s h r ed d e d   d o cu m e n ts ,   wh ich   r ep r esen t   th m o s co m m o n   s h r ed d in g   m ec h an is m   u s ed   in   p r ac tical  f o r en s ic  an d   a r ch iv al   s ce n ar io s .   T h d ig itizatio n   p r o ce s s   s er v es  as  th en tr y   p o in o f   th p r o p o s ed   r ec o n s tr u ctio n   p ip elin an d   is   d esig n ed   to   s u p p o r a u to m ate d ,   h ig h - th r o u g h p u t   p r o ce s s in g .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 2 5 8 6   I AE I n J   R o b   &   A u to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 07 - 1 21   110       Fig u r 2 .   Sy s tem   wo r k f lo f o r   s h r ed d e d   d o c u m en r ec o n s tr u ctio n       Prin ted   d o c u m en ts   ar f ir s m ec h an ically   s h r ed d ed ,   an d   v is u ally   b lan k   f r a g m en ts   ar e   d is ca r d ed .   T h e   r em ain in g   f r ag m e n ts   ar m o u n ted   o n   h ig h - s atu r atio n ,   n o n - g r ay s ca le  b ac k g r o u n d   t o   f ac ilit ate  r o b u s f o r eg r o u n d b ac k g r o u n d   s ep ar atio n .   T h is   d esig n   c h o ice  e n ab les  r eliab le  au to m ate d   p r o ce s s in g   in   d o w n s tr ea m   s tag es with o u t r eq u ir in g   m an u al  an n o tatio n   o r   in ter v en tio n .   Fra g m en ex tr ac tio n   is   p er f o r m ed   u s in g   k - m ea n s   clu s ter in g   in   th R GB   co lo r   s p ac e,   wh er im ag p ix els  ar g r o u p ed   in t o   th r ee   class es  co r r esp o n d in g   to   f r a g m en co n te n t,  p ap e r   s u b s tr ate,   an d   b ac k g r o u n d .   Af ter   id en tify in g   th b ac k g r o u n d   clu s ter ,   all  ass o ciate d   p ix el s   ar r em o v ed   to   o b tain   clea n   f r ag m en c o n to u r s .   E ac h   f r ag m en is   th en   is o lated   an d   s to r e d   as  an   in d i v id u al  im ag e.   B in ar izatio n   is   s u b s eq u en tly   ap p lie d   u s in g   th Sau v o la   m eth o d   [ 4 1 ] .   Sin ce   f r a g m en ts   ar e   p lace d   with   co n s is ten o r ien tatio n   d u r i n g   ac q u is itio n ,   n o   r o tatio n   co r r ec tio n   is   r eq u ir ed ,   th er eb y   r ed u cin g   g e o m etr ic  d is to r tio n   an d   p r eser v in g   e d g i n f o r m atio n   cr itical   f o r   c o m p atib ilit y   esti m atio n .   All  ex tr ac ted   f r ag m e n ts   ar e   s tan d ar d ized   an d   f o r war d e d   t o   th lea r n in g - b ased   r ec o n s tr u ctio n   s tag e.     2 . 1 . 1 .   I nte g ra t io n wit a uto m a t ed  s ca nn ing   s y s t em s   T h d o cu m e n d i g itizatio n   p r o ce d u r e   is   in h e r en tly   co m p ati b le  with   a u to m ated   s ca n n in g   an d   r o b o tic  d o cu m e n t - p r o ce s s in g   p ip elin e s .   Ov er h ea d   s ca n n er s ,   s u ch   a s   th Scan Sn ap   SV6 0 0   em p l o y ed   in   th is   s tu d y ,   p r o v id e   n o n - c o n tact  im a g ac q u is itio n   an d   s tab le  im a g in g   g eo m etr y ,   m ak in g   t h em   well   s u ited   f o r   in teg r atio n   in to   au to m ated   f o r e n s ic  o r   ar c h iv al  s y s tem s .   I n   an   o p er atio n al  s ettin g ,   s h r ed d e d   f r ag m e n ts   ca n   b s eq u en tially   s ca n n ed   with o u m an u al  alig n m en t,  af te r   wh ich   all  s u b s eq u en s tag es in clu d i n g   b ac k g r o u n d   r em o v al,   c o n to u r   ex tr ac tio n ,   b in ar izatio n ,   f r ag m e n co m p at ib ilit y   esti m atio n ,   an d   o p tim iz atio n - b ased   r ea s s em b ly ar ex ec u ted   e n tire ly   in   s o f twar o n   p r o ce s s in g   u n it  d ir ec tly   co n n ec ted   to   th s ca n n er .   T h is   en d - to - en d   au t o m atio n   estab lis h es  a   s ea m less   d ata  f lo f r o m   p h y s ical  f r ag m en ac q u is itio n   to   d ig ital  r ec o n s tr u ctio n ,   p o s itio n in g   th p r o p o s e d   f r am ewo r k   as  co r co m p u tatio n al  co m p o n en with i n   au to m ated   d o c u m en r ec o v er y   an d   r o b o tic  in f o r m atio n - p r o ce s s in g   s y s tem s .     2 . 2 .     T ra ini ng   s a m ple pre pa ra t io n   T o   co n s tr u ct  th tr ain in g   d ataset,   we  p r ep ar ed   an   in ter n ally   g en er ated   co r p u s   co n s is tin g   o f   3 0 0   p a g es  o f   Simp lifie d   C h in ese  d o c u m e n ts   an d   1 0 0   p a g es  o f   E n g lis h   d o cu m e n ts ,   all  d ig itally   cr ea te d   in   s tan d ar d   o f f ice  f o r m ats.  All  d o cu m e n ts   wer co n v er ted   i n to   3 0 0 - d p g r ay s ca le  im ag es  p r io r   to   p r e p r o ce s s in g .   T o   g en er ate   s u f f icien tr ain in g   d ata  f o r   th b o u n d ar y   class if ier ,   ea ch   d o cu m en was  d ig itally   s h r ed d ed ,   an d   5 0 o f   th d o cu m e n ts   wer allo ca ted   to   tr ain in g   wh ile  th r em ain i n g   5 0 wer r eser v ed   f o r   v alid atio n ,   en s u r in g   th at  n o   d o cu m e n t c o n tr ib u ted   s am p les   to   b o th   s ets.   E ac h   d o cu m e n im ag was  f ir s b in ar ized   u s in g   th Sau v o l m eth o d   [ 4 1 ]   an d   th e n   p ar titi o n ed   in to   3 0   v er tical  s tr ip s   o f   eq u al  w id th ,   ea ch   p r eser v in g   th f u ll  h eig h o f   th o r ig in al  im a g e.   T o   s im u late  th e   Evaluation Warning : The document was created with Spire.PDF for Python.
I AE I n J   R o b   &   A u to m   I SS N:   2722 - 2 5 8 6         A u to n o m o u s   r ec o n s tr u ctio n   o f str ip - s h r ed d ed   d o cu men ts   vi a   s elf - s u p ervis ed   d ee p   lea r n in g     ( Yi - C h a n g   Wu )   111   ir r eg u lar ities   co m m o n ly   o b s er v ed   in   p h y s ical  s h r ed d e d   ed g es  an d   av o id   o v er ly   s m o o th   s tr ip   b o u n d ar ies,  th e   o u ter m o s two - p ix el   c o lu m n s   o n   b o th   s id es  o f   ea c h   s tr ip   we r r ep lace d   with   p s eu d o - r an d o m   b lack - a n d - wh ite   p atter n s   d r awn   f r o m   a   u n if o r m   b in ar y   d is tr ib u tio n   U( 0 , 1 ) .   B ef o r s am p le  ex tr ac tio n ,   th s im u lated   s tr ip s   f r o m   ea ch   d o cu m en wer r an d o m ly   s h u f f led   to   m in im ize  s am p lin g   b ias  an d   in cr ea s co v er ag ac r o s s   d if f er en tex tu al  r eg io n s .   T r ain in g   s am p les  wer e   ex tr ac ted   alo n g   t h b o u n d ar y   b etwe en   ea ch   p air   o f   a d jace n t   s tr ip s .   Sp ec if ically ,   3 2 ×3 2   p atch   was  cr o p p ed   ev er y   two   p ix els,  co n s is tin g   o f   1 6   p ix els  f r o m   ea c h   s id o f   th b o u n d ar y .   Patch es  g en er ated   f r o m   co r r ec tly   m atch ed   s tr ip   p air s   wer lab eled   as  p o s itiv e,   wh er ea s   th o s f r o m   m is m atch ed   p air s   wer l ab eled   as  n eg ativ e.   An   eq u al  n u m b er   o f   p o s itiv a n d   n eg ativ s am p les we r co ll ec ted   p er   d o cu m e n t.   Acr o s s   th 4 0 0 - p ag e   co r p u s ,   t h is   p r o ce s s   p r o d u ce d   ap p r o x im ately   1 4   m illi o n   ca n d id ate  p atch es.  T o   en s u r th at  o n l y   in f o r m ativ b o u n d a r y   r e g io n s   wer r etain e d ,   s am p les with   f o r eg r o u n d - p i x el  r atio   b elo 0 . 1   wer d is ca r d ed ,   as  s u ch   p atc h es  ty p ically   c o r r esp o n d   to   b lan k   m ar g in s   o r   s ca n n in g   n o is e.   T h e   r esu ltin g   d ataset s to r ed   in   b in ar y   im a g f o r m at  a n d   ass u m in g   b lack   tex t o n   wh ite  b ac k g r o u n d co n tain ed   r o u g h ly   6   to   7   m illi o n   s am p les ea ch   f o r   t h tr ain in g   a n d   v alid atio n   s ets.     2 . 3 .     F e a t ure  ex t r a ct io n ba c kb o ne  a nd   co m pu t a t io na l r a t i o na le   W s elec ted   Sq u ee ze Net  v 1 . 1   [ 4 2 ] ,   p r etr ain e d   o n   I m ag eNe t,  as  th b ac k b o n f ea tu r ex t r ac to r   f o r   f r ag m en t   co m p atib ilit y   p r ed i ctio n .   Sq u ee ze Net  v 1 . 1   is   f u lly   co n v o lu tio n al  n e u r al  n e two r k   d esig n e d   to   ac h iev co m p etitiv r ec o g n iti o n   p er f o r m an ce   u n d e r   r estricte d   p ar am eter   an d   m em o r y   b u d g et.   p r im a r y   d esig n   co n s id er atio n   in   o u r   f r am ewo r k   is   th b alan ce   b etwe en   r ep r esen tatio n al  ca p ac ity   an d   o p er atio n al   th r o u g h p u t.   W h ile  h ig h - ca p a city   ar ch itectu r es  s u c h   as  R e s Net  o r   E f f icien tNet   o f f e r   in cr ea s ed   d ep t h   an d   im p r o v e d   p er f o r m a n ce   o n   g lo b al  s em an tic  b en ch m ar k s ,   th ei r   co m p u tatio n al  o v er h ea d   is   o f ten   p r o h ib itiv f o r   h ig h - th r o u g h p u r o b o tic  r ea s s em b ly   p ip elin es.   I n   th p r esen task ,   f r ag m e n co m p atib ilit y   is   d eter m in ed   p r im ar ily   b y   l o ca s tr o k co n tin u ity   an d   ed g e - g e o m etr y   alig n m en t   r at h er   th an   h ig h - lev el  s em an tic   ab s tr ac tio n .   C o n s eq u e n tly ,   t h ef f ec tiv e   f ea tu r e   s p ac is   s ig n if ican tly   less   co m p lex   th a n   t h at  r e q u ir ed   f o r   g en er al  o b ject  r ec o g n itio n .   Dee p er   ar c h itectu r es  th er ef o r e   p r o v id e   d im in is h in g   r etu r n s   f o r   b o u n d ar y   m atc h in g   wh ile   in tr o d u cin g   s u b s tan tial  laten cy   an d   m em o r y   o v er h ea d .   Fu r th er m o r e,   p r ac tical  d o cu m e n r ea s s em b ly   r eq u ir es  ev alu atin g   th o u s an d s   o f   ca n d id ate  f r ag m en p air i n g s ,   r esu ltin g   in   an   in h er en O( n 2 )   co m p u tatio n al  co m p lex ity .   Un d e r   th is   co n s tr ain t,  a   lig h tweig h t b ac k b o n is   ess en tial to   p r ev en t t h v is io n   m o d u l f r o m   d o m in atin g   s y s tem   laten cy .   Acc o r d in g ly ,   Sq u ee ze Net  v 1 . 1   is   s p ec if ically   tailo r ed   to   th ese  r eq u ir em e n ts ,   o f f er i n g   r ep r esen tatio n al  ca p ab ilit y   c o m p ar ab le   to   lar g er   d ee p   n etw o r k s   wh ile   u tili zin g   a p p r o x im ately   5 0   tim es  f ewe r   p ar am eter s .   T h is   r ed u ctio n   in   m o d el  co m p lex it y   is   in s tr u m en tal  f o r   d ep lo y m en in   r eso u r ce - co n s tr ain ed   o r   laten cy - s en s itiv en v ir o n m e n ts ,   en s u r in g   th at  th r ec o n s tr u ctio n   p ip elin r em ain s   v i ab le  f o r   r ea l - tim au to m ated   f o r e n s ic  wo r k f lo w s .   As  illu s tr ated   in   Fig u r e   3 ,   th n etwo r k   b eg in s   with   an   i n itial  co n v o lu tio n al   lay er   ( co n v 1 ) ,   f o llo wed   b y   ei g h Fire   m o d u les  ( Fire 2 Fire 9 )   in ter leav ed   with   th r ee   m a x - p o o lin g   lay er s ,   an d   ter m in ates  with   g lo b al  a v e r ag p o o lin g   lay er .   T h e   in ter n al  s tr u ctu r e   o f   ea ch   Fire   m o d u le  is   s h o w n   in     Fig u r e   4   an d   co n s is ts   o f   s q u ee ze   lay er   with   1 ×1   f ilter s   an d   an   ex p a n d   lay e r   co m b in in g   p ar allel  1 ×1   an d   3 ×3   f ilter s .   T h is   ar ch itectu r al  d esig n   m in im izes  p ar am eter   c o u n t w h ile  p r eser v in g   th f in e - g r ai n ed   tex tu al  f ea t u r es  r eq u ir ed   f o r   ac cu r ate  f r a g m e n alig n m en t.   I n   th is   s tu d y ,   th o r ig in al  Sq u ee ze Net  v 1 . 1   co n f ig u r atio n   is   r etain ed   with o u t   s tr u ctu r al  m o d if icatio n   to   en s u r r ep r o d u ci b ilit y   an d   c o m p atib ilit y   with   r ea l - tim au to m ated   d o cu m e n t r ec o n s tr u ctio n   wo r k f lo ws.           Fig u r 3 .   T h ar ch itectu r o f   S q u ee ze Net  1 . 1       2 . 4 .     Self - s up er v is ed  t ra ini ng   a nd   pa irwise c o m pa t ibi lity   s co ring   T o   a d a p th I m a g eN et - p r e tr ain e d   b ac k b o n t o   th d o c u m e n r e c o n s tr u c ti o n   tas k ,   e a ch   b i n ar y   f r a g m en t - p a ir   i m a g is   r ep lic ate d   a cr o s s   t h r ee   ch an n els   t o   f o r m   a   f ix ed - s i ze   2 2 7 ×2 2 7 × 3   i n p u t .   T h e   f i n a l   co n v o lu ti o n al   l ay e r   is   r ep lac e d   wit h   a   t wo - f il te r   o u t p u t   c o r r esp o n d i n g   to   b i n a r y   cl ass i f i ca ti o n   ( c o m p a ti b le   v e r s u s   in c o m p a ti b le ) ,   wit h   wei g h ts   i n iti ali ze d   f r o m   z er o - m ea n   Ga u s s i an   d is t r i b u ti o n   wit h   a   s t an d ar d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 2 5 8 6   I AE I n J   R o b   &   A u to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 07 - 1 21   112   d e v i ati o n   o f   0 . 0 1 .   T r ai n i n g   is   p e r f o r m e d   f o r   1 0   e p o c h s   u s in g   th Ad am   o p tim iz er   [ 4 3 ]   an d   ca t e g o r i ca l   c r o s s - en t r o p y   lo s s ,   w it h   m i n i - b at c h   s i ze   o f   2 5 6 .   M o d el  p e r f o r m an ce   is   e v al u ate d   o n   v a li d at i o n   s et  at  t h e n d   o f   ea c h   e p o c h ,   a n d   th c h ec k p o i n t a ch ie v i n g   t h h i g h est   v al id ati o n   ac c u r a cy   is   s el ec te d   f o r   s u b s eq u e n t   i n f e r e n c e.           Fig u r 4 .   T h ar ch itectu r o f   f ir m o d u le       Du r in g   in f er e n ce ,   th tr ain ed   n etwo r k   ev alu ates  th p air wis co m p atib ilit y   o f   n o n - b la n k   f r ag m en ts     { f 1 f 2 , …,   f n } .   Fo r   ea ch   o r d er ed   p air   ( f p ,   f q ) ,   a   lik elih o o d   s co r M pq   is   co m p u ted   to   esti m ate  th p r o b ab ilit y   th at  f q   is   th im m ed iate  r ig h n eig h b o r   o f   f p .   E ac h   ev alu atio n   u s es  ca lib r ated   im ag o f   s iz H ×3 2 ,   c o m p o s ed   o f   th e   r ig h tm o s 1 6   p ix els   o f   f p   an d   t h lef tm o s 1 6   p i x els  o f   f q .   T o   co m p e n s ate  f o r   v er tical  m is alig n m en co m m o n l y   in tr o d u ce d   d u r in g   m ec h an ical  s h r ed d i n g ,   v er ti ca o f f s et  p ar am eter   m =1 0   is   ap p lied ,   r esu ltin g   i n   2 1   ca n d id ate  ev al u atio n s   p er   f r ag m en p air .   T h m ax im u m   p r o b a b ilit y   am o n g   th ese  ca n d i d ates  is   r etain ed   as  th f in al  co m p atib ilit y   s co r in   m atr ix   M .     2 . 5 .     G l o ba o ptim iza t io v ia   AT SP  f o rm ula t io n   T h o p tim al  f r ag m e n s eq u en ce   is   o b tain ed   b y   f o r m u latin g   th r ea s s em b ly   task   as  A s y m m etr ic   T r av elin g   Salesma n   Pr o b lem   ( AT SP ) .   d is tan ce   m atr ix   N   is   d er iv ed   f r o m   th e   co m p atib ilit y   m atr ix   M ,   wh er e   N pq m ax ( M M pq   f o r   p q . ,   an d   d iag o n al  elem en ts   ar s et  to   in f in ity .   T h is   f o r m u latio n   d ef in es  d ir ec ted   weig h ted   g r a p h   in   w h ich   ea ch   v er tex   co r r esp o n d s   to   f r a g m en t.   T o   f in d   th o p tim al  g lo b al  s eq u en ce ,   th p r o b lem   is   tr ea ted   as  f in d in g   th s h o r test   p ath   th at  v is its   ea ch   n o d ex ac tl y   o n ce .   T h is   is   ac h iev ed   b y   in tr o d u ci n g   a   v ir tu al  n o d c o n n ec ted   to   all  f r ag m en ts   v ia   ze r o - weig h ed g es,   ef f ec tiv ely   tr a n s f o r m in g   th e   f r a g m en o r d e r in g   task   i n to   a   s tan d ar d   AT S P.  T o   le v er ag e   th in d u s tr y - s tan d ar d   C o n co r d T SP   s o lv er   [ 4 4 ] ,   th AT SP   is   f u r th er   c o n v er te d   in to   a   s y m m etr ic  T SP   u s in g   th e   two - n o d tr a n s f o r m atio n   m et h o d   [ 4 5 ]   a n d   s o lv e d   ex ac tly   with   th QSOp t3   lib r ar y .   T h e   r esu ltin g   f r ag m en t   o r d er in g   is   d ete r m in is tic  an d   g lo b ally   o p tim ized ,   p r o v id i n g   a   r eliab le  h ig h - lev el  ex ec u tio n   r e f er en ce   f o r   au to m ated   o r   r o b o tic  d o cu m en t r ea s s em b ly   s y s tem s .       3.   RE SU L T S AN D I SCU SS I O N   3 . 1 .     E x perim ent a l   da t a s et s   a nd   prepro ce s s ing   T o   ev alu ate  t h f ea s ib ilit y   an d   alig n m en ac c u r ac y   o f   th p r o p o s ed   s h r e d d ed   d o cu m e n r ec o n s tr u ctio n   m eth o d   o n   Sim p lifie d   C h in ese  tex ts   a n d   to   e x p lo r e   its   p er f o r m a n ce   o n   W ester n   lan g u a g es,  we  co n d u cte d   ex p er im e n ts   o n   tw o   r ea l - wo r ld   s h r e d d ed   d atasets th D2 - m ec   d ataset  [ 4 6 ]   an d   th C s im   d ataset.   T h D2 - m ec   d ataset  c o n s is ts   o f   f r ag m en ts   f r o m   2 0   E n g lis h   p lain - tex t   d o c u m en ts   s o u r ce d   f r o m   th e   I SR I - T k   Evaluation Warning : The document was created with Spire.PDF for Python.
I AE I n J   R o b   &   A u to m   I SS N:   2722 - 2 5 8 6         A u to n o m o u s   r ec o n s tr u ctio n   o f str ip - s h r ed d ed   d o cu men ts   vi a   s elf - s u p ervis ed   d ee p   lea r n in g     ( Yi - C h a n g   Wu )   113   OC R   d atab ase  [ 4 7 ] ,   wh ich   wer s h r ed d ed   u s in g   a   L ea d e r s h ip   m o d el  7 3 4 8   s h r e d d er .   T h f r ag m en ts   wer e   m an u ally   r ea s s em b led ,   s ca n n e d   at  r eso lu tio n   o f   3 0 0   d p i,  a n d   d ig itized   in to   im ag f o r m at.   T h C s im   d ataset  was  s p ec if ically   co n s tr u cted   to   ad d r ess   th lack   o f   p u b licly   av aila b le  d atasets   in v o lv in g   th d o cu m e n ty p e s   tar g eted   in   th is   s tu d y .   An   ex am p le  is   s h o wn   in   Fig u r e   5 ,   d o c u m en ts   wer e   g en er ated   in   Mic r o s o f W o r d   u s in g   A4   p ap er ,   SimSu n   f o n t,  lef t - to - r ig h h o r iz o n tal  tex lay o u t,  s in g le - lin e   s p ac in g ,   an d   f o n s ize  o f   1 2   p t.  Af ter   s h r ed d in g   with   an   I DE AL   2 2 6 0   s tr ip - cu s h r ed d e r   ( 4   m m   wid th ) ,   n o n - in f o r m ativ e   b lan k   f r ag m e n ts   wer r em o v ed .   T h e   f r a g m en t   ed g es  we r ir r eg u lar   an d   o c ca s io n ally   ex h i b ited   m in o r   i n f o r m atio n   l o s s ,   r ef lec tin g   th e   p h y s ical  ch ar ac ter is tics   o f   r ea l   s h r ed d ed   d o cu m en t s ,   in   co n tr ast  to   th e   u n if o r m ity   s ee n   in   d ig itally   s im u lated   f r ag m en ts .   T h e   r em ain in g   f r ag m e n ts ap p r o x im ately   3 8 4 1   p er   p ag e wer af f ix ed   to   u n if o r m ly   s atu r ated   y ello A4   s h ee ts   an d   d ig itized   u s in g   Scan Sn ap   SV6 0 0   o v er h ea d   s ca n n er   at  3 0 0   d p i.  Fra g m en ts   wer th en   ex tr ac te d   f r o m   th s ca n n ed   im a g an d   s av ed   as in d iv id u al  f iles .             Fig u r 5 .   Sam p le  d o cu m en t u s ed   f o r   r ec o n s tr u ctio n       Fig u r 6   illu s tr ates  th is   p r e p r o ce s s in g   p ip elin e.   Fig u r e   6 ( a )   s h o ws  th e   o r ig in al   f r a g m en ts   p asted   o n to   y ello b ac k g r o u n d   p ap e r .   F ig u r 6 ( b )   p r esen ts   1 0   s am p le  f r ag m e n ts   ex tr ac ted   f r o m   6 ( a ) ,   wh ich   wer b in ar ized   s u ch   th at  th f r ag m en ts   ap p ea r   wh ite,   th b ac k g r o u n d   b lac k ,   an d   th ch ar ac te r   s tr o k es  in   b lack ,   en ab lin g   ef f ec tiv f o r eg r o u n d - b ac k g r o u n d   s ep ar atio n .   T ab le  1   s u m m ar izes  th to tal   n u m b er   o f   f r a g m en ts   an d   th e   n u m b er   o f   co r r ec tly   ass em b le d   f r a g m en ts   in   th e   test   d o cu m en ts   f r o m   t h e   D2 - m ec   an d   C s im   d atasets .   Fo r   th e   2 0   d o cu m e n ts   in   t h D2 - m ec   d ataset,   ea c h   d o cu m e n co n tain s   b etwe en   2 0   an d   2 8   f r a g m en ts ,   with   0   t o   2   m is ass em b led   f r ag m e n ts   p er   ca s e.   T h C s im   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 2 5 8 6   I AE I n J   R o b   &   A u to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 07 - 1 21   114   d ataset  co n tain s   s u b s tan tially   m o r f r ag m e n ts   ( 3 8 4 1   p er   p ag e) ,   with   3 7   ass em b ly   er r o r s   p er   d o cu m e n t.   Fig u r 7   p r esen ts   ex am p les o f   r ec o n s tr u ctio n   r esu lts ,   wh er Fig u r es 7 ( a )   an d   7 ( b )   ar d r aw n   f r o m   th D2 - m ec   an d   C s im   d atasets ,   r esp ec tiv e ly .   An   e x am in atio n   o f   th e   r e co n s tr u cted   o u tp u ts   r ev ea led   th at  th f r ag m en ts   wer p lace d   s id e - by - s id wit h o u r o tatio n ,   an d   th v er tic al  alig n m en d if f er e n ce   b etw ee n   f r ag m e n ts   wa s   m in im ized .           ( a)   ( b )     Fig u r 6 .   Pre p r o ce s s in g   r esu lt s   o f   s h r ed d e d   p ap e r   f r a g m en ts   ( a)   f r a g m en ts   p asted   o n   y ello b ac k g r o u n d   p ap er   an d   ( b )   ten   e x tr ac ted   an d   b in ar ized   f r ag m en t im ag es       T ab le  1 .   T o tal  n u m b er   o f   f r a g m en ts   an d   n u m b er   o f   c o r r ec tly   m atch ed   p air s   in   th D2 - m ec   an d   C s im   d atasets   D a t a s e t   D2 - mec   C si m   N o .   t o t a l   c o r r e c t   t o t a l   c o r r e c t   1   26   25   40   35   2   28   27   40   34   3   28   27   40   33   4   26   25   40   35   5   24   23   40   34   6   27   26   40   36   7   27   26   41   35   8   25   23   41   37   9   27   26   40   35   10   26   24   40   36   11   25   23   41   35   12   25   24   39   33   13   20   18   41   34   14   25   23   40   34   15   26   25   39   32   16   24   24   39   35   17   25   23   38   34   18   26   25   38   32   19   24   23   40   33   20   23   21   41   35   21           40   36   22           41   38   23           41   35   24           38   34   25           40   33       Evaluation Warning : The document was created with Spire.PDF for Python.
I AE I n J   R o b   &   A u to m   I SS N:   2722 - 2 5 8 6         A u to n o m o u s   r ec o n s tr u ctio n   o f str ip - s h r ed d ed   d o cu men ts   vi a   s elf - s u p ervis ed   d ee p   lea r n in g     ( Yi - C h a n g   Wu )   115       ( a)   ( b )     Fig u r 7 .   R ec o n s tr u ctio n   r esu l ts   ( a)   s am p le  f r o m   th D2 - m ec   d ataset  with   9 6 . 4 % a cc u r ac y ( b )   Sam p le  f r o m   th C s im   d ataset  with   9 2 . 7 % a cc u r ac y     3 . 2 .     Rec o ns t ruct io n a cc ura c y   a nd   qu a ntit a t iv ev a lua t io n   3 . 2 . 1 .   Acc ura cy   def ini t io n   T o   q u a n tify   r ec o n s tr u ctio n   q u ality ,   we  d ef in r ec o n s tr u ctio n   ac cu r ac y   as:     A c c ura c y = 1 N umb e r   of   in c or r e c tl y   position e d   fr a gme n ts To ta l   n umb e r   of   fr a gme n ts     3 . 2 . 2 .   P rima ry   re s ult   Fig u r 8   illu s tr ates  th r ec o n s tr u ctio n   ac c u r ac y   ac h iev e d   o n   in d iv id u al  test   d o cu m en ts .   T h r esu lts   in d icate   th at  th p er - d o cu m en r ec o n s tr u ctio n   ac c u r ac y   e x ce ed s   9 0 . 0 f o r   E n g lis h   d o cu m en ts   an d   8 2 . 1 f o r   C h in ese  d o cu m en ts .   W h en   a v er ag ed   o n   d o cu m en t - wis b asis ,   th p r o p o s ed   m eth o d   ac h iev es  an   av e r ag r ec o n s tr u ctio n   ac c u r ac y   o f   9 4 . 8 % o n   th D2 - m ec   d ataset  an d   8 6 . 5 % o n   th C s im   d ataset,   r e s p ec tiv ely .             Fig u r 8 .   Acc u r ac y   o f   r ec o n s tr u ctio n   r esu lts   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 2 5 8 6   I AE I n J   R o b   &   A u to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 07 - 1 21   116   3 . 2 . 3 .   Relia bil it y   a na ly s is   I n   ad d itio n   to   r ec o n s tr u ctio n   ac cu r ac y ,   p r ec is io n ,   r ec all,   an d   F1 - s co r e   wer a d o p ted   to   f u r t h er   ch ar ac ter ize  th r eliab ilit y   o f   f r ag m e n p lace m e n t.  T h ese  m etr ics  p r o v id e   co m p lem en ta r y   in s ig h ts   in to   th e   co r r ec tn ess   an d   c o m p leten ess   o f   th r ec o n s tr u ctio n   p r o ce s s .   I n   th e   p r o p o s ed   s ettin g ,   ea ch   f r ag m en is   ass ig n ed   to   u n iq u p o s itio n   with o u th e   g en er atio n   o f   s p u r io u s   o r   d u p licate  f r a g m e n ts .   C o n s eq u en tly ,   r ec o n s tr u c tio n   er r o r s   ar is ex clu s iv ely   f r o m   m is p lace m en ts   ( s wap p in g )   r ath er   th an   in co r r ec f r ag m e n in s er tio n s .   Un d e r   th is   co n s tr ain t,  th e   s y s tem   a ch iev ed   a   p r e cisi o n   o f   1 . 0   f o r   b o t h   th D2 - m ec   an d   C s im   d atasets ,   co n f ir m in g   t h at  ev er y   p lace d   f r ag m e n co r r esp o n d s   to   v alid   d o cu m e n t c o m p o n en t.   T ab le  2   r e p o r ts   th av er ag e d   p r ec is io n ,   r ec all,   a n d   F1 - s co r ac r o s s   all  test   d o cu m en ts .   T h r esu lts   d em o n s tr ate  h ig h   r ec o n s tr u ct io n   r eliab ilit y ,   with   th F1 - s co r r em ain i n g   r o b u s ac r o s s   b o th   E n g lis h   an d   C h in ese  s cr ip ts .   W h ile  th r ec all wh ich   is   eq u iv alen to   d o cu m e n t - lev el  r ec o n s tr u ctio n   ac cu r ac y v ar ies  b etwe en   th two   d atasets ,   th co n s is ten tly   h ig h   p r ec is io n   a n d   F1 - s co r es  u n d er s co r th s tab ilit y   o f   th s elf - s u p er v is ed   FC NN  in   ex tr ac tin g   d is cr im in ativ f ea tu r es f r o m   p h y s ical  f r ag m en ts .       T ab le  2 .   E v alu atio n   m et r ics b ased   o n   p er - d o c u m en t a v er ag in g   D a t a s e t   P r e c i s i o n   R e c a l l   F1 - sc o r e   D2 - mec   1   0 . 9 4 8   0 . 9 7 3   C si m   1   0 . 8 6 5   0 . 9 2 8       3 . 3 .     Ana ly s is   o f   influencing   f a ct o rs:  s cr ipt  s t ruct ure  a nd   s t ro k co m plex it y   I n   m o s ca s es,  th r ec o n s tr u ct io n   ac cu r ac y   f o r   E n g lis h   tex t   was  h ig h er   t h an   t h at  f o r   C h in ese  tex t.   T h is   d is cr ep an cy   ca n   b e   attr ib u ted   to   s ev er al   f ac to r s ,   o n e   o f   wh ich   is   th e   s tr u ctu r al   ch ar ac t er is tics   o f   C h in ese   ch ar ac ter s .   C h in ese  ch ar ac ter s   ar ty p ically   s q u ar e - s h ap ed ,   u n if o r m ly   s ized ,   a n d   ev e n ly   ar r an g ed ,   wh ic h   o f ten   in tr o d u ce s   v e r tical  wh ites p ac co lu m n s   b etwe en   ch ar ac te r   b lo ck s .   W h en   th s h r e d d e r   cu ts   alo n g   th ese   wh ites p ac co lu m n s r esu ltin g   in   ed g e   f r a g m en ts   co n tain i n g   m i n im al  in f o r m atio n th e s n o n - i n f o r m ativ ed g f r ag m en ts   m a y   b m is tak en ly   r ea s s em b led   to g et h er   d u r in g   r ec o n s tr u ctio n .   I n   co n tr ast,  ch ar ac ter s   i n   E n g lis h   tex ar g e n er ally   m o r ir r eg u la r ly   ar r a n g ed ,   m ak in g   it  less   lik ely   f o r   lar g e   b lan k   co lu m n s   to   f o r m ,   an d   th u s   r e d u cin g   th ch a n ce s   o f   s u ch   r ea s s em b ly   e r r o r s .   T h n u m b er   o f   f r ag m en ts   m a y   also   af f ec r ec o n s tr u ctio n   ac cu r ac y .   W ith   f ewe r   f r ag m e n ts ,   th er ar e   f ewe r   p air in g   ca n d i d ates,  wh ich   m ay   r ed u ce   th p r o b ab il ity   o f   m is m atch es.  I n   th D2 - m ec   d ataset,   th n u m b er   o f   f r ag m e n ts   p er   d o c u m en was  r elativ ely   s m all,   wh er ea s   th C s im   d ataset  co n tain ed   s ig n if ican tly   m o r f r ag m e n ts   p er   p a g e.   T o   v alid ate   th is   h y p o th esis   th at   f ewe r   f r ag m en ts   wo u l d   in c r ea s r ec o n s tr u ctio n   ac cu r ac y ,   we  c o n d u cted   a n   a d d itio n al  ex p er im en t   in   wh ich   s ev er al  C s im   d o cu m e n ts   wer e   m an u all y   to r n   in to   eig h ir r eg u lar   s tr ip - lik f r ag m en ts .   T h r esu lts   s h o wed   t h at  th r ec o n s tr u ctio n   ac c u r a cy   r ea ch ed   1 0 0 %.  Fig u r 9   s h o ws  an   e x am p le  o f   o n o f   th ese  r ec o n s tr u ctio n s .   T h is   s u g g ests   th at  r ec o n s tr u ctio n   ac c u r ac y   is   in d ee d   in f l u en ce d   b y   th e   n u m b er   o f   f r ag m en ts .   W also   in v esti g ated   th e   in f l u en ce   o f   s tr o k e   d e n s ity   an d   c h ar ac ter   co m p lex ity .     C h in ese   ch ar ac ter s   ten d   to   h av e   m o r c o m p lex   s tr o k s tr u ct u r es.  W h en   s h r ed d ed ,   C h in ese  ch a r ac ter s   p r o d u c lar g n u m b e r   o f   d is jo in ted   s tr o k es,  r esu ltin g   in   g r ea ter   n u m b er   o f   ca n d id ate  m atch in g   p o in ts   d u r in g   r ec o n s tr u ctio n .   I n   co n tr ast,  W ester n   ch ar ac ter s   ar s tr u ctu r ally   s im p ler ,   with   f ewe r   s tr o k d is co n tin u ities .   W h y p o th esize  th at   ch ar ac ter   s ets   with   h ig h er   s tr o k co m p le x ity   o r   s m aller   f o n t sizes  m ay   lead   to   in cr ea s ed   r e co n s tr u ctio n   er r o r s ,   as  th d e n s ity   o f   s tr o k e   b r ea k p o in ts   p er   u n it  ar ea   b ec o m es  h ig h er .   T o   v alid ate   th is   h y p o t h esis ,   we  in cr ea s ed   th f o n s ize  o f   C h in ese  ch ar ac ter s   in   th test   d o cu m en ts   an d   co n d u cte d   r ec o n s tr u ctio n   ex p er im en ts   u s in g   4   mm - wid m ac h in e - s h r e d d ed   f r ag m en ts .   T h r esu lts   co n f ir m ed   th at  en lar g in g   th f o n t size  r ed u ce d   th d e n s ity   o f   s tr o k e   d is co n tin u ities   p er   u n it  ar ea   a n d   s ig n if ica n tly   i m p r o v e d   r ec o n s tr u ctio n   ac cu r ac y .   As  s h o wn   i n   Fig u r 1 0 ,   wh en   th f o n s ize  in   th test   ex am p le  ( Fig u r e   5 )   in c r ea s ed   f r o m   1 2   to   2 8 ,   th r ec o n s tr u ctio n   ac cu r ac y   r ea ch e d   1 0 0 %.  T h ese  f in d i n g s   s u g g est  th at  r ec o n s t r u ctio n   ac cu r ac y   is   also   in f lu e n ce d   b y   th s tr o k e   co m p lex ity   a n d   f o n t size  o f   th s cr ip t.   C o m p ar ed   with   s y n th etic  f r ag m en ts   u s ed   in   s im u lated   ex p er im en ts ,   r ea s h r ed d ed   d o cu m e n ts   in tr o d u ce   s ev e r al  f ac to r s   th at  ca n   d eg r a d r ec o n s tr u ctio n   p e r f o r m a n ce .   T h ese  in clu d ed g d am ag f r o m   th e   s h r ed d in g   p r o ce s s ,   an g u lar   d is to r tio n s   b etwe en   f r ag m en ts   an d   th o r ig in al  lay o u ca u s ed   b y   m ec h an ical   cu ttin g   an d   d i g itizatio n ,   s ca n n er   r eso lu tio n   lim itatio n s ,   im ag n o is in t r o d u ce d   d u r in g   s ca n n in g ,   v er tical   m is alig n m en b etwe en   ad jac en f r a g m en ts ,   a n d   co n to u r   ex tr ac tio n   n o is e.   I n   ad d itio n ,   t h n u m b e r   o f   f r ag m en ts ,   th e   n atu r e   o f   th e   s cr ip t,  an d   f o n s ize  also   p lay   cr itical  r o les.  Desp ite  th ese  ch allen g es,  o u r   ex p er im en ts   d em o n s tr ate  th e   f ea s ib ilit y   o f   th p r o p o s ed   r ec o n s tr u ctio n   m eth o d   o n   r ea l   s h r ed d ed   C h in ese  d o cu m e n ts .   Evaluation Warning : The document was created with Spire.PDF for Python.