Recognition and Information Extraction in Historical Handwritten Tables: Toward Understanding Early $$20^{th}$$ Century Paris Census
Lecture Notes in Computer Science, May 18, 2022
We aim to build a vast database (up to 9 million individuals) from the handwritten tabular nomina... more We aim to build a vast database (up to 9 million individuals) from the handwritten tabular nominal census of Paris of 1926, 1931 and 1936, each composed of about 100,000 handwritten simple pages in a tabular format. We created a complete pipeline that goes from the scan of double pages to text prediction while minimizing the need for segmentation labels. We describe how weighted finite state transducers, writer specialization and self-training further improved our results. We also introduce through this communication two annotated datasets for handwriting recognition that are now publicly available, and an open-source toolkit to apply WFST on CTC lattices.
Uploads
Papers by Sandra Bree
L’analyse porte tout d’abord sur les renseignements statistiques établis à l’époque par la Statistique générale de la France et le service de la statistique municipale de Paris : il en ressort un niveau de divortialité globalement supérieur à la moyenne nationale, mais inférieur à celui de Paris même, niveau en outre marqué par d’importantes variations entre communes banlieusardes. L’article compare ensuite, à Noisy-le-Sec et à Ivry, les caractéristiques au mariage (états matrimoniaux, âges, origines sociales, géographiques et culturelles, présence de l’entourage, etc.) des hommes et des femmes qui ont divorcé à celles des conjoints qui sont restés mariés : en passant en revue les facteurs, présents lors du mariage, qui ont pu accroître ou au contraire restreindre à court ou moyen terme le risque d’une rupture d’union, nous cherchons à tester nos principales hypothèses sur le rôle du détachement communautaire (mobilité, arrivée dans un cadre social en transformation rapide, réseau parentélaire local réduit, etc.) que le cadre banlieusard, dans sa diversité, serait susceptible de favoriser.