PDF to Semantic Text
Piccola implementazione di un parser PDF, l’articolo è una bozza in corso d’opera, comunque l’argomento è relativo al parsng in batch di documenti pdf estraendo tutte le informazioni di rilievo dai documenti , e questo sarebbe semoplicemente un PDF to Text. Mi è balenata in mente l’idea di pesare i contenuti in funzione delle proprietà visive del testo. Cioè riconoscere un titolo in funzione della posizione o della deimensione del carattere e pesare di conseguenza le parole.
A Breve concluderò l’articolo ora son un po di corsa….
byebye