estrazione testo da pdf

Mac OS X e le sue Applicazioni

Moderatore: ModiMaccanici

Avatar utente
ndin
Stato: Non connesso
Expert Latitante
Expert Latitante
Avatar utente
Iscritto il: mer, 02 giu 2010 10:11
Messaggi: 1963
Località: Konoha

Top

Salve a tutti. Per un lavoro ho bisogno di estrarre con precisione il testo da un lungo (250 pp) pdf con tabelle e disegni tecnici. Devo conteggiare con esattezza le parole per fare un preventivo di traduzione. Hp provato con una semplice estrazione del testo, ma è molto imprecisa. Ho creato uno script con automator per estrarre il testo ed avere un rtf, ma anche qui è impreciso.
Fra la miriade di " pdf to word" cosa mi consigliate. Devo pagare questo sw e costano anche un po'. Ho provato wondershare e non è male. Ma vorrei un parere da chi ha provato altre soluzioni. Grazie.
La vita di uno shinobi non viene misurata in base a come ha vissuto, ma in base a ciò che ha fatto prima della morte.

Avatar utente
Crystal67
Stato: Non connesso
Expert
Expert
Avatar utente
Iscritto il: lun, 25 giu 2012 16:26
Messaggi: 1876
Località: Milano

Top

Contatta:
Io con Acrobat X ho fatto una prova di "registra con nome... Microsoft word" e ha salvato tutto senza problemi se non di font che non credo ti crei problemi per le tue esigenze, nel mio pdf non avevo tabelle e grafici.
Stefania
--
Perché essere infelice con un uomo che tu non ami, quando puoi essere infelice con un uomo che tu ami? - Lollo
Non sono gli anni, sono i chilometri.... Indiana Jones
––
http://www.coroflot.com/Crystal67

Avatar utente
Susanna
Stato: Non connesso
Stella nascente
Stella nascente
Avatar utente
Iscritto il: dom, 19 dic 2010 10:24
Messaggi: 984
Località: Empoli

Top

Non so se ho capito bene e se puo' fare al caso tuo..

Skim

copio incollo da Tuttologia:

..."Inoltre, funzione molto interessante, è possibile selezionare e copiare porzioni di testo dal documento PDF.
Il documento così editato può essere salvato nel formato di Skim oppure a sua volta esportato in formato PDF.
In aggiunta a tutto questo, Skim comprende tutte le funzionalità di un PDF Reader, compresa la possibilità di aggiungere bookmarks alle pagine per un richiamo immediato"

http://www.tuttologia.com/freeware/Skim-pdf.html" onclick="window.open(this.href);return false;

Ciao :)

Avatar utente
ndin
Stato: Non connesso
Expert Latitante
Expert Latitante
Avatar utente
Iscritto il: mer, 02 giu 2010 10:11
Messaggi: 1963
Località: Konoha

Top

Grazie per i suggerimenti. Uso Skim da anni e fa quel che dici, ma dovrei selezionare il testo a manina. Ci metterei giorni. E non vale la pena per un preventivo, che sto già ritardando.
Quanto ad Acrobat, so che funziona, ma non l'ho mai provato con le tabelle. E siccome costa significativamente di più di altri, cercavo soluzioni più a portata di freelance squattrinato.
Grazie ancora.
La vita di uno shinobi non viene misurata in base a come ha vissuto, ma in base a ciò che ha fatto prima della morte.

Curzio
Stato: Non connesso
Type Expert
Type Expert
Iscritto il: gio, 09 lug 2009 13:15
Messaggi: 1931

Top

In ogni caso, preparati ad un paziente lavoro di ripulitura del testo in word (o altro) perché ogni estrazione da pdf non è mai agevole e il testo risulta sempre "sporco"; a meno che non te lo salvi in .txt, ma poi perdi tabelle ecc. per avere il solo testo nudo. Però se è solo per una traduzione, e poi non devi reimpaginarlo in dtp, non dovrebbe farti molta differenza.

Avatar utente
mauripucci
Stato: Non connesso
Expert
Expert
Avatar utente
Iscritto il: mer, 29 dic 2010 22:23
Messaggi: 2794
Località: toscana

Top

di gratuito conosco questo http://www.sciweavers.org/pdf2x" onclick="window.open(this.href);return false; (on line), elimina tutte le immagini se scegli "PDF to Text"
ma... saltano tutte le ultime lettere accentate (credo che faccia più o meno come automator);

come già detto sopra "ogni estrazione da pdf non è mai agevole e il testo risulta sempre "sporco"..."

ho provato anche https://www.imaccanici.org/article.php/PDFOCRX" onclick="window.open(this.href);return false; ma anche codesto non fa il lavoro "pulito"...

poi c'è sempre la soluzione: ricopiarti il solo testo da Anteprima...

PERTANTO LA COSA PIU' INTELLIGENTE E PULITA SEMBRA ESSRE QUELLA SUGGERITA DA Crystal67:
con Acrobat X ho fatto una prova di "registra con nome... Microsoft word" e ha salvato tutto senza problemi
PS: io ho fatto una prova con "registra come testo" e... il tutto ha funzionato...

Avatar utente
Crystal67
Stato: Non connesso
Expert
Expert
Avatar utente
Iscritto il: lun, 25 giu 2012 16:26
Messaggi: 1876
Località: Milano

Top

Contatta:
Ps se non hai acrobat me lo giri e te lo rimando, l'operazione ho visto che è velocissima.
Stefania
--
Perché essere infelice con un uomo che tu non ami, quando puoi essere infelice con un uomo che tu ami? - Lollo
Non sono gli anni, sono i chilometri.... Indiana Jones
––
http://www.coroflot.com/Crystal67

Avatar utente
ndin
Stato: Non connesso
Expert Latitante
Expert Latitante
Avatar utente
Iscritto il: mer, 02 giu 2010 10:11
Messaggi: 1963
Località: Konoha

Top

Direi che Acrobat è la soluzione migliore, a questo punto. Il testo semplice mi fa perdere le formattazioni e quindi è un macello scorporare le cifre dal testo nelle tabelle per fare un conto preventivo del lavoro.
Crystal, ti ringrazio della gentilezza. Hai mp.
La vita di uno shinobi non viene misurata in base a come ha vissuto, ma in base a ciò che ha fatto prima della morte.

Avatar utente
Nelson
Stato: Non connesso
Stella nascente
Stella nascente
Avatar utente
Iscritto il: mer, 02 mag 2012 17:04
Messaggi: 701

Top

Su vostro consiglio sto provando Skim, una cosa che non riesco a fare è evidenziare una parte di testo

Avatar utente
mauropasha
Stato: Non connesso
Geniale
Geniale
Avatar utente
Iscritto il: sab, 07 giu 2008 15:51
Messaggi: 13910
Località: Bari

Top

Contatta:
Con il nuovo anteprima ormai skim, per me, è obsoleto.

viewtopic.php?f=5&t=19025&start=15#p182073" onclick="window.open(this.href);return false;
viewtopic.php?f=5&t=19025&start=15#p182104" onclick="window.open(this.href);return false;

Ah..., bentornato, Nelson
mauro
se non sai cosa stai per fare, non lo fare
senza dimenticare che sbagliando s'impara

Avatar utente
ndin
Stato: Non connesso
Expert Latitante
Expert Latitante
Avatar utente
Iscritto il: mer, 02 giu 2010 10:11
Messaggi: 1963
Località: Konoha

Top

mauropasha ha scritto:Con il nuovo anteprima ormai skim, per me, è obsoleto.

viewtopic.php?f=5&t=19025&start=15#p182073" onclick="window.open(this.href);return false;
viewtopic.php?f=5&t=19025&start=15#p182104" onclick="window.open(this.href);return false;

Ah..., bentornato, Nelson
Concordo in parte. Skim permette di lavorare anche su pdf non ocr. ma in, risposta a Nelson, non permette in quei casi di evidenziare il testo.
La vita di uno shinobi non viene misurata in base a come ha vissuto, ma in base a ciò che ha fatto prima della morte.

Avatar utente
Nelson
Stato: Non connesso
Stella nascente
Stella nascente
Avatar utente
Iscritto il: mer, 02 mag 2012 17:04
Messaggi: 701

Top

mauropasha ha scritto:Con il nuovo anteprima ormai skim, per me, è obsoleto.

viewtopic.php?f=5&t=19025&start=15#p182073" onclick="window.open(this.href);return false;
viewtopic.php?f=5&t=19025&start=15#p182104" onclick="window.open(this.href);return false;

Ah..., bentornato, Nelson
Io userei Anteprima Lion se si potesse fare

Avatar utente
mauropasha
Stato: Non connesso
Geniale
Geniale
Avatar utente
Iscritto il: sab, 07 giu 2008 15:51
Messaggi: 13910
Località: Bari

Top

Contatta:
ndin ha scritto:....Skim permette di lavorare anche su pdf non ocr...
:shock: e chi sono? :oops:
mauro
se non sai cosa stai per fare, non lo fare
senza dimenticare che sbagliando s'impara

Avatar utente
ndin
Stato: Non connesso
Expert Latitante
Expert Latitante
Avatar utente
Iscritto il: mer, 02 giu 2010 10:11
Messaggi: 1963
Località: Konoha

Top

Sono quelli scansionati ma il cui testo non è indicizzabile. Ovvero sono delle immagini in formato pdf.
La vita di uno shinobi non viene misurata in base a come ha vissuto, ma in base a ciò che ha fatto prima della morte.

Avatar utente
mauropasha
Stato: Non connesso
Geniale
Geniale
Avatar utente
Iscritto il: sab, 07 giu 2008 15:51
Messaggi: 13910
Località: Bari

Top

Contatta:
Ah, ok... ocr (optical character recognition)... leggevo ocr, ma pensavo a CNR... come sto frecato!
Vabbé, come magra consolazione per la "frecatura", posso dire che non li ho mai usati.
mauro
se non sai cosa stai per fare, non lo fare
senza dimenticare che sbagliando s'impara

Rispondi

Torna a “Software”

Chi c’è in linea

Visitano il forum: SemrushBot [Bot] e 38 ospiti