L’estrazione di testo e dati da documenti e tabelle è più semplice se a fare il lavoro è il machine learning. Amazon Web Services (Aws) ha annunciato la disponibilità Textract, un servizio completamente gestito che sfrutta l’apprendimento automatico per l’estrazione di contenuto da praticamente qualsiasi tipologia di documento. Aws ha dichiarato che il processo non richiede una revisione manuale. “Textract va oltre il semplice riconoscimento ottico dei caratteri perché capisce anche il contesto in cui moduli, informazioni e tabelle sono presenti, come il nome o il numero di previdenza sociale da un documento fiscale o lo Sku di un prodotto da un report di un inventario. I dati estratti possono essere utilizzati facilmente per effettuare ricerche intelligenti su grandi archivi o essere aggiunti in database per altre applicazioni”, ha spiegato il colosso di Seattle.

Le Api di Textract supportano diverse tipologie di immagini oltre ai Pdf. Le informazioni raccolte possono ovviamente essere date in pasto a strumenti di analisi come Elasticsearch Service, DynamoDb e Athena, oltre che a servizi di machine learning come Comprehend, Translate e Sagemaker. Non serve dire che sono tutte soluzioni di Aws, anche se è sempre possibile esportare i dati in altri ambienti aziendali, database a anche semplici fogli di calcolo.

I file vengono prelevati dai bucket presenti in Amazon W3: Textract li estrae, li legge e li restituisce sotto forma di testo Json con annotazioni dei numeri di pagina, sezioni ed etichette. La novità di Aws è disponibile per ora nelle regioni Eu (Irlanda), Us East (Ohio e Northern Virginia), e Us West (Oregon), ma nel corso dell’anno verrà esteso anche ad altri data center.