Come trascrivere un file AUDIO vocale in TESTO


La trascrizione di una registrazione vocale audio può essere molto utile in diversi contesti, basti pensare a quello lavorativo, in cui si fanno spesso riunioni che richiedono la stesura di un verbale che che è molto difficile da redarre nel momento in cui avviene la riunione stessa, quindi diventa necessario effettuare una registrazione audio che successivamente deve essere “sbobinata“, cioè riascoltata e trascritta. Un altro esempio potrebbe essere quello delle lezioni a scuola o all’università, dove la registrazione audio e la successiva trascrizione potrebbe essere un utile supporto alla redazione degli appunti su cui studiare.

L’operazione di trascrizione manuale è molto lunga ed onerosa e potrebbe richiedere ben più del doppio della durata del materiale registrato. Ci sono varie soluzioni software per cercare di ottimizzare i tempi di trascrizione, alcune gratuite, altre a pagamento, in questo articolo cercheremo di darvi una panoramica quanto più ampia di quelle disponibili, tuttavia non ci occuperemo dei vari tool software per facilitare l’operazione di “sbobinatura” manuale, bensì parleremo di software e servizi che utilizzano motori “speech to text” (da voce a testo) che permettono “automatizzare” l’operazione di trascrizione.

Prima addentrarci nell’argomento è bene fare alcune premesse per capire meglio gli aspetti che influenzano il riconoscimento vocale e la trascrizione da audio a testo:

  • Il linguaggio naturale segue andamenti molto diversi rispetto al linguaggio scritto, quando parliamo tendiamo ad aprire e chiudere parentesi andando a creare periodi molto complessi, inseriamo esitazioni (ehm, mmm, ecc.), può capitare di “mangiarsi le parole”, di parlare molto veloce, di pronunciare inglesismi, sigle e molto altro ancora. Questi sono solo alcuni degli aspetti che vanno ad influire sulla qualità della trascrizione, sia per quanto riguarda la trascrizione delle singole parole (inglesismo, sigla, parola “mangiata”), sia per quanto riguarda la comprensibilità del testo trascritto, in quanto non venendo trascritta la punteggiatura, un’eccessiva complessità nell’articolazione dei periodi renderebbe il testo trascritto un fiume di parole apparentemente senza senso. Purtroppo su questi aspetti non c’è molto margine di miglioramento, a meno che la persona che viene registrata mentre parla non faccia lo sforzo di assumere un atteggiamento che favorisca la conversione da audio a testo.
  • L’operazione di trasformazione da audio a testo è possibile grazie alla tecnologia “speech to text“. Esistono due modalità principali di impiegare tale tecnologia ovvero la “spearker independent” e la “speaker dependent“. Sono “speaker independent” tutti i sistemi di riconoscimento del parlato che lavorano in cloud e sono in grado di riconoscere e trascrivere qualsiasi persona che riesca a parlare in modo chiaro e corretto, come avviene quando si parla con gli assistenti vocali come Google, Siri, Alexa, ecc.. Come avrete potuto sperimentare anche voi, questi sistemi non funzionano senza una connessione ad internet e se siete in un ambiente rumoroso o se non parlate in modo chiaro e preciso, questi non funzionano correttamente. I sistemi “speaker dependent” possono lavorare offline, sono progettati per essere addestrati sul modo di parlare di un utente e continuano ad addestrarsi ad ogni utilizzo, solitamente sono impiegati come software di dettatura in cui tramite dei comandi vocali è possibile anche dettare la punteggiatura, effettuare correzioni, formattare il testo. Con questi sistemi si possono raggiungere livelli di precisione nella trascrizione molto alti, ma hanno ovviamente il limite nel fatto che tale precisione è legata all’addestramento di uno specifico utente con uno specifico vocabolario, tono, pronuncia, ecc.. Per tali ragioni, questi sistemi possono essere addestrati a riconoscere anche un modo di parlare “imperfetto” che un sistema “speaker independent” non riuscirebbe a riconoscere. Nelle varie modalità di trascrizione che mostreremo andremo a specificare quale sistema è “dependent” o “independent”.

Tecnica del Respeaking

Il respaking è una tecnica che consiste nell’ascolto dell’audio da parte di un operatore, il quale a sua volta ripete ad alta voce quello che sente ad un software di dettatura attraverso un microfono, al fine di trascrivere in un documento di testo quanto sta ascoltato in tempo reale. Il respeaking solitamente viene fatto da professionisti provenienti dal mondo dell’interpretariato, è una tecnica che da ottimi risultati ma è molto difficile da praticare. L’affidabilità della trascrizione risiede nel fatto che l’operatore utilizza un software di dettatura “speaker dependent” che è perfettamente addestrato al riconoscimento del suo modo di parlare. Il software più famoso per la dettatura è sicuramente Dragon Naturally Speaking di Nuance (software commerciale).

Le versioni di Dragon Naturally Speaking idonee alla dettatura sono le seguenti:

Trascrizione registrazione audio con software di dettatura

Alcune versioni del software Dragon Naturally Speaking permettono non solo di dettare testi, ma anche di trascrivere testi registrati in precedenza con il computer o con registratori audio digitali. Bisogna però prestare attenzione ad un aspetto fondamentale: prima abbiamo detto che Dragon è un software “speaker dependent” quindi non potrete registrare una riunione in cui parlano tante persone diverse per poi trascrivere l’audio con il software Dragon perché il software sarà addestrato a riconoscere la voce di una sola persona che ha effettuato l’addestramento! Anche addestrando il software con tutte le persone presenti la trascrizione potrà essere fatta solo su una persona in quanto il software può avere si diversi profili vocali, ma vanno utilizzati uno alla volta e non possono essere usati contemporaneamente. In realtà il software tenterà comunque di trascrivere tutto l’audio registrato da diverse persone, ed in presenza di un oratore in grado di essere chiaro e pulito è probabile anche che tutto venga trascritto correttamente, tuttavia, non essendoci nessuna garanzia sul risultato, la casa produttrice di Dragon riporta chiaramente l’impossibilità di usare il riconoscimento vocale di un file audio con diversi oratori. Dopo questa doverosa precisazione, concludiamo rimarcando il concetto che la trascrizione di una registrazione attraverso il software Dragon è utile solo nel caso in cui volessimo trascrivere la registrazione di una sola persona che ha effettuato l’addestramento del software. Il caso tipico di utilizzo di questa modalità è quella in cui vogliamo trascrivere la registrazione di nostri appunti vocali personali.

La trascrizione di un file audio è possibile solo con la versione “Premium” di Dragon Naturally Speaking, o con la versione “Recorder Edition” venduta insieme al registratore audio che però non permette la trascrizione audio con microfono.

Trascrizione con “Digitazione Vocale di Google”

Esistono poi tecniche meno “ortodosse” ma anche meno “onerose” per trascrivere un testo, una di queste sfrutta la funzione di Digitazione vocale presente nell’applicazione Documenti di Google Drive. La digitazione vocale, sistema “speaker independent“, vi permette di scrivere su un documento di Google semplicemente parlando ad un microfono, esattamente come avviene in tutte le tastiere virtuali degli smartphone Android, per utilizzarla vi basta un account Google, necessario ad accedere a Google Drive per creare un documento di testo.





Per trascrivere la voce in diretta, la procedura è molto semplice, si parla ad un microfono e il sistema trascrive le nostre parole in testo. Il nostro scopo però è quello di cercare di trascrivere un file audio, per tentare di farlo  con la Digitazione vocale avremmo bisogno di intervenire nelle impostazioni della scheda audio nel computer. Quello che andremo a fare consiste nel disabilitare il microfono come dispositivo di ingresso audio predefinito e sostituirlo con lo stereo mix (missaggio stereo), ovvero il canale di ascolto. In pratica faremo in modo che la nostra uscita audio (quello che sentiamo dalle casse) venga considerata come ingresso audio (ingresso microfonico). In questo modo quando attiveremo la Digitazione vocale di Google, questa potrà trascrivere “quello che si sta ascoltando”, ovvero la riproduzione audio di un file, anziché utilizzare il microfono. Purtroppo non c’è garanzia sul funzionamento di questo escamotage perché alcune schede audio non sono configurabili nella sopracitata modalità. Vediamo più nel dettaglio come si imposta lo stereo mix come ingresso audio, per farlo dobbiamo andare nella finestra delle Proprietà audio alla scheda Registrazione.

Nella prima immagine (1) vediamo subito che la scheda audio in oggetto supporta lo stereo mix come canale di input. Se non vediamo stereo mix possiamo fare un clic con il tasto destro del mouse ed assicurarci che il dispositivo, essendo disattivato, non sia stato nascosto dall’elenco. Se dopo tale verifica ci dovessimo trovare nella situazione di figura 2, ovvero con entrambe le spunte al menù e senza la voce stereo mix in elenco, allora saremmo nel caso particolare in cui la nostra scheda audio non ci permette di registrare il canale di ascolto e quindi non saremo in grado di proseguire. Tornado alla figura 1, per inibire il microfono ed attivare stero mix come input predefinito basterà fare clic destro su di esso, selezionare prima la voce “attiva” e poi la voce “rendi dispositivo predefinito”, il risultato finale dovrà essere quello di figura 3.

A questo punto basterà:

  1. avviare la riproduzione di un file audio vocale,
  2. andare sul documento di google,
  3. avviare la Digitazione vocale facendo attenzione a non togliere la selezione alla finestra del browser altrimenti la trascrizione verrebbe interrotta!

Nel video che segue potrete vedere tutta la procedura.

Nel caso in cui lo stereo mix non compaia in elenco, potreste provare ad aggiornare i driver della scheda audio oppure tentare con delle versioni precedenti, in alternativa potreste provare una  scheda audio usb esterna come una delle seguenti.

Servizi di trascrizione online

Una terza modalità per trascrivere un file audio vocale è quella di utilizzare di servizi online “speaker independent”:

  1. Trascrivi.it – (a pagamento)
    Offre un servizio con “costo al minuto” in base al tempo di consegna desiderato, da 1 a 48 ore.
  2. Sbobina.it – (a pagamento)
    Servizio simile al precedente ma la consegna della trascrizione viene effettuata solo dopo 48 ore.

  • 5
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
    5
    Shares

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *