Ecco come funziona la didascalia live di Android 10

Video: How live caption works. NLP & speech to text explained!

Contenuto

Riduzione dell'impatto della didascalia live

Live Caption è una delle funzionalità Android più interessanti di sempre, grazie all'apprendimento automatico su dispositivo per generare didascalie per video e clip web locali.

Google ha pubblicato un post sul blog che illustra in dettaglio come funziona questa elegante funzione e in realtà consiste di tre modelli di apprendimento automatico su dispositivo, per cominciare.

Esiste un modello di trasduzione di sequenza di reti neurali ricorrenti (RNN-T) per il riconoscimento vocale stesso, ma Google sta anche utilizzando una rete neurale ricorrente per prevedere la punteggiatura.

Il terzo modello di machine learning su dispositivo è una rete neurale convoluzionale (CNN) per eventi sonori, come il cinguettio degli uccelli, il battito delle persone e la musica. Google afferma che questo terzo modello di apprendimento automatico deriva dal suo lavoro sull'app di accessibilità Live Transcribe, in grado di trascrivere eventi vocali e sonori.

Riduzione dell'impatto della didascalia live

La società afferma di aver adottato una serie di misure per ridurre il consumo della batteria e le richieste di prestazioni di Live Caption.Per uno, il motore di riconoscimento vocale automatico completo (ASR) funziona solo quando viene effettivamente rilevato il parlato, invece di essere costantemente in esecuzione in background.

“Ad esempio, quando viene rilevata la musica e la voce non è presente nel flusso audio, l'etichetta apparirà sullo schermo e il modello ASR verrà scaricato. Il modello ASR viene caricato nuovamente in memoria solo quando la voce è di nuovo presente nel flusso audio ”, spiega Google nel suo post sul blog.

Google ha anche utilizzato tecniche come la potatura delle connessioni neurali (riducendo le dimensioni del modello vocale), riducendo il consumo energetico del 50% e consentendo l'esecuzione in tempo reale di Live Caption.

Google spiega che i risultati del riconoscimento vocale vengono aggiornati alcune volte al secondo quando viene formata la didascalia, ma la previsione della punteggiatura è diversa. Il gigante della ricerca afferma di fornire una previsione di punteggiatura "sulla coda del testo dalla frase riconosciuta più di recente" al fine di ridurre la domanda di risorse.

La didascalia live è ora disponibile nella serie Pixel 4 di Google e Google afferma che sarà disponibile "presto" sulla serie Pixel 3 e su altri dispositivi. La società afferma di lavorare anche sul supporto per altre lingue e su un migliore supporto per i contenuti multi-speaker.

Contenuto

Riduzione dell'impatto della didascalia live

WhatsApp arriva sul Nokia 8110: ecco cosa dovresti aspettarti

WhatsApp lavora su codici QR per condividere contatti, Condivisione stato

Calo dei prezzi! Master Microsoft Excel per soli $ 23 con codice promozionale

L'idea di design pieghevole di Microsoft potrebbe cambiare il gioco

Personalizzazione Android: come installare un icon pack sul tuo dispositivo Android