Ecco come funziona la didascalia live di Android 10

Autore: Peter Berry
Data Della Creazione: 16 Lang L: none (month-012) 2021
Data Di Aggiornamento: 1 Luglio 2024
Anonim
How live caption works. NLP & speech to text explained!
Video: How live caption works. NLP & speech to text explained!

Contenuto


Live Caption è una delle funzionalità Android più interessanti di sempre, grazie all'apprendimento automatico su dispositivo per generare didascalie per video e clip web locali.

Google ha pubblicato un post sul blog che illustra in dettaglio come funziona questa elegante funzione e in realtà consiste di tre modelli di apprendimento automatico su dispositivo, per cominciare.

Esiste un modello di trasduzione di sequenza di reti neurali ricorrenti (RNN-T) per il riconoscimento vocale stesso, ma Google sta anche utilizzando una rete neurale ricorrente per prevedere la punteggiatura.

Il terzo modello di machine learning su dispositivo è una rete neurale convoluzionale (CNN) per eventi sonori, come il cinguettio degli uccelli, il battito delle persone e la musica. Google afferma che questo terzo modello di apprendimento automatico deriva dal suo lavoro sull'app di accessibilità Live Transcribe, in grado di trascrivere eventi vocali e sonori.


Riduzione dell'impatto della didascalia live

La società afferma di aver adottato una serie di misure per ridurre il consumo della batteria e le richieste di prestazioni di Live Caption.Per uno, il motore di riconoscimento vocale automatico completo (ASR) funziona solo quando viene effettivamente rilevato il parlato, invece di essere costantemente in esecuzione in background.

“Ad esempio, quando viene rilevata la musica e la voce non è presente nel flusso audio, l'etichetta apparirà sullo schermo e il modello ASR verrà scaricato. Il modello ASR viene caricato nuovamente in memoria solo quando la voce è di nuovo presente nel flusso audio ”, spiega Google nel suo post sul blog.

Google ha anche utilizzato tecniche come la potatura delle connessioni neurali (riducendo le dimensioni del modello vocale), riducendo il consumo energetico del 50% e consentendo l'esecuzione in tempo reale di Live Caption.

Google spiega che i risultati del riconoscimento vocale vengono aggiornati alcune volte al secondo quando viene formata la didascalia, ma la previsione della punteggiatura è diversa. Il gigante della ricerca afferma di fornire una previsione di punteggiatura "sulla coda del testo dalla frase riconosciuta più di recente" al fine di ridurre la domanda di risorse.


La didascalia live è ora disponibile nella serie Pixel 4 di Google e Google afferma che sarà disponibile "presto" sulla serie Pixel 3 e su altri dispositivi. La società afferma di lavorare anche sul supporto per altre lingue e su un migliore supporto per i contenuti multi-speaker.

È paato più di un anno dal lancio del Nokia 8110, ma HMD Global ha finalmente annunciato che WhatApp è diponibile ullo martphone.Prima di ucire e acquitare un Nokia 8110, la ocietà...

Il team di WhatApp potrebbe aver lavorato traordinariamente per correggere un exploit di alto profilo la cora ettimana, ma embra che il team tia anche lavorando u alcune nuove funzionalità....

Popolare Sul Sito