Microsoft desenvolve reconhecimento de voz com "nível humano"

#Notícia Publicado por Cristianogremista, em .

Se você já tentou falar com a assistente do seu smartphone ou ligou para uma central telefônica automatizada, sabe que os comandos de voz funcionam bem, mas frequentemente falham. Mas isso pode mudar mais rápido do que a gente espera: a Microsoft revelou que a sua tecnologia de reconhecimento de voz já acerta nessa tarefa tanto quanto um humano.

IMAGEaHR0cHM6Ly90ZWNub2Jsb2cubmV0L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDE2LzEwL21pY3Jvc29mdF9yZWNvbmhlY2ltZW50b192b3otNzAweDM5My5qcGc=

Isso não quer dizer que a tecnologia é perfeita ou à prova de erros. No reconhecimento de palavras e expressões, ninguém entende tudo, na verdade. Se prestar atenção nas conversas do dia a dia, você se surpreenderá com a quantidade de vezes em que diz "como?", "oi?" ou "quê?". Há uma série de razões para isso: interferência de ruídos, tons de voz baixos, confusão entre palavras e por aí vai.

Em um experimento feito pela Microsoft, pessoas acostumadas com transcrição foram convidadas a ouvir uma conversa e então registrá-la. Em média, o índice de erros nessa tarefa ficou em 5,9%, ou seja, de cada 100 palavras ouvidas, seis não foram devidamente compreendidas. Um indivíduo não habituado a esse tipo de atividade provavelmente errará mais.

IMAGEaHR0cHM6Ly90ZWNub2Jsb2cubmV0L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDE1LzAzL2NvcnRhbmFfaGkuanBn

O mesmo teste foi realizado com o sistema de inteligência artificial da Microsoft que lida com reconhecimento de voz. Sabe qual foi a taxa de erro? Os mesmos 5,9%. Essa é a razão para a equipe de Xuedong Huang, líder de reconhecimento de voz na companhia, estar comemorando tanto. A tecnologia já é capaz de reconhecer uma conversa com a mesma precisão alcançada por uma pessoa.

Para atingir esse nível, a Microsoft usou um sistema de rede neurais baseado no CNTK, um kit de ferramentas específico para aprendizagem profunda.

Como você deve ter imaginado, esse avanço permitirá que a Cortana fique ainda mais poderosa. Não adianta muita coisa a assistente ser capaz de realizar uma enormidade de tarefas se a interpretação dos comandos falados for precária.

Mas não vai ficar por aí: a Microsoft também espera empregar essa tecnologia na linha Xbox, no Skype, em ferramentas de acessibilidade e assim por diante.

IMAGEaHR0cDovL3d3dy50aGVjb3VudHJ5Y2FsbGVyLmNvbS9wdWJsaWMvaW1hZ2VzL3VwbG9hZHMvMTQ1OTY5MzEyNS0xMjIwNk1pY3Jvc29mdC1Db3Jwb3JhdGlvbnMtTVNGVC1Db3J0YW5hLVdpbGwtTWFrZS1YYm94LU9uZS1TbWFydGVyLVRoYW4tRXZlci1CZWZvcmUuanBn

Já imaginou como tudo ficará mais interessante se o índice de erro diminuir ainda mais? Não é impossível. Só para você ter ideia de como a coisa toda está evoluindo rápido, nos testes feitos no mês passado, a média de erros estava em 6,3%. "Cinco anos atrás, eu não teria pensado que poderíamos ter conseguido isso", afirma Xuedong Huang, cientista chefe da Microsoft Research.

Estamos diante de um feito impressionante, não há dúvidas. Apesar disso, os pesquisadores da Microsoft reconhecem que ainda há muito trabalho a ser feito. Nas etapas seguintes, o desafio estará em fazer a tecnologia funcionar bem mesmo em ambientes com bastante barulho de fundo, como uma festa ou uma rua movimentada. Faz sentido: quem é que passa a maior parte do tempo em lugares completamente silenciosos?

IMAGEaHR0cHM6Ly90ZWNub2Jsb2cubmV0L3dwLWNvbnRlbnQvdXBsb2Fkcy8yMDE2LzEwL21pY3Jvc29mdF92b3pfZXF1aXBlLTcwMHgzNTAuanBn

Depois, virá o que provavelmente representa o desafio mais complexo: fazer a tecnologia alcançar a excelência na interpretação de contextos.

Cristiano
Cristiano #Cristianogremista

Não existe jogo ruim.O ruim é não jogar.

, Santa Rosa-RS
Deixe seu comentário para sabermos o que você achou da publicação
Não se esqueça que você pode participar do nosso Discord.
E também nos seguir no Facebook, Twitter, Instagram e na nossa curadorida da Steam.
Publicações em Destaque
#Games, Por coca,
#Games, Por VSDias55,
#Games, Por VSDias55,
#Games, Por VSDias55,