Tecnologia de reconhecimento de fala

Reconhecimento de fala, a capacidade dos dispositivos de responder a comandos falados. O reconhecimento de fala permite o controle de viva-voz de vários dispositivos e equipamentos (um benefício específico para muitas pessoas com deficiência), fornece informações para a tradução automática e cria um ditado pronto para impressão. Entre as primeiras aplicações para reconhecimento de fala estavam sistemas telefônicos automatizados e software de ditado médico. É freqüentemente usado para ditado, consulta de bancos de dados e para dar comandos a sistemas baseados em computador, especialmente em profissões que dependem de vocabulários especializados. Também permite assistentes pessoais em veículos e smartphones, como o Siri da Apple.

Antes que qualquer máquina possa interpretar a fala, um microfone deve converter as vibrações da voz de uma pessoa em um sinal elétrico semelhante a uma onda. Esse sinal, por sua vez, é convertido pelo hardware do sistema - por exemplo, a placa de som de um computador - em um sinal digital. É o sinal digital que um programa de reconhecimento de fala analisa para reconhecer fonemas separados, os blocos básicos da fala. Os fonemas são então recombinados em palavras. No entanto, muitas palavras são parecidas e, para selecionar a palavra apropriada, o programa deve confiar no contexto. Muitos programas estabelecem o contexto por meio da análise de trigramas, um método baseado em um banco de dados de clusters frequentes de três palavras, nas quais são atribuídas probabilidades de que quaisquer duas palavras sejam seguidas por uma terceira palavra. Por exemplo, se um interlocutor disser "quem sou", a próxima palavra será reconhecida como o pronome "eu", em vez do "olho" de aparência semelhante, mas menos provável. No entanto, às vezes é necessária intervenção humana para corrigir erros.

Programas para reconhecer algumas palavras isoladas, como sistemas de navegação por voz por telefone, funcionam para quase todos os usuários. Por outro lado, programas de fala contínua, como programas de ditado, devem ser treinados para reconhecer os padrões de fala de um indivíduo; o treinamento envolve o usuário lendo em voz alta amostras de texto. Hoje, com o crescente poder dos computadores pessoais e dispositivos móveis, a precisão do reconhecimento de fala melhorou bastante. As taxas de erro foram reduzidas para cerca de 5% em vocabulários que contêm dezenas de milhares de palavras. É alcançada uma precisão ainda maior em vocabulários limitados para aplicações especializadas, como o ditado de diagnósticos radiológicos.