Pregunta:
Software de reconocimiento de voz para Windows que toma archivos de audio como entrada y genera archivos de texto
Silverfish
2014-04-14 05:17:02 UTC
view on stackexchange narkive permalink

Estoy interesado en el software de reconocimiento de voz para Windows, que toma un archivo de audio de un podcast, digamos, en uno de los formatos estándar (MP3, WAV, OGG, etc.), y genera una transcripción del discurso como un Archivo de texto. La motivación es ayudar en la transcripción de podcasts para un wiki oficial.

Me gustaría poder enseñarlo, mejorar el reconocimiento de voz o aprender nuevas palabras. Además, debería ser capaz de soportar la conversación de varias personas, el habla superpuesta ocasionalmente y la música ocasional o los sonidos que no son del habla.

Solo necesito el software para trabajar con inglés.

¿Encontraste alguna vez algo que funcionara?
Respondí algo similar en [MP3 / WAV a texto (reconocimiento de voz)] (https://softwarerecs.stackexchange.com/a/41784/29879)
Dos respuestas:
Franck Dernoncourt
2014-04-14 05:23:56 UTC
view on stackexchange narkive permalink

Dragon NaturallySpeaking (no gratuito):

  • puede realizar transcripciones de voz, pero solo en una sola voz (es decir, no está diseñado para su uso con varios altavoces) y esto La voz debe ser tuya ya que necesitas entrenar a Dragon de antemano.
  • reconoce archivos .wav, .wma, .dss, ds2 y .mp3 para la versión de PC (.wav, .m4a, .m4v, .mp4, .aif y .aiff formatos de archivo de audio para Versión para Mac)
  • se le pueden enseñar nuevas palabras y se puede entrenar para mejorar la precisión.
Nikolay Shmyrev
2014-04-14 15:17:54 UTC
view on stackexchange narkive permalink

Si está buscando el software de código abierto y está listo para codificar, consulte CMUSphinx. En Windows puede ejecutar la versión de Java.

http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

Necesita convertir archivos mp3 a wav antes de pasarlos al reconocedor. Puede hacerlo con Java tritonus o con ffmpeg.

Puede adaptarlo en gran medida a su dominio y hablantes y obtener una buena precisión de reconocimiento.

Espejo de GitHub: [cmusphinx / sphinx4] (https://github.com/cmusphinx/sphinx4)


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...