MacInTalk

De Wikipedia, la enciclopedia libre

PlainTalk es el nombre colectivo de varias tecnologías de síntesis de voz (MacinTalk) y reconocimiento de voz desarrolladas por Apple Inc. En 1990, Apple invirtió mucho trabajo y dinero en tecnología de reconocimiento de voz y contrató a muchos investigadores en el campo. El resultado fue "PlainTalk", lanzado con los modelos AV de la serie Macintosh Quadra de 1993. Se convirtió en un componente estándar del sistema en System 7.1.2 y desde entonces se ha incluido en todos los PowerPC y algunos otros Macintosh de 68K.

Software[editar]

Síntesis del habla[editar]

Tecnología[editar]

La conversión de texto a voz de Apple utiliza difonos. En comparación con otros métodos de síntesis de voz, no requiere muchos recursos, pero limita la naturalidad que puede ser la síntesis de voz. Las versiones en inglés americano y español están disponibles, pero desde la llegada de Mac OS X, Apple solo ha enviado voces en inglés americano, confiando en proveedores externos como Acapela Group para suministrar voces en otros idiomas (en OS X 10.7, Apple concedió licencia muchas voces de terceros y las puso a disposición para su descarga desde el panel de control de voz).

Una interfaz de programación de aplicaciones conocida como Speech Manager permite a los desarrolladores externos utilizar síntesis de voz en sus aplicaciones. Hay varias secuencias de control que se pueden utilizar para afinar la entonación y el ritmo. También se pueden configurar el volumen, el tono y la velocidad del discurso.

La entrada al sintetizador se puede controlar explícitamente mediante un alfabeto de fonemas especial.

MacinTalk original[editar]

El motor inicial de conversión de texto a voz de Macintosh, MacinTalk (bautizado así por Denise Chandler), fue utilizado por Apple en la introducción del Macintosh en 1984, en el que la computadora se anunció al mundo (y se burló del peso de una computadora IBM). Si bien se incorporó al sistema operativo Macintosh, Apple no lo admitía oficialmente (aunque la información de programación estuvo disponible a través de una Nota técnica de Apple). MacinTalk fue desarrollado por Joseph Katz y Mark Barton, quienes luego fundaron SoftVoice, Inc., que actualmente comercializa motores TTS para Windows, Linux y plataformas integradas.

MacinTalk 2[editar]

Finalmente, Apple lanzó un sistema de síntesis de voz compatible, llamado MacinTalk 2. Es compatible con cualquier Macintosh que ejecute System Software 6.0.7 o posterior. Siguió siendo la versión recomendada para máquinas más lentas incluso después del lanzamiento de MacinTalk 3 y Pro.

MacinTalk 3, Pro[editar]

MacinTalk 3 introdujo una gran variedad de voces. Además de las voces estándar de adultos "Ralph", "Fred" y "Kathy", y de las voces infantiles como "Princess" y "Junior", se incluyeron varias voces novedosas, como "Whisper", "Zarvox" (una voz robótica con sonidos de fondo, con una voz similar llamada "Trinoids" también incluida), "Cellos" (una voz que cantaba su texto con una melodía de Edvard Grieg, con voces de canto similar como "Good News", "Bad News", "Pipe Organ"), "Albert" (una voz ronca), "Bells", "Boing", "Bubbles" y otros.

Cada una de estas voces venía con su propio texto de ejemplo, que se decía cuando se presionaba el botón "Prueba" en el panel de control de voz. Algunos simplemente decían su nombre, idioma y la versión de MacinTalk que les presentaron. Otros decían cosas divertidas, como "seguro que me gusta estar dentro de esta computadora tan elegante", "tengo una rana en la garganta... ¡No, quiero decir una rana de verdad!", "Debemos alegrarnos de esta voz morbosa" (una parodia de un himno religioso occidental con música de órgano) o "La luz que ves al final del túnel es el faro de un tren que se acerca rápidamente". Estas voces, así como sus textos de prueba, todavía se encuentran hoy en Mac OS X.

Con el aumento de la potencia informática que proporcionaban los Mac AV y los Macintosh basados en PowerPC, Apple podía permitirse el lujo de aumentar la calidad de la síntesis. MacInTalk 3 requería un procesador 68030 de 33 MHz y MacinTalk Pro requería un 68040 o mejor y al menos 1 MB de RAM. Cada sintetizador admitía un conjunto diferente de voces.

Texto a voz en Mac OS X[editar]

La conversión de texto a voz ha sido parte de todas las versiones de Mac OS X. La voz de Victoria se mejoró significativamente en Mac OS X v10.3 y se agregó como Vicki (Victoria no se eliminó). Su tamaño era casi 20 veces mayor debido a las muestras de dífonos de mayor calidad utilizadas.

Se agregó una nueva voz con un sonido mucho más natural, llamada "Alex", a la lista de conversión de texto a voz de Mac con el lanzamiento de Mac OS X 10.5 Leopard.[1]

Con Mac OS X 10.7 Lion, las voces están disponibles en inglés de EE. UU. adicional y otros acentos de inglés, así como en otros 21 idiomas.[2]

La función Leer el texto seleccionado al presionar una tecla permite leer el texto seleccionado de cualquier aplicación mediante una combinación de teclas. Desde Mac OS X 10.1 hasta Mac OS X 10.6, la función copiaría el texto seleccionado al portapapeles y lo leería desde allí. Desde Mac OS X 10.7 hasta Mac OS X 10.10, una nueva implementación de la función requirió que los desarrolladores de software implementaran una API de síntesis de voz en sus aplicaciones.[3][4]​ Esto evitó que se sobrescribiera el portapapeles, pero también significó que, para las aplicaciones que no usaban la API, la función no funcionaría como se esperaba, leyendo la barra de título en lugar del texto seleccionado.[5][6]

Reconocimiento de voz[editar]

Apple contrató a muchos investigadores de reconocimiento de voz en 1990. Después de aproximadamente un año, demostraron una tecnología con el nombre en código Casper. Fue lanzado como parte del paquete PlainTalk en 1993. Aunque estaba disponible para todas las máquinas PowerPC Macintosh y AV 68k (era una de las pocas aplicaciones que utilizaba el DSP en Centris 660AV y Quadra 840AV), no formaba parte de la instalación predeterminada del sistema antes de Mac OS X, por lo que requería la usuario para realizar una instalación personalizada del sistema operativo para obtener capacidades de reconocimiento de voz.

En Mac OS X 10.7 Lion y versiones anteriores, el reconocimiento de voz de Apple estaba orientado únicamente a comandos de voz, es decir, no estaba destinado al dictado. Se puede configurar para escuchar comandos cuando se presiona una tecla de acceso rápido, después de haber sido dirigido con una frase de activación como "Computadora" o "Macintosh", o sin que se le solicite. Un monitor de estado gráfico, a menudo en forma de personaje animado, proporciona información visual y textual sobre el estado de escucha, los comandos disponibles y las acciones. También puede comunicarse con el usuario mediante síntesis de voz.

Las primeras versiones del reconocimiento de voz brindaban acceso completo a los menús. Este soporte se eliminó más tarde, ya que requería demasiados recursos e hizo que el reconocimiento fuera menos confiable, sólo para volver a agregarse en Mac OS X 10.3 como una "tecnología de acceso universal" llamada interfaz de usuario hablada.

El usuario puede iniciar elementos ubicados en una carpeta especial, llamada "Elementos que se pueden hablar", simplemente diciendo su nombre (mientras el sistema está en modo de escucha). Apple envió varios AppleScripts en esta carpeta, pero los alias, los documentos y las carpetas se pueden abrir de la misma manera.

Las aplicaciones individuales proporcionan funcionalidad adicional. Una interfaz de programación de aplicaciones permite a los programas definir y modificar un vocabulario disponible. Por ejemplo, el Finder proporciona un vocabulario para manipular archivos y ventanas.

En OS X 10.8 Mountain Lion, Apple introdujo el "Dictado",[7]​ destinado a texto general. Originalmente, requería el envío de datos de audio a los servidores de Apple para su procesamiento. En OS X 10.9 Mavericks, Apple agregó la opción de descargar soporte para dictado sin conexión a Internet. A partir de OS X 10.9.3, se admiten ocho idiomas (19 dialectos).

En cultura popular[editar]

En la radio[editar]

La síntesis de voz MacinTalk se puede escuchar en algunos programas de radio:

  • Algunas de las emisiones de radio de la serie Blue Jam de British Radio 1 utilizan MacinTalk.[8]

En música[editar]

La síntesis de voz de MacinTalk se puede escuchar en algunas canciones:

  • "Vicki" de MacinTalk habla durante los descansos en "In Tokyo" de Studio Killers.
  • "Repeating Yesterday" del álbum Shadows Are Security de As I Lay Dying utilizó MacinTalk en la introducción.
  • "Satisfaction" de Benny Benassi, así como otras canciones suyas
  • "Toby's Mac" de tobyMac
  • La canción de Radiohead "Fitter Happier" del álbum OK Computer (y aparece en el fondo de "Paranoid Android" del mismo álbum)
  • Fall Out Boy usó MacinTalk al comienzo de "Grand Theft Autumn/Where Is Your Boy" (versión Millennium) y al final de la última pista y pistas extra de su álbum Infinity on High
  • La banda francesa Air utiliza varias voces de Macintosh en su tema "How Does it Make You Feel"
  • "Yoshimi Battles the Pink Robots, Pt. 1" de The Flaming Lips presenta la voz de "Zarvox"
  • Muchas pistas de Aphex Twin, incluidas "Funny Little Man" y "Cow Cud Is a Twin", también incluyen PlainTalk
  • La canción "John Orr the Arsonist" de And Then There Were None incluye un breve monólogo con esta voz.
  • "The Vic-E Interpretation - Interlude" del álbum FanMail de TLC presenta a "Victoria" comparando y contrastando la cultura de clubes en EE. UU. y Japón.
  • La "Introducción" del álbum Stankonia de OutKast incluye la voz de "Bells".
  • La canción "Pomme C" del cantante francés Calogero del álbum Pomme C presenta un breve monólogo al principio con la voz "Vicki"
  • "DWYL" de Phil Joel
  • La canción "Man That You Fear" de Marilyn Manson termina con las voces de MacinTalk repitiendo: "Cuando estés sufriendo, debes saber que te he traicionado". Las voces de MacinTalk se utilizan nuevamente en el vídeo musical[9]​ y en las presentaciones en vivo de "Antichrist Superstar". Las voces de MacinTalk repiten "También podrías suicidarte, ya estás muerto" al final de la canción.
  • La mayor parte del EP Transsexual y del álbum Lambs Anger de Mr Oizo contienen voces de MacinTalk
  • La canción de Korea Idol T-ara "Bo Peep Bo Peep" de la parte de introducción del Absolute First Album 'Don't lose your temper so quickly'
  • La canción de El-P "Stepfather Factory", del álbum de 2002 Fantastic Damage, termina con voces de MacinTalk que repiten: "¿Por qué haces que te lastime? Te amo".
  • La banda de EBM Apoptygma Bezerk usó la voz de MacinTalk Kathy en "Kathy's Song (Come Lie Next To Me)". El VNV Nation Remix también utiliza la voz "Victoria".
  • En la canción del productor de EDM Skrillex titulada "I Wish You All The Luck Of The World", se puede escuchar la voz de MacinTalk "Alex" repitiendo "David, te deseo toda la suerte del mundo" varias veces en varios tonos.
  • La canción de Rob & Goldie de 1997, "The Shadow (The Process Mix de Rick Smith para Underworld)", hace un uso extensivo de la voz de "Victoria", leyendo una definición de diccionario de "sombra" y un poema del libro Process: A Tomato Project.
  • El álbum "Métamorphoses" de Jean-Michel Jarre de 2000 utiliza MacinTalk para generar letras en la canción "Love, Love, Love".
  • La primera línea de "Treasure" de Bruno Mars en el álbum Unorthodox Jukebox es la voz de Alex que dice: "Baby squirrel, you's a sexy motherfucker".
  • En "Sometimes Things Get, Whatever" de deadmau5 en el álbum Random Album Title la línea en bucle "Sometimes Things Get Complicated" es una combinación de las voces de "Ralph" y "Kathy".
  • El grupo electrónico alemán Monolake utiliza la voz PlainTalk "Whisper" en la canción "Bicom" de su álbum Cinemascope.
  • El chipspeech del sintetizador virtual de Plogue Art et Technologie emula MacinTalk 1.0.

En la película[editar]

  • Una combinación de las voces de "Ralph" y "Bad News" sirve como voz del piloto automático computarizado, AUTO, en la película WALL-E de Disney-Pixar de 2008. "MacInTalk" aparece acreditada como la voz de Auto en los créditos finales de la película.[10]
  • En The Lego Movie, la voz de Samantha se utiliza en lugar de la Mega computadora.
  • The Lego Batman Movie también presentó a Samantha como la voz de la computadora de Batman. (En créditos se reconoce como Siri)

En televisión[editar]

En videojuegos[editar]

  • MacinTalk se utilizó en la versión japonesa del juego Killer7, como las voces de Remnant Psyches.
  • MacinTalk se usó en el juego No More Heroes. Antes de cada pelea con el jefe, la voz "Whisper" anunciaría el nombre del jefe actual.
  • El videojuego Grand Theft Auto IV utilizó a "Vicki" como la voz del DJ de la estación de radio del juego "The Journey".
  • El videojuego de 2009 Machinarium presenta varias voces de Macintalk en su música ambiental.
  • La versión 3DO de Star Control 2 usó "Bruce" como la voz de Slylandro Probe. El juego acredita la voz de la sonda como 840AV. "Agnes" también se usó como la voz de la computadora de la nave del Capitán, escuchada en el primer encuentro con la raza Orz.
  • El videojuego de 1996 Safecracker utiliza "Victoria" en dos de las cajas fuertes avanzadas.
  • La versión japonesa de Sonic CD usó voces de MacinTalk en la música de fondo de los escenarios de Bad Future de Metallic Madness.
  • El videojuego Castle Crashers utilizó la novedosa voz Boing, para un personaje conocido como The Painter.
  • El videojuego de 2003 Shin Megami Tensei: Nocturne usó "Albert" como voz en su banda sonora.

Hardware[editar]

Apple produjo dos micrófonos bajo el nombre de "Apple PlainTalk Microphone". El primero se envió inclusive con Macintosh LC y los primeros modelos Performa, y tenía apariencia circular. Fue diseñado para colocarse en un soporte adjunto al costado de una pantalla CRT y levantarse y sostenerse con la boca al hablar. El segundo modelo se introdujo junto con los modelos AV de la serie Macintosh Quadra en 1993, pero también se vendió por separado. Fue diseñado para colocarse encima de la pantalla y ser sensible al sonido del frente. Ambos modelos tenían un conector más largo, cuya punta se usaba para proporcionar voltaje de polarización al micrófono.

Referencias[editar]

  1. «Accessibility - OS X». Apple. Consultado el 27 de abril de 2016. 
  2. «Copia archivada». Archivado desde el original el 24 de septiembre de 2011. Consultado el 23 de julio de 2011. 
  3. «Introduction to Speech Synthesis Programming Guide». Developer.apple.com. 5 de septiembre de 2006. Consultado el 27 de abril de 2016. 
  4. «Speech Synthesis in OS X». Developer.apple.com. 5 de septiembre de 2006. Consultado el 27 de abril de 2016. 
  5. «[Solved] Text to speech only reads the document title (View topic) • Apache OpenOffice Community Forum». Forum.openoffice.org. Consultado el 27 de abril de 2016. 
  6. «scottmartin/speak-selected-text-sublime: A plugin to use the Mac's text to speech from Sublime Text 2». GitHub.com. Consultado el 27 de abril de 2016. 
  7. «Use your voice to enter text on your Mac - Apple Support». Support.apple.com. 5 de abril de 2016. Consultado el 27 de abril de 2016. 
  8. «Chris Morris - Blue Jam - Steve Lamacq Sting». YouTube. BBC Radio 1. Consultado el 30 de noviembre de 2014. 
  9. «Marilyn Manson - Antichrist Superstar Official Music Video». Antichrist Superstar Official Music Video. NME.com. Consultado el 15 de agosto de 2011. 
  10. Steve "Capone" Prokopy (24 de junio de 2008). «Andrew Stanton Gives Up the Goods on WALL-E and JOHN CARTER to Capone!». Ain't It Cool News. Consultado el 22 de noviembre de 2008. 

Enlaces externos[editar]