usuario
clave
iniciar sesión
regístrate
Portada
Canales
  • Apple
  • Blackhats
  • Ciencia
  • Comunicación
  • Curiosidades
  • e-Administración
  • Empresas
  • Eventos
  • Hardware
  • Nombramientos
  • Seguridad
  • Software
  • Software Libre
  • Telefonía
  • Videojuegos
  • Wireless
El Periódico
  • Blogs amigos
  • Editorial
  • Entrevistas
  • Gadgets
  • Minijuegos
  • Perfiles
  • Tags
  • Top noticias
  • Videorreportajes
  • Webcómics
MiFlecha
  • Blogs
  • Imágenes
  • Videos
Servicios
  • Boletines
  • Formación
  • Tienda
  • Viviendas
Comunidad
  • Encuestas
  • Foros
  • Emails de los lectores
  • Chat
Viviendas
Acción:
Propiedad:
Provincia:



Patrocinado por:
Pisos y casas en España
Tienda
Boletín semanal
Email:
Boletines publicados
  • Telefonía
  • Noticias
Otras noticias
  • El 30% de los españoles no tiene móvil
  • LG vende 15 millones de Optimus L
  • Prohiben utilizar teléfonos móviles en las carreteras del Reino Unido
  • El iPhone es el mejor invento de 2007
  • Adaptan 500 películas para ser vistas a través de la pantalla del móvil
  • Los juegos para móviles se están convirtiendo en un asunto serio
  • Su teléfono móvil sabe más acerca de su vida privada de lo que usted mismo sabe
  • Vodafone "espera ansioso" la versión 3G del iPhone
  • China Mobile desarrollará un teléfono con HTC
  • Google lanza oficialmente "Google Wallet" en EEUU
Más noticias
En el foro
  • Grandes ofertas con Eroski Móvil
  • PROMOCION SIMYO: hasta 20 euros de saldo gratis mayo 18/05/2013
  • WhatsApp: "Somos tan grandes como Twitter"
  • iPhone o Blackberry??? cual me compro?
  • ¿Qué tono/melodía tienes en el móvil?
Ir al foro de Telefonía

Una tecnología de habla y traducción en nube podría permitir a cualquier aplicación ser controlada con la voz

En un esfuerzo por hacer que el habla sea la forma principal con que la gente controle la tecnología, AT&T está haciendo que su sistema de reconocimiento de voz pueda ser usado por terceros. A partir de junio, los ingenieros de software podrán acceder a un servicio en nube ofrecido por la empresa para hacer que cualquier dispositivo capaz de conectarse a Internet pueda responder a la voz de su amo.

25 Abr 2012 | TECHNOLOGYREVIEW.COM
A

T&T cree que la tecnología en última instancia podría ser utilizada para una gran variedad de cosas, desde aplicaciones de teléfonos inteligentes y juegos en línea hasta automóviles y electrodomésticos. Aunque la oferta inicial solo convertirá la voz en texto, y los comandos correspondientes, la compañía está considerando un conjunto más amplio de ofertas en el futuro, entre ellas traducciones de textos en inglés a otros seis idiomas y viceversa, además de sintetizar textos traducidos.

"Creemos que mucha gente inteligente podría crear aplicaciones y servicios que nunca se nos habrían ocurrido", asegura Mazin Gilbert, vicepresidente de investigación de sistemas inteligentes en AT&T Labs, con sede en Florham Park, Nueva Jersey (EE.UU.). Para utilizar la tecnología, los desarrolladores incluyen código en su software para utilizar una API (interfaz de programación de aplicaciones) especificada por AT&T. Este código hace que una aplicación envíe voz a AT&T a través de Internet, para después convertirla en texto y devolver el resultado al dispositivo. Las nuevas API se anunciaron la semana pasada. AT&T afirma que la tecnología tiene un 95 por ciento de precisión tomando voz en inglés y transformándola en texto. Indica que su precisión en la conversión del significado del texto en inglés a otros idiomas oscila entre el 70 y el 80 por ciento.

La tecnología de voz que ofrece AT&T ya se utiliza en muchas de sus propias aplicaciones, entre ellas la aplicación de traducción para teléfonos Android e iOS, así como el directorio de búsquedas móviles por voz que proporciona Yellow Pages."Quiero que, en vez de solo varios centenares, haya un millón de aplicaciones que usen nuestra plataforma", afirma Gilbert. "Cualquiera que sea tu idea, queremos darte una API que se ajuste a ella. Francamente, no sé para qué las va a utilizar la gente".

La tecnología de AT&T se basa en décadas de innovación en los laboratorios Bell antes de la división de AT&T y la posterior creación de sus propios laboratorios. Sin embargo, la empresa debe competir con proveedores más establecidos de tecnología de reconocimiento de voz, especialmente en el ámbito de los teléfonos inteligentes.

Por ejemplo, Nuance ofrece capacidades de reconocimiento de voz para muchas compañías, entre ellas, según se ha informado, Apple y su asistente personal Siri. La tecnología de reconocimiento de voz de Google se ofrece a través de su sistema operativo Android, y por cualquier aplicación escrita para uno de dichos dispositivos. Microsoft también posee una tecnología de reconocimiento de voz, integrada en su sistema operativo Windows Phone y en los productos de socios como Ford, con su sistema Sync para el entretenimiento en el automóvil.

Krish Prabhu, director general de AT&T Labs, cree que hacer que la tecnología esté ampliamente disponible permitirá que la computación móvil pueda crecer más y a mayor velocidad. "En el contexto de un mundo en el que hemos resuelto en gran medida los problemas de conectividad y alcance, aunque todavía haya cuestiones por resolver, esta apuesta por el reconocimiento de voz proviene de la convicción de que la interfaz para conectarse a la red tiene que ser más simple", señaló en una demostración de laboratorio en Nueva York la semana pasada. "Estamos tratando de allanar el camino para que la tecnología no se convierta en un obstáculo".

La API de AT&T para convertir voz en texto, que se lanzará en junio, constará de siete versiones adaptadas a usos específicos, tales como dictar mensajes de texto, buscar negocios locales, responder a preguntas, convertir los mensajes de voz en texto y llevar a cabo labores generales de dictado. En el futuro, se añadirán API específicas para juegos en línea y redes sociales.

Más tarde, podría haber API disponibles para traducir texto entre el inglés y otros seis idiomas: español, francés, italiano, alemán, chino y japonés. Otras lenguas, entre ellas el coreano y el árabe, están en camino, aunque AT&T se posicionará muy por detrás de sus competidores. Por ejemplo, Google ya ofrece herramientas para desarrolladores capaces de traducir entre más de mil pares de idiomas.

Gilbert señala que el uso de todas las API llevaría una cuota de inscripción de 99 dólares (75 euros) en 2012, y que para después de 2012 los planes no son públicos aún. Google cobra por sus propias API de traducción.

Mejorar la precisión del software de reconocimiento de voz o de traducción requiere obtener más datos para entrenar a los algoritmos subyacentes. Para dicho proceso, AT&T podría llegar a solicitar la opinión de las personas que utilicen productos con tecnología de traducción y habla incorporada. "El crowdsourcing permitiría realizar esta labor y llegar a niveles mucho más altos de precisión, lo cual a su vez impulsaría una adopción más amplia y una mayor satisfacción de los usuarios", afirma Sam Ramji, científico informático y vicepresidente de estrategia en Apigee, que construye plataformas para API y está trabajando en el proyecto de AT&T.

Ramji cree que poner una buena tecnología de reconocimiento de voz a disposición del público poco a poco podría hacer que los menús e interfaces tradicionales basados en texto acabaran siendo algo del pasado. "Las interfaces de usuario actuales son como árboles por los que tenemos que navegar para reflejar la estructura del programa. Lo que tendría que suceder es que los dispositivos analizaran la orden que sale de nuestras bocas", concluye.


Boletín

Si quieres recibir cada semana las noticias más interesantes suscríbete a nuestro boletín.

Comentarios
LaFlecha.net no se hace responsable del contenido de los comentarios publicados.
Entérate de cuándo hay nuevos comentarios

No se permitirán los comentarios que :
- puedan resultar ofensivos o injuriosos
- incluyan insultos, alusiones sexuales innecesarias y palabras soeces o vulgares
- apoyen la pedofilia, el terrorismo o la xenofobia

Autor
Comentario
Ver más...
BBCode (Ayuda): [b], [i], [u], [s], [quote], [code], [spoiler]
Publicidad
Ahora en LaFlecha puedes encontrar Cursos y Másters



  • Acerca de LaFlecha
  • Contactar
  • Política de privacidad
  • RSS/RDF
  • Síguenos en Twitter
  • ¿Quieres saberlo todo sobre Hacking?
  • Svenson
  • Curso Inglés intensivo
  • Aprendemás
  • Médicos Sin Fronteras