estrategIA #33: Google vs OpenAI: una semana de innovación y desafíos en el mundo de la inteligencia artificial
Newsletter pionera en español sobre inteligencia artificial en la Política y el Gobierno. Impulsada por la Institución Educativa ALEPH
Nota: Como experimento utilizando la “Herramienta de IA de la semana” que les recomendamos en esta ocasión, Openvoice2, hemos generado con una inteligencia artificial open source y gratuita, la que les comentamos con más detalle en esa sección, la narración del artículo principal y de las noticias de este número de estrategIA.
Hacia una IA omnipresente: las novedades de OpenAI y Google que transformarán el futuro
En apenas un mes, entre mediados de mayo y mediados de junio se produce la mayor concentración de conferencias tecnológicas cada año: ayer, 14 de mayo, fue el Google I/O, contraprogramado el día 13 con una breve pero espectacular conferencia-demo de OpenAI, entre el 21 y el 23 de mayo tendrá lugar el Microsoft Build y la Apple Worldwide Developers Conference será entre el 10 y el 14 de junio. Todas ellas este año tienen a la inteligencia artificial como gran, y casi único, tema y en ellas se nos va a mostrar no sólo lo que ya está aquí sino también cómo puede ser el futuro inmediato.
En estrategIA les iremos informando de todo lo que viene por parte de estos gigantes tecnológicos que junto a muy pocas empresas más (Meta, Tesla, Nvidia, Mistral…) marcan el paso de una tecnología tan disruptiva como la IA. Pero comencemos por la primera de ellas: la conferencia-demo que el pasado lunes realizó OpenAI y que ha mostrado seguramente las capacidades más innovadoras y traído el mayor regalo: GPT-4o GRATIS para todos los usuarios.
En un evento de 25 minutos celebrado el pasado lunes, día 13 de mayo, para contraprogramar a Google OpenAI, cambió el panorama de la inteligencia artificial con el lanzamiento de GPT-4o, la “o” viene por: “Omni”. Este modelo supera significativamente a su predecesor, GPT-4, demostrando una mejora de 60 puntos Elo en el benchmark LMSys y situándose como el modelo más potente del mundo por encima de Gemini 1.5 Pro, Claude 3, y Llama 3-70B.
El aspecto más sorprendente y relevante de GPT-4o es que será gratuito para los usuarios, marcando un cambio radical en la dinámica empresarial del sector y poniendo al alcance del público general, por fin, un modelo bastante avanzado. Anteriormente, OpenAI había lanzado GPT-4 como una suscripción de 20 dólares al mes, una decisión que limitó su adopción. Ahora, con mejoras de eficiencia, OpenAI puede ofrecer GPT-4o sin costo, desafiando a los competidores que cobran por modelos inferiores.
GPT-4o no solo es superior en procesamiento de texto, sino que, quizá su punto más relevante –aparte de la implementación gratuita– es que es un modelo multimodal, capaz de manejar texto, audio, voz, e imágenes simultáneamente. Esto lo acerca a la visión de una IA similar a la de la película “Her” (algo que quedó muy de manifiesto en su demostración en directo) , con capacidades avanzadas de voz y video, mostrando respuestas emocionales y comportamientos casi humanos en tiempo real.
En la web de OpenAI la compañía, además de desgranar detalladamente todas las características del nuevo GPT-4o, agregó varios videos e imágenes muy interesantes que muestran características diferentes a las que enseñaron en la propia breve demostración técnica en directo y que son fascinantes por sus potenciales usos también en el campo de la política (asesoramiento de imagen, generación de texto en imágenes, brand placement…)
Les invitamos a conocer más sobre el modelo en la web de OpenAI, y sobre todo a probarlo pues ya está disponible hoy también para los usuarios gratuitos en: https://chatgpt.com
Google I/O
Si eso sucedió el lunes y supuso un impacto muy notable en la comunidad de entusiastas de la IA a nivel mundial (por la ya mencionada gratuidad del modelo que hará que cualquier persona pueda hacerse una idea mejor de las capacidades actuales de la IA y también por la multimodalidad, el uso por voz y como “compañero de trabajo”), ayer martes Google celebró su tradicional conferencia anual para desarrolladores, el Google I/O y trató de dar respuesta con casi dos horas de presentación centradas totalmente en la integración de inteligencia artificial en todas sus herramientas y en el desarrollo de nuevos modelos.
Uno de los anuncios más destacados fue el "Project Astra", un nuevo agente de IA alimentado por Gemini que exhibe una comprensión espacial y memoria notables. En una demostración en vivo, Project Astra pudo recordar dónde había dejado un empleado sus gafas en la oficina de DeepMind en Londres, señalando su ubicación junto a una manzana en su escritorio mostrando un ejemplo sencillo del interés que puede tener que los modelos multimodales tengan memoria para ayudarnos en múltiples tareas.
Google también presentó Gemini 1.5 Pro, un modelo de IA avanzado que ofrece una ventana de contexto de un millón de tokens, permitiendo posibilidades completamente nuevas para los desarrolladores. Pichai anunció que Gemini 1.5 Pro se está implementando para todos los desarrolladores a nivel mundial y que la compañía lo está expandiendo a una ventana de contexto aún más larga de 2 millones de tokens.
Además, Google reveló actualizaciones para Google Photos, incluyendo "Ask Photos" impulsado por Gemini, que puede resumir recuerdos fotográficos y extraer información de ellos. Los usuarios pueden hacer preguntas como "¿cuál es mi número de matrícula?" y Google Photos reconocerá un automóvil que aparece con frecuencia y proporcionará ese número de matrícula.
En el frente de Android, Android 15 se actualizará con "IA en su núcleo", según Sameer Samat, presidente del ecosistema de Android en Google. Las principales mejoras incluyen: búsqueda potenciada por IA al alcance de la mano, Gemini como el nuevo asistente de IA en Android y IA en el dispositivo para desbloquear nuevas experiencias.
Google también mostró Veo, su nuevo generador de videos de IA que competirá con Sora de OpenAI, e Imagen 3, la última versión de su generador de imágenes de IA. En el ámbito musical, Google presentó Lryia, su generador de música con IA.
Quizá la transformación inmediata más significativa, aunque su lanzamiento inmediato es sólo para EEUU, es el cambio en el buscador de Google que todos habitualmente utilizamos y que va a integrar IA en sus respuestas por defecto cambiando el modelo que llevaba asentado más de 25 años y afectando de forma muy notable al tráfico hacia páginas web externas y también al posicionamiento y la publicidad en buscadores.
En general, el Google IO 2024 subrayó el compromiso de Google de integrar la IA en todos sus productos y servicios clave, hasta el punto de que cerraron la conferencia con un chiste sobre cuántas veces contenía las palabras inteligencia artificial el guion de la presentación: 121.
Pese a todo ese despliegue y la presencia en el escenario de Demis Hassabis, fundador de Deepmind y líder de la que probablemente es la IA científica más poderosa de nuestros días: Alpha Fold 3, que revelaron hace unos días, la comunidad de entusiastas de la IA no ha quedado especialmente convencida por lo ofrecido por Google ya que muchas de las novedades presentadas están aún en fase de prototipo y prácticamente todas las nuevas funcionalidades no van a tener un despliegue inmediato. La sensación sigue siendo que OpenAI está un año o al menos seis meses por delante de Google en IA (y ese tiempo en inteligencia artificial es un mundo)
Aun así las innovaciones que se han visto estos dos días en ambas presentaciones empiezan a dar muestras de cómo la IA va a ir transformando nuestra experiencia cotidiana en múltiples aspectos.
Comparta estrategIA: uniendo IA y Política
Hemos superado el medio millar de suscriptores. Gracias por compartir esta newsletter. Puede invitar a otros a leer, gratis y sin necesidad de suscribirse, esta publicación con el siguiente botón:
Actualidad y artículos de interés
California explora varios casos de uso de IA generativa en servicios estatales
California ha iniciado un proyecto con cinco empresas tecnológicas para explorar aplicaciones de inteligencia artificial generativa en diferentes agencias estatales. Esta iniciativa, anunciada por la Agencia de Operaciones Gubernamentales, incluye a compañías como OpenAI, Anthropic, Google y Meta, y pretende evaluar la efectividad de la inteligencia artificial generativa durante seis meses. Los proyectos abordarán temas críticos como la seguridad vial, la congestión del tráfico, las inspecciones de instalaciones de salud y el acceso lingüístico a los servicios estatales. Las pruebas, que contarán con supervisión humana constante, buscan incorporar la IA de manera que complemente la labor de los trabajadores estatales y mejore los servicios públicos, manteniendo un enfoque centrado en el ser humano. Esta exploración responde a una orden ejecutiva del gobernador Gavin Newsom y nuevas directrices sobre la implementación de herramientas de IA generativas emitidas en marzo.
Microsoft desarrolla una IA aislada de internet para las agencias de inteligencia estadounidenses
Microsoft ha implementado un modelo de inteligencia artificial, basado en GPT-4, específicamente diseñado para el análisis de información clasificada por agencias de inteligencia de EE.UU. Este sistema, presentado en el Expo SCSP AI 2024 en Washington D.C., opera completamente desconectado de internet en un entorno de nube "air-gapped", accesible únicamente por el gobierno estadounidense. El modelo, que ha estado en desarrollo durante 18 meses, aún está en fase de pruebas y debe ser acreditado por la comunidad de inteligencia. Este desarrollo se presenta en un momento crítico para la reputación de ciberseguridad de Microsoft, tras las recientes críticas sobre sus prácticas de seguridad.
El impacto de la inteligencia artificial en el empleo: una visión preocupante según Sam Altman
Sam Altman, CEO de OpenAI, ha expresado una preocupante visión sobre el impacto de la inteligencia artificial en el empleo y la economía, destacando que la sociedad podría estar subestimando los cambios socioeconómicos inminentes que esta tecnología podría traer. En una entrevista con Brookings Institution, Altman manifestó su preocupación por la falta de seriedad con la que se están tratando las posibles consecuencias laborales de la IA, a pesar de las advertencias de instituciones reconocidas. Según un estudio del Fondo Monetario Internacional, hasta el sesenta por ciento de los empleos en economías avanzadas podrían verse afectados por la automatización que facilita la IA, con un cincuenta por ciento de los trabajos susceptibles de ser automatizados, lo que implicaría menos contrataciones y salarios más bajos para puestos menos especializados.
Biden anuncia la inversión de tres mil trescientos millones de Microsoft en un centro de datos de IA en Wisconsin
En un evento reciente en Wisconsin, el presidente Joe Biden anunció una inversión de 3.300 millones de dólares por parte de Microsoft para establecer un centro de datos de inteligencia artificial. Este proyecto se ubicará en el terreno originalmente destinado para una planta de Foxconn, que no se materializó como estaba previsto durante la administración de Donald Trump. Biden criticó las promesas fallidas de su predecesor y destacó el enfoque de su administración en la inversión dentro del país, que incluye el desarrollo de infraestructura y la creación de empleos que no requieren títulos universitarios de cuatro años. Se espera que la inversión genere 2.000 empleos permanentes y ofrezca capacitación en colaboración con Gateway Technical College para preparar a los residentes en tecnología y ciencia.
La inteligencia artificial transforma la gestión del alumbrado público en las ciudades europeas
La implementación de inteligencia artificial en la gestión del alumbrado público está marcando un cambio significativo en la planificación urbana y la sostenibilidad en diversas ciudades de Europa. Utilizando tecnologías avanzadas, ciudades como Barcelona, Rotterdam y Múnich están liderando la transformación hacia sistemas de iluminación más eficientes y adaptativos. Estas innovaciones no solo mejoran la eficiencia energética, sino que también contribuyen al bienestar ciudadano mediante la gestión optimizada de espacios públicos y el aumento de la seguridad urbana.
La IA permite automatizar el mantenimiento y la conservación del alumbrado, así como la rápida detección y reparación de averías, asegurando que los espacios públicos permanezcan iluminados y seguros. Además, esta tecnología apoya la reducción del consumo energético y la huella de carbono, alineando a las ciudades con sus objetivos de sostenibilidad ambiental.
IA en acción (nuestro rincón más práctico)
Herramienta de IA de la semana
Esta semana hemos llevado a cabo un experimento para traeros la posibilidad de escuchar el texto del artículo principal de la newsletter y de las “noticias”. Para ello hemos usado el que quizá es el clonador de voz de texto a voz (tts) más potente de los que son open source, gratuito, que puede correr en local y, clave, que soporte el español (muchos modelos abiertos en este campo –algunos realmente avanzados- sólo están aún en inglés) Si bien el resultado está lejos aún del que consiguen herramientas comerciales como Elevenlabs se lo recomendamos, ya que muy probablemente mejorará en las próximas semanas o meses, y también la herramienta general que permite hacer funcionar este y otros muchos modelos abiertos en local de forma bastante sencilla (aunque sigue siendo mucho más complejo instalarlo en tu propio PC que hacerlo a través de una simple web, obviamente) Pinokio. La ventaja es que corre de forma gratuita y sobre todo el control de privacidad en algo tan sensible como puede ser la clonación de voces y otro tipo de aplicaciones de la IA.
Prompts para GPT-4
Con la salida del nuevo GPT-4o que pone de forma gratuita en manos de todos ustedes el utilizar un modelo bastante avanzado cobra especial relevancia la recopilación de prompts de todos los que hemos ido compartiendo en estos más de 30 números de estrategIA, y que ya les compartimos en el número anterior, aquí les dejamos el enlace de todos ellos para que puedan utilizarlos en el nuevo modelo:
Aún tenemos que ver cómo se adaptan exactamente los prompts de GPT-4 al nuevo modelo, aunque sin duda funcionarán mucho mejor en un modelo más inteligente de lo que lo harían previamente en GPT 3.5, Para probar las capacidades de GPT-4o le hemos pedido que genere prompts que aprovechen el nuevo modelo, esta ha sido su interesante sugerencia:
"Actúa como un gran experto en temas de política y gobierno. Me gustaría explorar cuestiones sobre la política fiscal y su impacto en la economía de un país. Específicamente, quiero entender cómo diferentes enfoques fiscales (como la política fiscal expansiva y la política fiscal contractiva) afectan el crecimiento económico, la inflación y el empleo en el contexto de diferentes sistemas de gobierno (por ejemplo, democracias parlamentarias versus regímenes autoritarios).
Por favor, proporciona un análisis detallado que incluya:
Definición y explicación de la política fiscal expansiva y contractiva.
Ejemplos históricos de países que han implementado estos enfoques y los resultados obtenidos.
Comparación del impacto de estas políticas en economías desarrolladas versus economías en desarrollo.
Análisis de cómo el tipo de sistema de gobierno puede influir en la implementación y efectividad de estas políticas fiscales.
Recomendaciones basadas en investigaciones actuales sobre qué enfoques podrían ser más efectivos en diferentes contextos socioeconómicos.
Además, destaca cómo las capacidades avanzadas de GPT-4 permiten ofrecer un análisis más matizado y completo en comparación con modelos anteriores, como GPT-3, especialmente en términos de:
Comprensión de contextos complejos y multifacéticos.
Capacidad para integrar información de múltiples fuentes y en diferentes idiomas.
Generación de respuestas coherentes y detalladas que abarcan diferentes perspectivas."
Recomendación de la semana
La mejor recomendación que podemos hacerles esta semana es que vean las presentaciones de OpenAI y de Google para que comprueben por ustedes mismos el punto en el que está la IA y hacía dónde camina, no es ni parecido “leerlo” que “verlo”. Por suerte hay la opción de ver estas conferencias además con más y mejor contexto de la mano de los directos que ha realizado estos días el divulgador experto en IA Carlos Santana, DotCSV en Youtube, y que son muy recomendables:
Presentación de OpenAI
Google I/O