estrategIA #75 Cómo usar la IA para hacer mejores investigaciones: probamos OpenAI Deep Research, Perplexity Deep Research y xAI DeepSearch
Newsletter pionera en español sobre inteligencia artificial en la Política y el Gobierno. Impulsada por la Institución Educativa ALEPH
Febrero, el mes de la “investigación profunda” con IA: presentamos y ponemos a prueba tres grandes herramientas
Febrero de 2025 ha marcado un hito en el mundo de la inteligencia artificial con el lanzamiento de tres herramientas de investigación profunda: OpenAI Deep Research, Perplexity Deep Research y xAI DeepSearch. Este mes, la carrera por transformar cómo exploramos y analizamos información ha alcanzado nuevas alturas, y en esta entrada las presentamos y hacemos una primera evaluación de sus capacidades que creemos que pueden ser tremendamente útiles para el campo de la política y el gobierno.
El pionero en lanzar una herramienta de Investigación profunda fue Google, el pasado 11 de diciembre de 2024 con Deep Research. No lo hemos incluido en esta comparación porque sí bien tiene el gran mérito de ser el pionero, está aún impulsado por un modelo de IA de una generación anterior Gemini Pro 1.5 y sería injusto confrontarlo aquí con herramientas de investigación en profundidad que utilizan modelos razonadores mucho más potentes y avanzados. De todas maneras es muy probable que Google actualice este modelo en las próximas fechas (de igual manera que ha desarrollado incluso un modelo más complejo y potente para investigación científica, el Co-scientist del que les hablábamos la pasada semana)
El término "investigación profunda" se refiere a las capacidades de los modelos de IA para realizar búsquedas avanzadas, analizar múltiples fuentes y sintetizar información en informes comprensibles, a menudo utilizando técnicas de aprendizaje profundo y razonamiento avanzado. Estos modelos, con las diferencias que señalaremos sobre ellos, son especialmente útiles para tareas profesionales como podrían ser análisis financiero, investigación científica y desarrollo de productos, y creemos que también pueden serlo en el ámbito académico y profesional de la política y el gobierno.
Presentación de los modelos
En primer lugar vamos a recapitular los modelos presentados en febrero de 2025 y sus principales características:
OpenAI Deep Research: El poder del razonamiento más avanzado
Lanzada el 2 de febrero, esta herramienta, impulsada por el modelo O3 (la IA más potente accesible hoy públicamente en el mundo), destaca por su enfoque en el razonamiento lógico y su capacidad para generar informes largos y detallados. Dirigida a profesionales, estaba inicialmente sólo disponible para usuarios Pro (200 dólares al mes), y, afortunadamente, desde el 26 de febrero, los suscriptores Plus (20 dólares -o euros- más impuestos al mes) obtienen la opción de realizar 10 investigaciones mensuales.
Perplexity Deep Research: accesibilidad y eficiencia
El 14 de febrero, Perplexity presentó su propuesta de investigación avanzada, basada en el modelo chino DeepSeek R1, un transformer de código abierto optimizado para razonamiento. La principal ventaja sobre sus competidoras es que se puede utilizar de forma gratuita, aunque con límites de uso.
xAI DeepSearch: la búsqueda de próxima generación
Tan sólo unos días más tarde, xAI lanzó DeepSearch el 18 de febrero como parte de Grok 3. Integrada con datos en tiempo real de X y la web, está disponible para suscriptores Premium+ (30 dólares al mes) y, temporalmente también para cuentas gratuitas (les invitamos a que la prueben mientras esto sea así).
Cuadro resumen:
Pruebas preliminares de estos modelos
Para tratar de presentarles más información sobre estas herramientas de investigación profunda (que si bien son todas ellas interesantes presentan en los resultados enormes diferencias entre ellas que las hacen más o menos adecuadas para diferentes tipos de uso) hemos realizado un par de test preliminares pero profundos, pidiéndoles, en primer lugar, una investigación más “teórica y académica”, centrada en comparación de sistemas electorales de distintos países y, en segundo lugar, una investigación más aplicada y práctica, pegada a la actualidad consistente en que analizaran la situación demoscópica electoral actual de España.
Tal y como había leído previamente a destacados expertos y científicos (como Ethan Mollick o Derya Unutmaz), es necesario ser un notable experto en la materia para poder juzgar la investigación del modelo de OpenAI por su potencia y calidad. Para ser más imparcial en este análisis preliminar, he aprovechado que no estábamos evaluando al modelo de investigación avanzada de Google por lo ya comentado al inicio del artículo, y me he servido de su modelo razonador más capaz para que me ayude a desplegar todo el potencial en la pregunta que le planteamos a los tres modelos probados y, especialmente, para que lleve a cabo una evaluación del contenido obtenido tras utilizar los tres sistemas para la misma cuestión.
Les compartimos a continuación la pregunta, los enlaces de la respuestas de cada uno de los modelos que pueden y deberían ver por ustedes mismos (que nos parece la mejor manera de aproximarse a estos modelos) y una tabla resumen realizada con Gemini 2.0 Flash Thinking Experimental de la evaluación que realiza de las respuestas.
Además les dejamos este enlace, que les invitamos a que consulten, con un documento de 119 páginas con las preguntas completas (los prompts solicitados), las respuestas recopiladas de los tres modelos y la evaluación total que hace el modelo razonador más avanzado de Google:
- Primera cuestión:
Análisis comparativo exhaustivo de sistemas electorales en democracias diversas: un estudio profundo de Reino Unido, Alemania y Brasil.
(recordad que tienen la petición completa –el prompt– que es bastante larga y detallada, ese sería sólo el título, en el documento)
RESPUESTAS de los modelos (haciendo clic en el nombre se accede a la respuesta original de cada uno que recomendamos que vean):
OpenAI Deep Research : (hay que tener en cuenta, es un detalle clave y lo comentaremos más adelante, que el tiempo que emplean estas herramientas es muy diferente, el sistema de OpenAI empleó más de 11 minutos para dar esa desarrollada respuesta, los otros aunque buscan fuentes y “piensan” no suelen pasar del minuto…
Y aquí les dejamos la tabla resumen de la evaluación que el modelo razonador más avanzado de Google realizó sobre los contenidos obtenidos por las distintas investigaciones:
- Segunda pregunta:
Proyección electoral en españa: análisis de tendencias demoscópicas y escenarios políticos para marzo de 2025
Y esta fue la tabla resumen de la evaluación que de las respuestas a esta segunda cuestión dio Gemini 2.0 Flash Thinking Experimental:
Esta es la principal conclusión que nos daba Gemini después de evaluar las respuestas de esta prueba preliminar de los modelos de investigación profunda:
“OpenAI Deep Research, en esta comparación, demuestra una impresionante capacidad para actuar como una poderosa herramienta de investigación y análisis, acercándose a la calidad de un análisis profesional de ciencia política.”
Impresiones personales
En primer lugar, debo decir que coincido, en términos generales, con las conclusiones de Gemini. Además le hemos pasado, de forma informal, la respuesta también a un par de expertos humanos en dichos campos para que pudieran echarle un vistazo, y sus conclusiones son parecidas a las que nos acerca el modelo razonador de Google. Aunque echaban en falta algún aspecto, alguna fuente podía ser a priori mejorable o más actual… estaban bastante impresionados con la potencia del modelo de OpenAI que recordemos que, como todas las IAs actuales es “la peor tecnología que usaremos durante el resto de nuestras vidas”, y que esto mejora muy rápido.
Claramente DeepResearch de OpenAI es una herramienta muy potente para realizar investigación y el problema para las otras dos es que están muy lejos de ese nivel, en primer lugar porque no usan un modelo razonador tan potente como O3, que es de lejos la IA accesible públicamente más capaz del mundo ahora mismo, y porque no están pensados de la misma forma. El hecho de que el modelo de OpenAI gaste más de 10 minutos por petición, y use toda esa capacidad computacional y el poder de O3, lo hace un modelo muy costoso ( de ahí sus sólo 10 peticiones mensuales para los usuarios plus y gracias a que finalmente lo han abierto) y no puede compararse con el uso gratis del modelo de Perplexity. Aun así, funciona bastante bien para su precio, aunque yo personalmente no he visto una mejora muy grande sobre el sistema normal de búsqueda de Perplexity, que es el que vengo utilizando desde hace muchos meses como mi motor de búsqueda con IA habitual (tengo un usuario de pago).
Por otra parte –y de aquí resaltar que se trata de un par de pruebas profundas en su planteamiento y metodología, pero muy preliminares porque podrían funcionar seguramente de manera distinta con otro prompt u otro tipo de fuentes –, quiero señalar que en un uso personal sobre temas de tecnología e informática y con fuentes en inglés, (páginas especializadas, reddit, foros) xAI DeepSearch , pese a los resultados de esta pequeña prueba preliminar, me ha resultado muy útil y ha hecho un gran trabajo en ese campo. Es perfectamente posible que, si bien no está enfocado para una investigación académica ni tan profunda, sea un modelo que pueda resultar muy útil para el día a día –mucho más si lo mantienen de forma gratuita– utilizando otro tipo de fuentes menos académicas y multilingües. Pero es sólo una impresión, y la razón por la que prefería utilizar para estas primeras pruebas un evaluador imparcial como una IA, sabiendo además que sólo dos tareas es que es una muestra muy pequeña que sólo sirve para darnos alguna pincelada, que puede estar muy condicionada por el prompt, los idiomas o el ámbito geográfico en el que pidamos la tarea.
En su directo del viernes pasado Patricio Fernández, divulgador de la IA, hablaba maravillado de OpenAI Deep Research e incidía en una cuestión que se ve también, claramente, en este análisis preliminar que hemos realizado. Se les ha intentando poner el “mismo nombre”, seguramente por razones comerciales, a productos que no son muy parecidos por capacidades, funcionamiento pero especialmente por diseño y propósito.
Antes de terminar, quiero mencionar brevemente que además de estas tres herramientas existen otras, incluido alguna open source, con un enfoque similar como Storm, la herramienta desarrollada por la universidad de Stanford de la que os hablamos en el número 67, Elicit, totalmente enfocada en el campo académico y los papers (aún no la hemos podido probar pero nuestro autor invitado del número 58 Fernando Domínguez Sardou nos ha dado muy buenas referencias de ella) y, pocas horas antes de publicarse este número de estrategIA, se ha conocido, tal y como era de esperar, que Google trabaja ya en una nueva versión muy mejorada de su Deep Research.
Como resumen, y pese a las limitaciones grandes de este análisis preliminar que además aborda tres productos que son bastante distintos entre sí, debo trasladarles mi notable asombro por la capacidad del modelo de OpenAI (aunque incluso ahí hay que estar pendiente, y habría que revisar posibles alucinaciones, comprobar fuentes, quizá pedir luego una redacción mejorada con otro modelo de ciertos pasajes…), mi percepción de que los modelos de Perplexity y xAI, estando muy lejos del de OpenAI, pueden sernos útiles en muchas circunstancias cotidianas y que, sin duda, lo mejor es que ustedes mismos sean los que prueben estos “ayudantes” cada vez más potentes y sofisticados y juzguen por ustedes mismos si pueden serles útiles ya, o en un futuro próximo cuando refinen aún más sus capacidades.
Fernando Nieto Lobato
Director de Innovación Digital de la Institución Educativa ALEPH
Difunda estrategIA: explorando la inteligencia artificial y la política juntos
Le invitamos a que nos ayude a seguir creciendo y comparta estrategIA con sus amigos y colegas. Pueden acceder fácilmente a este número de la newsletter de manera gratuita y sin necesidad de suscripción desde el siguiente enlace:
Actualidad y artículos de interés
Qatar firma acuerdo con Scale AI para mejorar servicios gubernamentales con IA
El gobierno de Qatar ha firmado un acuerdo de cinco años con la empresa estadounidense Scale AI para implementar herramientas de inteligencia artificial en la modernización de sus servicios públicos. Según Trevor Thompson, director global de crecimiento de Scale AI, este proyecto podría servir como modelo para otros gobiernos. El acuerdo permitirá la adopción de análisis predictivos, automatización y análisis de datos avanzados, con más de 50 posibles aplicaciones de IA en desarrollo. Qatar busca consolidarse como un líder regional en IA, en competencia con Arabia Saudi y Emiratos Árabes Unidos.
GPT-4.5, el nuevo modelo de OpenAI, genera expectativas y dudas sobre el futuro de la IA
OpenAI ha lanzado GPT-4.5, un modelo que mejora la comprensión de matices y emociones en conversaciones, pero sin un avance revolucionario respecto a sus predecesores. Aunque se destaca su mayor "coeficiente emocional" y reducción de errores, expertos critican su alto costo, disponibilidad limitada y falta de un salto significativo en capacidad. Además, su rendimiento es superado por modelos rivales en precisión y programación. La presentación de GPT-4.5 refuerza la percepción de una desaceleración en la evolución de la IA en cuanto a modelos no razonadores, lo que plantea dudas sobre el futuro del escalado y la estrategia de OpenAI.
Microsoft lanza Dragon Copilot, una IA para optimizar la atención médica
Microsoft presentó Dragon Copilot, un asistente de inteligencia artificial diseñado para reducir la carga administrativa en el sector salud. La herramienta, basada en una arquitectura segura y moderna, permite a los médicos agilizar la documentación mediante la creación automatizada de notas, dictado en lenguaje natural y búsquedas en fuentes médicas confiables. Según Microsoft, su implementación contribuirá a disminuir el agotamiento profesional y mejorar la calidad de la atención. Dragon Copilot estará disponible en mayo en EE.UU. y Canadá, seguido por Reino Unido, Alemania, Francia y Países Bajos, con planes de expansión a otros mercados.
Amazon destina 17.2 millones de euros para mitigar inundaciones en Aragón con IA
Amazon Web Services invertirá 17.2 millones de euros en Aragón para reducir el impacto de las inundaciones mediante inteligencia artificial y modernización de infraestructuras. La región donde Amazon desarrolla nuevos centros de datos, es propensa a crecidas debido al río Ebro. La iniciativa incluye un sistema de alerta temprana que utilizará sensores y análisis en la nube para monitorear en tiempo real las condiciones meteorológicas y fluviales, mejorando la respuesta ante emergencias.
Si desea patrocinar o colaborar con estrategIA, la newsletter pionera en español sobre IA, Política y Gobierno, por favor escriba a: pablomartin@institucioneducativaaleph.com
IA en acción (nuestro rincón más práctico)
Herramienta de IA de la semana
Ideogram 2a
Nueva versión del conocido sistema de generación de imágenes del que ya les hemos hablado con anterioridad en estrategIA, la última ocasión en el número 48.
El modelo trae un importante salto en calidad y puede utilizarse, de forma limitada, de manera gratuita, así que les invitamos a que lo prueben:
Les dejamos un par de ejemplos del siguiente prompt que le hemos pedido (no, aunque lo parezca no le hemos solicitado directamente al modelo a Hillary Clinton 😀):
Una fotografía real de gran calidad de una líder política dando un discurso. En una pantalla al fondo aparece el texto "IA" y una imagen alusiva a la inteligencia artificial.
Prompts para GPT-4
Además de los completos prompts (co-creados con Gemini 2.0 Flash Thinking Experimental) de las pruebas que hicimos en el artículo principal con los modelos de investigación profunda, se nos ocurre que puede ser interesante plantear algo así a cualquier IA (preferiblemente con la función de búsqueda activada para que pueda tener información actualizada sobre Deep Research de OpenAI):
Actúa como una gran experta en inteligencia artificial, política y gobierno. Analiza cómo la herramienta concreta: "Deep Research" de OpenAI lanzada en febrero de 2025 puede servir por sus capacidades técnicas para optimizar el diseño, implementación y evaluación de políticas públicas.
Recomendación de la semana
Demostración que realiza Carlos Santana, DotCSV, de Sesame, probablemente el asistente conversacional más avanzado a día de hoy en cuanto a su expresividad. Un video muy recomendable sobre una tecnología que nos trae sensaciones de lo visto en la película “Her”.