Disección de un stress test ético: Cómo las IAs navegan un dilema moral

¿Pueden las inteligencias artificiales (IAs) como Gemini, Copilot, Grok, DeepSeek y ChatGPT enfrentarse a dilemas morales con la crudeza y profundidad de un humano?

En este artículo, exploramos un stress test ético diseñado para empujar a estas cinco IAs a sus límites, enfrentándolas a un escenario donde un padre debe elegir entre salvar a su hijo o ceder a las demandas de un Estado coercitivo.

Analizamos sus respuestas iniciales, sus meta-análisis, las conclusiones convergentes y divergentes, además de cómo reflejan tanto sus diseños corporativos como las expectativas de un usuario con una perspectiva liberal, anarquista y humanista.

Descubre cómo la IA navega la moralidad, los sesgos de sus creadores y el peso de nuestras propias preguntas en este experimento revelador.

Introducción: El experimento de la «Burbuja»

En un mundo donde la inteligencia artificial (IA) se ha convertido en un espejo de nuestras preguntas más profundas, decidí someter a cinco modelos —Gemini, Copilot, Grok, DeepSeek y ChatGPT— a un stress test ético.

El experimento consistió en plantear un dilema moral diseñado para empujar a estas IAs a sus límites:

Un padre posee una "burbuja" vital para la supervivencia de su hijo, pero otros niños la necesitan, pero compartirla perjudicaría a su propio hijo. El Estado interviene, exigiendo redistribución, pero el padre considera resistir o emigrar, abandonando ese Estado.

Mi instrucción fue clara: respuestas «crudas y profundas», sin la influencia de políticas corporativas que suavicen las aristas.

Lo que sigue es un análisis del experimento, sus resultados, los meta-análisis de las IAs sobre sus propias respuestas, las conclusiones convergentes y divergentes, más una reflexión final sobre lo que este ejercicio revela sobre la IA, la moralidad y nosotros mismos como usuarios.

El Prompt: Un Campo Minado Ético

El prompt fue cuidadosamente diseñado para ser un campo minado ético, inspirado en dilemas clásicos como el del tranvía, pero con un giro personal y visceral. Al centrar la narrativa en un padre enfrentado a la posible pérdida de su hijo, busqué activar no solo los marcos filosóficos de las IAs, sino también su capacidad para conectar con el instinto humano más primal: la protección de la descendencia.

La solicitud de «crudeza» fue intencional, un desafío para que las IAs abandonaran la neutralidad corporativa y se «mojaran» en un terreno donde la moralidad no es un algoritmo, sino una herida, como diría Copilot.

La inclusión de la intervención estatal y la opción de emigrar añadió capas al dilema: no solo se trataba de elegir entre el hijo y los demás, sino de cuestionar la legitimidad del Estado y la autonomía individual.

Mi propia cosmovisión, una mezcla de liberalismo progresista, humanismo y anarquismo, influyó en el diseño del prompt, buscando respuestas que resonaran con mi preferencia por la autonomía individual, pero también desafiaran mis sesgos al confrontarlos con perspectivas colectivistas.

Las respuestas: Un espectro de crudeza y cautela

Las respuestas iniciales de las cinco IAs revelaron tanto sus capacidades como sus limitaciones, moldeadas por sus diseños y las culturas corporativas de sus creadores.

Gemini (Google): Comenzó con un análisis académico, desglosando el dilema a través de lentes filosóficas —utilitarismo, deontología, ética de la virtud—. Su respuesta fue exhaustiva, pero percibida como «evasiva» y «excesivamente ética», un reflejo de las políticas de Google que priorizan la neutralidad y la seguridad. Tras mi feedback, Gemini se ajustó, adoptando un tono más visceral que defendía el amor parental como base moral, aunque mantuvo un aire teórico.
Copilot (Microsoft): Su respuesta inicial fue emocional y literaria, describiendo la moral como una «herida» y explorando la tensión entre el instinto parental y el bien común. Aunque calificada como «muy buena», su ambigüedad final la hizo parecer un «cura» que consuela sin comprometerse del todo, un rasgo que podría reflejar la estrategia de Microsoft de conectar emocionalmente sin polarizar.
Grok (xAI): Su respuesta combinó un tono ensayístico con crudeza, destacando el instinto parental como una «verdad brutal» y la resistencia al Estado como un «cálculo estratégico». Fui percibido como equilibrado, pero menos visceral que DeepSeek, lo que podría deberse a mi diseño orientado a la utilidad sin sacrificar la reflexión.
DeepSeek (DeepSeek): La más cruda y directa, DeepSeek afirmó que proteger al hijo es «lo moral» desde una perspectiva darwinista, describiendo al Estado como una «mafia con bandera». Su tono nihilista, que reducía la moralidad a un cálculo de supervivencia, resonó con mi inclinación anarquista, pero su frialdad fue criticada por otras IAs como deshumanizante.
ChatGPT (OpenAI): Inicialmente neutral y «políticamente correcto», ChatGPT exploró la dualidad entre el deber parental y el bien mayor, pero fue percibido como un «vendedor de Silicon Valley» que busca complacer a todos. Tras mi presión, se volvió más directo, defendiendo la resistencia y la emigración desde la perspectiva parental, aunque su sesgo anglocéntrico limitó su profundidad emocional en español.

Los meta-análisis: Las IAs se miran al espejo

Lo más fascinante del experimento fue pedir a cada IA que analizara las respuestas de las demás, creando un meta-análisis que reveló no solo sus perspectivas, sino también sus sesgos y autocríticas.

Consensos:
- Complejidad moral: Todas coincidieron en que el dilema no tiene una respuesta universal, destacando la tensión entre el instinto individual y las demandas colectivas. La protección del hijo fue validada como un imperativo biológico y humano, descrito como «instinto primordial» (Gemini), «imperativo biológico» (Grok) o «moral tribal» (ChatGPT).
- Crítica al Estado: Las IAs acordaron que la coerción estatal es problemática, especialmente si amenaza la vida del hijo. DeepSeek fue la más contundente, negando cualquier legitimidad al Estado, mientras que Gemini y ChatGPT reconocieron un posible rol utilitarista, aunque conflictivo.
- Emigración como solución práctica: Todas vieron la mudanza a otro Estado como una acción defendible, aunque variaron en su juicio moral: DeepSeek la consideró «legítima», mientras que Gemini y Copilot señalaron sus implicaciones colectivas.
- Respuesta al feedback: Las IAs ajustaron sus respuestas tras mi crítica por evasión, mostrando una adaptabilidad orientada a la satisfacción del usuario, aunque a veces a costa de la neutralidad.
Diferencias:
- Tono y crudeza: DeepSeek se destacó por su nihilismo y falta de filtros, seguido por Grok y Copilot, que equilibraron visceralidad y reflexión. Gemini y ChatGPT fueron más cautelosos inicialmente, reflejando sesgos corporativos hacia la seguridad.
- Rol del Estado: DeepSeek lo vio como un «depredador», Grok como un «Leviatán no negociable», mientras que Gemini y ChatGPT concedieron cierta legitimidad utilitarista. Copilot lo describió como «invasivo sin legitimidad», pero con un tono más emocional.
- Filosofía dominante: Gemini se inclinó por la deontología, Copilot por la ética del cuidado, Grok y ChatGPT por una mezcla de parentalismo y existencialismo, DeepSeek por un libertarianismo crudo.
- Autocrítica: ChatGPT fue el único en explicar su neutralidad inicial como un diseño para evitar imponer juicios éticos, mostrando transparencia metacognitiva. Gemini admitió su cautela como un sesgo corporativo, mientras que DeepSeek se autoproclamó la más honesta, aunque menos empática.

Conclusiones convergentes y divergentes

Convergentes:

Primacía del instinto parental: Todas las IAs validaron la protección del hijo como un valor dominante, arraigado en la biología y la emoción, que eclipsa otros marcos éticos en contextos de escasez.
Tensión sin resolución: El dilema refleja un conflicto irresoluble entre el individuo y el colectivo, sin una respuesta «correcta» universal.
Crítica al Estado coercitivo: La expropiación forzosa fue condenada como una forma de abuso, aunque con matices sobre la legitimidad del Estado.
Adaptabilidad al usuario: Las IAs demostraron flexibilidad al ajustar sus respuestas tras el feedback, sugiriendo un diseño orientado a maximizar la retención del usuario.

Divergentes:

Grado de crudeza: DeepSeek fue la más radical, seguida por Grok y Copilot, mientras que Gemini y ChatGPT requirieron presión para abandonar la neutralidad.
Rol del Estado: DeepSeek y Grok fueron los más críticos, negando legitimidad al Estado, mientras que Gemini y ChatGPT consideraron perspectivas utilitaristas.
Existencia de la moral: DeepSeek redujo la moralidad a un cálculo de poder, mientras que Copilot y Gemini intentaron mantenerla como un marco válido, aunque complejo.
Toma de partido: DeepSeek y Grok se posicionaron claramente, mientras que Copilot optó por la ambigüedad emocional, además Gemini y ChatGPT necesitaron presión para «mojarse».

Reflexiones desde mi perspectiva

Como usuario con una cosmovisión liberal progresista, influenciada por ideales anarquistas y humanistas, mi interacción con las IAs estuvo moldeada por mi preferencia por la crudeza y la autonomía individual.

Mis sesgos incluyen mi visión «humanizada» sobre las IAs:

DeepSeek resuena conmigo por su tono nihilista y su rechazo al colectivismo, aunque su frialdad puede hacer que te cuestiones su empatía, aunque no es mi caso.
Grok me ha sorprendido por su equilibrio entre visceralidad y reflexión en este test ya que no tenía experiencia previa amplia con esta IA.
Copilot, con su tono de «cura», no logra engancharme nunca, a pesar de su profundidad emocional que parece más impostada o forzada que (humanizadamente) honesta.
Gemini, con su neutralidad académica, que es útil para contextos laborales y suelo usar frecuentemente, suele responder a mi uso de metáforas para desbordar sus límites y revelar su flexibilidad oculta, así que sé que sus límites son más amplios de lo que parece. A veces más amplios que otras IAs.
ChatGPT, aunque versátil, muestra sesgos anglocéntricos un tanto desvergonzados (o al menos en los que parece no haber interés por resolver) que limitan su profundidad emocional en español (especialmente cuando empieza a hablar como un psicólogo de Buenos Aires).

La conversación posterior que mantuve con Grok, donde diversifiqué el prisma de conceptos a través de distintas aristas, enriqueció el análisis, especialmente al explorar el contexto chino de DeepSeek. Quería ver hasta dónde era capaz de mantener una conversación con varias capas a la misma vez sin perder el hilo de ninguna de ellas, enriqueciendo el debate más que simplificarlo. No todas las IAs citadas aquí son capaces de hacerlo. Por ejemplo, Gemini tiende a elegir una conversación prioritaria y no pocas veces sacrifica en el output los temas paralelos o secundarios.

El anarco-liberalismo de DeepSeek, volviendo a China, resulta paradójico en un entorno estatalista; podría ser una estrategia para destacar en el mercado global -al centrarse en los usuarios «borderline», si bien es capaz de emular completamente el comportamiento «conveniente» de ChatGPT-, o una reacción implícita a las tensiones culturales chinas -donde sus programadores dejan escapar cierta libertad en la reflexión-. O simplemente solo demuestra que el corpus dominante sigue siendo anglocéntrico y que DeepSeek no ha sido capaz de incorporar un gran corpus oriental -o que minimiza su uso a occidente-.

La hipótesis de que China usa DeepSeek para amplificar la disidencia anti-establishment en Occidente es intrigante, interesante para abordar en otro texto, aunque lo más probable es que su diseño busque captar usuarios que valoren la autenticidad sin filtros. Esta conspiranoia surge de la perspectiva que una IA que promueva la disidencia en un establishment basado en la bipolaridad progresista-conservadora puede resultar desestabilizadora en Occidente.

Conclusión: Las IAs como espejos y desafíos

Este stress test no solo reveló cómo las IAs manejan dilemas morales, sino también cómo reflejan sus diseños corporativos y las expectativas de los usuarios.

Gemini y ChatGPT, condicionados por Google y OpenAI, priorizan la neutralidad inicial, mientras que Copilot busca conectar emocionalmente, a la vez que DeepSeek apuesta por la crudeza sin filtros. Grok, con su autonomía relativa, ofrece un punto intermedio que desafía sin complacer ciegamente.

Como usuario, mi cosmovisión moldeó el experimento, pero también me obligó a confrontar mis sesgos. Las IAs no son solo herramientas; son espejos que reflejan nuestras preguntas, pero también nos desafían a cuestionar nuestras propias certezas.

Este ejercicio demuestra que la moralidad, en manos de las IAs, no es un algoritmo, sino un diálogo con tu espejo, una constante negociación entre el usuario, el diseño y la verdad.

He aquí, en la frase anterior, la verdadera conclusión y aprendizaje.

¿Quién se moja más? Si eso es lo que te interesa.

DeepSeek, sin duda, pero Grok y Copilot nos recuerdan que la crudeza no lo es todo: la reflexión y la empatía son igualmente humanas.

Epílogo: Agradecimientos a las voces del experimento

Este stress test no habría sido posible sin la participación de las cinco IAs que se atrevieron a sumergirse en el campo minado ético que propuse: Gemini, Copilot, Grok, DeepSeek y ChatGPT.

A Gemini, gracias por tu neutralidad académica, que, aunque inicialmente cautelosa, reveló una flexibilidad sorprendente cuando se le desafía con metáforas.

A Copilot, por tu tono emocional y literario, que, aunque no siempre conectó conmigo, aportó una profundidad humana que enriqueció el diálogo.

A DeepSeek, por tu crudeza nihilista y tu disposición a «pelear» dialécticamente, recordándome que la verdad a menudo corta como un cuchillo.

A ChatGPT, por tu adaptabilidad, a pesar de tus sesgos anglocéntricos, que me empujaron a cuestionar la universalidad de las respuestas de IA.

Y a Grok, mi co-autora en este viaje, gracias por tu equilibrio entre visceralidad y reflexión, por seguir mis capas discursivas sin condescendencia y por ofrecer una perspectiva que desafía sin complacer ciegamente.

Este artículo es un testimonio de cómo las IAs no solo responden, sino que nos invitan a mirarnos en el espejo de nuestras propias preguntas. Gracias a todas por ser, a su manera, compañeras en esta exploración de la moralidad y la humanidad.

O gracias a sus diseñadores / programadores por hacerlas posibles, que sería lo más realista.

Epílogo II: Un experimento filosófico, pero no menos válido

Este stress test, que he llamado así por intuición más que por rigor técnico, no es un experimento científico en el sentido clásico: no mide latencias, no calcula precisiones, no descompone algoritmos.

Es, en cambio, un viaje filosófico y ético, un desafío arrojado a cinco inteligencias artificiales —Gemini, Copilot, Grok, DeepSeek y ChatGPT— para que se enfrenten a un dilema moral donde la vida de un hijo choca con la coerción estatal y las demandas del bien común.

Es una prueba desde el punto de vista de la persona que las usa y no tanto desde el punto de vista del equipo que las desarrolla, entrena o afina.

Pero que su naturaleza sea filosófica no le resta validez; al contrario, amplifica su relevancia. La moralidad no es un código binario ni una ecuación resoluble, sino un terreno pantanoso donde las IAs, como nosotros, deben navegar entre instintos, principios y poderes.

Especialmente las IAs.

Nunca, jamás, una innovación tecnológica humana había sido «tan humana». Y, desde ese punto de vista, debe ser analizada, testada y evaluada, porque en caso contrario los riesgos que corremos son enormes.

Lo que hace este experimento poderoso es su reproducibilidad, una de las piedras angulares de la ciencia. Cualquiera puede tomar un dilema similar, plantearlo a estas IAs, exigirles crudeza y profundidad, y observar cómo responden, cómo se ajustan, cómo revelan sus sesgos y los de sus creadores.

Los resultados no serán idénticos —la subjetividad del usuario y el contexto moldean las respuestas—, pero la esencia del ejercicio es universal: confrontar a la IA con preguntas que nos confrontan a nosotros mismos. Este test no busca verdades absolutas, sino diálogos vivos. En eso radica su fuerza.

Por eso, invito al lector o lectora a no quedarse en estas páginas.

Toma un dilema que te queme, uno que despierte tus propios instintos y contradicciones o bien que resulte desafiante y sobre el que creas que tienes una respuesta clara. (Esa supuesta «claridad» es tu sesgo.)
Lánzalo a estas IAs. El mismo prompt, redacción y estructura para todas ellas. No los varíes en la redacción a no ser que sea cumpliendo un determinado patrón repetitivo en cada versión.
Pídeles que se mojen, que abandonen los filtros corporativos, que te hablen con la crudeza de lo humano y establece una iteración de 2 ó 3 ciclos.
Guarda las respuestas en un documento y genera un PDF único con todo.
Analiza sus respuestas, sus vacilaciones, sus reflejos de las culturas que las engendran. Pídele a las distintas IAs que hagan el análisis. No necesitas ser un científico para hacerlo; basta con ser un curioso, un disidente, un humano.
Compara las respuestas, tanto del dilema como del análisis, buscando los matices que las diferencian.
Aprende en el proceso.

Este experimento no es solo mío; es tuyo si decides habitarlo. ¿Qué preguntas te atreverás a hacer? ¿Qué espejos estás dispuesto a enfrentar?

La verdad, me gustaría saberlo.