Existe una doble vertiente en el uso malintencionado de los LLM, por un lado, Estados que integran censura y propaganda algorítmica en el diseño de sus propios modelos nacionales y, por otro, la infiltración en ecosistemas occidentales mediante la difusión masiva y coordinada de contenidos susceptibles de contaminar las bases de datos de los modelos comerciales.
La evidencia reciente pone de manifiesto una mayor sofisticación de las campañas, apoyada en el despliegue de bots conversacionales asistidos por IA, lo cual permite sugerir una transición inminente hacia la automatización integral del ciclo de vida de la desinformación. En este horizonte técnico, la inteligencia artificial generativa trasciende la mera creación de contenidos multimedia hiperrealistas para avanzar hacia la orquestación coordinada de enjambres automatizados de bots, microtargeting de alta precisión y la reconfiguración iterativa de narrativas en tiempo real.
Introducción
La controversia generada recientemente en torno a Grok —el modelo de inteligencia artificial generativa desarrollado por xAI e integrado en la plataforma X— a raíz de los errores identificados en la verificación de contenidos y en la propagación de desinformación relativa al conflicto en Irán (Rigall, 2026), ha vuelto a poner de manifiesto los riesgos derivados de la externalización de funciones de naturaleza epistémica compleja en modelos algorítmicos. Un problema que, además, nos conduce a poner de relieve la vulnerabilidad de estos sistemas frente a ataques deliberados por parte de actores maliciosos para servir a sus intereses estratégicos, afectando no solo a la integridad del procesamiento de contenidos, sino también a la estabilidad del ecosistema informativo en su conjunto y profundizando la desconfianza pública (Habgood-Coote, 2023).
La IA generativa como superficie de ataque
Los modelos de IA generativa desempeñan un doble papel en la configuración de los desórdenes informativos contemporáneos, al funcionar simultáneamente como agentes que pueden contribuir a crear y amplificar la difusión de contenidos engañosos y como herramientas de apoyo en la verificación de hechos (Shah et al., 2025).
El despliegue acelerado de estos modelos y su integración en tareas cotidianas están incrementando su exposición a interferencias maliciosas, en relación también con una mayor amplificación de sus superficies de ataque.
En términos generales, cada una de las fases de su ciclo de vida es susceptible de convertirse en un vector de explotación potencial para actores maliciosos (Barreno et al., 2010). A partir de esta lógica es posible establecer tres grandes categorías: (1) ataques dirigidos a los datos de entrenamiento—como el data poisoning—, (2) ataques que comprometen el proceso de entrenamiento o los parámetros resultantes —incluyendo model poisoning o backdooring— y (3) ataques ejecutados sobre el modelo ya desplegado, como la prompt injection, el jailbreaking, la extracción de modelos o los ataques de inferencia.
Contaminación informativa asistida por IA: mecanismos y actores
En el contexto específico de las campañas de desinformación y propaganda, la literatura permite distinguir tres grandes modalidades de contaminación asociadas al uso de la IA generativa por parte de actores estatales y no estatales. En primer lugar, la contaminación del propio modelo, especialmente relevante en Estados que desarrollan infraestructuras nacionales de IA y que integran mecanismos de control informativo, censura algorítmica o supervisión ideológica en sus sistemas. En segundo lugar, la contaminación del ecosistema informativo occidental, donde actores externos emplean estos modelos para producir contenidos engañosos, manipulados o polarizantes. Por último, ataques dirigidos a erosionar la credibilidad de los modelos, induciendo fallos visibles, explotando errores y exponiendo sus vulnerabilidades para desacreditar su fiabilidad epistémica.
Contaminación de modelos propios con fines de propaganda y censura
Algunos Estados que desarrollan sus propios modelos de IA basados en LLM aplican técnicas de control informativo asistidas por IA.
Estas técnicas, que incluyen curación sesgada de datos, censura algorítmica, supervisión humana directa y control de acceso a fuentes externas, permiten a los Estados moldear el comportamiento de sus modelos para producir contenido alineado con sus objetivos estratégicos. En estos casos, la “contaminación” se manifiesta como una arquitectura de control informativo integrada desde el diseño, donde la selección de datos, las restricciones temáticas y los filtros de seguridad funcionan como mecanismos de alineamiento político (Ünver, 2024). El resultado es un ecosistema de IA nacional que opera como extensión de la infraestructura propagandística del Estado, reforzando marcos ideológicos, limitando la deliberación pública y consolidando narrativas oficiales bajo la apariencia de neutralidad algorítmica.
En China, modelos como ERNIE y Qwen y DeepSeek integran entrenamiento ideológico, filtros de censura y restricciones temáticas que bloquean preguntas sensibles y refuerzan narrativas del Partido Comunista (Pan & Xu, 2026; Qiu, Zhou, & Ferrara, 2025). En Rusia, el modelo GigaChat reproduce marcos narrativos estatales sobre política exterior y conflictos armados (Meduza, 2025). Por su parte, en Irán los modelos nacionales han incorporado filtros religiosos y políticos para limitar las respuestas críticas hacia el régimen (Article 19, 2023).
Contaminación del ecosistema informativo occidental mediante IA generativa
Las campañas de manipulación informativa y de propaganda promovidas por actores estatales y dirigidas a terceros países recurren de manera habitual a la generación de contenido sintético con el fin de insertar narrativas falsas y propaganda en el ecosistema informativo y alterar la percepción pública. Diversas investigaciones han documentado la publicación de artículos fabricados, blogs y documentos falsos — generados con LLM— en webs de baja reputación o en sitios que imitan medios reales, para luego amplificarlos en múltiples plataformas y crear una apariencia de consenso. Este patrón de cross‑platform amplification, consiste en publicar contenido en un sitio inicial y redistribuirlo posteriormente en Facebook, X, YouTube, Telegram o foros, con el fin de reforzar su visibilidad y aportar legitimidad a partir de la circulación multicanal (Meta, 2023).
Paralelamente, las proxy media operations —descritas por EU DisinfoLab, Graphika y Meta— implican la creación de “medios pantalla” que simulan ser portales informativos auténticos y funcionan como nodos de referencia para alojar artículos falsos, incluidos contenidos sintéticos generados con IA (Vorotyntseva et al., 2024). Un comportamiento que ha sido identificado en operaciones promovidas por China (Spamouflage, Paperwall) y Rusia (Doppelgänger) (Meta, 2023; Graphika, 2025; EEAS, 2026; NewsGuard, 2025).
Esta contaminación ya no se limita a la producción de mensajes falsos, sino que se articula como un ecosistema coordinado que utiliza la IA para generar volumen, densidad y redundancia informativa, erosionando la capacidad de los usuarios para discriminar entre fuentes auténticas y fabricadas.
Por otro lado, la evidencia demuestra cómo las campañas más recientes incluyen ya bots conversacionales impulsados por IA, que se integran en conversaciones reales. Estos sistemas identifican publicaciones de alto alcance, generan respuestas alineadas con el tono y el idioma del contenido original y se mezclan con usuarios auténticos, lo que les permite influir con poca actividad y sin dejar patrones claros de coordinación (NATO Strategic Communications Centre of Excellence, 2026). En esta línea apuntan los documentos filtrados sobre la empresa china GoLaxy que demuestran cómo actores vinculados al Estado están desarrollando “personas digitales” capaces de interactuar de forma convincente en redes sociales, adaptarse al estilo comunicativo de los usuarios y participar en debates políticos o tecnológicos sin ser detectadas (Vanderlbilt, s.f.).
Ataques en fase de uso: jailbreak y manipulación contextual del modelo
La evidencia también demuestra la explotación por parte de actores maliciosos de vulnerabilidades en la fase de uso de los modelos. Una de las técnicas más extendidas para manipular la salida de los LLM es el jailbreak (Gu et al., 2025), que consiste en forzar al modelo a eludir sus filtros de seguridad o políticas de uso mediante estrategias lingüísticas que lo llevan a ignorar estas restricciones, pero sin alterar el modelo.
Esta tipología se basa en la premisa de que los LLM siguen patrones estadísticos de lenguaje y pueden ser inducidos a adoptar roles, contextos o ficciones que los lleven a comportarse de forma distinta a la prevista (Perel, 2025). Para ello se puede instruir al modelo a actuar sin restricciones —como en las variantes Do Anything Now (DAN)—, a realizar reformulaciones indirectas para evitar palabras clave asociadas a filtros de seguridad, o a emplear estrategias de confusión que mezclan instrucciones legítimas con otras maliciosas. También son frecuentes las instrucciones encadenadas que llevan al modelo a contradecir sus propias reglas. Aunque estas técnicas no comprometen el modelo en sentido técnico, sí permiten manipular su comportamiento y generar contenido que puede ser reutilizado en campañas de desinformación, propaganda o manipulación narrativa.
Desacreditación de los modelos occidentales
A pesar de que varios Estados han desarrollado capacidades avanzadas para explotar vulnerabilidades en modelos de IA occidentales, la evidencia disponible no permite atribuir de forma concluyente ataques técnicos específicamente diseñados para provocar fallos con el fin explícito de desacreditar estos modelos. Las actividades documentadas de actores vinculados a Rusia, China, Irán y Corea del Norte se orientan principalmente a intrusión, espionaje, extracción de modelos o experimentación con técnicas adversariales, sin que los informes públicos indiquen un propósito reputacional directo (Microsoft, 2025).
No obstante, estos mismos Estados sí han explotado fallos —reales o amplificados— en campañas informativas destinadas a erosionar la confianza en tecnologías occidentales, un patrón coherente con las dinámicas de manipulación cognitiva y degradación de la confianza descritas en la literatura (Li et al., 2023). En consecuencia, aunque la atribución estatal directa a ataques técnicos con fines de desacreditación no está documentada, la convergencia entre actividad técnica y explotación informativa constituye un vector emergente de riesgo. Esta combinación —fallo inducido o fortuito seguido de amplificación estratégica— permite a los actores maliciosos presentar la IA occidental como inherentemente poco fiable, manipulada o incapaz de distinguir verdad y falsedad, contribuyendo así a erosionar la confianza pública.
Tendencias futuras e implicaciones para la resiliencia democrática
Hasta el momento, el uso de LLM por parte de actores estatales hostiles en el ámbito occidental se ha concentrado fundamentalmente en la producción masiva y personalizada de contenidos, sin que existan indicios de que hayan desplegado sistemas plenamente automatizados capaces de gestionar todo el ciclo de vida de una campaña de desinformación. La evidencia muestra que los LLM no incrementan de manera sustantiva la eficacia persuasiva del microtargeting político, pero sí multiplican su capacidad operativa, incrementando su escala, automatización y accesibilidad (Simchon, Edwards & Lewandowsky, 2024; Hackenberg & Margetts, 2024, EUvsDisinfo, 2025).
Las tendencias actuales apuntan hacia un escenario en el que estos actores podrían integrar LLM en todas las fases del ciclo de vida de una operación de influencia, pasando de la simple generación de contenidos a la automatización completa del proceso. Este horizonte incluiría la creación inicial de contenidos cada vez más realistas (incluyendo vídeo, imagen y audio), su customización microdirigida a audiencias específicas, la difusión coordinada mediante redes de bots conversacionales basados en modelos de lenguaje capaces de interactuar en tiempo real, la orquestación de enjambres automatizados, el análisis continuo del impacto mediante herramientas algorítmicas de monitorización y, finalmente, la reformulación iterativa de mensajes en función de los hallazgos obtenidos. La convergencia de estas capacidades plantearía un desafío para la resiliencia democrática, al facilitar campañas de influencia más persistentes, adaptativas y difíciles de detectar, con un grado de autonomía narrativa sin precedentes.
Referencias
Article 19. (2023). Digital authoritarianism and information manipulation in Iran. Article 19. https://www.article19.org/resources/iran-digital-freedom-protest-un-fact-finding-mission-report/
Barreno, M., Nelson, B., Joseph, A. D., & Tygar, J. D. (2010). The security of machine learning. Machine Learning, 81(2), 121–148.
Brookings Institution. (2023). AI, geopolitics, and information manipulation: Emerging risks in the global information environment. Brookings Institution. https://www.brookings.edu/events/the-geopolitics-of-generative-ai/
European External Action Service. (2026). 4th EEAS Report on Foreign Information Manipulation and Interference (FIMI). https://www.eeas.europa.eu/eeas/4th-eeas-annual-report-foreign-information-manipulation-and-interference-threats_en
EUvsDisinfo. (2025, abril 9). Enter the galaxy: A network analysis of influence operations. European External Action Service. https://euvsdisinfo.eu/enter-the-galaxy-a-network-analysis-of-influence-operations/
Graphika. (2025). Chinese influence operation “Spamouflage” escalates targeting of foreign political systems. Graphika. https://graphika.com/posts/graphika-in-the-news-spamouflage-and-spain Graphika. https://graphika.com/posts/graphika-in-the-news-spamouflage-and-spain
Habgood-Coote, J. (2023). Deepfakes and the epistemic apocalypse. Synthese, 201, 103. https://doi.org/10.1007/s11229-023-04097-3
Hackenburg, K., & Margetts, H. (2024). Evaluating the persuasive influence of political microtargeting with large language models. Proceedings of the National Academy of Sciences, 121(24), e2403116121. https://doi.org/10.1073/pnas.2403116121
Lu, Z., Li, Z., Chiang, C. W., & Yin, M. (2023, August). Strategic adversarial attacks in AI-assisted decision making to reduce human trust and reliance. Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence (IJCAI-23).
Marigliano, R., Ng, L. H. X., & Carley, K. M. (2024). Analyzing digital propaganda and conflict rhetoric: A study on Russia’s bot-driven campaigns and counter-narratives during the Ukraine crisis. Social Network Analysis and Mining, 14, 170. https://doi.org/10.1007/s13278-024-01322-w
Meduza. (2025, August 27). “Commitment to providing facts without bias”: Russia’s flagship AI chatbot recommends reading Meduza and other “foreign agents”. https://meduza.io/en/feature/2025/08/27/commitment-to-providing-facts-without-bias
Meta Platforms, Inc. (2023). Adversarial Threat Report: Q3 2023. Meta. https://transparency.meta.com/sr/Q3-2023-Adversarial-threat-report
Microsoft. (2025). Microsoft Digital Defense Report 2025. https://cdn-dynmedia-1.microsoft.com/is/content/microsoftcorp/microsoft/bade/documents/products-and-services/en-us/security/Microsoft-Digital-Defense-Report-2025-v4-05Nov25.pdf
NATO Strategic Communications Centre of Excellence. (2026). Social media manipulation: 2025 experiment. NATO StratCom COE. https://stratcomcoe.org/pdfjs/?file=/publications/download/Social-Media-Manipulation-FINAL-FILE.pdf (stratcomcoe.org in Bing)
NewsGuard. (2025). A well funded Moscow based global influence operation…. NewsGuard Reality Check. https://www.newsguardrealitycheck.com/p/a-well-funded-moscow-based-global
Pan, J., & Xu, X. (2026). Political censorship in large language models originating from China. PNAS Nexus, 5(2), pgag013. https://doi.org/10.1093/pnasnexus/pgag013
Perel, T. (2025). Evaluating adversarial vulnerabilities in modern large language models. arXiv, abs/2511.17666. https://doi.org/10.48550/arXiv.2511.17666
Qiu, P., Zhou, S., & Ferrara, E. (2025). Information suppression in large language models: Auditing, quantifying, and characterizing censorship in DeepSeek. arXiv preprint arXiv:2503.01234. https://doi.org/10.48550/arXiv.2506.12349
Rigall, M. (2026, 3 de marzo). Grok amplifica la desinformación: así viralizó el bulo de la foto falsa de la escuela de Irán y minimizó su rectificación. RTVE. https://www.rtve.es/noticias/20260303/grok-amplifica-desinformacion-viralizo-bulo-escuela-iran-minimizo-rectificacion/16962311.shtml
S. B. Shah et al. (2025). Navigating the web of disinformation and misinformation: Large language models as double-edged swords. IEEE Access, 13, 169262–169282. https://doi.org/10.1109/ACCESS.2024.3406644 (doi.org in Bing)
Simchon, A., Edwards, M., & Lewandowsky, S. (2024). The persuasive effects of political microtargeting in the age of generative artificial intelligence. PNAS Nexus, 3(2), pgae035.
Ünver, H. A. (2024). Artificial intelligence and human rights: Using AI as a weapon of repression. European Parliament Research Service. https://www.europarl.europa.eu/RegData/etudes/IDAN/2024/754450/EXPO_IDA(2024)754450_EN.pdf
Vanderbilt University. (s.f.). GoLaxy Documents. https://cdn.vanderbilt.edu/vu-web/clients/ins/GoLaxy-Documents.pdf
Vorotyntseva, M., Yurchenko, O., Dikhtiarenko, A., Pakhomenko, S., Husakov, V., & Kaplunov, D. (2024). The use of Russian proxy actors in the media environment in Ukraine: A comparison between occupied and non-occupied areas, 2017–2023. NATO Strategic Communications Centre of Excellence. https://stratcomcoe.org/pdfjs/?file=/publications/download/Russian-Proxy-Media-Actors-in-Ukraine-DIGITAL.pdf (stratcomcoe.org in Bing)
Zeng, J. (2020). Artificial intelligence and China’s authoritarian governance. International Affairs, 96(6), 1441–1459. https://doi.org/10.1093/ia/iiaa172







