El potencial transformador de la IA tiene un precio. Su complejidad y dependencia de datos sensibles convierten a esta tecnología en un objetivo de preferencia para los ciberdelincuentes. En concreto, hay dos implementaciones de IA —los grandes modelos de lenguaje (LLM) y herramientas como Microsoft Copilot— que plantean retos específicos para la mayoría de las empresas.
Normalmente, los LLM deben entrenarse con grandes cantidades de datos de una organización y esto crea el riesgo de que los datos se incorporen en los modelos. Por otra parte, Microsoft Copilot se integra en las aplicaciones y procesos empresariales. Por lo tanto, sin el gobierno adecuado, los datos personales, financieros y sensibles pueden quedar expuestos.
Para evitar riesgos para los datos y garantizar el cumplimiento de las normativas, las organizaciones deben adoptar un enfoque sólido de la seguridad en lo que se refiere a las implementaciones de la IA. A continuación se incluyen sugerencias para proteger los LLM y herramientas de IA como Copilot, así como detalles sobre cómo puede servir de ayuda la gestión de la postura de seguridad de los datos (DSPM).
¿Qué es la DSPM y por qué es esencial para las implementaciones de IA?
La gestión de la postura de seguridad de los datos (DSPM, Data Security Posture Management) es al mismo tiempo una estrategia y un conjunto de herramientas. Su función es descubrir, clasificar y supervisar los datos esenciales y sensibles, así como el acceso de los usuarios en los entornos cloud y en cliente (local) de las empresas.
Para las implementaciones de IA, como los LLM personalizados y Microsoft Copilot, la DSPM es fundamental para garantizar un gobierno adecuado de los datos sensibles o regulados. Esto reduce el riesgo de filtraciones o uso indebido de los datos.
Estas son algunas de las amenazas clave para las implementaciones de IA:
- Ataques de inyección de prompts. Unas preguntas (prompts) bien diseñadas pueden animar a las modelos a revelar datos sensibles de forma indirecta, permitiendo a los ciberdelincuentes eludir las medidas de seguridad tradicionales.
- Envenenamiento de datos de entrenamiento. Los ciberdelincuentes pueden incorporar datos confidenciales o sesgados en los conjuntos de entrenamiento, lo que genera modelos contrarios a la ética o no seguros.
- Filtración de datos en los resultados. Los modelos que no se han configurado convenientemente pueden exponer los datos privados de manera inadvertida durante las interacciones de los usuarios o como parte de sus resultados.
- Incumplimiento de normativas. Los sistemas de IA que no gestionan los datos regulados conforme a la ley se arriesgan a sufrir serias sanciones, según establecen normativas como el RGPD, la CCPA o la HIPAA. Esto conlleva la pérdida de la confianza de los clientes.
Caso de uso 1: protección de los LLM personalizados
Los LLM personalizados permiten a las organizaciones perfeccionar los modelos de IA para satisfacer las necesidades concretas de la empresa. Sin embargo, también generan riesgos considerables. Los datos confidenciales pueden introducirse en el modelo durante el entrenamiento o a través de otras interacciones, lo que puede provocar que se divulguen de manera inadvertida.
Los LLM personalizados pueden dar lugar a estos riesgos:
- Inserción de datos confidenciales en los modelos durante el entrenamiento.
- Filtración de datos inadvertida en los resultados de los modelos.
- Incumplimiento de normativas si el tratamiento de la información de identificación personal (PII), los datos regulados, no es el adecuado.
- Vulnerabilidades de seguridad que facilitan el envenenamiento de datos de entrenamiento o los ataques de inyección de prompts.
Estos riesgos ponen de manifiesto por qué es tan importante auditar los datos de entrenamiento, supervisar los flujos de datos e implementar estrictos controles de acceso.
Recomendaciones para proteger los LLM personalizados
1. Auditoría y limpieza de los datos de entrenamiento
- Revise con regularidad los conjuntos de datos. Identifique los datos sensibles o regulados antes de utilizarlos para el entrenamiento.
- Anonimice los datos con técnicas de enmascaramiento o cifrado. De esta forma, contribuye a proteger los datos de identificación personal y otros esenciales.
2. Supervisión del linaje de los datos
- Use herramientas como Proofpoint para hallar el flujo de los datos, desde la ingestión hasta el entrenamiento de modelos y los resultados.
- Garantice la trazabilidad para cumplir las normativas y solucionar rápidamente las vulnerabilidades.
3. Estrictos controles de acceso
- Establezca permisos basados en roles para los científicos e ingenieros de datos que interactúan con los conjuntos datos de entrenamiento.
- Limite el acceso a los conjuntos de datos sensibles a las personas que verdaderamente los necesitan.
4. Supervisión proactiva del resultado
- Analice las respuestas del modelo para asegurarse de que no revelen información confidencial. Esto es especialmente importante tras actualizaciones o ciclos de reentrenamiento.
Cómo puede ayudarle Proofpoint
La solución DSPM de Proofpoint descubre automáticamente los datos sensibles en distintos entornos cloud y los clasifica. Esto ofrece una visibilidad integral tanto de las fuentes de datos estructurados como no estructurados.
Proofpoint proporciona una visión completa del linaje. Ilustra cómo fluyen los datos por las distintas etapas; de dónde proceden, su conexión con conjuntos de datos, su participación en pipelines de entrenamiento y su integración en modelos de IA personalizados. Esta vista detallada le permite identificar el movimiento de los datos sensibles, cumplir normativas como el RPGD y la CCPA, y fomentar la confianza de sus usuarios.
Además, Proofpoint le avisa de forma proactiva si se usan datos sensibles de manera inapropiada, ya sea en entrenamiento, en respuestas de modelos o en interacciones de los usuarios. De esta forma, podrá neutralizar los riesgos potenciales de manera inmediata.
Caso de uso 2: mitigación de riesgos en Microsoft Copilot
Microsoft Copilot ofrece respuestas precisas y relevantes según el contexto. Para ello, emplea un proceso denominado grounding que accede a Microsoft Graph y al índice semántico y extrae contexto de todas sus aplicaciones para generar prompts más específicos y personalizados para sus LLM. Aunque este proceso mejora la calidad de las respuestas, también incrementa la probabilidad de filtración o uso indebido de los datos.
Las implementaciones de Microsoft Copilot introducen estos riesgos:
- Filtración de datos si se gestionan de manera inadecuada archivos o mensajes de correo electrónico sensibles.
- Uso indebido de datos confidenciales si no se establecen controles de acceso basados en roles adecuados.
- Exposición de datos regulados si no se aplican sistemáticamente etiquetas de confidencialidad.
Recomendaciones para proteger las implementaciones de Copilot
1. Use etiquetas de confidencialidad
- Asocie etiquetas de Microsoft Information Protection (MIP) a los datos sensibles para garantizar la correcta limitación del acceso.
- Asigne las etiquetas de manera sistemática a todos los archivos y aplicaciones para determinar los datos a los que puede acceder Copilot.
2. Seleccione fuentes de datos aprobadas
- Plantéese utilizar un grupo seleccionado de sitios de SharePoint y conjuntos de datos para Copilot, con el fin de minimizar la exposición de datos no autorizados.
- Asegúrese de que se incluyan solo conjuntos de datos limpios de contenido sensible o regulado.
3. Supervise el comportamiento y los resultados de los prompts
- Registre y analice los prompts para identificar comportamientos inusuales o maliciosos.
- Use herramientas para supervisar el resultado de Copilot y marcar los datos sensibles en tiempo real.
4. Limite el acceso por rol
- Configure el acceso de Copilot de manera que se base en los roles de los usuarios para garantizar que los empleados solo vean los datos relevantes según sus responsabilidades.
Cómo puede ayudarle Proofpoint
La solución DSPM de Proofpoint se integra perfectamente con las etiquetas de Microsoft MIP. Esto quiere decir que Proofpoint puede asociar las clases de datos descubiertas a etiquetas de confidencialidad existentes, lo que mejora la gestión y la clasificación de los datos confidenciales. Además, garantiza la implementación continua de controles de acceso y requisitos de cumplimiento de normativas en los entornos.
Proofpoint identifica riesgos potenciales asociados a resultados sensibles, como datos descubiertos a través de las interacciones con Copilot. Gracias al análisis de flujos de datos sensibles y la supervisión de los resultados, Proofpoint detecta y alerta a los equipos cuando se produce un intento de acceso sin autorización, incluso en el caso de escenarios sofisticados, como cuando se usan prompts no autorizados.
Proofpoint le permite adoptar un enfoque proactivo de la protección de los datos. De esta forma, puede mantener un gobierno de datos robusto en todas las herramientas impulsadas por IA.
Recomendaciones para crear una infraestructura de IA segura
Con independencia del caso de uso, es fundamental adoptar un enfoque proactivo y por capas para garantizar la seguridad de la infraestructura de IA. A continuación se incluye un resumen de los cinco pasos que deben dar las organizaciones:
- Descubrimiento y clasificación de los datos sensibles. Use herramientas automatizadas para identificar los datos de identificación personal (PII), la propiedad intelectual y los datos regulados en los entornos cloud y en cliente (locales).
- Visibilidad del linaje de los datos. Averigüe cómo se desplazan los datos por los flujos de trabajo de IA, desde la ingestión hasta el entrenamiento de modelos y los procesos posteriores.
- Establezca controles de acceso basados en roles. Limite el acceso a los datos sensibles y verifique que los permisos correspondan a las responsabilidades de sus empleados.
- Auditoría y anonimización de los datos. Limpie los conjuntos de datos de entrenamiento y compruebe que los resultados no expongan datos sensibles.
- Supervisión continua de las interacciones. Haga un seguimiento de los datos introducidos por los usuarios, los prompts de los modelos y los resultados para identificar y mitigar los riesgos a medida que surgen.
Proofpoint ayuda a mitigar los riesgos de seguridad de la IA
La IA es una herramienta transformadora. Sin embargo, al depender de datos sensibles, crea desafíos especiales para los equipos de seguridad. Si adopta un enfoque estructurado para proteger la infraestructura de IA, puede aprovechar el potencial de los LLM personalizados y de herramientas como Copilot. Además, no es necesario que comprometa la integridad de sus datos, infrinja las normativas ni pierda la confianza de sus clientes.
La solución DSPM de Proofpoint ayuda a las organizaciones a proteger su infraestructura mediante:
- El descubrimiento y la clasificación de los datos sensibles en los entornos cloud y en cliente (locales).
- La supervisión del linaje de los datos para que pueda ver cómo entran y salen de los sistemas de IA.
- La integración con herramientas como las etiquetas de Microsoft MIP, para mejorar el gobierno de los datos.
- La identificación de los riesgos y el aviso a los equipos del acceso no autorizado a los datos o el uso de datos sensibles.
Para ver un análisis más profundo de estas estrategias y una demostración en directo de cómo puede ayudarle Proofpoint, vea el webinar completo: “Training Your LLM Dragons: Why DSPM is Foundational for Every AI Initiative.”