Cómo hacer anonimización y seudonimización de datos personales

La anonimización y la seudonimización suelen tratarse como sinónimos — pero tienen efectos jurídicos completamente distintos bajo la Ley 21.719. Confundirlas puede llevar a su organización a creer que está fuera del alcance de la ley cuando, en la práctica, sigue sujeta a todas sus obligaciones.

Esta guía aclara las definiciones legales, las técnicas disponibles, sus limitaciones y cómo decidir qué enfoque utilizar en cada contexto.

Definiciones bajo la Ley 21.719

Dato anonimizado

La Ley 21.719 define el dato anonimizado como aquel relativo a un titular que no pueda ser identificado, considerando la utilización de medios técnicos razonables y disponibles al momento del tratamiento.

El dato verdaderamente anonimizado no se considera dato personal para los efectos de la ley — y por tanto queda fuera de su ámbito de aplicación — salvo cuando:

El proceso de anonimización pueda revertirse utilizando medios propios del responsable; o
Cuando, con esfuerzos razonables, el proceso pueda revertirse

La determinación de qué es "razonable" considera: el costo y tiempo necesarios para revertir la anonimización, y las tecnologías disponibles al momento del tratamiento.

Dato seudonimizado

La seudonimización es el tratamiento mediante el cual un dato pierde la posibilidad de asociación directa o indirecta a un individuo, salvo mediante el uso de información adicional mantenida separadamente por el responsable en un entorno controlado y seguro.

Diferencia fundamental: los datos seudonimizados continúan siendo datos personales bajo la Ley 21.719. La seudonimización reduce el riesgo, pero no elimina las obligaciones legales.

El criterio clave: la reversibilidad

Característica	Anonimización	Seudonimización
Vínculo con el titular	Eliminado (irreversible en condiciones razonables)	Sustituido por identificador (reversible con clave)
¿Es dato personal?	No (si está efectivamente anonimizado)	Sí
¿Sujeto a la Ley 21.719?	No	Sí
¿Reduce el riesgo?	Elimina el riesgo de identificación	Reduce significativamente
¿Protege ante filtraciones?	Sí — dato sin valor identificatorio	Parcialmente — la clave debe estar separada y segura

Por qué la distinción importa en la práctica

Consecuencias de llamar seudonimización a anonimización

Una organización que aplica seudonimización (por ejemplo, sustituir RUTs por tokens internos) y trata los datos resultantes como "anonimizados" incurre en un error jurídico grave:

Puede omitir el registro de esas actividades en el RAT, creyendo que están fuera de la Ley 21.719
Puede no aplicar las medidas de seguridad exigidas por el Art. 14 quinquies
En caso de incidente que involucre esos datos, puede no comunicar a la APDP por considerar que los datos seudonimizados no son personales
Puede no elaborar la EIPD para actividades de alto riesgo que utilizan datos seudonimizados

El riesgo de reidentificación en datos supuestamente anonimizados

La anonimización no es un estado binario — es un espectro. Datos que eran verdaderamente anónimos en 2015 pueden ser reidentificables en 2026, debido al crecimiento de bases de datos auxiliares y al avance de las técnicas de análisis.

Estudios académicos han demostrado la vulnerabilidad de datos supuestamente anonimizados:

Datos de geolocalización sin identificación directa pueden combinarse con patrones de desplazamiento para identificar individuos
Datos médicos con atributos como edad, género, código postal y diagnóstico pueden cruzarse con otras bases para reidentificación
La IA generativa y las técnicas de linkage attack hacen que la reidentificación sea progresivamente más accesible

La Ley 21.719 reconoce este riesgo al establecer que los datos utilizados para formar perfiles conductuales de personas naturales identificadas — aunque originalmente procesados con técnicas de separación — pueden considerarse datos personales.

Técnicas de anonimización

1. Supresión

Elimina completamente los campos de identificación directa del conjunto de datos.

Ejemplo: eliminar nombre, RUT, dirección y correo electrónico de una base de clientes, manteniendo solo información de comportamiento de compra.

Limitación: cuando los datos restantes son suficientemente específicos (ej.: compras muy raras, combinaciones únicas de atributos), la reidentificación puede ser posible por eliminación.

2. Generalización

Sustituye valores precisos por intervalos o categorías más amplias.

Ejemplo: sustituir "32 años" por "30-40 años"; sustituir el código postal completo por solo los tres primeros dígitos; sustituir el valor exacto de salario por rango salarial.

Limitación: reduce la utilidad analítica de los datos; valores muy específicos pueden aún permitir identificación.

3. Aleatorización y perturbación

Añade ruido estadístico a los datos para impedir correlaciones precisas, manteniendo la distribución estadística general.

Ejemplo: sumar o restar un valor aleatorio de edades o valores financieros dentro de un rango aceptable para análisis estadístico.

Uso: adecuada para análisis de tendencias donde la precisión individual no es necesaria.

4. Agregación

Presenta los datos solo en forma agregada (promedios, sumas, conteos de grupos), sin exponer registros individuales.

Uso: informes analíticos, dashboards, investigaciones de mercado.

Atención: grupos muy pequeños pueden hacer que los registros individuales sean identificables por proceso de eliminación.

5. Enmascaramiento (Data Masking)

Sustituye datos reales por datos ficticios pero plausibles, manteniendo el formato original.

Ejemplo: sustituir un RUT real "12.345.678-9" por "98.765.432-1" (RUT ficticio pero estructuralmente válido).

Uso: entornos de desarrollo y prueba, donde no deben estar presentes datos reales.

6. Tokenización

Sustituye el dato original por un token (identificador aleatorio) sin valor intrínseco, mientras la correspondencia original se mantiene en un sistema separado y seguro.

Resultado: técnicamente, la tokenización produce seudonimización, no anonimización — el dato original puede recuperarse mediante la clave de correspondencia.

Técnicas de seudonimización

La seudonimización separa la identidad del titular de los datos de comportamiento o atributo, permitiendo el análisis sin exposición directa de la identidad. Las técnicas principales son:

Tokenización

Como se describió arriba: sustituye identificadores directos (RUT, correo, nombre) por tokens. La tabla de correspondencia se mantiene en un sistema separado, con controles de acceso restringidos.

Requisito legal: la información adicional (tabla de correspondencia) debe mantenerse separadamente, en un entorno controlado y seguro.

Hash criptográfico

Aplica una función de hash (SHA-256, por ejemplo) sobre el dato identificador, produciendo una representación de tamaño fijo irrecuperable (en teoría) sin ataque de fuerza bruta.

Limitación crítica: el hash de RUTs o correos electrónicos no es seudonimización robusta — el universo de RUTs válidos es finito y enumerable, lo que hace practicables los ataques de diccionario. Siempre use hash con salt (valor aleatorio añadido antes del hash) para mitigar este riesgo.

Cifrado

Cifra el dato identificador con una clave. El dato puede recuperarse con la clave correspondiente — por lo tanto es seudonimización, no anonimización.

Uso: cuando es necesario mantener la capacidad de revertir la separación (ej.: para atender solicitudes de titulares), pero se desea proteger el dato en reposo.

Cuándo usar cada enfoque

Escenario	Enfoque recomendado
Entorno de desarrollo y prueba	Enmascaramiento + sustitución por datos sintéticos
Análisis estadístico e investigación	Anonimización (agregación o generalización)
Analytics de comportamiento del usuario	Seudonimización con tokenización
Compartición con socio para análisis conjunto	Seudonimización — los datos siguen siendo personales y exigen contrato de tratamiento
Almacenamiento de largo plazo tras el fin del tratamiento	Anonimización — si la finalidad analítica puede satisfacerse sin identificación
Respaldo de datos históricos	Seudonimización como mínimo; anonimización cuando sea posible

Obligaciones que permanecen con datos seudonimizados

Como los datos seudonimizados siguen siendo datos personales, la organización mantiene todas las obligaciones de la Ley 21.719:

Incluir las actividades en el RAT
Aplicar medidas de seguridad (Art. 14 quinquies)
Elaborar EIPD cuando corresponda (Art. 15 ter)
Responder a solicitudes de titulares (Arts. 5-9)
Comunicar incidentes a la APDP cuando la seguridad de los datos se vea comprometida (Art. 14 sexies)
Formalizar contratos con encargados que traten esos datos

Gobernanza del proceso de anonimización y seudonimización

Cualquier proceso de anonimización o seudonimización debe estar documentado y gobernado. Los elementos esenciales:

Documentación del proceso

Técnica utilizada y justificación de la elección
Análisis del riesgo residual de reidentificación
Evaluación periódica de si el dato todavía puede considerarse anónimo (las tecnologías evolucionan)

Gestión de la clave de seudonimización

Para datos seudonimizados, la seguridad de la clave de correspondencia es crítica:

Almacenamiento en sistema separado de los datos seudonimizados
Control de acceso restringido con autenticación multifactor
Log de todos los accesos a la clave
Rotación periódica (y actualización de los tokens correspondientes)

Revisión periódica del riesgo de reidentificación

Lo que es inidentificable hoy puede no serlo mañana. Revise anualmente:

Nuevas bases de datos auxiliares disponibles públicamente
Avances en técnicas de análisis e IA
Granularidad de los datos remanentes tras la anonimización

Conclusión

La anonimización y la seudonimización son herramientas valiosas para reducir los riesgos de privacidad y ampliar las posibilidades de uso analítico de los datos — pero exigen rigor técnico y jurídico.

El punto central: la seudonimización no libera a su organización de las obligaciones de la Ley 21.719. Solo la anonimización genuina e irreversible lo hace — y aun así, con la advertencia de que la irreversibilidad debe evaluarse continuamente a la luz de las tecnologías disponibles.

Antes de clasificar un dato como "anonimizado", hágase la pregunta correcta: con los medios técnicos razonablemente disponibles hoy, ¿es posible revertir el proceso e identificar al titular? Si la respuesta es "sí" o "tal vez", el dato sigue siendo personal.

Confidata ayuda a su organización a mapear y clasificar correctamente los datos tratados en cada actividad, incluyendo la identificación de tratamientos que involucran datos seudonimizados y sus obligaciones asociadas bajo la Ley 21.719.