Pandora papers. Importancia del Data Discovery & Classification

Diseño del blog

Pandora papers. La importancia del Data Discovery & Classification

Jose Sala Hill • 6 de octubre de 2021

Las soluciones de Data Discovery & Classification permiten identificar la información sensible en orígenes de datos estructurados y no estructurados, y asignarles etiquetas persistentes mediante el Procesamiento del Lenguaje Natural (NLP) y la Inteligencia Artificial, para identificar las relaciones existentes y asignarles etiquetas.

La filtración más amplia de archivos de paraísos fiscales en la historia revela las tenencias secretas en el extranjero de más de 300 políticos y funcionarios públicos de más de 90 países y territorios en los Pandora Papers.

¿En qué forma vinieron los datos en los documentos?

Los más de 11,9 millones de registros no estaban estructurados en gran medida. Más de la mitad de los archivos (6,4 millones) eran documentos de texto, incluidos más de 4 millones de archivos PDF, algunos de los cuales ocupaban más de 10.000 páginas. Los documentos incluían pasaportes, extractos bancarios, declaraciones de impuestos, registros de constitución de empresas, contratos inmobiliarios y cuestionarios de diligencia debida. También había más de 4,1 millones de imágenes y correos electrónicos en la filtración. Las hojas de cálculo constituían el 4% de los documentos, o más de 467.000. Los registros también incluían presentaciones de diapositivas y archivos de audio y video.

"Los datos son importantes", sí, pero la parte realmente importante es la información, el conocimiento extraído de los datos, no los datos en sí.

¿Puede un documento de 10 páginas contener más información que un documento de 100 páginas? No podemos decirlo sin antes haberlos leído por completo.

Una persona, de promedio necesita alrededor de 200 minutos / 3,5 horas para leer 100 páginas. ¿Qué pasa si tenemos miles de páginas de documentos legales o el análisis técnico de una inversión? ¿Hay alguna forma de gestionar la información esencial antes de leerlo todo? NO, y esto se vuelve cada vez más difícil a medida que aumentan el volumen y la variedad y, después de cierto punto, se vuelve imposible.

La solución de Data Discovery & Classification encuentra la información en los datos aportando mucha información antes de leer por completo el documento/s. A su vez, también es capaz de descubrir las conexiones entre archivos y documentos que tienen información en común. Solución basada en Inteligencia Artificial para Descubrir, Archivar y Proteger información sensible, personal o confidencial en orígenes de datos estructurados y no estructurados (Documentos de cualquier tipo, bases de datos y otras fuentes externas).

Cognitive Content Management

Gracias a las soluciones de Descubrimiento Semántico y la Clasificación Automática basadas en Inteligencia Artificial y Procesamiento del Lenguaje Natural, es posible la identificación de relaciones y la extracción y etiquetaje automatizado de nombres de personas, empresas, fechas, ubicaciones, y todos aquellos datos sensibles de los documentos, reduciendo muchas horas de trabajo manual en unos pocos segundos.

Mediante el uso de tecnologías de inteligencia artificial y procesamiento del lenguaje natural, es posible encontrar mucha información que no podría encontrar con búsquedas simples basadas en palabras. No es necesario que preclasifique los documentos ni que introduzca metadatos durante la indexación.

La gestión de contenido cognitivo permite entregar contenido muy personalizado y relevante.

Los datos generalmente vienen en una variedad de documentos y formatos, como PDF, Excel, redes sociales, correos electrónicos, documentos escaneados, fotografías o videos. Puede definir fuentes de datos o un nuevo documento con solo arrastrar y soltar, y el resto del procesamiento es automático.

La distribución geográfica del contenido tiene un valor incalculable.

Intelligent Search Engine with Mapping Features

Marcar / Realizar anotaciones es otro cuello de botella en un intento de descubrimiento manual. Supongamos que decidimos leer todos los documentos, pero ¿cómo marcamos las secciones importantes? Podemos tomar notas en un archivo de texto o utilizar la herramienta de comentarios de PDF (asumiendo que todos los archivos son PDF).

Bien, pero ¿cómo se hace un seguimiento de todos los comentarios?

Permite marcar y comentar sin importar el formato del contenido. Puede tomar notas en un archivo PDF o posiciones específicas en un proyecto DWG o un rango de tiempo en un video. Cuando el contenido de una nota coincide con la búsqueda, navega hasta la posición exacta. Las fechas, lugares y otra información extraída también se consideran marcas.

Hemos explicado todo en nuestro blog https://www.cobertic.com/lo-realmente-importante-es-la-informacion-el-conocimiento-extraido-de-los-datos-no-los-datos-en-si por lo que te animamos a echarle un vistazo y así descubrir por que puede ser una gran opción para tu compañía.

Y si os quedan dudas, estaremos encantados de atenderte en el 660 650 989 o por email info@cobertic.com

< Entrada más antigua Entrada más reciente >

Beneficios y Riesgos de los LLM en ciberseguridad

Por Jose Sala Hill • 24 de octubre de 2024

Con un uso cuidadoso y un desarrollo continuo, los LLM tienen un amplio potencial para transformar el campo de la ciberseguridad pero su utilización debe abordarse con cautela, teniendo en cuenta las cuestiones relacionadas con la privacidad de los datos y los ataques de Machine Learning Adversarial. Aplicaciones de los LLM en ciberseguridad Los modelos de lenguaje amplio (LLM) ofrecen un potencial interesante para mejorar numerosas aplicaciones de ciberseguridad como son: La mejora de la detección. Los LLM ya se utilizan para simular ataques avanzados de phishing que lanzan atacantes expertos, lo que aumenta la capacidad para detectarlos y evitar ser víctimas de ellos. Los LLM pueden respaldar soluciones de seguridad utilizadas en la detección de amenazas y la seguridad de endpoints , como la definición de reglas de detección para motores de reglas. Basándose en la investigación de ataques, los analistas de seguridad podrían formular reglas de detección utilizando lenguaje natural y enviarlas a los LLM, que traducirían y generarían reglas formateadas aplicables por un motor de reglas. Los LLM pueden sugerir respuestas y acciones de mitigación para las amenazas investigadas. Su capacidad para procesar y sintetizar grandes cantidades de datos heterogéneos puede ser útil en Threat Intelligence y en la gestión de vulnerabilidades donde la riqueza de información para recopilar y analizar es enorme. Los LLM pueden extraer datos de fuentes de información internas y externas, combinándolos y extrayendo información relevante sobre nuevas amenazas que afectan a la organización y nuevas vulnerabilidades que afectan a sus sistemas. En análisis de seguridad y centros de operaciones de seguridad (SOC), los LLM pueden respaldar la investigación de alertas de seguridad, extrayendo información de diferentes sistemas para contextualizar los eventos de seguridad. No solo agilizan las tareas iniciales de contextualización, sino que también facilitan investigaciones más profundas a través de interacciones iterativas, lo que permite a los analistas profundizar y buscar información adicional a medida que comprenden mejor un ataque. Al actuar como un puente entre varias fuentes de información y proporcionar información razonada, los LLM pueden ofrecer una asistencia sustancial en operaciones de seguridad que involucran humanos. Los LLM también se pueden configurar como asistentes para configurar sistemas complejos de manera segura . Aunque los proveedores de servicios en la nube implementan un alto nivel de seguridad en su infraestructura, una amenaza de seguridad importante proviene de una configuración de implementación incorrecta por parte de sus usuarios, debido a la complejidad de definir los parámetros adecuados. Los LLM pueden guiar a los administradores de sistemas a través de este proceso de configuración, interactuando y proporcionando parámetros de información, así como sugiriendo valores en función de las necesidades expresadas al LLM. Los LLM también pueden enseñar y mejorar la aplicación de prácticas de seguridad para desarrolladores habituales y administradores de sistemas . Los asistentes de codificación pueden enseñar codificación segura y garantizar que sus principios se apliquen de manera consistente durante el desarrollo de software. Por ejemplo, algunos asistentes de codificación incluyen una función de escaneo de seguridad para encontrar y resolver de manera preventiva posibles vulnerabilidades de seguridad en el código. Una última aplicación de LLM es la educación en seguridad . Los LLM pueden servir para capacitar a los analistas de seguridad en la investigación de alertas. Dado un evento de seguridad, pueden sugerir la información que se debe extraer y correlacionar, los indicadores que se deben observar y las acciones de respuesta que se deben realizar. Riesgos y amenazas La creciente adopción de la IA para muchas aplicaciones también ha traído consigo revelaciones sobre las limitaciones de esta tecnología. Los problemas relacionados con el sesgo (injusticia) de los sistemas de IA, la falta de explicabilidad, pero también los problemas de seguridad y privacidad. Los sistemas de IA son vulnerables a nuevas amenazas de seguridad, los ataques de Machine Learning Adversarial (AML) en los que los atacantes manipulan intencionalmente los datos de entrada para obligar a los modelos a realizar predicciones incorrectas o publicar información confidencial. Entre estos ataques que comprometen la integridad de los sistemas de IA y la confiabilidad de sus predicciones destacan los siguientes: El envenenamiento de modelos es un ataque mediante el cual un adversario inyecta o modifica maliciosamente los datos de entrenamiento o la lógica de entrenamiento de un modelo de IA para reducir la exactitud o la confianza de sus predicciones. La evasión de modelos es un ataque mediante el cual un adversario construye maliciosamente entradas que se enviarán a un sistema de IA en el momento de la inferencia para provocar predicciones incorrectas. La inversión de modelos que permite inferir datos confidenciales de los resultados de un modelo, lo que plantea riesgos importantes cuando se entrena con datos confidenciales como registros médicos o financieros. Los piratas informáticos consultan el modelo y utilizan las respuestas para realizar ingeniería inversa de los datos de entrenamiento. El robo de modelos donde se utilizan consultas API repetidamente para replicar la funcionalidad del modelo. Estas consultas ayudan al atacante a crear un modelo sustituto que se comporta como el original. AI Security afirma: "Los modelos de IA suelen ser el objetivo de consultas API para realizar ingeniería inversa de su funcionalidad, lo que plantea riesgos importantes para los sistemas propietarios, especialmente en sectores como las finanzas, la atención sanitaria y los vehículos autónomos". A diferencia de las amenazas cibernéticas tradicionales, como el malware o el phishing, el Machine Learning Adversarial intenta explotar la lógica de toma de decisiones de un sistema de IA, lo que da como resultado un malware que puede evadir un modelo de aprendizaje automático entrenado y listo para producción. Como resultado, la IA/ML adversarial se está convirtiendo en una de las principales preocupaciones de los equipos de SecOps modernos. Conclusión Los ataques de Machine Learning Adversarial representan una amenaza importante para la integridad y la confiabilidad de los sistemas de Machine Learning. A medida que estos ataques se vuelven más sofisticados, la necesidad de estrategias de defensa sólidas y resistentes se vuelve cada vez más crítica. Al comprender a fondo la naturaleza de estas amenazas y desarrollar mecanismos de defensa integrales, podemos proteger las tecnologías que impulsan nuestro mundo moderno. Para abordar estos desafíos de manera efectiva, es fundamental combinar una variedad de técnicas defensivas. A medida que implementamos y refinamos las defensas, el papel de la gobernanza y la adhesión a principios como la transparencia, la equidad y la seguridad sigue siendo fundamental. En COBERTIC , aprovechamos el poder de la IA para abordar desafíos con soluciones innovadoras de anonimización de datos, garantizando la privacidad y el cumplimiento normativo, al tiempo que optimizamos la calidad de los datos y promovemos el uso ético de la información.

#RAG – Generación Aumentada por Recuperación

Por Jose Sala Hill • 27 de agosto de 2024

La generación aumentada por recuperación (RAG) es una técnica de la inteligencia artificial (IA) generativa enfocada en mejorar la calidad, la precisión y la confiabilidad de las respuestas generadas por los grandes modelos de lenguaje (LLM) que es capaz proporcionar respuestas contextualmente adecuadas gracias a la recuperación de información proveniente de bases o fuentes externas de conocimiento, así como basar dichas respuestas en datos extremadamente recientes. Me quedo con lo escrito en el blog de https://datos.gob.es/es/ “Haciendo un símil con el ámbito médico, podríamos decir que el uso de RAG es como si un médico, con amplia experiencia y, por lo tanto, altamente entrenado, además de los conocimientos adquiridos durante su formación académica y años de experiencia, tuviera acceso rápido y sin esfuerzo a los últimos estudios, análisis y bases de datos médicas al instante, antes de proporcionar un diagnóstico. La formación académica y los años de experiencia equivalen al entrenamiento del LLM y el “mágico” acceso a los últimos estudios y bases de datos específicas pueden asimilarse a lo que proporciona las técnicas RAG.”

#AI Risk Repository - Análisis de los riesgos que plantea la IA

Por Jose Sala Hill • 21 de agosto de 2024

#AI Risk Repository - Análisis de los riesgos que plantea la IA

PCE-NIS2 - Perfil de Cumplimiento Específico para la Directiva NIS2

Por Jose Sala Hill • 20 de agosto de 2024

Perfil de Cumplimiento Específico para la Directiva NIS2 (PCE-NIS2)

Cómo prevenir la exposición y fuga de datos

Por Jose Sala Hill • 15 de agosto de 2024

En la era digital actual, la protección de la privacidad de los datos es una preocupación fundamental para las organizaciones. A medida que las empresas recopilan y utilizan cantidades masivas de datos, aumentan los riesgos de violaciones de la privacidad. La seudonimización mediante sustitución ha surgido como una solución poderosa para mitigar estos riesgos y proteger la información confidencial. La necesidad de seudonimizar mediante sustitución por datos sintéticos El uso de datos reales en aplicaciones de IA y de análisis de datos plantea graves riesgos de privacidad. Las violaciones de datos pueden dar lugar a la exposición de información de identificación personal (PII), daños a la reputación y sanciones legales significativas. Además, las normativas de privacidad como el RGPD imponen requisitos estrictos sobre cómo se deben manejar y proteger los datos personales. La sustitución por datos sintéticos reemplaza los datos reales por otros de la misma naturaleza. Es decir, si se quiere seudoninimizar mediante sustitución un nombre masculino con apellidos, este nombre se sustituye por otro nombre masculino con otros apellidos. Se sustituyen los datos reales por datos ficticios. Este método facilita la comprensión y mantiene la legibilidad de la información sin exponer los datos y protegiendo la privacidad. Eliminación de información sensible : Los datos sintéticos no contienen información de identificación personal, lo que elimina el riesgo de exposición de datos sensibles. Al utilizar datos sintéticos , las organizaciones pueden entrenar y probar sus modelos de IA sin preocuparse por comprometer la privacidad de las personas. Cumplimiento normativo : El uso de datos sintéticos facilita el cumplimiento de las normativas de privacidad como el RGPD. Estas normativas exigen a las organizaciones proteger los datos personales y minimizar el riesgo de exposición. Los datos sintéticos cumplen estos requisitos al no contener información real. Reducción del riesgo de re-identificación : Los datos sintéticos están diseñados para evitar la re-identificación. Un estudio del Centro de Seguridad de la Información de la Universidad de Stanford demostró que es posible volver a identificar a las personas en conjuntos de datos anonimizados utilizando técnicas avanzadas de IA. Sin embargo, los datos sintéticos, al no contener información real, eliminan este riesgo. Protección en entornos de desarrollo y prueba : En entornos de desarrollo y prueba, los datos en vivo pueden ser vulnerables al acceso no autorizado. Los datos sintéticos proporcionan una alternativa segura, que permite a los desarrolladores y evaluadores trabajar sin el riesgo de violaciones de la privacidad. Implementación de datos sintéticos La implementación de datos sintéticos implica varios pasos clave: Modelado de datos reales : Construir modelos estadísticos basados en datos reales disponibles para capturar propiedades y patrones esenciales. Generación de datos sintéticos : Utilizar los modelos para generar nuevos datos que imiten las características de los datos originales sin contener información confidencial. Evaluación y validación : Evaluar la calidad de los datos sintéticos generados para garantizar que mantengan la integridad y las propiedades estadísticas de los datos reales. Integración del flujo de trabajo : Integrar los datos sintéticos en entornos de desarrollo, prueba y producción para minimizar el uso de datos reales y reducir los riesgos de privacidad. Conclusión Los datos sintéticos representan una solución eficaz para prevenir violaciones de la privacidad y proteger la información confidencial en la era digital. Al eliminar la necesidad de utilizar datos reales, las organizaciones pueden reducir significativamente los riesgos de exposición de datos, cumplir con las regulaciones de privacidad y proteger la confidencialidad de las personas. Estudios e investigaciones demuestran que los datos sintéticos no sólo son una alternativa viable, sino también una herramienta esencial para la seguridad y la privacidad de los datos en el siglo XXI. ¿Quieres seudonimizar mediante sustitución por datos sintéticos? Nosotros podemos ayudarte. Para más información contáctanos a info@cobertic.com

¡ Descubre cómo crear tus datos sintéticos para entrenar tu IA !

Por Jose Sala Hill • 8 de agosto de 2024

Los datos de entrenamiento juegan un papel vital en el desarrollo y la efectividad de los modelos de aprendizaje automático. Una gran preocupación actual reside en la falta de datos buenos, confiables y eficientes. Si bien la cantidad de datos generados en todo el mundo está aumentando rápidamente, hay ciertos dominios o tipos de datos en los que pueden existir escasez o limitaciones. No todos los datos son fácilmente accesibles, utilizables o etiquetados para fines específicos de capacitación en IA. Es muy importante entender que las empresas que deseen utilizar modelos de IA en sus negocios necesitan datos confiables para lograr los resultados deseados. Los datos sintéticos están emergiendo como una solución a esta escasez. Los datos sintéticos no solo ayudan a resolver esta escasez, sino que también facilitan proteger la privacidad, la innovación y mejoran la calidad del entrenamiento de los modelos de IA. ¿Qué son los datos sintéticos? Los datos sintéticos son datos generados artificialmente utilizando algoritmos y técnicas avanzadas para imitar las propiedades estadísticas de los datos reales sin incluir información sensible o identificable. Estos datos se utilizan para entrenar, validar y probar modelos de IA, y son especialmente útiles cuando los datos reales son difíciles de obtener, están sujetos a restricciones legales o contienen información sensible. Cuando se utilizan datos sintéticos, es vital asegurarse de que los datos generados tengan la calidad suficiente y representen con precisión la distribución del mundo real. Es necesaria la validación y la realización de pruebas exhaustivas, que puedan garantizar que los datos sintéticos se alineen con las características deseadas y sean adecuados para entrenar modelos de IA. Creación de datos sintéticos La creación de datos sintéticos implica varios pasos y técnicas, entre las que se incluyen: Modelado de datos originales . Se crean modelos estadísticos o de aprendizaje automático a partir de los datos reales disponibles. Estos modelos capturan las propiedades y patrones esenciales de los datos originales. Generación de nuevos datos . Utilizando los modelos construidos, se generan nuevos datos que imitan las características de los datos originales. Este proceso puede incluir técnicas como simulación, permutación e interpolación. Evaluación de la calidad . Los datos sintéticos generados se evalúan para garantizar que mantengan la integridad y las propiedades estadísticas de los datos originales. Se realizan pruebas de consistencia y validez para confirmar que los datos sintéticos sean realistas y útiles. Ajuste y refinamiento . En función de la evaluación, los modelos y los datos generados se pueden ajustar y refinar para mejorar la calidad y la precisión de los datos sintéticos. Los datos sintéticos se pueden utilizar para proteger la información confidencial de individuos y organizaciones. Al usar datos sintéticos generados al mantener las propiedades estadísticas y los patrones de los datos originales en lugar de los datos reales, la información se puede transferir sin problemas sin comprometer la privacidad individual. Los datos sintéticos se pueden generar con variaciones específicas, lo que permite una mayor diversidad en el conjunto de datos de entrenamiento de IA. Esta diversidad ayuda a los modelos de IA a aprender de una gama más amplia de escenarios, mejorando la generalización y el rendimiento cuando se aplican a situaciones del mundo real. ¿ Que desafíos plantea la creación de datos sintéticos? Complejidad técnica La creación de datos sintéticos requiere conocimientos avanzados en modelado estadístico y técnicas de aprendizaje automático, lo que puede ser un desafío para muchas organizaciones. Garantía de calidad Garantizar que los datos sintéticos sean de alta calidad y mantengan las propiedades de los datos reales puede ser complicado y requiere un riguroso proceso de validación. Costes de puesta en marcha La implementación de sistemas para generar datos sintéticos puede implicar importantes costos iniciales en términos de infraestructura y recursos humanos. ¿ Cómo superar los desafíos ? Para superar estos desafíos, las empresas pueden recurrir a herramientas avanzadas que facilitan la creación y gestión de datos sintéticos. Estas herramientas automatizan el proceso de generación de datos, brindan capacidades de evaluación y validación y garantizan el cumplimiento normativo, todo ello al tiempo que reducen la complejidad técnica y los costos asociados. Existen soluciones que permiten generar datos sintéticos de alta calidad, manteniendo la privacidad y cumpliendo con las normas de protección de datos. Estas soluciones no solo facilitan la creación de datos sintéticos, sino que también identifican y anonimizan los datos sensibles, asegurando una protección robusta y eficiente. ¿Quieres crear tus propios datos sintéticos? Nosotros podemos ayudarte. Para más información contáctanos a info@cobertic.com

#RIA - Reglamento de Inteligencia Artificial

Por Josep Sala Hill • 15 de julio de 2024

Conoce qué establece el nuevo Reglamento de la Inteligencia Artificial: Ambito, Obligaciones, Implicaciones, ...

NIS 2 - La Directiva (UE) 2022/2555

Por Jose Sala Hill • 25 de junio de 2024

¿Qué impacto tiene en la estrategia de ciberseguridad de tu empresa?

Garantiza la confidencialidad de los datos generados con IA generativa

Por Jose Sala Hill • 5 de abril de 2024

El reto es que se anonimice la información que se facilita a la IA generativa

Mesures de Seguretat recomanades

Por Jose Sala Hill • 30 de mayo de 2023

1 .- Deshabilitar les macros

Más entradas

Contáctanos

Llámanos, envíanos un email o rellena el formulario. ¡ Te responderemos lo más pronto posible !

660 650 989

Servicios

Servicios Estratégicos

Effective Cost Optimization

Business Process Optimization

Robotic Process Automation

Servicios Tecnológicos

Auditoría Tecnológica

Soluciones

Analitica Avanzada

Sales Patterns

Basket Analysis

Customer Segmentation

Human Resource Planner

Seguridad y Privacidad

Prevención fuga de datos

Data Discovery & Classification

Data Anonymization

Compliance

RD 43/2021 - Directiva NIS

Esquema Nacional de Seguridad

ISO 27001

Sobre Nosotros

Ofrecemos servicios y soluciones estratégicas. Con más de 25 años de actividad y la experiencia necesaria para ayudar a nuestros clientes a innovar y redefinir su estrategia digital.

Creemos en las relaciones a largo plazo por lo que nuestros valores se basan en el compromiso profesional, la transparencia y la claridad de las comunicaciones, el trato directo y el trabajo bien hecho.

Nuestra mayor satisfacción es la confianza de nuestros clientes.

Blog

Aviso legal

Política de cookies

Strategic Services & Smart Solutions

Pandora papers. La importancia del Data Discovery & Classification

Contáctanos

660 650 989