O mascaramento de dados (termo que engloba anonimização, pseudoanonimização, redefinição, limpeza ou desidentificação de dados) é um método de proteção de dados sensíveis que substitui o valor original por um valor equivalente fictício, mas realista. O mascaramento de dados também é chamado de camuflagem de dados.
Conforme os líderes de TI percebem que os dados são fundamentais para desenvolver aplicações e softwares com foco em dados, além de viabilizar uma vantagem competitiva, está se tornando cada vez mais importante fornecer acesso seguro aos dados que trafegam por uma organização com o objetivo de inovar mais rapidamente e em grande escala, sem comprometer privacidade e segurança.
A grande maioria dos dados sensíveis de uma empresa estão em ambientes não produtivos, e são usados nas atividades de desenvolvimento e testes. Os ambientes não produtivos representam a maior exposição ao risco de um empresa, em que pode haver até 12 cópias para fins não produtivos para cada cópia de dados produtivos que existem. Para testar adequadamente, é essencial ter dados realistas, mas todos sabem que dados reais podem aumentar muito os riscos de segurança.
O mascaramento de dados também elimina o risco de exposição de dados pessoais, garantindo compliance com as leis de proteção de dados. Ao seguir as melhores práticas para o mascaramento de dados, as empresas conseguem migrar dados rapidamente até chegar à pessoa certa, na hora certa.
Mascaramento interno: leitura de um destino e, em seguida, atualização do destino com dados mascarados, sobrescrevendo quaisquer informações sigilosas.
Mascaramento externo: leitura de uma fonte (ex.: ambiente produtivo) e gravação dos dados mascarados em um destino (geralmente ambiente não produtivo).
Mascaramento de dados estático: o mascaramento de dados no armazenamento elimina quaisquer rastros, como registros ou alterações em capturas de dados.
Mascaramento de dados dinâmico: essa técnica temporariamente oculta ou substitui dados sensíveis em trânsito, deixando os dados originais em repouso intactos e inalterados. Ela é usada principalmente para aplicar segurança baseada em função (nível do objeto) para bancos de dados ou aplicações em ambientes produtivos, e como forma de aplicar essa segurança a aplicações (legadas) que não têm um modelo de segurança baseado em funções integrado. Ela protege os dados em contextos de “somente leitura” (relatórios). Ela não se destina a alterar permanentemente os valores de dados sensíveis para serem usados em ambientes não produtivos.
Geração de dados sintéticos: essa técnica não mascara os dados. Ela gera novos dados no lugar de dados existentes, mantendo a estrutura dos dados intacta. A técnica é usada em situações como no desenvolvimento inicial de aplicações (greenfield).
Criptografia: esse método codifica os dados usando cálculos matemáticos e algoritmos. Ele é usado para proteger dados que precisam retornar ao seu valor original (ex.: dados produtivos ou dados em trânsito). A criptografia oferece proteção aos dados somente enquanto as respectivas chaves de criptografia estão seguras. Um hacker que comprometa as chaves certas consegue descriptografar os dados sensíveis, restaurando-os de volta ao seu estado original. Com o mascaramento de dados, não existe uma chave-mestra, então não é possível retornar os dados codificados aos valores originais.
Tokenização: a tokenização é outra variação da criptografia, que gera tokens com estado e sem estado. Na maioria das vezes, eles podem ser identificados novamente.
Codificação: essa técnica envolve a codificação de caracteres ou números, o que não protege adequadamente dados sensíveis.
Anulação ou exclusão: altera as características dos dados e remove qualquer utilidade dos dados.
Variância: os dados são alterados com base em intervalos definidos. Pode ser útil em determinadas situações, por exemplo, quando dados transacionais que não são sensíveis precisam ser protegidos para agregações ou fins analíticos.
Substituição: os dados são substituídos por outro valor. O nível de dificuldade para executar pode variar bastante. É a forma correta de realizar o mascaramento.
Embaralhamento: migração de dados ao longo de linhas da mesma coluna. Isso pode ser útil em determinados cenários, mas não se pode garantir a segurança dos dados.
Redefinição: esse tipo de mascaramento de dados exige a alteração de todos os caracteres como o mesmo caractere. É fácil fazer, mas os dados perdem seu valor para o negócio.
1. Integridade referencial: as equipes de desenvolvimento de aplicações precisam de cópias completas e atuais do banco de dados produtivo para suas atividades de testes. Técnicas verdadeiras de mascaramento de dados transformam informações confidenciais e preservam a integridade dos dados.
Por exemplo, Jorge sempre deve ser mascarado como Elias ou um determinado número de registro de identidade (RG) sempre deve ser mascarado como o mesmo RG. Isso ajuda a preservar as chaves primárias e externas em um banco de dados necessário para avaliar, manipular e integrar conjuntos de dados, junto com as relações dentro de um determinado ambiente de dados e também em diversos bancos de dados heterogêneos (ex.: preservar a integridade referencial quando você mascara dados em um banco de dados Oracle e SQL Server).
2. Realista: sua solução de tecnologia de mascaramento de dados deve permitir que você gere dados realistas, mas fictícios, específicos para os negócios, para que seja viável realizar testes, mas sem fornecer qualquer tipo de valor a invasores e hackers. Os valores mascarados resultantes devem ser úteis em aplicações não produtivas. Você não pode simplesmente mascarar os nomes como uma string aleatória de caracteres.
3. Irreversibilidade: os algoritmos devem ser desenvolvidos de forma que, após os dados terem sido mascarados, não seja possível obter os valores originais nem fazer engenharia reversa nos dados.
4. Extensibilidade e flexibilidade: o número de fontes de dados continua crescendo em um ritmo acelerado. Para garantir um ecossistema abrangente e proteger os dados nas fontes, sua solução de mascaramento precisa lidar com diversas fontes de dados das quais os negócios dependem, e também deve ser personalizável.
5. Reproduzível: o mascaramento não é um processo pontual. As organizações devem realizar o mascaramento regularmente conforme os dados mudam ao longo do tempo. Ele precisa ser rápido e automático, além de permitir a integração com seus fluxos de trabalho, como SDLC ou processos de DevOps.
Muitas soluções de mascaramento de dados geralmente acrescentam custos operacionais e prolongam os ciclos de testes em uma empresa. Mas, com uma abordagem automática, as equipes podem facilmente identificar informações sensíveis, como nomes, endereços de e-mail e informações de pagamento de modo a fornecer uma visão geral da organização com relação aos riscos e para indicar os dados que precisam de mascaramento.
Ao contrário de abordagens que utilizam criptografia, o mascaramento não apenas garante que os dados transformados ainda possam ser usados em ambientes não produtivos, mas também implica um processo irreversível que impede que os dados originais sejam restaurados usando-se chaves de descriptografia ou outros recursos.
Com uma abordagem baseada em políticas, seus dados podem ser tokenizados e mascarados de forma reversível ou irreversível de acordo com padrões internos e leis de proteção de dados como GDPR, LGPD e HIPAA. Em conjunto, essas funcionalidades permitem que as empresas definam, gerenciem e apliquem políticas de segurança a partir de um gerenciamento centralizado de conjuntos de dados grandes e complexos em tempo real.
O objetivo de qualquer sistema de test data management (TDM) é realizar testes shift-left para reduzir falhas em sistemas produtivos e manter os negócios em níveis de desempenho ideais. Ter a estratégia certa de TDM é fundamental para que uma estratégia de DevOps tenha êxito. As empresas devem optar pela melhor opção e depois usar o conjunto de ferramentas ideal para extrair o máximo valor para o negócio delas. Elas devem conseguir ajustar os pipelines de entrega de versões com base em alterações/novas características inseridas e executar ciclos mais rápidos. A ideia é limitar a possibilidade de exposição a riscos.
O maior objetivo da segurança é manter a confidencialidade dos dados onde os usuários podem ter a garantia da privacidade. Um mascaramento correto pode proteger o conteúdo dos dados e preservar o valor para o negócio. Há diferentes métricas para medir o grau de mascaramento; o mais comum é o fator k-anonymity, mas todas as ponderações sobre como usá-las devem levar em conta a realização do teste shift-left para garantir a conformidade e segurança dos dados.
Ao contrário de medidas de criptografia que podem ser ignoradas por meio de esquemas para obter as credenciais do usuários, o mascaramento protege os dados de forma irreversível em ambientes downstream. O mascaramento consistente dos dados, sem deixar de manter a integridade referencial em fontes de dados heterogêneas, garante a segurança de dados sensíveis antes de serem disponibilizados para atividades de desenvolvimento e testes, ou enviados para um data center externo ou nuvem pública – tudo isso sem precisar de conhecimentos específicos sobre programação.
Para obter mais informações sobre as melhores práticas do mascaramento de dados, saiba como a Delphix permite, com sua Plataforma de Dados API-first, que as equipes identifiquem e mascarem dados sensíveis para garantir a conformidade com as leis de proteção de dados.