Script de Anonimização de Dados: Protegendo Informações Sensíveis

Velocidade de reprodução

Partilhar post

Compartilhar post no momento atual

Partilhar a partir de0:00

0:00

Transcrição

Script de Anonimização de Dados: Protegendo Informações Sensíveis

Marcos Antônio

mai 06, 2025

Partilhar

Transcrição

Introdução

Olá, pessoal! Hoje vou falar sobre uma ferramenta extremamente útil para quem lida com documentos contendo dados sensíveis e precisa proteger a privacidade das pessoas. O script de anonimização que vou apresentar é uma solução poderosa para quem trabalha com textos jurídicos, registros médicos, ou qualquer outro tipo de documento que contenha informações pessoais identificáveis (PII).

O que é anonimização de dados?

A anonimização é o processo de remover ou substituir informações que podem identificar uma pessoa específica, como nome, CPF, endereço, telefone e outros dados sensíveis. Este processo é fundamental para:

Proteger a privacidade das pessoas
Cumprir regulamentações de proteção de dados (como a LGPD)
Permitir o uso seguro de documentos em ambientes de IA ou nuvem

A solução: Biblioteca Presidio da Microsoft

O script apresentado utiliza a biblioteca Presidio da Microsoft, uma ferramenta de código aberto especializada em anonimização de dados. Com mais de 4000 estrelas no GitHub, é uma das soluções mais confiáveis disponíveis.

Principais vantagens:

Processamento local (não envia dados para serviços externos)
Suporte ao idioma português
Flexibilidade nas regras de substituição
Alta precisão na identificação de dados sensíveis

Como o script funciona

O script é dividido em etapas claras que permitem:

Instalação: Configuração das bibliotecas necessárias (Presidio e spaCy)
Análise: Identificação de informações pessoais no texto
Anonimização: Substituição dessas informações por marcadores genéricos

Tipos de dados que o script pode identificar:

Nomes de pessoas
CPFs e outros documentos
Endereços
Números de telefone
E-mails
Cartões de crédito
Números de processos ou protocolos

Código explicado

O script está estruturado em uma única célula para facilitar o uso no Google Colab. Vejamos as principais partes:

1. Instalação das bibliotecas

!pip install presidio-analyzer presidio-anonymizer spacy
!python -m spacy download pt_core_news_lg

2. Inicialização dos motores de análise e anonimização

analyzer = AnalyzerEngine(
    nlp_engine=nlp_engine_pt,
    supported_languages=['pt']
)
anonymizer = AnonymizerEngine()

3. Regras de anonimização personalizadas

regras_de_anonimizacao = {
    "PERSON": OperatorConfig("replace", {"new_value": "<NOME>"}),
    "PHONE_NUMBER": OperatorConfig("mask", {"type": "mask", "masking_char": "*", "chars_to_mask": 8, "from_end": True}),
    # Outras regras...
}

4. Processo de análise e anonimização

resultados_da_analise = analyzer.analyze(text=texto_para_anonimizar, language='pt')
resultado_anonimizado = anonymizer.anonymize(
    text=texto_para_anonimizar,
    analyzer_results=resultados_da_analise,
    operators=regras_de_anonimizacao
)

Casos de uso

Este script é ideal para:

Jurídico: Preparar modelos de sentenças e despachos sem dados pessoais das partes
Saúde: Anonimizar prontuários para estudos ou treinamento de IA
Acadêmico: Preparar dados de pesquisa para compartilhamento
Empresarial: Proteger dados de clientes em documentos internos

Como usar o script

Acesse o Google Colab
Copie o código completo para uma célula
Execute a célula (será solicitado reiniciar o ambiente após a instalação)
Execute novamente para processar o texto de exemplo
Adapte o texto de entrada para seus próprios documentos

Importante lembrar

Todo o processamento é feito localmente
Nenhum dado é enviado para a internet
É recomendável verificar o resultado final para garantir que todas as informações sensíveis foram devidamente tratadas

Conclusão

A anonimização de dados é um processo essencial para proteger a privacidade das pessoas e cumprir regulamentações. Com este script, você pode facilmente preparar seus documentos para uso em modelos de IA ou compartilhamento, mantendo a estrutura do texto mas removendo todas as informações sensíveis.

Espero que esta ferramenta seja útil para vocês! Nos próximos posts, continuarei explorando ferramentas e conceitos básicos de programação que podem ajudar no seu dia a dia.

Deixem nos comentários se vocês têm alguma dúvida ou sugestão de melhoria para o script!

Download