Introdução
Olá, pessoal! Hoje vou falar sobre uma ferramenta extremamente útil para quem lida com documentos contendo dados sensíveis e precisa proteger a privacidade das pessoas. O script de anonimização que vou apresentar é uma solução poderosa para quem trabalha com textos jurídicos, registros médicos, ou qualquer outro tipo de documento que contenha informações pessoais identificáveis (PII).
O que é anonimização de dados?
A anonimização é o processo de remover ou substituir informações que podem identificar uma pessoa específica, como nome, CPF, endereço, telefone e outros dados sensíveis. Este processo é fundamental para:
Proteger a privacidade das pessoas
Cumprir regulamentações de proteção de dados (como a LGPD)
Permitir o uso seguro de documentos em ambientes de IA ou nuvem
A solução: Biblioteca Presidio da Microsoft
O script apresentado utiliza a biblioteca Presidio da Microsoft, uma ferramenta de código aberto especializada em anonimização de dados. Com mais de 4000 estrelas no GitHub, é uma das soluções mais confiáveis disponíveis.
Principais vantagens:
Processamento local (não envia dados para serviços externos)
Suporte ao idioma português
Flexibilidade nas regras de substituição
Alta precisão na identificação de dados sensíveis
Como o script funciona
O script é dividido em etapas claras que permitem:
Instalação: Configuração das bibliotecas necessárias (Presidio e spaCy)
Análise: Identificação de informações pessoais no texto
Anonimização: Substituição dessas informações por marcadores genéricos
Tipos de dados que o script pode identificar:
Nomes de pessoas
CPFs e outros documentos
Endereços
Números de telefone
E-mails
Cartões de crédito
Números de processos ou protocolos
Código explicado
O script está estruturado em uma única célula para facilitar o uso no Google Colab. Vejamos as principais partes:
1. Instalação das bibliotecas
!pip install presidio-analyzer presidio-anonymizer spacy
!python -m spacy download pt_core_news_lg
2. Inicialização dos motores de análise e anonimização
analyzer = AnalyzerEngine(
nlp_engine=nlp_engine_pt,
supported_languages=['pt']
)
anonymizer = AnonymizerEngine()
3. Regras de anonimização personalizadas
regras_de_anonimizacao = {
"PERSON": OperatorConfig("replace", {"new_value": "<NOME>"}),
"PHONE_NUMBER": OperatorConfig("mask", {"type": "mask", "masking_char": "*", "chars_to_mask": 8, "from_end": True}),
# Outras regras...
}
4. Processo de análise e anonimização
resultados_da_analise = analyzer.analyze(text=texto_para_anonimizar, language='pt')
resultado_anonimizado = anonymizer.anonymize(
text=texto_para_anonimizar,
analyzer_results=resultados_da_analise,
operators=regras_de_anonimizacao
)
Casos de uso
Este script é ideal para:
Jurídico: Preparar modelos de sentenças e despachos sem dados pessoais das partes
Saúde: Anonimizar prontuários para estudos ou treinamento de IA
Acadêmico: Preparar dados de pesquisa para compartilhamento
Empresarial: Proteger dados de clientes em documentos internos
Como usar o script
Acesse o Google Colab
Copie o código completo para uma célula
Execute a célula (será solicitado reiniciar o ambiente após a instalação)
Execute novamente para processar o texto de exemplo
Adapte o texto de entrada para seus próprios documentos
Importante lembrar
Todo o processamento é feito localmente
Nenhum dado é enviado para a internet
É recomendável verificar o resultado final para garantir que todas as informações sensíveis foram devidamente tratadas
Conclusão
A anonimização de dados é um processo essencial para proteger a privacidade das pessoas e cumprir regulamentações. Com este script, você pode facilmente preparar seus documentos para uso em modelos de IA ou compartilhamento, mantendo a estrutura do texto mas removendo todas as informações sensíveis.
Espero que esta ferramenta seja útil para vocês! Nos próximos posts, continuarei explorando ferramentas e conceitos básicos de programação que podem ajudar no seu dia a dia.
Deixem nos comentários se vocês têm alguma dúvida ou sugestão de melhoria para o script!
Share this post