0:00
/
0:00
Transcrição

Script de Anonimização de Dados: Protegendo Informações Sensíveis

Introdução

Olá, pessoal! Hoje vou falar sobre uma ferramenta extremamente útil para quem lida com documentos contendo dados sensíveis e precisa proteger a privacidade das pessoas. O script de anonimização que vou apresentar é uma solução poderosa para quem trabalha com textos jurídicos, registros médicos, ou qualquer outro tipo de documento que contenha informações pessoais identificáveis (PII).

O que é anonimização de dados?

A anonimização é o processo de remover ou substituir informações que podem identificar uma pessoa específica, como nome, CPF, endereço, telefone e outros dados sensíveis. Este processo é fundamental para:

  • Proteger a privacidade das pessoas

  • Cumprir regulamentações de proteção de dados (como a LGPD)

  • Permitir o uso seguro de documentos em ambientes de IA ou nuvem

A solução: Biblioteca Presidio da Microsoft

O script apresentado utiliza a biblioteca Presidio da Microsoft, uma ferramenta de código aberto especializada em anonimização de dados. Com mais de 4000 estrelas no GitHub, é uma das soluções mais confiáveis disponíveis.

Principais vantagens:

  • Processamento local (não envia dados para serviços externos)

  • Suporte ao idioma português

  • Flexibilidade nas regras de substituição

  • Alta precisão na identificação de dados sensíveis

Como o script funciona

O script é dividido em etapas claras que permitem:

  1. Instalação: Configuração das bibliotecas necessárias (Presidio e spaCy)

  2. Análise: Identificação de informações pessoais no texto

  3. Anonimização: Substituição dessas informações por marcadores genéricos

Tipos de dados que o script pode identificar:

  • Nomes de pessoas

  • CPFs e outros documentos

  • Endereços

  • Números de telefone

  • E-mails

  • Cartões de crédito

  • Números de processos ou protocolos

Código explicado

O script está estruturado em uma única célula para facilitar o uso no Google Colab. Vejamos as principais partes:

1. Instalação das bibliotecas

!pip install presidio-analyzer presidio-anonymizer spacy
!python -m spacy download pt_core_news_lg

2. Inicialização dos motores de análise e anonimização

analyzer = AnalyzerEngine(
    nlp_engine=nlp_engine_pt,
    supported_languages=['pt']
)
anonymizer = AnonymizerEngine()

3. Regras de anonimização personalizadas

regras_de_anonimizacao = {
    "PERSON": OperatorConfig("replace", {"new_value": "<NOME>"}),
    "PHONE_NUMBER": OperatorConfig("mask", {"type": "mask", "masking_char": "*", "chars_to_mask": 8, "from_end": True}),
    # Outras regras...
}

4. Processo de análise e anonimização

resultados_da_analise = analyzer.analyze(text=texto_para_anonimizar, language='pt')
resultado_anonimizado = anonymizer.anonymize(
    text=texto_para_anonimizar,
    analyzer_results=resultados_da_analise,
    operators=regras_de_anonimizacao
)

Casos de uso

Este script é ideal para:

  1. Jurídico: Preparar modelos de sentenças e despachos sem dados pessoais das partes

  2. Saúde: Anonimizar prontuários para estudos ou treinamento de IA

  3. Acadêmico: Preparar dados de pesquisa para compartilhamento

  4. Empresarial: Proteger dados de clientes em documentos internos

Como usar o script

  1. Acesse o Google Colab

  2. Copie o código completo para uma célula

  3. Execute a célula (será solicitado reiniciar o ambiente após a instalação)

  4. Execute novamente para processar o texto de exemplo

  5. Adapte o texto de entrada para seus próprios documentos

Importante lembrar

  • Todo o processamento é feito localmente

  • Nenhum dado é enviado para a internet

  • É recomendável verificar o resultado final para garantir que todas as informações sensíveis foram devidamente tratadas

Conclusão

A anonimização de dados é um processo essencial para proteger a privacidade das pessoas e cumprir regulamentações. Com este script, você pode facilmente preparar seus documentos para uso em modelos de IA ou compartilhamento, mantendo a estrutura do texto mas removendo todas as informações sensíveis.

Espero que esta ferramenta seja útil para vocês! Nos próximos posts, continuarei explorando ferramentas e conceitos básicos de programação que podem ajudar no seu dia a dia.

Deixem nos comentários se vocês têm alguma dúvida ou sugestão de melhoria para o script!

Download

Discussão sobre este vídeo