Exoonero - Extrator

Extrator das nomeações e exonerações de Alagoas e segmentador dos diários e atos do Diário Oficial AMA.

Sobre • Fluxo de Processamento • Como Usar • Testes

Sobre

O projeto tem como principal objetivo coletar, transformar em texto e separar em municípios os diários oficiais municipais da Associação dos Municípios Alagoanos (AMA). Além da separação do conteúdo por município, o texto do diário de cada ente estadual é separado em atos normativos. Também iremos utilizar algoritmos computacionais para classificar e extrair informações dos atos normativos dos diários de cada município. Mais especificamente, o nosso foco será em nomeações e exonerações.

Fluxo de Processamento

Manual

PDF de Diário -> Apache Tika -> Arquivo Extraído -> extrair_diarios.py -> Arquivo(s) Processados dos Diários -> extrair_atos.py -> Arquivo(s) Processados dos Atos de um Diário.

Automático

./coleta_diarios.sh && ./coleta_atos.sh

Note Se você está usando Windows, utilize os arquivos que contenham _windows através de um Git Bash.

Sobre o Processamento (Gabarito)

Para dar início ao processamento dos dados, foi montado um gabarito para processar o texto dos diários levando em consideração os seguintes pontos:

Remover linhas em branco até o cabeçalho
O cabeçalho (que contém a data e o nome da AMA) vir no início de cada extração de município uma vez -- deve ser repetido para cada município
Vamos deixar www.diariomunicipal.com.br/ama repetir como separador/marcador de página
Remover tudo depois do último código identificador

Como Usar

Ao coletar algum PDF do diário do site da AMA realize os seguintes passos.

1. Pull da Imagem do Apache Tika

sudo docker pull apache/tika:1.28.4

2. Rodar Imagem do Apache Tika

sudo docker run -d -p 9998:9998 --rm --name tika apache/tika:1.28.4

3. Extrair Texto do PDF Usando Apache Tika

curl -v -H "Accept: text/plain" -H "Content-Type: application/pdf" -T diario-exemplo-entrada.pdf http://localhost:9998/tika -o diario-exemplo-saida-extraido.txt

Após o primeiro -T, colocamos o caminho do pdf que queremos extrair o texto. E depois de -o colocamos o caminho, nome e extensão do arquivo extraido.

Testes

Atualmente temos mais de 60 casos de teste, que aferem a corretude dos dados.

Executar os testes

python -m unittest integracao_test.py

Ou

python3 -m unittest integracao_test.py

Os dados exibidos no site estão na pasta: docs/site/dados
E podem ser gerados executando o código docs/site_home_data.py
Que é responsável por gerar arquivos jsons contabilizando diários, nomeações e exonerações com base nos arquivos gerados com a execução do Fluxo de Processamento Automático, mostrado tópicos acima.

Name		Name	Last commit message	Last commit date
Latest commit History 498 Commits
.github/workflows		.github/workflows
analises		analises
diario-2-municipios-2022-08-29		diario-2-municipios-2022-08-29
diario-anadia-2022-08-29		diario-anadia-2022-08-29
diario-completo-2022-08-29		diario-completo-2022-08-29
docs		docs
test_data		test_data
.gitignore		.gitignore
Dockerfile_apache_tika		Dockerfile_apache_tika
README.md		README.md
atos.py		atos.py
coleta_diarios.sh		coleta_diarios.sh
coleta_diarios_windows.sh		coleta_diarios_windows.sh
criar_dataset_atos.py		criar_dataset_atos.py
df.zip		df.zip
diario_ama.py		diario_ama.py
diario_municipal.py		diario_municipal.py
extrair_atos.py		extrair_atos.py
extrair_atos.sh		extrair_atos.sh
extrair_atos_windows.sh		extrair_atos_windows.sh
extrair_diarios.py		extrair_diarios.py
integracao_test.py		integracao_test.py
proc.sh		proc.sh

exoonero/extrator

Folders and files

Latest commit

History

Repository files navigation

Exoonero - Extrator

Extrator das nomeações e exonerações de Alagoas e segmentador dos diários e atos do Diário Oficial AMA.

Sobre

Fluxo de Processamento

Manual

Automático

Sobre o Processamento (Gabarito)

Como Usar

Testes

Related

About

Resources

Stars

Watchers

Forks

Languages