Adiciona crawler para o Ceará #29

csmaniottojr · 2020-03-22T21:21:06Z

No description provided.

turicas · 2020-03-28T20:28:55Z

README.md

@@ -54,6 +54,9 @@ por lá.
 Necessita de Python 3 (testado em 3.8.2). Para montar seu ambiente:

 - Instale o Python 3.8.2
+- Instale o Docker
+- Baixe a imagem do splash: docker pull scrapinghub/splash
+- Inicie o container com o splash: docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash


Você poderia colocar isso num docker-compose?

csmaniottojr · 2020-03-30T02:08:49Z

@turicas Refatorei o spider. Agora os dados estão todos em JSON e não precisa mais do splash como dependência.

endersonmaia · 2020-03-30T02:30:26Z

@csmaniottojr tu consegue fazer rebase com a master, e dar squash nesse commit 37acc35 ?

só pra deixar o histórico mais linear 😉

endersonmaia · 2020-03-30T02:37:16Z

pelo que entendi, só precisa deste commit 3a35fec

csmaniottojr · 2020-03-30T13:34:21Z

feito @endersonmaia

turicas · 2020-04-02T14:29:10Z

Pessoal, atualização sobre os crawlers e a forma como estamos preenchendo os dados: vamos mudar a forma de subida dos dados pra facilitar o trabalho dos voluntários e deixar o processo mais robusto e confiável e, com isso, será mais fácil que robôs possam subir também os dados; dessa forma, os scrapers ajudarão bastante no processo. Com isso, criei algumas regras gerais e em breve farei algumas atualizações sobre:

Necessário fazer o scraper usando o scrapy;
Não usar pandas, BeautifulSoap, requests ou outras bibliotecas desnecessárias (a std lib do Python já tem muita biblioteca útil, o scrapy com XPath já dá conta de boa parte das raspagens e rows já é uma dependênciad esse repositório);
Deve existir alguma maneira fácil de fazer o scraper coletar os boletins e casos para uma data específica;
O método de parsing deve devolver (com yield) um dicionário com as seguintes chaves:
- date: data no formato "YYYY-MM-DD"
- state: sigla do estado, com 2 caracteres maiúsculos (deve ser um atributo da classe do spider e usar self.state)
- city (nome do município ou em branco, caso seja o valor do estado, deve ser None)
- place_type: "city" para município e "state" para estado
- confirmed: inteiro, número de casos confirmados (ou None)
- deaths: inteiro, número de mortes naquele dia (ou None)
- ATENÇÃO: o scraper deve devolver sempre um registro para o estado que não seja a soma dos valores por município (esse dado deve ser extraído da linha "total no estado" no boletim) - essa linha virá com a coluna city com o valor None e place_type com "state";
Quando possível, use testes automatizados.

Nesse momento não temos muito tempo disponível para revisão, então por favor, só crie um pull request sugerindo com código de um novo scraper caso você possa cumprir os requisitos acima.

csmaniottojr · 2020-04-03T22:57:10Z

@turicas atualizei o PR seguindo as novas diretrizes

turicas · 2020-04-08T05:08:25Z

@csmaniottojr eu criei na master bem rapidamente o corona_ce_spider.py (do zero, diferente do seu). O meu tem algumas coisas que o seu não tem (como o uso do date_utils) e vice-versa. Você conseguiria unificar os dois? O meu tem um problema: se algum município não aparece na lista de casos confirmados de uma data, ele não busca a quantidade de mortes para aquele município para essa data e parece que em alguns casos isso pode acontecer. Com relação ao seu, não verifiquei, mas tem que ver se "Sem informação" está sendo traduzido para "Importados/Indefinidos" (nomenclatura que usamos).

csmaniottojr · 2020-04-08T20:27:02Z

@turicas beleza, vou dar uma olhada pra fazer um merge entre os dois spiders

csmaniottojr · 2020-04-10T18:54:57Z

@turicas corrigi o PR. o script está coletando corretamente casos confirmados e óbitos de cidades.

turicas · 2020-04-15T14:49:56Z

@turicas corrigi o PR. o script está coletando corretamente casos confirmados e óbitos de cidades.

Obrigado! Revisarei assim que terminarmos a nova forma de coletar os dados dos voluntários (que também possibilitará coletar de robôs).

csmaniottojr changed the title ~~Feature/adiciona crawler para ceara~~ Adiciona crawler para o Ceará Mar 22, 2020

endersonmaia added enhancement New feature or request data-scraping labels Mar 23, 2020

csmaniottojr linked an issue Mar 23, 2020 that may be closed by this pull request

CE #15

Open

2 tasks

turicas requested changes Mar 28, 2020

View reviewed changes

csmaniottojr force-pushed the feature/adiciona_crawler_para_ceara branch from 3a35fec to 5a13646 Compare March 30, 2020 13:33

csmaniottojr requested a review from turicas April 1, 2020 14:39

Adiciona spider que coleta dados de casos do Ceará

fed1976

csmaniottojr force-pushed the feature/adiciona_crawler_para_ceara branch from f95c329 to fed1976 Compare April 10, 2020 18:52

augusto-herrmann mentioned this pull request May 28, 2021

Coletar informações sobre medidas de restrição ou liberação de circulação de pessoas #90

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adiciona crawler para o Ceará #29

Adiciona crawler para o Ceará #29

csmaniottojr commented Mar 22, 2020

turicas Mar 28, 2020

csmaniottojr commented Mar 30, 2020

endersonmaia commented Mar 30, 2020

endersonmaia commented Mar 30, 2020

csmaniottojr commented Mar 30, 2020

turicas commented Apr 2, 2020

csmaniottojr commented Apr 3, 2020

turicas commented Apr 8, 2020

csmaniottojr commented Apr 8, 2020

csmaniottojr commented Apr 10, 2020

turicas commented Apr 15, 2020

Adiciona crawler para o Ceará #29

Are you sure you want to change the base?

Adiciona crawler para o Ceará #29

Conversation

csmaniottojr commented Mar 22, 2020

turicas Mar 28, 2020

Choose a reason for hiding this comment

csmaniottojr commented Mar 30, 2020

endersonmaia commented Mar 30, 2020

endersonmaia commented Mar 30, 2020

csmaniottojr commented Mar 30, 2020

turicas commented Apr 2, 2020

csmaniottojr commented Apr 3, 2020

turicas commented Apr 8, 2020

csmaniottojr commented Apr 8, 2020

csmaniottojr commented Apr 10, 2020

turicas commented Apr 15, 2020