Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Cache dos dados em formato CSV ou TSV #53

Open
waldyrious opened this issue Oct 25, 2020 · 1 comment
Open

Cache dos dados em formato CSV ou TSV #53

waldyrious opened this issue Oct 25, 2020 · 1 comment
Labels
hacktoberfest question Further information is requested

Comments

@waldyrious
Copy link
Contributor

O formato do JSON para a cache dos dados do Wikidata (#47) é consideravelmente ruidoso e ocupa bastante espaço com dados que não precisamos.

Exemplo do JSON que temos agora:
-{
-    "head": {
-        "vars": [
-            "item",
-            "itemLabel",
-            "geo"
-        ]
-    },
-    "results": {
-        "bindings": [
-            {
+                "geo": {
-                    "datatype": "http://www.opengis.net/ont/geosparql#wktLiteral",
-                    "type": "literal",
+                    "value": "Point(-9.147787 38.706746)"
-                },
+                "item": {
-                    "type": "uri",
+                    "value": "http://www.wikidata.org/entity/Q99845706"
-                },
+                "itemLabel": {
-                    "type": "literal",
+                    "value": "A Pequena Galeria",
-                    "xml:lang": "pt"
-                }
-            },
-            {
+                "geo": {
-                    "datatype": "http://www.opengis.net/ont/geosparql#wktLiteral",
-                    "type": "literal",
+                    "value": "Point(-16.90333 32.64816)"
-                },
+                "item": {
-                    "type": "uri",
+                    "value": "http://www.wikidata.org/entity/Q76955108"
-                },
+                "itemLabel": {
-                    "type": "literal",
+                    "value": "Capela de Nossa Senhora da Oliveira",
-                    "xml:lang": "pt"
-                }
-            }
-        ]
-    }
-}
Exemplo do JSON que realmente precisamos:
- [
-    {
+        "item": "http://www.wikidata.org/entity/Q99845706",
+        "itemLabel": "A Pequena Galeria",
+        "geo": "Point(-9.147787 38.706746)"
-    },
-    {
+        "item": "http://www.wikidata.org/entity/Q76955108",
+        "itemLabel": "Capela de Nossa Senhora da Oliveira",
+        "geo": "Point(-16.90333 32.64816)"
-    }
-]

Ou ainda melhor, em TSV:

item	itemLabel	geo
http://www.wikidata.org/entity/Q99845706	A Pequena Galeria	Point(-9.147787 38.706746)
http://www.wikidata.org/entity/Q76955108	Capela de Nossa Senhora da Oliveira	Point(-16.90333 32.64816)

Não sei se ao implementarmos a conversão para GeoJSON (#48) iremos substituir os dados e a forma como montamos o mapa.html; mas caso decidamos manter os dados brutos em paralelo ao GeoJSON, pode ser vantajoso usar um formato mais compacto e mais legível. Citando o meu comentário em #47:

talvez possamos fazer o download em csv ou tsv? Assim os ficheiros ficam mais pequenos, e até fica mais fácil consultá-los no github porque são mostrados como tabelas.

@marado marado added hacktoberfest question Further information is requested labels Oct 25, 2020
@waldyrious
Copy link
Contributor Author

Btw, além de CSV/TSV serem mostrados como tabelas, são também formatos que permitem fácil consumo por outros potenciais projetos downstream, e assim acabamos por "pay it forward" e participar no ecosistema de dados abertos.

Eventualmente pode ser fixe registar este repositório em awesome-portugal-data (/cc @rgllm, @ptalmeida) e centraldedados.pt (/cc @rlafuente).

@marado marado changed the title Cache dos dados em formato CSV out TSV Cache dos dados em formato CSV ou TSV Oct 30, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
hacktoberfest question Further information is requested
Projects
None yet
Development

No branches or pull requests

2 participants