Skip to content

Latest commit

 

History

History
346 lines (185 loc) · 12.3 KB

File metadata and controls

346 lines (185 loc) · 12.3 KB
date location attendees
2017-08-03
appear.in
Paul-Antoine Chevalier
Thomas Parisot

Paul-Antoine Chevalier

Présentation

  • Formation d'économiste/statisticien
  • Observé le développement de data.gouv.fr depuis 2012/2013, en participant notamment à la soirée de redesign de data.gouv.fr
  • Utilise data.gouv.fr
    • En tant que datajournaliste
    • Puis en tant que datascientist, depuis 2014

Thématique • Découverte des données

La page d'accueil est utilisée à des fins de veille, pour une utilisation à moyen/long terme.

😤 La lecture est parfois rendue difficile après un moissonnage chez un producteur très actif/ayant effectué une mise à jour en masse.

👍 J'utilise le lien Voir plus du cartouche Derniers jeux de données sur la page d'accueil en guise de raccourci pour les derniers datasets.

Je peux obtenir les mêmes résultats en cliquant sur Données > Jeux de données puis en triant par date.


Prenons une recherche faite récemment.

🔍 "vols de véhicule oise"

  1. ✅ Facette Couverture spatiale > Oise (60)
  2. ✅ Tri Date de création

Je ne me souviens plus la recherche que j'ai faite pour trouver les résultats, mais ça n'a pas été évident à cause de la couverture géographique.


Prenons un autre exemple de couverture géographique.

🔍 Données > Jeux de données

  1. ✅ Facette Couverture spatiale > Hauts-de-Seine (92)

😤 On se retrouve principalement avec des résultats de la ville de Meudon.

Si je veux des résultats de Meudon, je cherche Meudon et non Hauts-de-Seine.

💬 Idéalement, quand on sélectionne un département, la priorité d'affichage serait donnée aux données couvrant au maximum cette couverture (etc.)


🔍 "radar"

  1. ✅ Facette Couverture spatiale > France

😤 Le troisième résultat concerne la région de Bretagne

❓ Que veux dire couverture spatiale ?


🔍 "infogreffe"

🤔 Pourquoi est-ce qu'on n'a que les données de la Région Île-de-France ?

❗️ Il fallait cliquer sur l'onglet Organisations pour voir les 32 jeux de données d'Infogreffe.

En général je tape un peu vite donc je n'attends pas/je n'ai pas le temps de voir les résultats de l'autocomplete.

Je ne suis pas sûr que l'autocomplete et les résultats de recherche soient les mêmes.


🔍 "opendamir"

🤔 aucun résultat

😅 il manquait un espace

🔍 "open damir"


😤 Je n'ai aucun moyen de chercher des données qui correspondent à la France entière. Le filtre "Couverture géographique" devrait signifier "couvre toute cette zone" plutôt que "est inclu dans cette zone"


🔗 Organisation Infogreffe

👀 Prenons par exemple le dataset "chiffres clés 2016"

Le libellé chiffres clés 2016 ça parle pour l'organisation peut-être — moins pour de la recherche. On voudrait plutôt lire chiffres clés des entreprises en 2016. Idem quand on lit budget gouvernement ; ça devrait être budget du gouvernement français.

💬 On finirait par mettre des normes dans les titres comme par exemple, pas d'acronymes. Un peu comme sur Wikipédia

➡️ CNIL = Commission nationale de l'informatique et des libertés (France)


Les thématiques ? Je ne les utilise jamais.

💬 Ça serait cohérent si on avait de l'éditorial.


Les meilleures réutilisations et dernières réutilisations sur la page d'accueil ? Elles ne sont pas mises à jour souvent donc je les regarde peu.


🔗 Revenons sur l'Organisation Infogreffe.

😤 Et plus spécifiquement les chiffres clés : on a plusieurs datasets avec 1 seule ressource au lieu d'un seul dataset avec des ressources historisées.

❗️ C'est pénalisant car je galère à les retrouver et à les rassembler.


🔍 "tableau de bord projets SI"

🤔 Pas de résultat correspondant à ce que je cherche.

🔍 "DINSIC"

😅 Ah c'était panorama et non tableau de bord.

🔗 "Panorama des grands projets SI de l’État"

Thématique • Compréhension des données

🔗 "Nombre d'embauches par code APE et code ROME"

  • 👍 Je vois le nom des colonnes, c'est important
  • 👍 Le descriptif est informatif (c'est une notice en réalité)

Je télécharge pour voir les données.

😤 Les métadonnées sont rarement à jour donc par défaut, je les zappe.

😯 D'ailleurs la granularité est incorrecte (Autre au lieu de Nationale)

❗️ Même en étant expert et en ayant produit le jeu de données, on n'a pas su interpréter le sens du libellé.


❓ D'ailleurs les dates de couverture ne sont pas claires : pour un budget, elles concernent quelle année fiscale ?


🔗 "Impôt de solidarité sur la fortune"

💬 Si on avait la liste des variables, on aurait tout. Pour des données tabulaires, c'est évident.

S'il y a une colonne intitulée commune, je me dis qu'il y a 1 ligne de données par commune.

💬 Ça serait bien d'avoir le nom des colonnes et quelques valeurs possibles. Comme avec dplyr#glimpse en R.

La vue tabulaire ? C'est plutôt pour filtrer.

💬 Si j'avais cette vue, probablement que je ne téléchargerai pas les ressources. Ça simplifierait beaucoup de choses.

💬 Si on avait une sémantique, on pourrait joindre les données plus facilement — sur le code communes par exemple.


En tant que datascientist, j'ai besoin de répondre à des questions comme la corrélation entre le taux d'abstention et les revenus, par exemple.

➡️ On a utilisé un script appelé Open-Moulinette pour obtenir un découpage intracommunal.


Dans une popup de ressource de dataset, c'est l'URL qui est utile.

🤔 Je ne comprends pas bien la différence entre les 2 URLs.

💬 Permalien me paraîtrait plus clair que Dernière URL.

🤔 En fait on a 3 fois l'URL de téléchargement dans la popup, 3 clics qui sont la même chose.

J'aime bien avoir l'URL en clair pour la copier.

Thématique • Utilisation des données

🗣 Systématiquement quand je nettoie :

  1. en m'assurant qu'il n'y ait pas de nom de colonnes identique
  2. en vérifiant que chaque colonne corresponde à une variable seulement

😤 Par exemple, avoir une variable éclatée sur plusieurs colonnes est pénible :

SIRENE 2013 2012 2011

C'est mieux d'avoir une variable par colonne, sur plusieurs lignes :

SIRENE Chiffre d'Affaires Année

Dans le cas des chiffres clés Infogreffes, il faudrait une ligne par déclaration (il peut y avoir plusieurs déclarations la même année avec des correctifs).

➡️ Cf. le papier Tidy Data par Hadley Wickham.

C'est l'équivalent de la forme normale pour les données. C'est plus facile à manipuler.

💬 D'ailleurs on pourrait publier des tutoriels vidéos pour aider à mieux contribuer des données ?

💬 Avoir des Data Packages pourrait aider à diffuser la sémantique.

Thématique • Contribution des données

Je ne sais pas pourquoi il y a toutes ces notifications. J'ai l'impression qu'elles ne s'en vont jamais.

❗️ Je n'ai aucun endroit pour suivre les discussions auxquelles je suis abonné ou auxquelles j'ai participé.


😤 Je ne comprends pas les chiffres.

❓ Le trafic ? Pourquoi il n'y a rien ?

🤔 Je ne sais pas trop ce que je suis censé voir.

J'imagine que c'est souvent à zéro.

👍 Le tableau est déjà plus pertinent

👍 Le tableau est beaucoup plus lisible

❓ D'ailleurs, pourquoi il y a 2 interfaces ? Ce serait des chiffres qui seraient utiles côté front.


Je me logue surtout pour suivre des jeux de données.

🗣 Mais en fait c'est un signe d'encouragement.

💬 En réalité le suivi sert peu car ça ne prévient pas de nouveaux datasets (cf. ressources non-historicisées).

Thématique • Communauté des données

🗣 On ne bénéficie pas assez de l'intelligence de la communauté.


J'ai assez peu de réponses à mes commentaires.

😞 Les ressources communautaires ne sont pas mises en valeur.

🤔 La différence avec les réutilisations ne sont pas toujours claires.

Par exemple sur 🔗 "Base Sirene des entreprises et de leurs établissements (SIREN, SIRET)"

  • ❓ la version géocodée est très utile — comment la faire remonter ?
  • ❓ la documentation base SIRENE, j'ai hésité à la classer en documentation ou ressource

Je regarde les réutilisations par curiosité, pour voir d'autres façons de faire.


C'est difficile de repérer l'ensemble des données produite par une organisation lorsque ses sous-organisations publient aussi — typiquement Premier Ministre > SGMAP > DINSIC > Etalab.

💬 Ça serait logique de voir les jeux de données de Etalab en listant celles de Premier Ministre. Il faudrait dire que Etalab "est membre" de la DINSIC qui "est membre" du SGMAP, qui "est membre" de Premier Ministre


Finalement quand tu postes sur data.gouv.fr, c'est pas comme sur Twitter, tu as peu de retours.

❓ Où sont les chercheurs ?

💬 Ils sont beaucoup évalués sur leurs publications, ça pourrait être un axe de valorisation de bases de données et de logiciels.

Ça justifierait des subventions.

💬 Avoir un Digital Object Identifier (DOI) par ressource/jeu de données pour aider à identifier les mentions scientifiques — ça ne reviendrait pas à utiliser webmentions ?


❓ Quelles sont les incitations à contribuer ?

J'en vois 3 :

  1. Lors du concours Data Connexion ;
  2. Pour être embauché par Etalab :) ;
  3. Quand tu es embauché par Etalab.

Conclusion

Augmenter le nombre de réutilisations est plus important que et amène intrinsèquement à améliorer la qualité des données.

ROTI • Retour sur le Temps Investi

J'ai découvert des choses à propos de data.gouv.fr

Ça me donne des idées, notamment des formations sur l'amélioration des jeux de données — à voir à la rentrée.