Skip to content

Latest commit

 

History

History
129 lines (70 loc) · 5.16 KB

File metadata and controls

129 lines (70 loc) · 5.16 KB
date location attendees
2017-07-11
Paris
Nicolas Barthe-Dejean
Yann Philippin
Thimy Kieu
Thomas Parisot

Entretien avec Nicolas Barthe-Dejean

Présentation

Nicolas développe l'application mobile Mediapart. Il est également impliqué dans d'autres projets dont Hoover, un outil d'analyse et de recherche de documents utilisés dans le cadre de leaks notamment.

L'indépendance des outils est un élément constitutif fort chez Mediapart. Plotly ou les fonds Google Maps ne sont donc pas utilisés.

Yann Philippin nous rejoint.

Thématique • Jeux de données utiles

Yann Philippin se focalise sur la transparence de la vie publique et sur les affaires de corruption — dont Football Leaks et les Malta Files.

Il lui manque les jeux de données suivants :

  • les publicités foncières — aujourd'hui payantes ;
  • le registre du commerce ;
  • les marchés publics ;
  • la centralisation des rapports publics (Assemblée, Cours des Comptes, etc.)

Thématique • Découverte des données

On trouve facilement la donnée, via "le voisin", par exemple une carte, on suit la source.

🗣 La source d'un leak nous informe d'un scoop.

Ça m'aurait aidé d'avoir les jeux de données liés aux entreprises, leurs données financières, les personnes physiques, les informations immobilières, leurs informations de cotation en bourse etc.

🕵️‍♀️ Prendre l'exemple de Cash Investigation sur les produits chimiques : data.gouv.fr ne fournit que les informations liées aux rivières, rien à couverture nationale. Il a fallu aller chercher les chiffres de vente de certains produits chimiques achetés par les agriculteurs pour en déduire l'utilisation.

❓ Je cherche des informations sur un hôpital à Toulouse par exemple, quels jeux de données vont me donner ces informations ?

💬 Ça pourrait être intéressant d'aller montrer data.gouv.fr aux journalistes du pôle économique et social.

💬 Pareil avec Donatien, c'est lui qui fait les datavisualisations.


❓ Comment faire pour trouver les derniers rapports financiers de l'Autorité des Marchés Financiers (AMF) ?

🔗 "Autorité des Marchés Financiers"

🔗 Archives de la base des décisions et informations financières (BDIF) de l'AMF

😤 Le dernier rapport en ligne date de 2008 alors qu'il devrait y en avoir eu d'autres depuis.


💬 Pousser des jeux de données en fonction de l'actualité.

Je ne sais pas si vous voyez Google Trends ? Les Décodeurs rebondissent en général assez vite.

💬 Par rapport aux données électorales, on aimerait avoir le découpage géographique par (code de) canton.

🔍 "cantons"

😕 Le premier "bon" résultat est en 4ème position, et date de 2015. Quid des données de 2017 ?

🔗 "Découpage des cantons pour les élections départementales de mars 2015"

💬 Avoir ce jeu de données mais historisé au lieu de devoir aller le chercher ailleurs, comme sur le Géoportail.

Thématique • Compréhension des données

Ça se passe beaucoup par téléphone, par contact humain, via Twitter.

Il faut que j'arrive à voir ce qu'il y a dans les données avant de l'utiliser.

Thématique • Utilisation des données

Les manipulations ne sont jamais les mêmes.

👩‍🔬 On va toujours être hors des clous, car les transformations sont spécifiques à chaque dataviz, et on veut rarement faire deux fois la même dataviz.

😕 Un fichier Excel peut avoir 3 onglets par exemple.

🙂 On favorise les données JSON et GeoJSON — on les pré-transforme systématiquement.


J'apprenais à utiliser Rapid Miner pour relier et mixer les jeux de données ensemble.


Quand on arrive, on ne sait jamais ce qu'on va trouver.


➡️ Tesseract OCR


Le plus simple c'est d'avoir un tableau de données.

J'aime bien les données plates car ça permet de faire des jointures.


😤 Quand on retravaille les données des élections, elles manquent de clés uniques (homonymes sur les candidat·e·s) et les noms sont listés au niveau de chaque ligne par ordre de plébiscite.

😤 Quand ils sont orthographiés de la même manière — les accents n'y sont pas toujours (ça dépend des bureaux de vote).

Conclusion

Ça m'a poussé à retourner voir data.gouv.fr

J’ai beaucoup apprécié cet échange, et j’ai hâte d’en rediscuter en interne pour pousser les gens à (re-)découvrir la plateforme.

ROTI • Retour sur le Temps Investi

N/C