#RuesDeFrance : un projet data

Rien n’est plus commun qu’une rue. Qu’est ce que leurs noms disent de nous ? Le projet #RueDeFrance est une projet de code et de visualisation des 786 000 rues françaises, avec un zoom sur leurs occurrences et sur les personnalités.

Intérêt et objectifs

L’intérêt du projet est d’identifier comment l’odonymie relie la société française. Le postulat : rien n’est plus commun qu’une rue… elles sont à la fois la marque d’une identité collective et d’un particularisme local. Comment s’articulent ces deux fonctions ? Sur quoi repose notre projection du « vivre ensemble » ?

L’objectif du projet est de lister les noms de rues françaises. D’en produire une analyse à partir des occurrences d’une part ; de se focaliser sur les rues aux noms de personnalités d’autre part. Pourquoi les personnalités ? Parce qu’elles sont au cœur de l’histoire. Parce que l’on projette sur elles des images assez partagées, consensuelles, pour illustrer une histoire commune . Quelle est la place accordée aux femmes ? Quelles sont leurs origines ? Quelles professions jugeons nous digne de nous représenter ? Ces questions nous invitent à pousser l’analyse. Elles nous projettent aussi vers défi technique de croisement de données qui pimente l’exercice.

Quels livrables ?

Chaque livrable se présentera sous la forme d’un court article avec de jolis graphiques. Ils s’orienteront respectivement autour de trois analyses :

  • Une analyse de la répartition des noms de rues par occurrences : par un graphique « pie », afin d’illustrer la part que représente les noms de rues aux « occurrences fortes ». Nous définissons ces dernières comme les noms de rues qui comptent au moins 10 occurrences.
    > Lire l’article #RuesDeFrance : analyse des occurrences de rues
  • Une analyse du Top 100 des rues les plus répandues avec une catégorisation de ces noms. A quoi les noms les plus répandus font-ils référence ? Aux plantes ? A des personnalités ? etc.
    > Lire l’article #RuesDeFrance : le Top 100
  • Une analyse des rues aux noms de personnalités avec une ventilation de ces personnalité par genre, par occupation et par origine. Quelle est la place des femmes ? des artistes ? des étrangers ? etc. dans les noms de nos rues.
    > Lire l’article #RuesDeFrance : analyse des personnalités

Comment faire ?

Un dessin vaut mieux qu’un long paragraphe. Voici la roadmap technique du projet :

Un mot sur les sources : il y a en deux. J’ai d’abord utilisé les données du site www.lesruesdefrance.com avec un jeu de fichiers csv qui compilent, par département, le nom de toutes les voies (rues, avenues, ponts, impasses… lieux-dits etc.) recensées. Cela représente plus de 7 millions de lignes réparties dans 101 fichiers. J’ai également utilisé les données de Wikidata, afin d’enrichir les rues aux noms de personnalités par les caractéristiques de ces personnalités (genre, occupation, origine, description).

Un mot sur les outils : j’ai utilisé des librairies Python pour trois types d’opérations. Pour le pur traitement de données (Pandas, Numpy) ; pour l’illustration (Matplotlib) et pour le scraping (BeautifulSoup). Pour les outils de visualisation, j’ai eu recours à Tableau Software et à RawGraph. La Roadmap technique a été réalisée avec Draw.io.

Les limites de l’exercice

Les limites sont propres à la qualité des données. Certaines sont frustrantes. D’autres prêtent à sourire 🙂

Sur les fichiers csv par département :

  • Les noms de rues ne sont pas uniformément écrits de la même manière… la rue « G. de Gaulle » succède à « Général de Gaulle » qui suit « Gen. de Gaulle » etc. Le prénoms de George Sand apparait parfois avec un S, parfois non (comme il le faudrait). etc. Ces problèmes furent résolus par un premier travail d’harmonisation, codé ; puis par une fusion des noms de rue basée sur la reconnaissance d’un wikicode commun aux personnalités. Enfin par une vérification directement dans le fichier, « les mains dans le cambouis » pour les principaux noms.

Sur la base wikidata :

  • Elle est en anglais. C’est loin d’être dramatique… mais j’aurais préféré en français.
  • Un peu de technique : j’ai souhaité utiliser des listes Python dans des requêtes SPARQL (le langage wikidata). Cela ne m’a pas semblé possible, ou la subtilité technique m’a échappée. Je suis donc passé par une technique de scraping qui présente la limite du référencement naturel de choses. En clair, certaines rues aux noms de personnalités sont passées à la trappe (Wikidata ne les a pas reconnu comme humain) ; d’autres ont été prises pour des personnalités qui ne sont pas celles que l’on attendait. Ainsi Colbert est devenu « American paleontologist » ; Montaigne une femme « Australian singer« … un certain Emile Dubois (politicien aux triples homonymes) apparait comme un « French serial killer » ! Et la rue Océane… porte le nom d’une « French pornographic actress » 🙂 Que l’on se rassure, ces coquilles restent à la marge. Abandonnant l’idéal du « tout codé », j’ai vérifié et corrigé à la main la liste des noms de personnalités dont les occurrences sont supérieures à 100. On excusera cette limite… propre aux algorithmes et aux croisements de données.

Enfin, pour apporter le plus de clarté possible, ce travail n’échappe pas à un traitement manuel. Certaines taches, comme la synthétisation de l’occupation des personnalités (ex : politician et stateman sont tous les deux des Policitiens) ont été opérées afin d’apporter plus de simplicité à l’analyse.

Les autres articles du projet #RuesDeFrance

#RuesDeFrance : une histoire de code. Faire face à 7 millions d’entrées… les malaxer, les masser, les mélanger.

#RuesDeFrance : analyse des occurrences de rues. Combien de rues portent x fois le même nom ?

#RuesDeFrance : le Top 100. Quelles sont les 100 noms de rues les plus répandues en France ?

#RuesDeFrance : analyse des personnalités. Qui sont les personnalités qui portent un nom de rue ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *