Skip to content

Quelques exemples des scripts de moissonnage (_scraping_) de données réalisés par les étudiant(e)s de la session d'hiver 2020.

License

Notifications You must be signed in to change notification settings

Journalisme-UQAM/moissonage2020

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

36 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

moissonage2020

Quelques exemples des scripts de moissonnage (scraping) de données réalisés par les étudiant(e)s de la session d'hiver 2020.


Amélie Brissette

Amélie a moissonné tous les articles publiés par le quotidien La Presse en janvier 2020.
👉👉👉 Son script

Clémence Bouquerod

Clémence s'intéresse aux articles sur les féminicides publiés dans Le Monde en novembre 2019.
👉👉👉 Son script

Catherine Savoie

Après avoir remarqué que les URL des articles de l'hebdo de sa région, L'Œil régional, possédaient tous un numéro unique, Catherine a voulu voir ce qu'elle recueillerait si elle testait une étendue de ces numéros.
👉👉👉 Son script

Charles Mathieu

Charles s'est servi de l'API de CanLII pour recueillir des informations sur tous les jugements relatifs aux assurances rendus par tous les tribunaux du Québec depuis le début de l'année 2019.
👉👉👉 Son script

Ariane Chevrier

Ariane recueille des infos sur les espèces menacées et vulnérables au Québec.
👉👉👉 Son script

Claudine Giroux

Claudine moissonne tous les rapports du Directeur parlementaire du budget (à Ottawa) depuis 2012.
👉👉👉 Son script

François-Alexis Favreau

Saviez-vous que le site Actualités UQAM contenait plus de 8500 articles? François-Alexis a recueilli des infos de base sur chacun d'entre eux.
👉👉👉 Son script

Éliane Gosselin

Éliane s'intéresse elle aussi aux articles du Monde, mais pour le mois de janvier 2020 seulement. Il y en a quand même plus de 3 000!
👉👉👉 Son script

Félix Desjardins

Il n'était pas interdit aux étudiant(e)s de choisir des sites commerciaux pour faire leur exercice de moissonnage. Ce fut le cas de Félix qui, pour des raisons qui lui appartiennent, a recueilli des informations à propos d'articles de mariage sur le site de Dollarama.
👉👉👉 Son script

David Massé

David est allé chercher tous les procès-verbaux de la municipalité de Saint-Léon-le-Grand pour l'année 2019. J'ai ajouté à son script des fonctionnalités pour extraire le texte des fichiers PDF des procès verbaux à l'aide du module Tika.
👉👉👉 Son script

Jessica Potsou

Amatrice de sport, Jessica a moissonné les plus de 500 articles que La Presse a consacrés à sa couverture des Jeux Olympiques d'hiver de 2010. #nostalgie
👉👉👉 Son script

Maude Faucher

De son côté, Maude a recueilli des infos sur toutes les recettes végétariennes de Ricardo.
👉👉👉 Son script

Mayssa Ferah

Maïssa s'intéresse elle aussi à des recettes, mais à toutes celles proposées par le service de livraison GoodFood. Le CSV qu'elle produit donne la liste de tous les ingrédients utilisés dans les recettes qu'on peut retrouver dans les 200 premières pages du site (près de 32 000 ingrédients!).
👉👉👉 Son script

Nicholas Pereira

Nicholas a remarqué que les articles du site de RDS étaient tous suivis d'un numéro. Par exemple, cet article (https://www.rds.ca/soccer/europe/ligue-des-champions/ligue-des-champions-barcelone-sauve-par-griezmann-a-naples-gnabry-brille-encore-a-londres-1.7256225) se termine avec le numéro 1.7256225. Nicholas s'est demandé ce qui se passerait s'il réduisait l'URL au numéro (https://www.rds.ca/1.7256225). Eh bien ça fonctionne! Il a donc testé un intervalle pour voir ce qu'il obtiendrait. Avec un intervalle de 100 nombres, il a recueilli trois articles. Avec 1000, il en obtient douze.
👉👉👉 Son script

Félix Pedneault

Félix s'est intéressé aux archives de la section tech du magazine en ligne The Verge.
👉👉👉 Son script

Sandrine Vieira

C'est aux 338 député(e)s siégeant à la Chambre des communes que Sandrine s'est intéressée.
👉👉👉 Son script

Simon Duclos

Pour sa part, Simon est allé chercher tous les articles relatifs à la NBA publiés sur le site web d'ESPN en février 2019.
👉👉👉 Son script

William d'Avignon

C'est un exercice de moissonnage et tous les sujets étaient permis. William a conçu un script qui moissonne la liste des député(e)s de l'Assemblée nationale. Lorsque la date de naissance d'un(e) élu(e) est disponible, le script détermine son signe astrologique. Un second script vous permet de demander le signe astrologique de votre député. Comme je l'ai indiqué dans les commentaires : intérêt public zéro, mais effort excellent.
👉👉👉 Son script principal, et son second

Lina Heckenast

Costaud travail de la part de Lina! Elle a écrit un script qui peut théoriquement recueillir des infos sur tous les utilisateurs de SoundCloud! Je dis théoriquement, car les utilisateurs de cette plateforme se comptent par millions. Juste ceux dont le pseudonyme commence par « A » sont 2 144 989!!! Faire rouler son script prendrait des jours, sans compter que SoundCloud nous débranche régulièrement. Mais tout est complet.
👉👉👉 Son script

Alexandra Lauzon

Alexandra s'est elle aussi attaquée au site de Ricardo, mais pour en extraire TOUTES les quelque 7 000 recettes (seulement les URL).
👉👉👉 Son script

Éloi Fournier

Éloi s'intéresse aux vols pas chers offerts par Air Transat.
👉👉👉 Son script

Binder

About

Quelques exemples des scripts de moissonnage (_scraping_) de données réalisés par les étudiant(e)s de la session d'hiver 2020.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages