Quelques exemples des scripts de moissonnage (scraping) de données réalisés par les étudiant(e)s de la session d'hiver 2020.
Amélie a moissonné tous les articles publiés par le quotidien La Presse en janvier 2020.
👉👉👉 Son script
Clémence s'intéresse aux articles sur les féminicides publiés dans Le Monde en novembre 2019.
👉👉👉 Son script
Après avoir remarqué que les URL des articles de l'hebdo de sa région, L'Œil régional, possédaient tous un numéro unique, Catherine a voulu voir ce qu'elle recueillerait si elle testait une étendue de ces numéros.
👉👉👉 Son script
Charles s'est servi de l'API de CanLII pour recueillir des informations sur tous les jugements relatifs aux assurances rendus par tous les tribunaux du Québec depuis le début de l'année 2019.
👉👉👉 Son script
Ariane recueille des infos sur les espèces menacées et vulnérables au Québec.
👉👉👉 Son script
Claudine moissonne tous les rapports du Directeur parlementaire du budget (à Ottawa) depuis 2012.
👉👉👉 Son script
Saviez-vous que le site Actualités UQAM contenait plus de 8500 articles? François-Alexis a recueilli des infos de base sur chacun d'entre eux.
👉👉👉 Son script
Éliane s'intéresse elle aussi aux articles du Monde, mais pour le mois de janvier 2020 seulement. Il y en a quand même plus de 3 000!
👉👉👉 Son script
Il n'était pas interdit aux étudiant(e)s de choisir des sites commerciaux pour faire leur exercice de moissonnage. Ce fut le cas de Félix qui, pour des raisons qui lui appartiennent, a recueilli des informations à propos d'articles de mariage sur le site de Dollarama.
👉👉👉 Son script
David est allé chercher tous les procès-verbaux de la municipalité de Saint-Léon-le-Grand pour l'année 2019. J'ai ajouté à son script des fonctionnalités pour extraire le texte des fichiers PDF des procès verbaux à l'aide du module Tika.
👉👉👉 Son script
Amatrice de sport, Jessica a moissonné les plus de 500 articles que La Presse a consacrés à sa couverture des Jeux Olympiques d'hiver de 2010. #nostalgie
👉👉👉 Son script
De son côté, Maude a recueilli des infos sur toutes les recettes végétariennes de Ricardo.
👉👉👉 Son script
Maïssa s'intéresse elle aussi à des recettes, mais à toutes celles proposées par le service de livraison GoodFood. Le CSV qu'elle produit donne la liste de tous les ingrédients utilisés dans les recettes qu'on peut retrouver dans les 200 premières pages du site (près de 32 000 ingrédients!).
👉👉👉 Son script
Nicholas a remarqué que les articles du site de RDS étaient tous suivis d'un numéro. Par exemple, cet article (https://www.rds.ca/soccer/europe/ligue-des-champions/ligue-des-champions-barcelone-sauve-par-griezmann-a-naples-gnabry-brille-encore-a-londres-1.7256225) se termine avec le numéro 1.7256225. Nicholas s'est demandé ce qui se passerait s'il réduisait l'URL au numéro (https://www.rds.ca/1.7256225). Eh bien ça fonctionne! Il a donc testé un intervalle pour voir ce qu'il obtiendrait. Avec un intervalle de 100 nombres, il a recueilli trois articles. Avec 1000, il en obtient douze.
👉👉👉 Son script
Félix s'est intéressé aux archives de la section tech du magazine en ligne The Verge.
👉👉👉 Son script
C'est aux 338 député(e)s siégeant à la Chambre des communes que Sandrine s'est intéressée.
👉👉👉 Son script
Pour sa part, Simon est allé chercher tous les articles relatifs à la NBA publiés sur le site web d'ESPN en février 2019.
👉👉👉 Son script
C'est un exercice de moissonnage et tous les sujets étaient permis. William a conçu un script qui moissonne la liste des député(e)s de l'Assemblée nationale. Lorsque la date de naissance d'un(e) élu(e) est disponible, le script détermine son signe astrologique. Un second script vous permet de demander le signe astrologique de votre député. Comme je l'ai indiqué dans les commentaires : intérêt public zéro, mais effort excellent.
👉👉👉 Son script principal, et son second
Costaud travail de la part de Lina! Elle a écrit un script qui peut théoriquement recueillir des infos sur tous les utilisateurs de SoundCloud! Je dis théoriquement, car les utilisateurs de cette plateforme se comptent par millions. Juste ceux dont le pseudonyme commence par « A » sont 2 144 989!!! Faire rouler son script prendrait des jours, sans compter que SoundCloud nous débranche régulièrement. Mais tout est complet.
👉👉👉 Son script
Alexandra s'est elle aussi attaquée au site de Ricardo, mais pour en extraire TOUTES les quelque 7 000 recettes (seulement les URL).
👉👉👉 Son script
Éloi s'intéresse aux vols pas chers offerts par Air Transat.
👉👉👉 Son script