Numéro du 20 juin 2024

Thursday, 20 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 19 juin 2024

Wednesday, 19 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 18 juin 2024

Tuesday, 18 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 17 juin 2024

Monday, 17 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro de la semaine 2024-24

Sunday, 16 June 2024 22:00 UTC


Attribution des labels


Articles de qualité

Propositions

Semaine du 3 au 9 juin 2024
Semaine du 27 mai au 2 juin 2024
Semaine du 20 au 26 mai 2024
Semaine du 13 au 19 mai 2024

Promus

Bons articles

Propositions

Semaine du 3 au 9 juin 2024
Semaine du 27 mai au 2 juin 2024
Semaine du 20 au 26 mai 2024

Promus

Vandalisme

Vandalismes en cours

Icône de la Patrouille RC

Cette semaine (chiffre arrêté au 06/06/2024), 144 cas de vandalisme ont été signalés sur Wikipédia:Vandalisme en cours. Un chiffre en hausse par rapport à la semaine dernière (124 au 29/05/2024).

Pour voir la liste complète, rendez-vous sur Wikipédia:Vandalisme en cours (WP:VC).

La semaine du Bulletin des patrouilleurs

Retrouvez le détail de la semaine du Bulletin des patrouilleurs.

Planète Wikimédia

Les informations francophones

Article labellisé de la semaine

Article sélectionné au hasard dans la liste des articles du jour présentés cette semaine.

Mélanie de Jesus dos Santos en 2024 au World Champions Centre, au Texas.
Mélanie de Jesus dos Santos en 2024 au World Champions Centre, au Texas.

Mélanie de Jesus dos Santos (parfois abrégé Mélanie DJDS) est une gymnaste artistique française, née le à Schœlcher (Martinique).

Femmes et hommes confondus, elle est la Française la plus titrée aux championnats d'Europe de gymnastique artistique, s'imposant au sol à Glasgow en 2018, au concours général individuel et au sol à Szczecin en 2019 et à la poutre à Bâle en 2021. Elle a remporté un total de sept médailles dans cette compétition, avec également le bronze du concours général individuel à Cluj-Napoca en 2017, l'argent par équipes en 2018 et l'argent à la poutre en 2019.

En 2023, lors des Championnats du monde à Anvers, elle et ses coéquipières remportent la médaille de bronze par équipes.

À l'échelle nationale, elle a cumulé huit titres de championne de France entre 2017 et 2023.


Informations générales


En bref

Actuellement, Wikipédia compte 2 618 944 entrées encyclopédiques, dont 2 152 articles ayant obtenu le label « Article de qualité » et 4 006 articles ayant obtenu celui de « Bon article ».

Elle est en 4e position en nombre d'articles, après les éditions en anglais, en cebuano et en allemand ; l'éditions en cebuano est développée en partie à l'aide d'un bot.

La semaine du BA

Retrouvez le détail de la semaine du Bulletin des administrateurs.

Plaisirs visuels


Champignon de l'espèce Lactarius resimus.
(définition réelle 5 184 × 3 888)
Vue de Thundufushi, une île-hôtel des Maldives.
(définition réelle 5 816 × 2 907)
La cathédrale de Gniezno, en Grande-Pologne.
(définition réelle 3 537 × 4 055)
Un moteur d'avion Continental XI-1430-9, exposé au National Air and Space Museum, à Washington.
(définition réelle 6 600 × 4 416)
Le yacht de course écossais Moonbeam III.
(définition réelle 3 733 × 2 489)
Le sculpteur Vladimír Škoda.
(définition réelle 2 200 × 3 299)
Un jeune chamois sur la crête du Creux-du-Van, au nord du Jura vaudois.
(définition réelle 8 640 × 5 760)


Astuce

Un nouveau modèle pour les avertissements

Un nouveau modèle {{Avertissement}} vient de remplacer {{Attention}} qui ne doit désormais être employé qu’en dehors de l’espace encyclopédique. Le modèle {{Avertissement}} doit être utilisé avec parcimonie pour divers messages d’avertissement : danger, précaution, sous réserve, note, actualisation de l’information, recommandation pour le contributeur.

Comment l’utiliser ?
  1. {{Avertissement|texte=texte court}}
  2. {{Avertissement|texte long}}
  3. {{Avertissement|texte=court résumé|texte très long|fin=1}}
Exemples d’utilisation :

Pour en savoir plus, consultez les modèles d’avertissements permanents. Page de la catégorie Archives Astuces tirée au sort grâce à la page spéciale Page au hasard dans la catégorie.

Anniversaires à venir

Notes et références


Comité de rédaction

Cette édition a été rédigée par Pronoia (d · c) et Datsofelija (d · c).

Envoyez-nous vos remarques sur la rédaction du Wikimag, des annonces de débat, des tribunes d’expression libre ou le signalement de nouvelles pages d’intérêt commun sur Wikipédia.
Nous avons besoin de votre aide pour maintenir le Wikimag.

Commentaires sur cette édition

Bonjour à tous les rédacteurs et aux contributeurs Émoticône sourire Émoticône sourire,

Super le Wikimag... Cette semaine j'ai juste la moyenne dans la rubrique "Articles les plus consultés" (5/10) et c'est Roland Garros et la politique qui font le buzz. Toujours élevé, le "Vandalisme".. Dans les "Informations générales" Wikipédia compte 2 616 986 entrées encyclopédiques mais le problème reste les contributeurs enregistrés actifs qui baissent toujours significativement (aujourd'hui 16 622 et la semaine dernière 16 727), c'est inquiétant.... Dans les "Plaisirs visuels", les images sont belles et bien choisies... Voilà, merci encore aux rédacteurs qui font un travail remarquable et à bientôt.....Émoticône--Maleine258 (discuter) 10 juin 2024 à 09:35 (CEST)

Je suis d’accord avec toi mais je pense cependant (j’espère) que la baisse des contributeurs enregistrés s’explique par l’approche de l’été et donc des sorties plus fréquentes. Yuilo (discuter) 10 juin 2024 à 13:16 (CEST)
coucou j'adore cette édition ! Toujours de belles images ! ──✧₊∘ 𝒹𝒶𝓉𝓈𝑜𝒻𝑒𝓁𝒾𝒿𝒶 ☁️🫧🍭 10 juin 2024 à 16:40 (CEST)


Numéro du 16 juin 2024

Sunday, 16 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 15 juin 2024

Saturday, 15 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 14 juin 2024

Friday, 14 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 13 juin 2024

Thursday, 13 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 12 juin 2024

Wednesday, 12 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 11 juin 2024

Tuesday, 11 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro de la semaine 2024-23

Sunday, 9 June 2024 22:00 UTC


Comité de rédaction

Cette édition a été rédigée par Pronoia (d · c) et Datsofelija (d · c).

Envoyez-nous vos remarques sur la rédaction du Wikimag, des annonces de débat, des tribunes d’expression libre ou le signalement de nouvelles pages d’intérêt commun sur Wikipédia.
Nous avons besoin de votre aide pour maintenir le Wikimag.

Commentaires sur cette édition

Bonjour à tous les rédacteurs et aux contributeurs,

Toujours très intéressant le Wikimag... Cette semaine j'ai la moyenne dans la rubrique "Articles les plus consultés" (6/10) mais le tennis fait mieux que moi (7/10)... Le "Vandalisme" est toujours élevé.. Dans les "Informations générales" Wikipédia compte 2 615 640 entrées encyclopédiques mais aucune allusion aux contributeurs enregistrés actifs qui baissent significativement (aujourd'hui 16 727 et il y a un an environ 18000), c'est inquiétant.... Dans les "Plaisirs visuels", les phots sont variées et belles... Voilà, merci encore aux rédacteurs Émoticône Émoticône qui font un travail remarquable et à bientôt......--Maleine258 (discuter) 3 juin 2024 à 09:36 (CEST)

Hellooooo ! J'adore cette édition ! Très belles images comme d'habitude et on voit que Roland Garros à débuté ! Les plus consultés sont des joueurs et joueuses de tennis ! :) ──✧₊∘ 𝒹𝒶𝓉𝓈𝑜𝒻𝑒𝓁𝒾𝒿𝒶 ☁️🫧🍭 3 juin 2024 à 11:52 (CEST)

Version de Wikipedia.

Wikipedia est la quatrième éditions (en nombre d’article), après Wikipédia en anglais, Wikipédia en cebuano et Wikipédia en allemand. La version suédoise compte moins d’article que la VF :

Version suédoise : 2,586,314

Version française : 2,615,661

Voir : https://meta.m.wikimedia.org/wiki/List_of_Wikipedias

Sur le Wikimag, on peut y lire : la 4e version après anglais, cebuano, allemand et suédoise (dans ce cas se serait la 5e) Yuilo (discuter) 3 juin 2024 à 14:21 (CEST)

Bonjour Yuilo Émoticône. Bien vu ! Merci pour ton message. C'est corrigé !--Pronoia (discuter) 3 juin 2024 à 15:27 (CEST)


Numéro de la semaine 2024-22

Sunday, 2 June 2024 22:00 UTC


Comité de rédaction

Cette édition a été rédigée par Pronoia (d · c) et Datsofelija (d · c).

Envoyez-nous vos remarques sur la rédaction du Wikimag, des annonces de débat, des tribunes d’expression libre ou le signalement de nouvelles pages d’intérêt commun sur Wikipédia.
Nous avons besoin de votre aide pour maintenir le Wikimag.

Commentaires sur cette édition

Bonjour à tous les rédacteurs et aux contributeurs,

C'est normal que la rubrique "Articles les plus consultés" n'est pas mentionnée ? Et dans celle de "Revue de presse" le Mois africain se termine le 31 mai et recommence le 1er juin ? Autrement dans celle du "Plaisirs visuels", les images choisies sont admirables.... Merci et à bientôt......--Maleine258 (discuter) 27 mai 2024 à 08:53 (CEST)

Bonjour Maleine258 Émoticône,
Merci pour ton commentaire.
Le bot qui initialise le Top 10 des articles les plus consultés a eu un problème ce matin. J'ai publié un message ici pour informer Ghoster et Orlodrim.
Pour les Annonces, les dates sont affichées dans l'ordre inverse (les dates les plus anciennes sont affichés en bas). Le Mois africain commence le 1er mai et se termine le 31 mai Émoticône.
Bonne journée et à bientôt !--Pronoia (discuter) 27 mai 2024 à 09:04 (CEST)
Hellooooooooo! J'adore cette édition ! Très belles images et j'ai appris une nouvelle astuce ! et ça c'est cool 😎😎😎 ──✧₊∘ 𝒹𝒶𝓉𝓈𝑜𝒻𝑒𝓁𝒾𝒿𝒶 ☁️🫧🍭 27 mai 2024 à 09:12 (CEST)
Merci Pronoia pour cette réponse rapide et pour le travail que vous accomplissez. À bientôt et bonne journée.... Maleine258 (discuter) 27 mai 2024 à 09:22 (CEST)
@datsofelija et @Maleine258 Je viens de rajouter la section avec le Top 10 des articles consultés. Merci Lofhi Émoticône pour avoir généré la page du rapport de trafic.--Pronoia (discuter) 27 mai 2024 à 11:48 (CEST)
Super.... Merci pour la réactivité......
SourireÉmoticône Maleine258 (discuter) 27 mai 2024 à 12:19 (CEST)
Ah top @Pronoia merci ! ──✧₊∘ 𝒹𝒶𝓉𝓈𝑜𝒻𝑒𝓁𝒾𝒿𝒶 ☁️🫧🍭 27 mai 2024 à 14:44 (CEST)


Numéro de la semaine 2024-21

Sunday, 26 May 2024 22:00 UTC