DéBAT
Les éditeurs doivent-ils transférer des données de recherche aux groupes d’IA?

Photo: màd

Photo: màd
Derrière leurs murs payants, les éditeurs détiennent d’énormes quantités de données scientifiques, financées pour la plupart par les contribuables. Ce trésor représente d’innombrables heures de recherche et des milliards de fonds publics. Cette ressource vitale devrait être en libre accès tant pour l’analyse par les chercheurs que pour le traitement par l’IA. Cette ouverture a d’énormes avantages potentiels. L’IA peut traiter et analyser rapidement d’importants volumes de littérature scientifique et découvrir ainsi des liens cachés entre les disciplines que pourraient rater les chercheurs. En combinaison avec l’expertise humaine, cela pourrait accélérer massivement le rythme des découvertes. Les chercheuses profiteraient d’un accès illimité aux dernières découvertes dans leur domaine, ce qui favoriserait l’innovation et la collaboration. De plus, l’IA pourrait contribuer à gérer le flot de données de recherches publiées, ce qui permettrait aux chercheuses et chercheurs de se tenir plus facilement au courant des développements dans leur domaine. Face aux défis mondiaux urgents, nous ne pouvons pas nous permettre de laisser ce trésor de connaissances inexploité.
Les préoccupations relatives aux aspects juridiques et à l’intégrité sont légitimes, mais surmontables. Il faut des lignes directrices bien pensées pour l’utilisation de l’IA et des règles claires pour la citation des sources. Les modèles d’open access en informatique, où la recherche de pointe est souvent librement accessible via des serveurs Preprint, ont montré que la qualité et l’innovation ne sont pas en contradiction avec le libre accès.
Bref, oui: les éditeurs devraient mettre leurs résultats scientifiques à la disposition des entreprises et des chercheuses spécialisées dans l’IA – gratuitement. Les quantités de données des éditeurs, financées par les deniers publics, ne devraient pas être considérées comme une marchandise, mais comme une ressource centrale pour le progrès humain. Si les éditeurs libèrent leurs données à la fois pour l’analyse humaine et pour le traitement par IA, ils peuvent libérer le plein potentiel du travail scientifique.
Imanol Schlag, chercheur au Centre d’IA de l’ETH Zurich, codirige l’initiative Swiss AI, un projet de grand modèle de langage. Auparavant, il a dirigé la recherche chez Google, Meta et Microsoft.
Ces derniers mois, on a appris que l’éditeur Taylor & Francis a conclu un contrat de 10 millions de dollars avec Microsoft. La multinationale peut utiliser les livres de Routledge pour entraîner ses Large Language Models (LLM). D’autres éditeurs ont conclu de tels accords. Or, ils impliquent de grands risques et effets collatéraux qui doivent être discutés publiquement.
Premièrement, si les grands groupes d’IA obtiennent l’accès aux résultats de la recherche, cela renforcera encore leur influence sur la diffusion des connaissances et concentrera le pouvoir sur quelques groupes. Leur infrastructure d’information déciderait de facto des connaissances à considérer comme précieuses ou pas. De plus, la construction de cette infrastructure consomme de façon non durable de nombreuses ressources de la planète.
Deuxièmement, l’éthique de la recherche devient toujours plus importante, par exemple, lors de la collecte, de l’analyse, du traitement et du stockage des données de recherche. Le soin et les efforts nécessaires fournis par les scientifiques à cet effet contrastent fortement avec l’entraînement des Large Language Models au moyen des résultats de la recherche. Les processus n’y sont pas divulgués et il n’existe guère de réglementations éthiques. Cela crée de graves problèmes: ainsi, une large partie des autrices n’ont jamais consenti à ce que leurs données soient utilisées comme matériel d’entraînement, voire ignorent que c’est le cas.
Troisièmement, la réutilisation de données scientifiques pour la formation LLM est une forme d’exploitation de la main-d’œuvre humaine qui permet aux éditeurs de tirer encore plus de profit de la recherche financée par des fonds publics. De nombreuses chercheuses fournissent déjà un travail non rémunéré pour les éditeurs et garantissent ainsi la qualité des travaux scientifiques. Ceux-ci sont maintenant revendus avec un bénéfice, bien qu’ils soient déjà derrière un paywall ou que des frais d’open access soient dus. Si les éditeurs poursuivent ces pratiques, les scientifiques doivent au moins pouvoir s’y opposer explicitement.
Mathias Decuypere est professeur de développement scolaire et de gouvernance à la HEP Zurich. Il étudie l’influence accrue de données et de plateformes numériques sur l’éducation.

Photo: màd
Derrière leurs murs payants, les éditeurs détiennent d’énormes quantités de données scientifiques, financées pour la plupart par les contribuables. Ce trésor représente d’innombrables heures de recherche et des milliards de fonds publics. Cette ressource vitale devrait être en libre accès tant pour l’analyse par les chercheurs que pour le traitement par l’IA. Cette ouverture a d’énormes avantages potentiels. L’IA peut traiter et analyser rapidement d’importants volumes de littérature scientifique et découvrir ainsi des liens cachés entre les disciplines que pourraient rater les chercheurs. En combinaison avec l’expertise humaine, cela pourrait accélérer massivement le rythme des découvertes. Les chercheuses profiteraient d’un accès illimité aux dernières découvertes dans leur domaine, ce qui favoriserait l’innovation et la collaboration. De plus, l’IA pourrait contribuer à gérer le flot de données de recherches publiées, ce qui permettrait aux chercheuses et chercheurs de se tenir plus facilement au courant des développements dans leur domaine. Face aux défis mondiaux urgents, nous ne pouvons pas nous permettre de laisser ce trésor de connaissances inexploité.
Les préoccupations relatives aux aspects juridiques et à l’intégrité sont légitimes, mais surmontables. Il faut des lignes directrices bien pensées pour l’utilisation de l’IA et des règles claires pour la citation des sources. Les modèles d’open access en informatique, où la recherche de pointe est souvent librement accessible via des serveurs Preprint, ont montré que la qualité et l’innovation ne sont pas en contradiction avec le libre accès. Bref, oui: les éditeurs devraient mettre leurs résultats scientifiques à la disposition des entreprises et des chercheuses spécialisées dans l’IA – gratuitement. Les quantités de données des éditeurs, financées par les deniers publics, ne devraient pas être considérées comme une marchandise, mais comme une ressource centrale pour le progrès humain. Si les éditeurs libèrent leurs données à la fois pour l’analyse humaine et pour le traitement par IA, ils peuvent libérer le plein potentiel du travail scientifique.
Imanol Schlag, chercheur au Centre d’IA de l’ETH Zurich, codirige l’initiative Swiss AI, un projet de grand modèle de langage. Auparavant, il a dirigé la recherche chez Google, Meta et Microsoft.

Photo: màd
Ces derniers mois, on a appris que l’éditeur Taylor & Francis a conclu un contrat de 10 millions de dollars avec Microsoft. La multinationale peut utiliser les livres de Routledge pour entraîner ses Large Language Models (LLM). D’autres éditeurs ont conclu de tels accords. Or, ils impliquent de grands risques et effets collatéraux qui doivent être discutés publiquement.
Premièrement, si les grands groupes d’IA obtiennent l’accès aux résultats de la recherche, cela renforcera encore leur influence sur la diffusion des connaissances et concentrera le pouvoir sur quelques groupes. Leur infrastructure d’information déciderait de facto des connaissances à considérées comme précieuses ou pas. De plus, la construction de cette infrastructure consomme de façon non durable de nombreuses ressources de la planète.
Deuxièmement, l’éthique de la recherche devient toujours plus importante, par exemple, lors de la collecte, de l’analyse, du traitement et du stockage des données de recherche. Le soin et les efforts nécessaires fournis par les scientifiques à cet effet contrastent fortement avec l’entraînement des LLM au moyen des résultats de la recherche. Les processus n’y sont pas divulgués et il n’existe guère de réglementations éthiques. Cela crée de graves problèmes: ainsi, une large partie des autrices n’ont jamais consenti à ce que leurs données soient utilisées comme matériel d’entraînement, voire ignorent que c’est le cas.
Troisièmement, la réutilisation de données scientifiques pour la formation LLM est une forme d’exploitation de la main-d’oeuvre humaine qui permet aux éditeurs de tirer encore plus de profit de la recherche financée par des fonds publics. De nombreuses chercheuses fournissent déjà un travail non rémunéré pour les éditeurs et garantissent ainsi la qualité des travaux scientifiques. Ceux-ci sont maintenant revendus avec un bénéfice, bien qu’ils soient déjà derrière un paywall ou que des frais d’open access soient dus. Si les éditeurs poursuivent ces pratiques, les scientifiques doivent au moins pouvoir s’y opposer explicitement.
Mathias Decuypere est professeur de développement scolaire et de gouvernance à la HEP Zurich. Il étudie l’influence accrue de données et de plateformes numériques sur l’éducation.