Accueil > Évaluation / Bibliométrie / Primes > "À propos de l’évaluation", par Christophe Charle (Université Paris 1, IHMC, (...)

"À propos de l’évaluation", par Christophe Charle (Université Paris 1, IHMC, CNRS/ENS)

ARESER, Lettre n)18, novembre 2008

vendredi 14 novembre 2008, par Laurence

[|
L’évaluation des enseignants chercheurs, critiques et propositions|]

Plusieurs colloques ou réunions spécialisées, de nombreux articles ou ouvrages à destination de publics plus ou moins larges, ont posé, depuis quelques années, la question de l’évaluation des enseignants-chercheurs. Le plus souvent, la question est traitée à un niveau très général, voire à travers des comparaisons internationales, souvent approximatives ou mal informées, ce qui aboutit à des jugements à l’emporte pièce ou inapplicables dans les cas propres à chaque discipline. Le discours dominant actuel, largement relayé par les médias, est que les enseignants-chercheurs français sont mal ou peu évalués, qu’il n’y a aucune corrélation entre leurs performances et leurs carrières ou rétributions, que des réformes radicales doivent aligner la France sur les modèles étrangers les plus performants, i.e. presque toujours les Etats-Unis. Un certain nombre de mesures récentes v ont déjà dans ce sens, comme la création de l’AERES, l’incitation à proposer des projets financés par l’ANR, l’introduction de méthodes bibliométriques dans les dossiers à remplir pour l’examen des unités de recherche par l’AERES et le CNRS, y compris dans des disciplines qui y échappaient jusque-là, les sciences humaines et sociales. Pour justifier ces changements, outre le diagnostic précédent, on agite en haut lieu et dans les médias généralistes des indicateurs globaux qui classent tantôt les universités, tantôt la productivité scientifique, tantôt les individus eux-mêmes, sans précaution ni réflexion sur le sens des indicateurs eux-mêmes ou leur origine et leur fiabilité. Pour aboutir à un diagnostic plus équilibré et à des propositions qui évitent les effets de mode, il convient, après avoir fait l’état des défauts du système actuel, d’analys er également de manière critique les nouvelles procédures proposées et de tirer de cette double critique quelques propositions concrètes plus particulièrement adaptées à l’histoire, discipline carrefour entre les humanités et les sciences sociales et qui présente même certaines analogies avec d’autres sciences plus expérimentales de type cumulatif, ce qui peut permettre de leur donner une valeur plus générale.

Les procédures actuelles et leur limites

Contrairement à ce qu’affirment les tenants actuels des réformes, l’évaluation des enseignants-chercheurs est loin d’être une nouveauté en France. Ainsi, lors d’une réunion sur l’évaluation organisée le 31 mai 2008 par la Société d’histoire moderne et contemporaine, le mathématicien Jean-Yves Mérindol commença sa communication en rappelant qu’il avait été évalué 27 fois en 27 ans de carrière ! Chaque universitaire ou chercheur, lecteur de ces lignes, pourra faire son propre décompte, mais il est vrai que, formellement, nous sommes amenés, presque chaque année, dans le cadre des demandes de promotion individuelle ou de prime, des rapports d’activité des unités auxquelles nous appartenons, des présentations pour des candidatures ou des demandes de financement de projet de recherche à démontrer nos aptitudes ou réalisations, le plus souvent en matière de rec herche et de publications, plus rarement en matière d’enseignement. Chacun sait aussi que la plus grande partie de cette littérature grise de titres et travaux ou de résumés de recherche n’a que peu d’effets réels mesurables du fait du blocage des carrières et des règles d’ancienneté qui l’emportent sur tout autre critère ou des arrangements extérieurs qui prévalent sur le « dossier scientifique », lors des mutations et, plus grave encore, des rapports récents l’ont statistiquement démontré, lors des premiers recrutements, du fait de la progression du « localisme » pour les nouveaux docteurs. La vraie question posée par l’évaluation est donc bien le passage de cette méritocratie formelle à une méritocratie réelle.

Plusieurs méthodes ont été déjà mises en place pour y remédier : le système des primes pour différencier les spécialisations des enseignants-chercheurs entre ceux qui privilégient le volet recherche, le volet administratif ou le volet enseignement de leurs activités ; la possibilité ouverte des détachements temporaires au CNRS ou, plus longs, dans le cadre des postes « junior » ou « senior » de l’Institut universitaire de France, fondée sur l’examens des dossiers scientifiques par des commissions ou des jurys distincts des commissions du CNU ou des commissions de spécialistes des universités.

Or, malgré toutes ces procédures distinctes et mises en place au fil du temps pour corriger les défauts constatés des systèmes précédents, le discours de dénigrement et l’insatisfaction restent largement répandus dans les différents secteurs de la communauté universitaire, sauf évidemment chez ceux ou celles qui ont bénéficié des promotions ou des distinctions délivrées par ces instances. On ne peut pas cependant expliquer cette tonalité négative uniquement par le déséquilibre entre le nombre des candidatures et celui des positions ouvertes ou par les inégalités géographiques, de discipline, de génération ou de filières d’origine qui rendent inégalement probables et rapides ces promotions ou l’accès à ces positions privilégiées. Les mêmes récriminations ou critiques se retrouvent dans d’autres systèmes universitaires européens. Mais elles sont sans doute ren dues plus insistantes ou aiguës en France, en raison à la fois de la centralisation des instances principales d’évaluation qui implique une surcharge de travail des jurys et un manque de temps pour examiner en détail la masse des dossiers. En second lieu, la multiplication des réformes partielles en fonction des alternances politiques politise régulièrement les enjeux et les options et entachent de soupçon l’impartialité des nouvelles instances. Enfin le manque de consensus à propos des critères d’évaluation d’une discipline à l’autre, en raison de procédures de formation ou de sélection initiales différentes, créent des « sous-cultures » de l’évaluation plus décalées sans doute que dans d’autres pays.

Des remèdes de bon sens pourraient et ont déjà été proposés face à ce mal bureaucratique français. Contre le localisme, la récente loi dite LRU a remplacé les commissions de spécialistes par de nouvelles instances non permanentes désignées par le président de l’université et qui sont censées échapper aux « petits arrangements » entre amis où les membres extérieurs désignés par les commissions pratiquent l’échange de services de commission à commission pour respecter les choix faits en interne par le noyau le plus influent de tel ou tel département. L’expérience de ces nouveaux jurys est trop courte ou partielle pour déterminer si cette prétendue réforme a cassé déjà ces jeux de pouvoir là où elle a été appliquée. Les présidents eux-mêmes étant pris dans des jeux de pouvoir internes à l’université, on ne voit pas ce qui empêchera que leurs choix des membres des nouveaux jurys ne soient pas pris dans le jeu des lobbys internes. La seule mesure radicale (qui était d’ailleurs en application avant 1987) pour freiner le localisme est l’impossibilité (qui existe par exemple Allemagne) d’être candidat la première fois dans l’université où l’on a soutenu sa thèse. Cette mesure se heurte évidemment aussi à des objections mais freinerait sensiblement les dérives actuelles où des docteurs, puis maîtres de conférences, puis habilités, puis professeurs n’ont jamais quitté leur université d’origine, ce qui ne contribue pas à les ouvrir à d’autres manières de faire ou d’être et nous ramène aux universités corporatives et népotistes d’ancien régime.

Contre l’encombrement des instances d’évaluation centrale, les remèdes sont plus difficiles à trouver puisque la masse des dossiers à gérer ne cesse de croître, à mesure que la population des postulants augmente d’année en année, que le nombre de postes, à l’inverse, se raréfie et que le ministère, loin de réduire son emprise, comme le prétendaient là encore les justifications de la loi LRU, encadre de plus en plus strictement les critères, les délais et les procédures de constitution des dossiers. L’enseignement supérieur français, à cet égard, cumule les handicaps puisqu’il confie l’évaluation à des jurys dont les membres ne sont pas dispensés par ailleurs de leurs autres tâches ni indemnisés à la hauteur du travail exigé par ces rapports et réunions, tout en leur imposant des délais extrêmement courts, tant pour la procédure centrale que pour la proc6 edure locale d’examen des candidatures. Toutes les comparaisons internationales soulignent qu’ailleurs on prend un temps beaucoup plus long pour examiner les dossiers, auditionner les candidats, évaluer la qualité scientifique et pédagogique. En Allemagne ou aux Etats-Unis, recruter un nouvel enseignant implique plusieurs étapes distinctes étalées sur une année au moins. En France, des thésards de décembre, qualifiés entre février et mars peuvent être intronisés enseignants-chercheurs à vie, s’ils ont beaucoup de chances et d’amis (ou un talent exceptionnel, cela arrive), en mai ou juin. Cette rapidité théorique (démentie il est vrai par les multi-candidatures de plus en plus fréquentes) atteste d’un travail peu approfondi à tous les niveaux de la chaîne. Une étude comparative de Christine Musselin montre que la pression du temps imparti implique un premier tri à partir de critères et d’in dices formels pour écarter a priori certains dossiers. En histoire, comme chacun le sait, l’agrégation est un premier requisit presque obligatoire pour avoir une possibilité de faire partie du second tri plus approfondi. Le manque de temps, même dans cette seconde phase, invite à privilégier d’abord un jugement formel sur les travaux ou publications en se fondant notamment sur les rapports des jurys dont on décrypte les moindres nuances puisque, comme chacun le sait aujourd’hui, la gradation des mentions a été concentrée vers le haut de la fourchette, ce qui lui enlève une grande partie de sa signification. Les revues où l’on publie, les types de colloque auxquels on a participé, l’accord avec les thématiques privilégiées par l’équipe d’accueil complètent, avec plus ou moins de pondération, l’évaluation scientifique externe. Pourquoi cette première étape qui va déterminer toute la ca rrière possible ou non des candidats à des maîtrises de conférences est-elle si superficielle ? L’excuse par le manque de temps n’est pas la seule, même si elle dépend de facteurs sur lesquels les membres des commissions n’ont pas de prise, c’est-à-dire le calendrier drastique fixé par le ministère et les instances dirigeantes de chaque université. Lire une thèse (et pas seulement son résumé ou son rapport), plusieurs articles ou communications, voire pour des candidat(e)s plus avancé(e)s, des livres est un travail long, fastidieux, exigeant, surtout si l’on n’est pas proche de la spécialité du candidat. Or l’augmentation du nombre des candidats, la spécialisation croissante des thèmes, l’inflation du nombre des articles et des communications présents dans les dossiers, le trop faible effectif des membres des commissions par spécialité induit une crise des ciseaux que la réforme r6 ecente, loin de résorber, ne va faire qu’aggraver tant qu’on n’aura pas augmenté le nombre d’examinateurs, les délais d’examen et restauré l’idée qu’un jugement sur un dossier ne se limite pas à des critères formels et à un vote hâtif à partir d’une prestation orale réduite à moins d’une demie heure, questions comprises.

Les mêmes remarques critiques peuvent être faites à propos d’autres évaluations opérées au cours de la carrière, puisque, peu ou prou, les mêmes contraintes de centralisation et de brièveté pèsent sur elles. S’y ajoute le soupçon, vérifiable objectivement, de biais liés à des considérations qui n’ont rien à voir avec la science : équilibres politique, disciplinaire, générationnel, institutionnel et géographique de la composition des instances, poids inégal de la discipline dans l’ensemble des disciplines universitaires, priorités définies en haut lieu pour avantager tel ou tel domaine en fonction de considérations le plus souvent extra-scientifiques. Aucun système universitaire ou scientifique dans l’histoire n’a jamais échappé à toutes ces atteintes à l’autonomie du jugement des pairs, mais il est certain, certaines dictatures mises à part, que les universit- 8es françaises sont l’un de ceux où il est le plus prégnant. Posons quelques questions (faussement) naïves qui rendront plus explicite notre propos qui tâche, bien que nous fassions partie du système, de le mettre à distance. Pourquoi l’âge d’accès aux échelons supérieurs de professeur sont-ils beaucoup plus rapides dans les disciplines à « agrégation du supérieur » que dans les autres ? Pourquoi, selon la coloration politique de la commission du CNU, en fonction des nominations ministérielles et du rapport de force avec les élus, certain(e)s sont plus sûr(e)s que d’autres, à dossier ou âge identique, voire inférieure, de voir leurs vœux réalisés ? Pourquoi le poids des dossiers scientifiques ne l’emporte-t-il presque jamais sur l’âge ou l’ancienneté des impétrants ? Pourquoi vaut-il mieux rendre des services aux instances dirigeantes pour obtenir des promotions au niveau de son université plutôt que de faire confiance au jugement scientifique de ses pairs du CNU, etc. ?

Les nouvelles procédures annoncées et leurs aberrations

Au lieu de s’attaquer à ces questions qui contribuent à détériorer la qualité de l’évaluation et son autonomie par rapport à des considérations hétéronomes, les gouvernements, depuis quelques années, ont introduit de nouvelles procédures obéissant aux inspirations de ce qu’on appelle le new public management. Selon cette idéologie technocratique qui tâche d’aligner les performances des services publics et des administrations sur la productivité des grandes entreprises, il s’agit d’en finir avec les principes corporatifs des universités et de réduire l’autonomie scientifique de l’évaluation au profit de systèmes de classement automatiques ou quasi automatiques. Ils pourront donner définitivement la main aux groupes dirigeants des universités ou des organismes de recherche, voire directement à des bureaucraties ministérielles nationales ou transnationales au détriment des commissions formées d’universitaires. Les créations de l’AERES, de l’ANR, la loi LRU, la réforme en cours du CNRS et des autres organismes de recherche, le plan Campus, divers rapports sur les carrières d’enseignants-chercheurs sont inspirées par ces thématiques relayées par les rapports de l’OCDE ou les fameux classemen ts internationaux des universités.

Quelle est la stratégie à l’œuvre derrière toute cette ingiénérie institutionnelle ou ce bruit médiatique insistant visant à dévaloriser le jugement scientifique interne au profit d’évaluations « objectives » et automatiques externes ? En premier lieu, affirmer que toute l’évaluation actuelle est nulle et non avenue, en caricaturant les défauts que nous avons signalés plus haut et en omettant de diagnostiquer les vraies causes de ces défauts, comme nous venons d’essayer de le faire. En second lieu, prétendre qu’ailleurs tout va pour le mieux et qu’il suffit d’importer les procédures étrangères pour remédier à tous les défauts français. En troisième lieu, nier la spécificité des modes d’évaluation propres à chaque domaine scientifique au profit d’un modèle positiviste universel fondé sur le chiffrage, le classement, l’indicateur synthétique, réputé neutre, infaillible et rationnel, à l’image des innombrables statistiques économiques ou autre, de fiabilité très inégale, mais ressassées à longueur de colonnes dans la presse et les médias. Comme le dit un adage anglais rappelé par Yves Gingras « any number beats no number ». Comme l’avaient fait les préfets napoléoniens, les divers recensements du XIXe siècle, les enquêtes sociales anglo-saxonnes pour les réalités économiques et sociales, ces procédures visent à réduire la diversité et la complexité des activités de recherche à des catégories simples qui évitent de lire les travaux, de consulter les spécialistes, de discuter les critères. Certaines sciences étant déjà ralliées à ces modélisations, il faut forcer les dernières sciences qui s’y refusent à intégrer ce cadre unifié, ainsi disposera-t-on d’un tableau de bord pour piloter d’en haut sans s’occuper de la base. Il existe déjà une très abondante littérature critique sur ce benchmarking, ces usages sauvages de la bibliométrie et de la scientométrie. Les nouveaux managers de la science n’en ont cure : là est l’avenir, là est la vraie évaluation. Ceux qui refusent seront renvoyés aux poubelles de l’histoire, privés de crédit, oubliés des promotions, réduits aux lamentations des belles âmes de la culture humaniste pour happy few. Une publication ne doit plus être lue, elle doit être « citée », de préférence publiée en anglais, accessible sur le web, répertoriée dans les grands index internationaux et anglo-saxons, pondérée à travers les nouveaux indices inventés par des gourous en mal de publicité (h-index, g-index). Des logiciels ad hoc permettent de tout calculer, et prétendument de tout répertorier.

Ces apprentis sorciers se retrouvent partout et échangent leurs trucs pour mieux séduire les décideurs, ainsi, en dernier lieu, la direction des partenariats du CNRS qui a élaboré un tableau excel à remplir « obligatoirement » par les unités en phase d’évaluation pour la période 2009-2013 où tous ces critères et indices quantifiés reçoivent une sanction officielle pour les sciences humaines et sociales, comme ils l’avaient déjà reçu pour les autres sciences déjà normalisées à partir de ces batteries d’indicateurs.

Les historiens ne sont sans doute pas les plus mal placés pour répondre à ce positivisme aveugle qui finalement entend résoudre de manière extrêmement simpliste des questions que l’histoire des sciences, l’histoire religieuse, l’histoire culturelle, l’histoire de l’enseignement, l’histoire sociale des sciences sociales se sont employées à traiter patiemment, depuis trois générations, en évitant les pièges de la réduction du qualitatif et du symbolique au quantitatif mécanique. Parfaitement incultes en matière historique, les new public managers de la science n’en ont cure. Pourtant les historiens ont pratiqué la bibliométrie rétrospective de longue date, tenté de comprendre pourquoi la science française après une domination internationale au début du XIXe siècle a perdu la main face à l’Allemagne, cherché à mesurer l’influence des livres et de la presse dans telle conjoncture révolutionnaire, quelles furent les voies d’accès différenciées à la diffusion culturelle selon les pays. Tout ce travail rétrospectif sur des objets analogues à ceux que traite l’évaluation des chercheurs pourrait aider des technocrates à ne pas prendre tout ce qui se passe aujourd’hui pour radicalement nouveau, inédit, révolutionnaire, à savoir critiquer des chiffres et des séries statistiques et leurs conditions de validité ou de fiabilité. Mais les technocrates n’ont ni l’esprit critique, ni l’esprit historique et encore moins sc ientifique. Ce qu’ils cherchent ce sont des arguments ayant l’air « scientifique », « neutre », « universel » pour justifier ce qu’ils avaient déjà décidé auparavant : tel domaine scientifique, telle unité de recherche, telle université n’apparaît pas dans tel classement, tel instrument bibliométrique, tel indice de citation souligne leur faible « impact » international ou national, ils n’ont donc pas le droit de vivre ou survivre dans la compétition et leur avenir est scellé.

Bien entendu, le discours d’accompagnement de cette nouvelle évaluation « objective » est tout autre, et l’auteur de ces lignes l’a entendu ad nauseam lors de réunions où ces technocrates éclairés essayaient de convaincre un public rétif et critique des bienfaits de ces classements et tableaux. Selon ce discours lénifiant, il s’agirait d’une aide généreuse à l’auto-évaluation, d’une bienveillante incitation à corriger des défauts ou des lacunes, d’un moyen même pour obtenir des ressources supplémentaires puisqu’on ne manquera pas de récompenser les bons petits soldats de la nouvelle croisade pour la science modernisée et normalisée.

Face à ce rouleau compresseur où les instruments de la discussion scientifique entre pairs sont disqualifiés d’emblée par l’argument d’autorité de celui qui détient le pouvoir et qui nous ramène aux pires époques napoléoniennes de l’Université française, les enseignants-chercheurs et les chercheurs sont divisés, voire tétanisés, même si des groupes minoritaires essaient à travers colloques, réunions, articles ou publications d’opposer des contre-feux à cet incendie ravageur. Trois types d’arguments peuvent être opposés à cette nouvelle doxa.

En premier lieu, une critique des nouveaux indicateurs.

Pour l’évaluation des individus, des groupes ou des établissements, les indices valorisent la forme article de revue et sa capacité à être répertorié dans des index internationaux. Chacun sait que, pour les humanités et une partie des sciences sociales, l’innovation durable et l’impact le plus profond sur les communautés de recherche ne passe pas par cette forme « article », elle-même beaucoup moins normalisée que dans d’autres sciences puisqu’elle peut aller de quelques pages à la taille du chapitre d’un livre, détail quantitatif qui peut avoir des effets qualitatifs très importants, négligés par les bibliomètres amateurs. En second lieu, l’extrême diversification des domaines et des langues utilisées, liée au fait qu’il s’agit de sciences concernant la multiplicité des cultures humaines et de leur médiation par le langage propre à celles-ci, interdisent d
’d5établir des classements valides de revues de référence unifiées autour de quelques ou d’une langue provisoirement dominante pour des raisons historiques contingentes, comme on peut le faire approximativement dans la plupart des sciences expérimentales ou de la nature. Les références centrales qui construisent nos domaines sont celles des livres de recherche et la construction de palmarès quantitatifs ou classant, au-delà de quelques auteurs universels ou fétiches, propres à chaque domaine, relève de la mission impossible. L’énormité actuelle et la diversité des lieux d’édition des livres d’histoire ou de sciences sociales font que même les grandes revues les plus établies sont loin de pouvoir rendre compte d’une fraction significative de la production. Si l’on recourt aux index ou bases de données accessibles électroniquement, comme le propose la direction des partenariats du CNRS dans les table aux cités plus haut, on n’aboutira, dans le meilleur des cas, qu’à des truismes puisque les ouvrages les plus cités sont ceux des universitaires ou des chercheurs des générations établies et que, pour les autres, tout dépendra de la présence de leur domaine sur le web, de leur habileté aussi à s’y rendre visible par des procédés d’autocitation ou de citations entre amis qui permettent de gonfler artificiellement son indice de citation, comme le démontrent quelques tests à partir de cas connus et pourtant très inégalement référencés dans ces bases.

Pour répondre à ce premier ensemble de critiques techniques, certains responsables (en particulier le CNRS et l’European Science Foundation) ont essayé de lancer des opérations de classement plus sérieuses en créant des jurys d’experts pour hiérarchiser les revues comme lieux de publication « internationaux », nationaux, locaux. Outre que ces opérations ont été menées de manière hâtive et dépendent, au bout du compte, de la composition des jurys d’experts puisque personne, sérieusement, ne peut prétendre lire de façon exhaustive et continue pour en avoir une opinion réelle la totalité des revues d’histoire ou d’un autre domaine, elles tombent sous le coup d’une autre critique tenant au fonctionnement même des publications dans nos univers. Pourquoi publie-t-on ici plutôt que là ? Nullement, comme le croient nos experts, en fonction d’une stratégie affinée de visibilit- 8e en commençant par envoyer un article aux « grandes », puis au moins grandes revues, comme le ferait un romancier débutant postant ses manuscrits d’abord aux « grands » éditeurs puis se rabattant sur les maisons plus modestes ou locales après des refus.

Pour les jeunes chercheurs, il s’agit souvent d’un choix d’opportunité et de rapidité ou d’affinité avec telle ou telle revue qui marque de l’intérêt pour le type de thème ou de recherche menée. Aujourd’hui, la pression de la concurrence est trop forte. Tous sont conscients que pour obtenir un poste ou une mutation, les travaux type thèse et les communications à des colloques ou autre ne suffisent pas. Aussi bien peu de jeunes chercheurs ont le loisir d’attendre qu’une « grande » revue fasse une petite place à un chercheur débutant tant la liste d’attente, pour être publié, s’allonge dans ce type d’organe. Il est donc plus raisonnable d’en rabattre sur la « centralité » pour avoir accès à la page imprimée. L’inflation de la course à la publication conduit aussi à pratiquer la redondance (articles déjà publiés comme communications repris sous forme légèrement différente dans une revue ou dans une publication de thèse ou de livre, textes provisoires sur des sites web) et le saucissonnage en créant trois articles ou plus à partir d’un texte qui, autrefois, n’aurait constitué qu’un seul papier plus substantiel. Pour réagir à ces dérives, les comités de rédaction des revues plus centrales peuvent encore se permettre une certaine rigueur, ne recevant déjà que trop de copie par rapport à leur volume de pages annuel. Mais la multiplication des recueils collectifs (actes de colloques, tables rondes, revues ou bulletins de centres de recherche universitaires etc.) permet d’écouler ce type d’article qu’on qualifiera académiquement de « stratégique » (destinés à occuper le terrain et à marquer sa place dans un domaine) mais qu’en d’autres temps on aurait défini comme « fonds de tiroir ».

En second lieu il faut souligner les perversions contraires au but poursuivi auquel conduisent les nouvelles procédures.

Ces dernières dérives des stratégies de publication ne sont rien auprès de ce que risquent de devenir les publications si les nouvelles règles inspirées d’autres domaines scientifiques étaient imposées de force via ces procédures d’indexation et de classement qu’on rêve de généraliser en haut lieu. Prenons le « h-index », un indicateur inventé par un physicien et que les tableaux du CNRS demandent désormais de calculer pour des disciplines comme les nôtres, en se servant du logiciel « Harzing Publish or Perish », élaboré par une professeur de management australienne. Comme le rappelle Y. Gingras, « l’indice h d’un chercheur est défini comme étant égal au nombre d’articles n qu’il a publiés et qui ont reçu au moins n citations (pour une période donnée). Par exemple, un auteur qui a publié 20 articles parmi lesquels 10 ont au moins 10 citations chacune aura un indice h de 10 ». Cet indice a remporté un grand succès, sans doute parce qu’il flatte « le narcissisme des scientifiques » (Y. Gingras) en leur donnant l’illusion qu’ils peuvent agir sur leur notoriété et se situer dans une course poursuite permanente résumée par un chiffre comme la performance d’un marathonien. Ce qui est vrai d’une certaine manière puisqu’on peut augmenter son indice en incluant dans les publications des procédés d’appel qui poussent d’autres à vous citer. Comme tout historien de la culture le sait, la meilleure manière de se faire remarquer, même si l’on n’est pas remarquable, c’est de faire scandale, de susciter une polémique, de s’attaquer à des sujets controversés, politiquement incorrects, de défendre une thèse paradoxale, etc. Si, en physique, ce type de dérive est peu probable, en sciences humaines et sociales et en particulier en histoire, surtout moderne et contemporaine, il existe des sujets « chauds » ou moins chauds qui vaudront, quelle que soit la qualité par ailleurs du travail, à la publication d’être citée et recitée abondamment, non seulement dans les publications savantes, mais ce qui est plus important pour les outils électroniques dont on dispose maintenant, sur le web. Pour l’instant, ce type de dérive ne touche que des secteurs limités de la production, celle qui vise, au-delà des spécialistes, le grand public ou les médias ou traite de thèmes contemporains et politiquement débattus, mais à partir du moment où un tel indicateur pourrait avoir un effet direct sur les intérêts académiques même des individus, il est probable que la tentation d’orienter les publications et les travaux de telle manière qu’ils feront hausser l’indicateur sera de plus en plus forte.

La seconde perversion induite par ces procédures est de pousser, à l’inverse, au conformisme et à la normalisation académique. Cette tendance est déjà visible dans les nomenclatures proposées par l’AERES et le CNRS. Une hiérarchie des formes de publication légitimes est implicitement contenue dans celles-ci. Les fiches d’activité distinguent en effet les ouvrages scientifiques, les articles dans des revues à comité de lecture, les contributions dans des ouvrages collectifs et les « Autres formes de production (brevets, ouvrages, rapports d’expertise,…) ». Dans des formes ultérieures (déjà testées dans certains lieux), on imagine que ces modes de publication ne seront plus seulement comptés pour évaluer la productivité annuelle mais pesés pour classer le bon et le mauvais producteur. Selon la pondération (établie parfaitement arbitrairement par l’évaluateur), le chercheur ou enseignant-chercheur soucieux de sa carrière devra arbitrer son mode de publication. Si un « ouvrage scientifique » vaut, par exemple, 4 points et un article dans un revue à comité de lecture un point, il aura tout intérêt à publier sous la forme de dix articles les chapitres de son livre, puisqu’il gagnera ainsi six points dans l’évaluation. Il pourra aussi, comme cela se fait beaucoup dans les pays anglo-saxons, distiller d’abord son livre dans des revues avant de regrouper les articles pour former un livre, ce qui doublera le gain symbolique. Poussons la caricature un peu plus loin. Supposons que pour endiguer la multiplication des publications de colloque, les évaluateurs sanctionnent durement ceux qui se limitent à publier dans ce type de volume collectif, en raison de leur faible impact éditorial, de leur coût de publication et du manque de retour critique sur les textes de moins en moins souvent corrigées par rapport aux versions orales ou dactylographiées. Les revues seront alors accablées d’anciennes communications retaillées pour entrer dans les normes de l’article. Ce pourrait être un bien en termes de qualité de chaque texte si les comités de rédaction effectuent leur travail critique mais cela ferait perdre en même temps l’effet collectif du rassemblement de textes sur un thème commun et se complétant les uns les autres, les revues refusant en général de produire artificiellement des numéros thématiques à partir de textes qu’elles n’ont pas commandés.

Toutes ces perversions sont déjà largement en place, non au niveau des individus, ou des unités de recherche, mais à un niveau bien supérieur, celui des universités et des institutions de recherche soumises à des audits et à des expertises collectives qui se fondent sur ce type de procédure. La plus connue de ces modalités nouvelles d’évaluation des collectifs d’enseignement et de recherche est représentée par les classements des établissements d’enseignement supérieur qui se sont multipliés ces dernières années. Ils sont maintenant brandis comme arguments politiques ou outils de management dans le débat public. Certaines universités étrangères qui en ont les moyens tentent, depuis quelques années, d’attirer en leurs murs des personnalités scientifiques connues dont les indices de citation ou les prix remportés hausseront automatiquement l’indice global de l’université tel que calc ulé dans un classement comme celui dit de Shanghaï où ce type d’indicateur pèse d’un grand poids dans le classement final. V. Pécresse a déclaré à plusieurs reprises que sa politique d’encouragement à l’enseignement supérieur avait pour objectif de faire monter un certain nombre d’universités françaises dans ce classement, sans se poser la question ni de la validité, ni de la fiabilité, ni même de l’utilité de celui-ci. Yves Gingras, dans la communication déjà citée, Albert Fert, prix Nobel de physique et bien d’autres auteurs encore ont pourtant démonté toutes les aberrations et absurdités de ce classement. Il mesure, non les performances des universités, mais la visibilité internationale d’une minorité de chercheurs qui y enseignent dans les sciences dites dures et en fonction de pondérations des indicateurs parfaitement arbitraires qui expliquent ses variations erratiques d’une année à l’autre. Son succès ne s’explique que parce qu’il va dans le sens de l’idéologie dominante et s’accorde aux cadres de pensée de personnalités au pouvoir formées au management, au benchmarking et aux logiques de la compétition économique.

Quelques propositions

Du double ensemble de remarques critiques précédentes, on peut tirer les propositions rationnelles suivantes.

1) le système actuel d’évaluation comporte de graves défauts et dysfonctionnements, il convient donc de le modifier pour le rapprocher des meilleures pratiques internationales.

2) Les propositions en cours d’application ne répondent pas à ces défauts et vont aggraver ou encourager des mauvaises pratiques nouvelles.

3) Ce sont les enseignants chercheurs et les chercheurs qui doivent élaborer les propositions de changement remédiant au point n°1 pour éviter d’avoir à se soumettre au point n°2 qui profite de l’absence d’un contre-discours unifié émanant de la communauté universitaire ou de recherche. De multiples propositions ont déjà été faites, voire tentées de longue date, fondées sur les principes du jugement par les pairs, de l’examen approfondi des dossiers (et non d’indices abstraits ou d’indicateurs formels), du pluralisme des instances pour limiter le jeu des lobbys et des clientèles.

Parmi les plus simples et évidentes en voici quelques-unes complémentaires.

Au lieu de rechercher la méthode mécanique idéale pour « compter » ou peser des publications, il faut inscrire parmi les obligations statutaires des chercheurs et enseignants-chercheurs, la publication régulière et la plus large possible de trend reports sur des ensembles d’articles et de comptes rendus critiques solidement faits sur les livres de recherche, dont un nombre croissant n’est pas évalué par les revues savantes. Remplir cette tâche aujourd’hui, considérée comme secondaire ou ingrate dans la hiérarchie des activités alors qu’un Lucien Febvre s’y est adonné avec talent et passion pour le grand bien de notre discipline, devrait être valorisé dans l’évaluation de ceux qui s’y attellent, comme c’est le cas dans les pays anglophones ou germanophones. Cette littérature intermédiaire substantielle faciliterait ainsi le travail ultérieur des commissions et jurys qui pourront en prendre connaissance en instruisant les dossiers puisqu’à court terme la plupart des revues seront accessibles à travers des portails électroniques et donc également les comptes rendus et notes critiques qu’elles publient.

Le travail d’évaluation par les pairs doit être lui aussi revalorisé pour qu’il ne soit pas accaparé, comme c’est trop souvent le cas, par un nombre trop restreint d’individus qui « tournent » entre les diverses fonctions pour des raisons stratégiques, syndicales ou politiques qui ne sont pas toujours liées à leurs compétences, mais à leur appétit de pouvoir ou à leur ancienneté. Les réformes introduites par Claude Allègre pour feues les commissions de spécialistes et les modalités de désignation des comités de sélection prévus par la loi LRU tournent le dos à ces principes. Mon expérience de membre de plusieurs commissions de spécialistes et de président de l’une d’entre elles m’incite à affirmer que les commissions trop restreintes, dont on nous a assuré qu’elles faciliteraient la discussion franche sans porte parole de sous-groupes, comme il en existait dans les commissions plus larges antérieures, sont, à l’inverse, plus faciles à manipuler ou à induire en erreur dans les cas où les postes à pourvoir ou les profils des candidats sont trop éloignés du domaine réel de compétence des membres titulaires. Il est en général prévu de faire appel à des experts extérieurs pour éclairer les membres quand ceux-ci ne sont pas au fait des tendances d’un domaine, mais cela ne remplace pas la contribution d’un membre qui peut effectivement voter et dont l’avis est autorisé. Dans les commissions et les jurys trop restreints (comme on le voit dans les commissions actuelles du CNRS qui font face à une diversité énorme de candidatures alors qu’elles ne disposent que d’un nombre de plus en plus restreint de postes), la spécialité de quelques membres influents ou les rapports de force entre spécialités biaise obligatoirement les choix. On apprécie mieux ce qu’on connaît bien ou l’on s’en remet « naturellement » à l’avis de l’expert qui est membre sans toujours savoir s’il représente réellement la diversité des pratiques du domaine de recherche concerné.
Les pays qui ne disposent pas, comme la France, de commissions centralisées pour l’accès aux postes universitaires ou de recherche et dont les départements universitaires ne peuvent posséder la totalité des expertises nécessaires recourent systématiquement, on le sait, aux lettres de présentation d’universitaires étrangers ou d’autres experts nationaux reconnus dans le champ de définition du poste. Ces méthodes d’évaluation complémentaires présentent leurs lourdeurs et leurs faiblesses mais permettent aussi de corriger les excès de la centralisation et des lobbys ou clientèles locales du système français actuel. Une institution comme l’Institut universitaire de France a introduit partiellement cette procédure dans les dossiers des candidats junior et senior. Là aussi, en tant qu’ancien membre d’un jury de l’IUF, je peux affirmer que ces lettres, même si elles comportent une part inévitab le de rhétorique facile à déceler, sont une aide efficace à l’appréciation dans le cas des spécialités peu ou mal représentées dans un jury donné.

Toutes ces propositions, peu coûteuses, si ce n’est en temps de travail supplémentaire pour la communauté scientifique, ne suffiront pas toutefois à corriger tous les travers actuels, si un changement stratégique global n’est pas opéré par les responsables des politiques en cours. Aucun système d’évaluation ne peut fonctionner correctement dans le climat et la perspective de rétraction et de précarisation de l’emploi scientifique et universitaire que nous connaissons aujourd’hui. Les réformes des études doctorales depuis les années 1980 ont abouti à améliorer considérablement la formation à la recherche. La qualité des travaux de thèse soutenus ces dernières années est bien supérieure, de l’avis de tous, à ce qu’elle était dans les universités des « trente glorieuses » où l’on décrochait sans coup férir un emploi avec quelques articles ou une thèse de 3è cycle non publiée ou impubliable, hâtivement ficelée. Or c’est au moment même où l’on a atteint, de façon miraculeuse, cet optimum relatif, quand on connaît les moyens médiocres dont disposent les disciplines de sciences de l’homme et de la société pour financer les apprentis chercheurs ou universitaires, que la politique ministérielle et présidentielle condamne toute une génération talentueuse et motivée en réduisant l’offre de postes dans l’enseignement supérieur et la recherche. Dans une telle conjoncture, on sait ce qui se passe et rend impossible toute évaluation sérieuse : l’exacerbation des tensions entre disciplines, entre spécialités, l’utilisation de tous les procédés possibles pour avantager les candidats de ceux qui détiennent une parcelle d’influence, une démoralisation et un cynisme désabusé de tous les perdants à ce jeu biaisé, une sinistro se des directeurs de travaux rejetés par les jugements de leurs « cher(e)s collègues ». Contre ce scénario catastrophe en cours de réalisation, alors que les sciences humaines et sociales françaises et l’histoire en particulier occupaient, naguère encore, un rang international bien meilleur que la plupart des disciplines de sciences dures auxquelles les pouvoirs publics, au nom de l’utilitarisme, consacrent des ressources incommensurablement supérieures, il n’est que temps de se mobiliser.

BIBLIOGRAPHIE :
 Revue d’histoire moderne et contemporaine, supplément novembre 2008 : « la fièvre de l’évaluation. »

• Rencontre : « Pilotage, gouvernance, excellence » organisé par les unités mixtes CNRS de l’Ecole normale supérieure » le 6 décembre 2008, 45 rue d’Ulm 9h30-17 heures, salle Célan, avec Barbara Cassin, Michel Blay, Michel Espagne, Pierre-Marc de Biasi, etc.

© L’ARESER, Association de réflexion sur les enseignements supérieurs et la recherche. Publication réservée aux adhérents de l’ARESER
président : C. CHARLE ; secrétaire de rédaction : Charles Soulié

"À propos de l’évaluation", par Christophe Charle (Université Paris 1, IHMC, CNRS/ENS)

Rubriques

Dans la même rubrique

Mots-clés