Pour lutter contre la COVID-19, les politiques de santé publique reposent sur des données de surveillance qui sont collectées physiquement (lors d’une visite médicale, par exemple) ou via des enquêtes en ligne. D’un côté, les études à petite échelle prennent le risque de cibler un échantillon non représentatif de la population. D’un autre côté, la surveillance à grande échelle est intéressante car elle permet, par des analyses statistiques particulières, d’étudier le comportement de sous-groupes dans la population afin de leur appliquer des mesures ciblées (sur des communautés non-vaccinées, par exemple). De part leur grande taille, ces analyses à grande échelle (Big Data) sont censées combler les risques d’erreurs.
Ainsi, des chercheurs anglais et américains (universités d’Oxford, Stanford et Harvard) se sont penchés sur les estimations concernant la prise de la 1ère dose de vaccin aux Etats-Unis entre janvier et mai 2021 (« avez-vous été vacciné ? », « voulez-vous être vacciné ? » etc). Ils ont analysé les résultats de 3 enquêtes en ligne : Delphi-Facebook (4,5 millions de réponses), Census Bureau’s Household Pulse (600 000 réponses), et Axios-Ipsos (10 000 réponses). Par ailleurs, le Center for Disease Control (CDC) a collecté des données de vaccination auprès des états et des centres médicaux locaux pour servir de référence à l’étude.
Cependant, les résultats sont très différents. Comparé aux données du CDC qui estimait à 53% le nombre de vaccinés, Delphi surestime de 17%, Census de 14%, et Axios de 4,2%. Ces études ont des méthodes de recrutement différentes ce qui introduit des biais dans les estimations. Cela dépasse largement les erreurs statistiques que la taille des études est censée combler et les résultats ne reflètent pas les véritables comportements de la population.
L’étude la plus petite est aussi la plus fiable. Les chercheurs ont validé de nouveau leurs observations sur 3 petites ou moyennes études supplémentaires (Data For Progress, Morning Consult, Harris Poll), dont 2 divergent encore largement de celles du CDC.
Les enquêtes analysées ici sont atteintes du « Big Data Paradox ». Les analyses à grande échelle, qui minimisent certains risques d’erreurs, ont paradoxalement tendance à amplifier de petits biais (sur lesquels l’attention était moins focalisée) à mesure que la taille des données augmente. Ici, une étude sur 250 000 réponses par semaine n’est pas plus fiable qu’une étude à partir de 10 réponses prises au hasard. Si les données de départ ne sont pas correctement conçues, l’erreur ne peut pas être compensée par un nombre important de données.
Au vu de l’importance de ce type d’enquêtes, investir dans l’amélioration de la qualité des données est plus judicieux que de minimiser les erreurs en augmentant la taille des études. Dans le cas présent, l’estimation erronée de 70% de couverture vaccinale aurait pu justifier des politiques d’assouplissement des mesures sanitaires et ainsi provoquer une nouvelle vague épidémique dans certains états.