Les scores de benchmarks dans le domaine de l’IA, souvent utilisés pour prouver la supériorité des modèles, sont de plus en plus critiqués pour leur manque de fiabilité. Les benchmarks sont utilisés ...