Garder également un oeil sur le « Reservation Protocol » à l’initiative du W3C, en réponse à une directive européenne : TDM Reservation Protocol (TDMRep)
Je ne sais pas s’il est effectif à ce jour, mais à terme ça semble être la meilleure solution, plutôt que des instructions dans robots.txt (la liste des user-agents IA évolue sans cesse).
L’avantage du TDM est qu’il concerne tous les moissonneurs, pas uniquement les bots IA.
De plus ça permet de définir des règles granulairement, pour chaque contenu : « tels contenus du site peuvent être moissonnés par tout le monde », « tels autres uniquement à des fins de recherche », « tels autres uniquement contre rémunération », etc.
Concrètement si on veut tout « bloquer », on peut ajouter un fichier JSON dans .well-known ou bien des metas dans le HTML, ou bien directement dans les entêtes HTTP.
Enfin, tout cela reste au bon vouloir des moissonneurs, tout dépend s’ils respectent les instructions.