Données d'entraînement des grands modèles de langage et droits à la vie privée des Canadiens

Actif Important Confiance: medium

Les modèles fondamentaux entraînés sur des données canadiennes créent des enregistrements permanents et incorrectibles, générant de fausses affirmations sur de vraies personnes — hors de portée des lois actuelles.

Identifié: 1 avril 2023 Dernière évaluation: 8 mars 2026

Foundation models are trained on data scraped from the internet including personal information of millions of Canadians — published without their knowledge, consent, or meaningful opt-out. The Office of the Privacy Commissioner of Canada and provincial counterparts have launched a joint investigation into OpenAI's ChatGPT, examining whether the company's training data practices violate Canadian privacy law and whether the generation of false biographical information about identifiable Canadians constitutes a privacy violation.

The structural challenge extends beyond any single company. Large language models embed personal information in model parameters during training in a way that makes targeted deletion technically infeasible with current methods. Traditional privacy remedies — the right to access, correct, or delete personal information — cannot be meaningfully exercised against information encoded in model weights. PIPEDA and provincial privacy legislation were designed for databases, not neural networks.

The jurisdictional dimension compounds the challenge. Foundation model training happens extraterritorially, primarily in the United States. Canadian privacy authorities can investigate and issue findings, but enforcement against foreign companies operating through cloud services requires international cooperation that current frameworks do not adequately support. This is not an edge case — it is the default condition for all Canadians whose information appears in foundation model training data.

Incidents matérialisés

Joint Privacy Investigation Examining Whether OpenAI Violated Canadian Privacy Law

Préjudices

Les modèles de fondation entraînés sur des données récupérées d'Internet incluent les informations personnelles de millions de Canadiens — publiées sans connaissance, consentement ou possibilité réelle de retrait. Une fois intégrées dans les poids du modèle, ces données ne peuvent être entièrement supprimées ou corrigées.

Vie privée et donnéesImportantPopulation

Les modèles d'IA génèrent de fausses informations biographiques sur des Canadiens identifiables, présentant des affirmations fabriquées comme factuelles. L'affaire de diffamation Google AI Overview (MacIsaac c. Google) démontre que les fausses déclarations générées par l'IA causent un préjudice réputationnel sans mécanisme de correction efficace.

Vie privée et donnéesDésinformationModéréPopulation

Preuves

3 rapports

Joint investigation of ChatGPT by the Privacy Commissioner of Canada and provincial counterparts Source principale
Réglementaire — Office of the Privacy Commissioner of Canada (25 janv. 2024)
Privacy commissioners investigating whether OpenAI violated Canadian privacy law through data scraping and confabulation
Machine Unlearning: A Survey
Académique — SSRN (1 sept. 2023)
Technical infeasibility of targeted data deletion from model weights with current methods
Privacy in the Age of Generative AI
Officiel — Office of the Privacy Commissioner of Canada (7 févr. 2024)
Privacy Commissioner's analysis of generative AI challenges for Canadian privacy law

Détails de la fiche

Réponses et résultats

25 janv. 2024Commissariat à la protection de la vie privée du CanadainvestigationActif

A lancé une enquête conjointe avec les commissaires provinciaux à la vie privée sur ChatGPT d'OpenAI

Recommandations de politiqueévalué

Privacy framework adapted for foundation model training, addressing extraterritorial data collection and the technical infeasibility of traditional remedies

Office of the Privacy Commissioner of Canada (7 févr. 2024)

Right to effective correction of AI-generated false biographical information

Office of the Privacy Commissioner of Canada (25 janv. 2024)

Transparency requirements for training data provenance and composition

Office of the Privacy Commissioner of Canada (7 févr. 2024)

Jurisdictional enforcement capacity against foreign AI developers operating in Canada

Office of the Privacy Commissioner of Canada (7 févr. 2024)

Évaluation éditoriale évalué

Les modèles fondamentaux entraînés sur des données personnelles canadiennes extraites créent des enregistrements permanents qui ne peuvent être corrigés, génèrent de fausses affirmations biographiques et opèrent au-delà de la portée effective de la loi canadienne sur la protection de la vie privée.

Entités impliquées

Commissariat à la protection de la vie privée du Canada

regulator

OpenAI

developer

Systèmes d'IA impliqués

ChatGPT

Modèle de langage entraîné sur des données extraites d'Internet incluant des informations personnelles de Canadiens; génère de fausses affirmations biographiques

Fiches connexes

AI Training on Copyrighted Works and Canada's Creative Economyrelated

Taxonomieévalué

Domaine

TélécommunicationsServices publics

Type de préjudice

Vie privée et donnéesDésinformation

Voie de contribution de l'IA

Origine des données d'entraînementConfabulation

Phase du cycle de vie

Collecte de donnéesEntraînementDéploiement

Historique des modifications

Historique des modifications
Version	Date	Modification
v1	8 mars 2026	Initial publication

Version 1

← Tous les risques