Données d'entraînement des grands modèles de langage et droits à la vie privée des Canadiens
Les modèles fondamentaux entraînés sur des données personnelles canadiennes extraites créent des enregistrements permanents qui ne peuvent être corrigés, génèrent de fausses affirmations biographiques et opèrent au-delà de la portée effective de la loi canadienne sur la protection de la vie privée.
Description
Foundation models are trained on data scraped from the internet including personal information of millions of Canadians — published without their knowledge, consent, or meaningful opt-out. The Office of the Privacy Commissioner of Canada and provincial counterparts have launched a joint investigation into OpenAI’s ChatGPT, examining whether the company’s training data practices violate Canadian privacy law and whether the generation of false biographical information about identifiable Canadians constitutes a privacy violation.
The structural challenge extends beyond any single company. Large language models embed personal information in model parameters during training in a way that makes targeted deletion technically infeasible with current methods. Traditional privacy remedies — the right to access, correct, or delete personal information — cannot be meaningfully exercised against information encoded in model weights. PIPEDA and provincial privacy legislation were designed for databases, not neural networks.
The jurisdictional dimension compounds the challenge. Foundation model training happens extraterritorially, primarily in the United States. Canadian privacy authorities can investigate and issue findings, but enforcement against foreign companies operating through cloud services requires international cooperation that current frameworks do not adequately support. This is not an edge case — it is the default condition for all Canadians whose information appears in foundation model training data.
Voie de risque
Les modèles fondamentaux sont entraînés sur des données extraites d'Internet, y compris les informations personnelles de Canadiens — publiées sans connaissance, consentement ni possibilité de retrait significative. Une fois intégrées dans les poids du modèle, ces données ne peuvent être entièrement supprimées ou corrigées. Les modèles génèrent ensuite de fausses informations biographiques sur des Canadiens identifiables. La LPRPDE et les lois provinciales sur la protection de la vie privée n'ont pas été conçues pour ce paradigme.
Historique des évaluations
Le Commissariat à la protection de la vie privée du Canada et ses homologues provinciaux ont lancé une enquête conjointe sur ChatGPT d'OpenAI. L'enquête est en cours. Le défi structurel — collecte extraterritoriale de données intégrée dans les poids du modèle — s'applique à tous les développeurs de modèles fondamentaux.
Initial assessment. Investigation ongoing. Status active pending regulatory findings.
Déclencheurs
- Increasing scale and comprehensiveness of training datasets
- New foundation models trained on ever-larger data collections
- Growing public reliance on LLMs for information about individuals
- AI companies asserting broad fair use or legitimate interest defenses
Facteurs atténuants
- Joint privacy investigation creating regulatory scrutiny
- EU AI Act and GDPR creating international pressure for training data transparency
- Growing technical research on machine unlearning
- Public awareness of AI confabulation risks
Contrôles de risque
- Privacy framework adapted for foundation model training, addressing extraterritorial data collection and the technical infeasibility of traditional remedies
- Right to effective correction of AI-generated false biographical information
- Transparency requirements for training data provenance and composition
- Jurisdictional enforcement capacity against foreign AI developers operating in Canada
- Consent or legitimate interest requirements for inclusion of personal data in training datasets
- Technical standards for machine unlearning to enable meaningful data deletion
Populations touchées
- Canadians whose personal information was scraped for model training
- Individuals about whom models generate false biographical information
- Public figures disproportionately affected by AI-generated false claims
Entités impliquées
A développé ChatGPT, sujet d'une enquête conjointe par les commissaires fédéral et provinciaux à la vie privée
Dirige une enquête conjointe examinant si OpenAI a violé la loi canadienne sur la protection de la vie privée
Systèmes d'IA impliqués
Modèle de langage entraîné sur des données extraites d'Internet incluant des informations personnelles de Canadiens; génère de fausses affirmations biographiques
Réponses
A lancé une enquête conjointe avec les commissaires provinciaux à la vie privée sur ChatGPT d'OpenAI
Taxonomie
Sources
- Joint investigation of ChatGPT by the Privacy Commissioner of Canada and provincial counterparts
- Privacy in the Age of Generative AI
- Machine Unlearning: A Survey
Historique des modifications
| Version | Date | Modification |
|---|---|---|
| v1 | 8 mars 2026 | Initial publication |