Données d'entraînement des grands modèles de langage et droits à la vie privée des Canadiens
Les modèles fondamentaux entraînés sur des données canadiennes créent des enregistrements permanents et incorrectibles, générant de fausses affirmations sur de vraies personnes — hors de portée des lois actuelles.
Foundation models are trained on data scraped from the internet including personal information of millions of Canadians — published without their knowledge, consent, or meaningful opt-out. The Office of the Privacy Commissioner of Canada and provincial counterparts have launched a joint investigation into OpenAI's ChatGPT, examining whether the company's training data practices violate Canadian privacy law and whether the generation of false biographical information about identifiable Canadians constitutes a privacy violation.
The structural challenge extends beyond any single company. Large language models embed personal information in model parameters during training in a way that makes targeted deletion technically infeasible with current methods. Traditional privacy remedies — the right to access, correct, or delete personal information — cannot be meaningfully exercised against information encoded in model weights. PIPEDA and provincial privacy legislation were designed for databases, not neural networks.
The jurisdictional dimension compounds the challenge. Foundation model training happens extraterritorially, primarily in the United States. Canadian privacy authorities can investigate and issue findings, but enforcement against foreign companies operating through cloud services requires international cooperation that current frameworks do not adequately support. This is not an edge case — it is the default condition for all Canadians whose information appears in foundation model training data.
Incidents matérialisés
Préjudices
Les modèles de fondation entraînés sur des données récupérées d'Internet incluent les informations personnelles de millions de Canadiens — publiées sans connaissance, consentement ou possibilité réelle de retrait. Une fois intégrées dans les poids du modèle, ces données ne peuvent être entièrement supprimées ou corrigées.
Les modèles d'IA génèrent de fausses informations biographiques sur des Canadiens identifiables, présentant des affirmations fabriquées comme factuelles. L'affaire de diffamation Google AI Overview (MacIsaac c. Google) démontre que les fausses déclarations générées par l'IA causent un préjudice réputationnel sans mécanisme de correction efficace.
Preuves
3 rapports
- Joint investigation of ChatGPT by the Privacy Commissioner of Canada and provincial counterparts Source principale
Privacy commissioners investigating whether OpenAI violated Canadian privacy law through data scraping and confabulation
-
Technical infeasibility of targeted data deletion from model weights with current methods
-
Privacy Commissioner's analysis of generative AI challenges for Canadian privacy law
Détails de la fiche
Réponses et résultats
A lancé une enquête conjointe avec les commissaires provinciaux à la vie privée sur ChatGPT d'OpenAI
Recommandations de politiqueévalué
Privacy framework adapted for foundation model training, addressing extraterritorial data collection and the technical infeasibility of traditional remedies
Office of the Privacy Commissioner of Canada (7 févr. 2024)Right to effective correction of AI-generated false biographical information
Office of the Privacy Commissioner of Canada (25 janv. 2024)Transparency requirements for training data provenance and composition
Office of the Privacy Commissioner of Canada (7 févr. 2024)Jurisdictional enforcement capacity against foreign AI developers operating in Canada
Office of the Privacy Commissioner of Canada (7 févr. 2024)Évaluation éditoriale évalué
Les modèles fondamentaux entraînés sur des données personnelles canadiennes extraites créent des enregistrements permanents qui ne peuvent être corrigés, génèrent de fausses affirmations biographiques et opèrent au-delà de la portée effective de la loi canadienne sur la protection de la vie privée.
Entités impliquées
Systèmes d'IA impliqués
Modèle de langage entraîné sur des données extraites d'Internet incluant des informations personnelles de Canadiens; génère de fausses affirmations biographiques
Fiches connexes
Taxonomieévalué
Historique des modifications
| Version | Date | Modification |
|---|---|---|
| v1 | 8 mars 2026 | Initial publication |