Données d'entraînement des grands modèles de langage et droits à la vie privée des Canadiens

Actif Confiance : medium Sévérité potentielle : Important Version 1

Les modèles fondamentaux entraînés sur des données personnelles canadiennes extraites créent des enregistrements permanents qui ne peuvent être corrigés, génèrent de fausses affirmations biographiques et opèrent au-delà de la portée effective de la loi canadienne sur la protection de la vie privée.

Identifié : 1 avril 2023 Dernière évaluation : 8 mars 2026

Description

Foundation models are trained on data scraped from the internet including personal information of millions of Canadians — published without their knowledge, consent, or meaningful opt-out. The Office of the Privacy Commissioner of Canada and provincial counterparts have launched a joint investigation into OpenAI’s ChatGPT, examining whether the company’s training data practices violate Canadian privacy law and whether the generation of false biographical information about identifiable Canadians constitutes a privacy violation.

The structural challenge extends beyond any single company. Large language models embed personal information in model parameters during training in a way that makes targeted deletion technically infeasible with current methods. Traditional privacy remedies — the right to access, correct, or delete personal information — cannot be meaningfully exercised against information encoded in model weights. PIPEDA and provincial privacy legislation were designed for databases, not neural networks.

The jurisdictional dimension compounds the challenge. Foundation model training happens extraterritorially, primarily in the United States. Canadian privacy authorities can investigate and issue findings, but enforcement against foreign companies operating through cloud services requires international cooperation that current frameworks do not adequately support. This is not an edge case — it is the default condition for all Canadians whose information appears in foundation model training data.

Voie de risque

Les modèles fondamentaux sont entraînés sur des données extraites d'Internet, y compris les informations personnelles de Canadiens — publiées sans connaissance, consentement ni possibilité de retrait significative. Une fois intégrées dans les poids du modèle, ces données ne peuvent être entièrement supprimées ou corrigées. Les modèles génèrent ensuite de fausses informations biographiques sur des Canadiens identifiables. La LPRPDE et les lois provinciales sur la protection de la vie privée n'ont pas été conçues pour ce paradigme.

Historique des évaluations

8 mars 2026 Actif Confiance : medium Important

Le Commissariat à la protection de la vie privée du Canada et ses homologues provinciaux ont lancé une enquête conjointe sur ChatGPT d'OpenAI. L'enquête est en cours. Le défi structurel — collecte extraterritoriale de données intégrée dans les poids du modèle — s'applique à tous les développeurs de modèles fondamentaux.

Initial assessment. Investigation ongoing. Status active pending regulatory findings.

Déclencheurs

Increasing scale and comprehensiveness of training datasets
New foundation models trained on ever-larger data collections
Growing public reliance on LLMs for information about individuals
AI companies asserting broad fair use or legitimate interest defenses

Facteurs atténuants

Joint privacy investigation creating regulatory scrutiny
EU AI Act and GDPR creating international pressure for training data transparency
Growing technical research on machine unlearning
Public awareness of AI confabulation risks

Contrôles de risque

Privacy framework adapted for foundation model training, addressing extraterritorial data collection and the technical infeasibility of traditional remedies
Right to effective correction of AI-generated false biographical information
Transparency requirements for training data provenance and composition
Jurisdictional enforcement capacity against foreign AI developers operating in Canada
Consent or legitimate interest requirements for inclusion of personal data in training datasets
Technical standards for machine unlearning to enable meaningful data deletion

Populations touchées

Canadians whose personal information was scraped for model training
Individuals about whom models generate false biographical information
Public figures disproportionately affected by AI-generated false claims

Entités impliquées

OpenAI

developer

A développé ChatGPT, sujet d'une enquête conjointe par les commissaires fédéral et provinciaux à la vie privée

Commissariat à la protection de la vie privée du Canada

regulator

Dirige une enquête conjointe examinant si OpenAI a violé la loi canadienne sur la protection de la vie privée

Systèmes d'IA impliqués

ChatGPT

Modèle de langage entraîné sur des données extraites d'Internet incluant des informations personnelles de Canadiens; génère de fausses affirmations biographiques

Réponses

25 janv. 2024 Commissariat à la protection de la vie privée du Canada

A lancé une enquête conjointe avec les commissaires provinciaux à la vie privée sur ChatGPT d'OpenAI

Taxonomie

Domaine

TélécommunicationsServices publics

Type de préjudice

Vie privée et donnéesDésinformation

Implication de l'IA

Données d'entraînementConfabulation du modèle

Phase du cycle de vie

Collecte de donnéesEntraînementDéploiement

Sources

Joint investigation of ChatGPT by the Privacy Commissioner of Canada and provincial counterparts Réglementaire — Office of the Privacy Commissioner of Canada (25 janv. 2024)
Privacy in the Age of Generative AI Officiel — Office of the Privacy Commissioner of Canada (7 févr. 2024)
Machine Unlearning: A Survey Académique — SSRN (1 sept. 2023)

Historique des modifications

Version	Date	Modification
v1	8 mars 2026	Initial publication

← Tous les risques