GitHub Copilotがユーザーのコードでモデル学習を開始。オプトアウトは4月24日まで
目次
GitHubがまた一歩踏み込んだ。3月25日、Copilot Free・Pro・Pro+ユーザーの「インタラクションデータ」をAIモデルの学習に使うとプライバシーポリシーを改定した。4月24日から適用される。デフォルトで有効。つまり、何もしなければあなたのコードは学習データになる。
開発者コミュニティの反応は、控えめに言っても冷ややかだ。
何が変わるのか
今回の変更で学習対象になるのは、GitHubが「インタラクションデータ」と呼ぶものだ。具体的には、Copilotへの入力プロンプト、生成されたコード提案、ユーザーが受け入れたり修正したりした出力、カーソル周辺のコードコンテキスト、コメントやドキュメント、ファイル名、リポジトリの構造、Copilotの各機能との対話履歴、サジェストへのフィードバックなど。
かなり広範囲だ。あなたがCopilotに投げたコード片とその周辺コンテキストが、丸ごと学習パイプラインに流れ込む可能性がある。
重要なのは対象プランの区分で、影響を受けるのはCopilot Free、Pro、Pro+のユーザーのみ。BusinessとEnterpriseのユーザーは対象外になっている。このあたりの非対称性が、後述する開発者の不満につながっている。
「オプトアウト」という設計判断
この変更の核心はデフォルトの設定にある。4月24日以降、データ共有は自動的に有効になる。嫌なら自分で無効化しろ、というスタンスだ。
オプトアウトの手順自体はシンプルで、GitHubの設定画面から /settings/copilot/features にアクセスし、「Privacy」セクションの「Allow GitHub to use my data for AI model training」をオフにするだけ。以前から同様の設定を無効にしていた人はそのまま維持される。
ただ、Hacker Newsのスレッドで指摘されていたのは、設定画面のUIが微妙にミスリーディングだという点だ。「Enabled = この機能にアクセスできます」というような表現になっていて、データを差し出すことがまるで特典であるかのように見えると。これをダークパターンと呼ぶ開発者もいた。
GitHubのChief Product OfficerであるMario Rodriguezは「AI支援開発の未来は、開発者の皆さんからの実世界のインタラクションデータにかかっている」とコメントしている。理屈はわかるが、それならオプトインにすべきだろうという反論は当然出てくる。
開発者コミュニティの反応
GitHubのコミュニティディスカッションでは、この発表に対するリアクションが59個のサムズダウンに対してポジティブなリアクションはわずか3つという、かなり一方的な状況になっている。39件のコメントのうち、GitHub側の関係者以外で肯定的な意見はほぼ見当たらない。
開発者たちの懸念は主に3つに集約される。まず知的財産のリスク。プロプライエタリなコード、APIキー、トレードシークレットが学習データに混入する可能性への不安がある。次に、企業と個人の非対称性。Business/Enterpriseユーザーは保護されるのに、個人開発者は保護されないのはフェアではないという声。そして信頼の問題。「設定を無効にしても、いつの間にか再有効化されるのでは」という疑念を持つ開発者も少なくない。
一部の開発者はCodebergやセルフホスト型のGitサービスへの移行を宣言しており、MicrosoftによるGitHub買収以来続く「enshittification(サービスの劣化)」の流れだと捉える人もいる。
プライベートリポジトリのコードはどうなるのか
ここは少しややこしい。GitHubは「プライベートリポジトリの保存されたソースコード(at rest)はAIモデルの学習には使わない」と明言している。これは従来通りだ。
しかし、Copilotを使っている最中にプライベートリポジトリのコードを処理する場合、その「インタラクション」は学習対象になり得る。つまり、リポジトリ自体を直接スキャンすることはないけれど、あなたがCopilotを通じてそのコードを扱った瞬間、そのやり取りは学習データの候補になるということだ。
収集されたデータはMicrosoftを含む関連会社と共有される可能性があるが、サードパーティのAIモデルプロバイダーや独立したサービス事業者には提供しないとしている。GitHub側は匿名化と集約化の技術を適用すると説明しているが、コードの性質上、完全な匿名化がどこまで可能なのかは議論の余地がある。
他のAIコーディングツールとの比較
この動きは業界全体のトレンドとも言える。AIコーディングツールの性能向上には実際の開発データが不可欠で、各社がどうやってそのデータを集めるかは大きなテーマだ。
AnthropicのClaude Codeやその他のAIコーディングツールもそれぞれ独自のデータポリシーを持っているが、GitHubの場合は影響範囲が桁違いに大きい。世界中の開発者が日常的にGitHub上でコードを書いていて、Copilotの利用者数は2000万人を超えている。そのスケールでデフォルトオプトインの学習を始めるインパクトは相当なものだ。
今回のポリシー変更を受けて、CursorやWindsurf といった競合ツールがプライバシーを差別化ポイントとして打ち出す可能性は高い。ユーザーのコードを学習に使わないことを明確に掲げれば、セキュリティに敏感な企業や個人開発者の取り込みにつながるだろう。
まとめ
Copilot Free/Pro/Pro+を使っている人は、4月24日までに設定を確認しておくべきだ。オプトアウトしたい場合は /settings/copilot/features から変更できる。この手の変更は「知らなかった」で済ませると後から面倒になるので、早めの対応をおすすめする。
出典
- GitHub Blog: Updates to our Privacy Statement and Terms of Service
- GitHub Blog: Updates to GitHub Copilot interaction data usage policy
- Help Net Security: GitHub jumps on the bandwagon and will use your data to train AI
- The Register: GitHub: We going to train on your data after all
- Hacker News Discussion