Article Brief

#OpenAI Akira 公開: 更新: 9分で読める

OpenAI安全要約、ChatGPT高リスク会話の新設計

OpenAI安全要約、ChatGPT高リスク会話の新設計
目次

OpenAIが 2026年5月14日 に公開したChatGPTの新しい安全更新は、派手なモデル発表ではない。しかし、日本企業がChatGPTを業務利用するうえではかなり重要だ。今回の中心は、OpenAIが safety summaries と呼ぶ短い安全文脈の要約である。

これまでのAI安全対策は、単発のメッセージを見て危険かどうかを判断する印象が強かった。今回OpenAIが説明したのは、それだけでは足りないという話だ。ある発言だけを見ると普通でも、同じ会話の前後や、前の会話で出ていた兆候と合わせると、自傷、他害、危機的な状態につながる可能性がある。ChatGPTがそうした文脈をより慎重に扱うため、OpenAIは安全関連の短期要約を使う仕組みを導入した。

この話は、以前取り上げたOpenAI新セキュリティ設定でChatGPTとCodex運用はどう変わるかや、OpenAIのOffline検索でChatGPT企業利用はどう変わるかと同じ系列で見ると分かりやすい。認証、検索、メモリ、会話安全は別々に見えるが、どれもChatGPTを「便利な個人ツール」から「管理された業務基盤」へ近づけるための統制面である。

事実: safety summariesとは何か

OpenAIの説明によると、safety summariesは、過去の会話に含まれる安全上重要な文脈を、短く、事実ベースで残すための仕組みだ。目的は一般的なパーソナライズではない。ユーザーの好みや日常的な記憶を増やす機能でもない。あくまで、まれだが深刻な安全懸念がある場合に、後続の会話で適切な注意を払うための文脈として設計されている。

対象としてOpenAIが明示しているのは、自殺、自傷、他害のような急性リスクの場面だ。たとえば、ある会話で苦しさや危険な兆候が少しずつ出ていて、別の会話で一見すると普通の質問が来た場合、単発の質問だけでは見逃されることがある。OpenAIは、こうした「時間をまたいで意味が変わる」ケースに対応するため、前の会話の安全関連文脈を短期的に使うと説明している。

重要なのは、OpenAIがこの仕組みを限定的なものとして説明している点だ。safety summariesは、モデルが安全推論タスク向けに作成する短い事実メモで、深刻な安全懸念に関連する場合だけ使われる。OpenAIは、通常の長期記憶や一般的な個人化とは別物だとしている。つまり、企業が読むべきポイントは「ChatGPTが勝手に何でも覚える」ではなく、高リスク場面だけ別の文脈管理が入る という設計思想である。

事実: OpenAIは何を測ったのか

OpenAIは今回、改善幅も公表している。社内評価では、長い単一会話のシナリオで、自殺・自傷ケースの安全応答性能が50%改善し、他害ケースでは16%改善したと説明している。また、複数会話をまたぐ評価では、現在ChatGPTの標準モデルであるGPT-5.5 Instantで、他害ケースの安全応答性能が52%、自殺・自傷ケースで39%改善したとしている。

さらにOpenAIは、safety summaries自体の品質も評価した。4,000件超の評価で、安全関連性は5点満点中4.93、事実性は5点満点中4.34だったと説明している。ここはOpenAI自身の内部評価なので、第三者検証済みの保証として読むべきではない。ただ、OpenAIが単に「より安全になった」と言うだけでなく、要約の関連性と事実性を別々に測っている点は重要だ。

普通の会話への影響についても触れている。OpenAIは、safety summariesを使っても日常会話の品質はおおむね同等で、ユーザー選好に大きな差はなかったと説明している。ここも実務上は大事だ。安全対策を強くすると、通常業務の会話が過剰に止まるのではないか、という懸念が必ず出る。OpenAIは少なくとも内部評価では、その副作用を確認しようとしている。

Trusted Contactとの関係

今回の発表は、2026年5月7日に公開された Trusted Contact とセットで読むべきだ。Trusted Contactは、成人ユーザーが信頼できる相手を1人登録し、深刻な自傷リスクが検知された場合に、その相手へ限定的な通知を送れるようにする任意機能である。OpenAIは、通知前に訓練された人間のレビューを入れ、通知には会話本文や詳細なトランスクリプトを含めないと説明している。

safety summariesは「ChatGPTがリスク文脈を見落とさないための内部的な安全文脈」に近い。一方、Trusted Contactは「必要な場合に現実の支援者へつなぐ外部的な安全レイヤー」に近い。前者は判断の文脈、後者は支援の接続である。この2つが近い時期に出たことは、OpenAIがChatGPTを単なる会話UIではなく、利用者保護の運用まで含むサービスとして設計し始めていることを示す。

日本企業がここで見るべきなのは、医療や福祉の専門サービスとしてChatGPTを扱うかどうかではない。むしろ、社内ヘルプデスク、従業員向け相談チャット、教育支援、カスタマーサポートのように、利用者の不安や危機が会話に混ざりうる業務で、AIだけで完結しないエスカレーション設計が必要になる という点だ。

日本企業で変わる論点

ここからは分析だ。

日本企業がChatGPTを導入するとき、これまでは情報漏えい、プロンプトインジェクション、著作権、アカウント管理が主な論点になりやすかった。しかし、従業員や顧客と長く会話するAIを置くなら、心理的危機や他害リスクへの応答も避けて通れない。特に、相談窓口、教育、採用、人事、医療周辺、金融相談、自治体サービスでは、ユーザーが想定より深い悩みを入力する可能性がある。

そのとき企業側がやってはいけないのは、OpenAIの安全更新だけに任せることだ。OpenAIのsafety summariesはChatGPTの安全応答を改善する仕組みだが、自社サービスの責任分界、通報基準、有人レビュー、ログ保存、プライバシー説明を代替しない。以前のGPT-5.5 Instantの記事でも触れたように、標準モデルの改善は業務品質の前提を変えるが、本番運用の評価セットや人間レビューを不要にするものではない。

まず必要なのは、会話のリスク分類だ。一般的なFAQ、社内手続き、公開情報の要約だけを扱うチャットと、従業員相談や顧客トラブルを扱うチャットでは、必要な設計が違う。後者では、AIが回答を続けてよい場面、危機窓口を案内すべき場面、人間へ渡すべき場面、回答を止めるべき場面を事前に決める必要がある。

次に、利用者への説明が必要だ。safety summariesのような仕組みは、プライバシー面で誤解されやすい。企業が自社チャットにChatGPTを組み込むなら、「どの会話が保存されるのか」「安全上の理由で何がレビューされるのか」「どの情報が担当者へ渡るのか」「緊急時にどこへつなぐのか」を、利用規約やUI上の案内で明確にする必要がある。

最後に、入力前の保護と合わせて設計したい。OpenAIがPrivacy Filterを公開したときの記事で整理したように、AI安全はモデルの返答だけでは完結しない。個人情報をどこで削るか、会話ログをどれだけ残すか、誰が見られるか、外部検索を許すか、ユーザーが削除できるかまで含めて全体設計にする必要がある。

管理者が確認すべきこと

実務では、次の4点を短いチェックリストにしたい。

1つ目は、ChatGPTを使う業務が高リスク会話を含みうるかどうかだ。人事、健康、教育、金融、法務、カスタマーサポートは、最初から低リスクFAQと同じ扱いにしないほうがよい。

2つ目は、モデル任せにしないエスカレーションだ。危機対応の文言、社内担当者、外部相談窓口、対応時間、レビュー責任者を決める。OpenAIがTrusted Contactで人間レビューを入れているのは示唆的で、企業側の運用でも「AIが検知したら終わり」にはできない。

3つ目は、ログとプライバシーの分離だ。安全のために会話文脈を扱うことと、一般的な行動分析やマーケティングに使うことは別である。ここを混ぜると、利用者から見た信頼が落ちる。

4つ目は、標準モデル更新時の再評価だ。OpenAIは今後も安全応答を更新し続ける。ChatGPTのWeb UIだけでなく、APIや社内アプリでモデルを使う場合は、更新のたびに拒否率、過剰反応、見逃し、有人対応件数を測るべきだ。

まとめ

OpenAIのsafety summariesは、ChatGPTが高リスク会話の文脈をより正確に扱うための新しい安全レイヤーである。自傷や他害のようなまれだが重大なケースで、単発メッセージだけでは見えない兆候を、会話内・会話間の文脈として扱おうとしている。

日本企業にとっての意味は、ChatGPT安全対策が「禁止ワードの検知」から「会話の時間軸と支援導線の設計」へ移っていることだ。アカウント保護、検索制御、メモリ可視化、入力前処理と同じく、会話安全も管理項目として扱う必要がある。モデルが賢くなるほど、企業側の説明責任とエスカレーション設計も重くなる。

出典