Политика данных и выбор LLM-провайдера
Перед отправкой текста в ChatGPT, Claude, Qwen или корпоративный Copilot нужен ответ на один вопрос: что случится, если этот фрагмент окажется у третьих лиц или в обучающей выборке модели? Если ответ неприемлем — данные не идут в этот сервис.
Краткие правила для сотрудника — Ответственное использование ИИ. Здесь — политика для команды и выбор провайдера (OWASP LLM02).
Классы данных (пример для регламента)
| Класс | Примеры | Публичный free-чат | Enterprise / ZDR | Локальная модель |
|---|---|---|---|---|
| Публичные | Документация с сайта, hello-world | Да | Да | Да |
| Внутренние | Архитектура без секретов, внутренние FAQ | Обычно нет | Да, по договору | Да |
| Конфиденциальные | Исходный код продукта, контракты | Нет | Да, с DPA | Да, on-prem |
| Секреты | Пароли, ключи, .env, prod connection strings | Никогда | Никогда в промпт | Только без утечки в логи |
| ПДн / регулируемые | ФИО клиентов, медицина, платёжные данные | Нет без правового основания | Только с DPIA и договором | Предпочтительно on-prem |
ZDR (Zero Data Retention) — провайдер не хранит промпты и ответы для обучения и (по договору) не логирует дольше срока аудита.
Free vs платный vs корпоративный
Бесплатные и consumer-тарифы
- Промпты часто могут использоваться для улучшения моделей (читайте актуальные Terms of Service).
- Нет гарантий изоляции между пользователями на уровне инфраструктуры.
- Инциденты утечки (открытые БД, баги UI) исторически случались у крупных вендоров — см. обзор.
Правило: free-чат = несекретный черновик.
Enterprise / Business
- DPA (Data Processing Agreement), регион данных (EU, РФ — по юридической оценке).
- Opt-out обучения на клиентских данных.
- SSO, audit log, лимиты для ИБ.
Примеры: Microsoft 365 Copilot (Enterprise Data Protection), OpenAI Enterprise, Anthropic Team/Enterprise, Azure OpenAI в вашем тенанте.
Self-hosted / private cloud
- Модель в вашем VPC или на железе.
- Максимальный контроль; вы сами отвечаете за патчи, GPU, логи.
Компромисс: CapEx, MLOps, качество модели vs облачный API.
Обучение на ваших данных
Риски:
- Утечка в подсказках другим пользователям той же модели (редко, но репутационно катастрофично).
- Извлечение через model inversion при агрессивном fine-tuning на PII.
- Субпроцессоры — куда провайдер отправляет данные (CDN, labeling).
Контрмеры:
- Явный запрет fine-tuning на prod-данных без анонимизации;
- synthetic / redacted датасеты для дообучения;
- контрактный запрет использования данных вне вашего тенанта.
Матрица выбора провайдера (шаблон)
| Критерий | Вопросы |
|---|---|
| Данные | Регион хранения? ZDR? Обучение на промптах? |
| Доступ | SSO, MFA, RBAC на API-ключи |
| Аудит | Экспорт логов, SIEM, retention |
| Модель | Версия, дата cutoff, поддержка вашего языка |
| Выход | SLA, rate limits, fallback |
| Юридическое | DPA, 152-ФЗ / GDPR, отраслевые нормы |
| Выход из вендора | Экспорт промптов, embeddings, смена API |
Документируйте решение: какой класс данных → какой сервис — и публикуйте в wiki для разработчиков.
Практика для разработчика
- Санитизация перед вставкой в IDE-агент: фейковые пароли, вымышленные hostnames.
- Один список одобренных LLM-сервисов; личный ChatGPT на рабочем ПК — по политике ИБ.
- API-ключи — в Vault / CI secrets, не в репозитории и не в чате.
- Инцидент "случайно вставил
.envв промпт" — процедура: ротация секретов, уведомление ИБ.
Copilot и встроенный ИИ в IDE
Cursor, GitHub Copilot, JetBrains AI — данные могут обрабатываться на серверах вендора. Проверьте:
- режим Privacy Mode / business plan;
- индексация всего репозитория vs только открытых файлов;
- запрет обучения на вашем коде (Copilot Business).
Связь с вайб-кодингом — не кормить агент всем монорепо с секретами.
Итоги
Политика данных важнее выбора "самой умной" модели. Free-чат — для несекретного; корпоративные и регулируемые данные — только enterprise/ZDR или on-prem с договором. OWASP LLM02 закрывается классификацией, контрактами и дисциплиной в промптах.