Политика данных и выбор LLM-провайдера

ОБЯЗАТЕЛЬНОДЛЯ НОВИЧКОВ

Разработчику Инженеру

Перед отправкой текста в ChatGPT, Claude, Qwen или корпоративный Copilot нужен ответ на один вопрос: что случится, если этот фрагмент окажется у третьих лиц или в обучающей выборке модели? Если ответ неприемлем — данные не идут в этот сервис.

Краткие правила для сотрудника — Ответственное использование ИИ. Здесь — политика для команды и выбор провайдера (OWASP LLM02).

Классы данных (пример для регламента)

Класс	Примеры	Публичный free-чат	Enterprise / ZDR	Локальная модель
Публичные	Документация с сайта, hello-world	Да	Да	Да
Внутренние	Архитектура без секретов, внутренние FAQ	Обычно нет	Да, по договору	Да
Конфиденциальные	Исходный код продукта, контракты	Нет	Да, с DPA	Да, on-prem
Секреты	Пароли, ключи, `.env`, prod connection strings	Никогда	Никогда в промпт	Только без утечки в логи
ПДн / регулируемые	ФИО клиентов, медицина, платёжные данные	Нет без правового основания	Только с DPIA и договором	Предпочтительно on-prem

ZDR (Zero Data Retention) — провайдер не хранит промпты и ответы для обучения и (по договору) не логирует дольше срока аудита.

Free vs платный vs корпоративный

Бесплатные и consumer-тарифы

Промпты часто могут использоваться для улучшения моделей (читайте актуальные Terms of Service).
Нет гарантий изоляции между пользователями на уровне инфраструктуры.
Инциденты утечки (открытые БД, баги UI) исторически случались у крупных вендоров — см. обзор.

Правило: free-чат = несекретный черновик.

Enterprise / Business

DPA (Data Processing Agreement), регион данных (EU, РФ — по юридической оценке).
Opt-out обучения на клиентских данных.
SSO, audit log, лимиты для ИБ.

Примеры — Microsoft 365 Copilot (Enterprise Data Protection), OpenAI Enterprise, Anthropic Team/Enterprise, Azure OpenAI в вашем тенанте.

Self-hosted / private cloud

Модель в вашем VPC или на железе.
Максимальный контроль; вы сами отвечаете за патчи, GPU, логи.

Компромисс — CapEx, MLOps, качество модели vs облачный API.

Обучение на ваших данных

Риски:

Утечка в подсказках другим пользователям той же модели (редко, но репутационно катастрофично).
Извлечение через model inversion при агрессивном fine-tuning на PII.
Субпроцессоры — куда провайдер отправляет данные (CDN, labeling).

Контрмеры:

Явный запрет fine-tuning на prod-данных без анонимизации;
synthetic / redacted датасеты для дообучения;
контрактный запрет использования данных вне вашего тенанта.

Матрица выбора провайдера (шаблон)

Критерий	Вопросы
Данные	Регион хранения? ZDR? Обучение на промптах?
Доступ	SSO, MFA, RBAC на API-ключи
Аудит	Экспорт логов, SIEM, retention
Модель	Версия, дата cutoff, поддержка вашего языка
Выход	SLA, rate limits, fallback
Юридическое	DPA, 152-ФЗ / GDPR, отраслевые нормы
Выход из вендора	Экспорт промптов, embeddings, смена API

Документируйте решение: какой класс данных → какой сервис — и публикуйте в wiki для разработчиков.

Практика для разработчика

Санитизация перед вставкой в IDE-агент: фейковые пароли, вымышленные hostnames.
Один список одобренных LLM-сервисов; личный ChatGPT на рабочем ПК — по политике ИБ.
API-ключи — в Vault / CI secrets, не в репозитории и не в чате.
Инцидент "случайно вставил .env в промпт" — процедура: ротация секретов, уведомление ИБ.

Copilot и встроенный ИИ в IDE

Cursor, GitHub Copilot, JetBrains AI — данные могут обрабатываться на серверах вендора. Проверьте:

режим Privacy Mode / business plan;
индексация всего репозитория vs только открытых файлов;
запрет обучения на вашем коде (Copilot Business).

Связь с вайб-кодингом — не кормить агент всем монорепо с секретами.

Итоги

Политика данных важнее выбора "самой умной" модели. Free-чат — для несекретного; корпоративные и регулируемые данные — только enterprise/ZDR или on-prem с договором. OWASP LLM02 закрывается классификацией, контрактами и дисциплиной в промптах.

Политика данных и выбор LLM-провайдера

Классы данных (пример для регламента)

Free vs платный vs корпоративный

Бесплатные и consumer-тарифы

Enterprise / Business

Self-hosted / private cloud

Обучение на ваших данных

Матрица выбора провайдера (шаблон)

Практика для разработчика

Copilot и встроенный ИИ в IDE

Итоги

См. также

📄️Безопасность при работе с ИИ

📄️Безопасная интеграция LLM в мобильные и клиентские приложения

📄️OWASP LLM Top 10 для разработчика

📄️Безопасность RAG и MCP

📄️Песочница и права ИИ-агента

📄️Red team и тестирование LLM-приложений

📄️Slopsquatting и supply chain для ИИ

📄️Дипфейки, голос и биометрия

📄️ИИ в SOC и на стороне защитника

📄️Безопасность при работе с ИИ — итоги

📄️Безопасность при работе с ИИ — чек-лист

Классы данных (пример для регламента)​

Free vs платный vs корпоративный​

Бесплатные и consumer-тарифы​

Enterprise / Business​

Self-hosted / private cloud​

Обучение на ваших данных​

Матрица выбора провайдера (шаблон)​

Практика для разработчика​

Copilot и встроенный ИИ в IDE​

Итоги​

Связанные темы

См. также

📄️Безопасность при работе с ИИ

📄️Безопасная интеграция LLM в мобильные и клиентские приложения

📄️OWASP LLM Top 10 для разработчика

📄️Безопасность RAG и MCP

📄️Песочница и права ИИ-агента

📄️Red team и тестирование LLM-приложений

📄️Slopsquatting и supply chain для ИИ

📄️Дипфейки, голос и биометрия

📄️ИИ в SOC и на стороне защитника

📄️Безопасность при работе с ИИ — итоги

📄️Безопасность при работе с ИИ — чек-лист

Классы данных (пример для регламента)

Free vs платный vs корпоративный

Бесплатные и consumer-тарифы

Enterprise / Business

Self-hosted / private cloud

Обучение на ваших данных

Матрица выбора провайдера (шаблон)

Практика для разработчика

Copilot и встроенный ИИ в IDE

Итоги