Перейти к основному содержимому

Политика данных и выбор LLM-провайдера

Разработчику Инженеру

Перед отправкой текста в ChatGPT, Claude, Qwen или корпоративный Copilot нужен ответ на один вопрос: что случится, если этот фрагмент окажется у третьих лиц или в обучающей выборке модели? Если ответ неприемлем — данные не идут в этот сервис.

Краткие правила для сотрудника — Ответственное использование ИИ. Здесь — политика для команды и выбор провайдера (OWASP LLM02).


Классы данных (пример для регламента)

КлассПримерыПубличный free-чатEnterprise / ZDRЛокальная модель
ПубличныеДокументация с сайта, hello-worldДаДаДа
ВнутренниеАрхитектура без секретов, внутренние FAQОбычно нетДа, по договоруДа
КонфиденциальныеИсходный код продукта, контрактыНетДа, с DPAДа, on-prem
СекретыПароли, ключи, .env, prod connection stringsНикогдаНикогда в промптТолько без утечки в логи
ПДн / регулируемыеФИО клиентов, медицина, платёжные данныеНет без правового основанияТолько с DPIA и договоромПредпочтительно on-prem

ZDR (Zero Data Retention) — провайдер не хранит промпты и ответы для обучения и (по договору) не логирует дольше срока аудита.


Free vs платный vs корпоративный

Бесплатные и consumer-тарифы

  • Промпты часто могут использоваться для улучшения моделей (читайте актуальные Terms of Service).
  • Нет гарантий изоляции между пользователями на уровне инфраструктуры.
  • Инциденты утечки (открытые БД, баги UI) исторически случались у крупных вендоров — см. обзор.

Правило: free-чат = несекретный черновик.

Enterprise / Business

  • DPA (Data Processing Agreement), регион данных (EU, РФ — по юридической оценке).
  • Opt-out обучения на клиентских данных.
  • SSO, audit log, лимиты для ИБ.

Примеры: Microsoft 365 Copilot (Enterprise Data Protection), OpenAI Enterprise, Anthropic Team/Enterprise, Azure OpenAI в вашем тенанте.

Self-hosted / private cloud

  • Модель в вашем VPC или на железе.
  • Максимальный контроль; вы сами отвечаете за патчи, GPU, логи.

Компромисс: CapEx, MLOps, качество модели vs облачный API.


Обучение на ваших данных

Риски:

  1. Утечка в подсказках другим пользователям той же модели (редко, но репутационно катастрофично).
  2. Извлечение через model inversion при агрессивном fine-tuning на PII.
  3. Субпроцессоры — куда провайдер отправляет данные (CDN, labeling).

Контрмеры:

  • Явный запрет fine-tuning на prod-данных без анонимизации;
  • synthetic / redacted датасеты для дообучения;
  • контрактный запрет использования данных вне вашего тенанта.

Матрица выбора провайдера (шаблон)

КритерийВопросы
ДанныеРегион хранения? ZDR? Обучение на промптах?
ДоступSSO, MFA, RBAC на API-ключи
АудитЭкспорт логов, SIEM, retention
МодельВерсия, дата cutoff, поддержка вашего языка
ВыходSLA, rate limits, fallback
ЮридическоеDPA, 152-ФЗ / GDPR, отраслевые нормы
Выход из вендораЭкспорт промптов, embeddings, смена API

Документируйте решение: какой класс данных → какой сервис — и публикуйте в wiki для разработчиков.


Практика для разработчика

  1. Санитизация перед вставкой в IDE-агент: фейковые пароли, вымышленные hostnames.
  2. Один список одобренных LLM-сервисов; личный ChatGPT на рабочем ПК — по политике ИБ.
  3. API-ключи — в Vault / CI secrets, не в репозитории и не в чате.
  4. Инцидент "случайно вставил .env в промпт" — процедура: ротация секретов, уведомление ИБ.

Copilot и встроенный ИИ в IDE

Cursor, GitHub Copilot, JetBrains AI — данные могут обрабатываться на серверах вендора. Проверьте:

  • режим Privacy Mode / business plan;
  • индексация всего репозитория vs только открытых файлов;
  • запрет обучения на вашем коде (Copilot Business).

Связь с вайб-кодингом — не кормить агент всем монорепо с секретами.


Итоги

Политика данных важнее выбора "самой умной" модели. Free-чат — для несекретного; корпоративные и регулируемые данные — только enterprise/ZDR или on-prem с договором. OWASP LLM02 закрывается классификацией, контрактами и дисциплиной в промптах.