Распознавание лиц, объектов и текста
Три прикладных направления узкого ИИ часто идут в одном продукте: камера находит лица и объекты, микрофон — речь, текст — сущности и тональность. Ниже — как устроены задачи, какие метрики смотреть и когда обучать свою модель, а когда вызывать облачный API. Расширенный обзор архитектур — в Принцип работы современных ИИ-систем; код CNN — Keras и TensorFlow.
Три задачи — три выхода
| Задача | Вход | Выход |
|---|---|---|
| Лицо | Кадр | Bounding box, иногда эмбеддинг для сравнения |
| Объект | Кадр | Класс + координаты рамки (часто несколько объектов) |
| Текст (NLP) | Строка или транскрипт | Метки сущностей, тональность, категория |
Классификация изображения («что на картинке в целом») — один класс на всё фото. Детекция — несколько объектов с координатами. Сегментация — маска по пикселям; подробнее в Алгоритмы ИИ.
Распознавание лиц
Цепочка в проде обычно такая:
- Детекция — найти область лица (Haar cascades, MTCNN, RetinaFace, модели в OpenCV и облачных API).
- Выравнивание — поворот и масштаб по ключевым точкам (глаза, нос).
- Эмбеддинг — вектор фиксированной длины (FaceNet, ArcFace); сравнение по косинусному расстоянию.
- Решение — порог «тот же человек / другой» или классификатор эмоций поверх кропа.
# Иллюстрация: эмбеддинги через готовую библиотеку (нужен pip install deepface)
from deepface import DeepFace
result = DeepFace.verify(
img1_path="person_a_1.jpg",
img2_path="person_a_2.jpg",
model_name="Facenet",
enforce_detection=False,
)
print(result["verified"], result["distance"])
Биометрия и видеонаблюдение регулируются законом (в т.ч. 152-ФЗ в РФ, GDPR в ЕС). Нужны основания обработки, уведомление субъектов, контроль качества на разных группах населения — модели часто хуже работают на тёмной коже при смещённом обучающем наборе.
Облачные Face API (Azure AI Vision, Amazon Rekognition) закрывают детекцию и сравнение без своего GPU — см. Cognitive Services.
Детекция объектов
YOLO, SSD, семейство R-CNN предсказывают для каждого кадра набор рамок (x, y, w, h) и класс (человек, автомобиль, знак).
Типичный стек разработчика:
- обучение — PyTorch + Ultralytics YOLO или TensorFlow;
- инференс в реальном времени — ONNX, TensorRT, OpenVINO;
- разметка — Label Studio, CVAT.
Метрики: mAP (mean Average Precision) на тестовом наборе с IoU-порогом; в бизнесе добавляют задержку (FPS) и долю ложных срабатываний на линии.
Transfer learning на COCO/ImageNet ускоряет запуск: заморозить backbone, дообучить голову на своих классах («дефект», «шлем», «QR на коробке»).
Текст — OCR, NER, тональность
OCR (текст на изображении)
Optical Character Recognition извлекает строки с фото документов, вывесок, сканов. Цепочка: предобработка (бинаризация, выравнивание) → детекция строк → распознавание символов (CRNN, трансформеры). Готовые движки: Tesseract, EasyOCR, облачный Document Intelligence / Vision Read API.
NER (именованные сущности)
Из текста извлекают персоны, организации, локации, даты:
# pip install spacy && python -m spacy download ru_core_news_sm
import spacy
nlp = spacy.load("ru_core_news_sm")
doc = nlp("Иванов подписал договор в Москве 12 мая 2025 года.")
for ent in doc.ents:
print(ent.text, ent.label_)
Для русского и доменной лексики (медицина, право) часто дообучают трансформеры (BERT-подобные) на размеченном корпусе или используют облачный Language API.
Тональность и классификация текста
Бинарная или многоклассовая задача для sklearn (TfidfVectorizer + LogisticRegression) или fine-tuned BERT. Для длинных отзывов смотрят macro-F1 по классам.
Своя модель или облако
| Критерий | Своя модель (Keras / PyTorch / OpenCV) | Облачный Cognitive API |
|---|---|---|
| Данные | Есть разметка или можно собрать | Мало данных, нужен быстрый MVP |
| Задержка / офлайн | Edge, закрытый контур | Допустим HTTPS-вызов |
| Стоимость | GPU, MLOps | Оплата за 1000 вызовов |
| Кастомизация | Полная | Ограничена fine-tune / Custom Vision |
Гибрид: детекция на устройстве, тяжёлый OCR в облаке.
Метрики и типичные ошибки
| Ошибка | Последствие |
|---|---|
| Утечка: аугментация до split | Завышенный mAP на тесте |
| Один порог для всех сцен | Пропуски на тёмных кадрах |
| Игнор bias в лицах | Дискриминация в проде |
| OCR без проверки языка | Мусор в полях формы |
Связанные разделы: компьютерная графика (аугментации, TFRecord), тестирование ML.
Маршрут чтения
- Keras и TensorFlow — MNIST, CNN.
- Transfer learning — свои классы на ImageNet.
- Cognitive Services — REST без обучения.
- Алгоритмы ИИ — YOLO, сегментация, NLP-разделы справочника.
См. также
Другие статьи этого же раздела в боковом меню (как на странице "О разделе"). Поддержка offline-режима — возможность работы без подключения к интернету. Если продукт требует постоянного соединения с внешним сервером, вероятно, используется облачный API. ИИ в информационной безопасности - усиление атак на пароли, анализ утечек и риски автоматизации подбора и социальной инженерии. Конечно же существуют и проблемы, связанные с распространением искусственного интеллекта. Небольшие модели на устройстве и в микросервисах — SLM, ONNX, квантование, edge-инференс и выбор между локальной моделью и центральным LLM API. Критический анализ результатов ИИ — это систематическая процедура объективной проверки, оценки достоверности и логической обоснованности данных, сгенерированных нейросетевыми моделями. На микроуровне — это личная трагедия — потеря дохода, репутационный ущерб (почему не удержался?), эмоциональное выгорание. ИИ в работе — не только написать письмо быстрее. Это риски утечки данных, ошибочных решений и зависимости от поставщика модели. Почему вендоры BPM/CRM/ERP навешивают "ИИ-ассистента" на ЛПР, чем опасно доверять стратегические решения LLM и где генеративные модели уместны — только как подготовка материалов, не как советчик. Практические модели дохода для автора инструментов и разработчика: подписка, шаблоны, услуги, API-обёртки и юридические границы. Краткие итоги раздела "Применение ИИ" — бизнес, профессии, AI-washing, этика и прикладные сценарии. Чек-лист раздела «Применение ИИ» — вопросы для самопроверки.Применение ИИ в бизнес-процессах
ИИ в обеспечении информационной безопасности
Этические и технические проблемы ИИ
Микро-ML — когда ИИ нужен в каждом сервисе
Критический анализ результатов ИИ
Роль ИИ в трансформации профессий
Ответственное использование ИИ и Copilot
ИИ, топ-менеджмент и AI-washing в корпоративном ПО
Монетизация цифровых продуктов с ИИ
Применение ИИ — итоги
Применение ИИ — чек-лист