Перейти к основному содержимому

Практикум — проекты по ИИ

Разработчику

Энциклопедия даёт теорию, архитектуру и паттерны; длинный код — в lab и на code.spirzen.ru. Для закрепления "руками" удобен внешний сборник Hands-On-AI-Engineering — ~40 проектов с README, requirements.txt и .env.example — RAG, агенты, OCR, мультимодальность. Лицензия MIT; язык инструкций — английский.

Ниже — карта обучения — сначала прочитайте главу энциклопедии, затем клонируйте проект и запустите по README. Не обязательно проходить всё подряд — выберите ветку под свою цель.

Что не копируем

Туториалы из репозитория не дублируются в энциклопедии. Здесь — только маршрут и связь "навык ↔ проект". Конкретные имена моделей в репо меняются быстрее, чем паттерны — ориентируйтесь на архитектуру, а не на чекпоинт.


Как пользоваться картой

  1. Пройдите базовый маршрут из раздела "ИИ" хотя бы до RAG, MCP и агентов.
  2. Выберите ветку (RAG, агенты, OCR, мультимодальность).
  3. Клонируйте репозиторий: git clone https://github.com/Sumanth077/Hands-On-AI-Engineering.git
  4. Перейдите в папку проекта, скопируйте .env.example.env, заполните API-ключи.
  5. После запуска сравните код с теорией в указанной главе и зафиксируйте, что изменили бы для prod (AgentOps).

Базовый URL проекта: https://github.com/Sumanth077/Hands-On-AI-Engineering/tree/main/<путь>.


Этап 0 — первый вызов API

Сначала в энциклопедииНавыкПроект в репо
OpenAI / API — готовые промптыChat Completions, system/user, ключиЛюбой минимальный RAG или агент с одним LLM-вызовом, например Rock Music RAG

Ветка 1 — RAG и поиск по знаниям

Сначала в энциклопедииНавыкПроект
RAG в 113 + векторные БДЧанкинг, эмбеддинги, ChromaDBYouTube Transcript RAG
Продвинутый RAG в 113 — HyDEГипотетический документ вместо сырого запросаHyDE RAG
GraphRAGГраф сущностей + тематические запросыGraphRAG Knowledge System
Продвинутый RAG в 113 — hybridПараллельно vector + knowledge graphHybrid RAG System
Оркестрация — RouterМаршрутизация по нескольким индексамRAG Agent with Database Routing
Продвинутый RAG в 113 — agenticRetrieve → grade → rewrite → generateSelf-Reflective Agentic RAG
Продвинутый RAG в 113 — webСкрапинг + RAGAgentic RAG with Qwen & FireCrawl
Мультимодальность в 8Индексация изображений и медиаVision RAG, Multimodal RAG

Ветка 2 — агенты и оркестрация

Сначала в энциклопедииНавыкПроект
Агенты ИИReAct, tools, цикл агентаAgentic SQL Search
MCP-серверыTools через MCPGitHub Intelligence Agent, Eagle Eye
Память агента в 116Персистентная память между сессиямиCartMate — AI Customer Support
Оркестрация — SequentialPlanner → Coder → ReviewerMulti-Agent Coding Assistant
Оркестрация — мультиагентНесколько ролей, отчётMulti-Agent Research Assistant (AG2), Research Team
Фреймворки в 121smolagents, код как toolSmolagents Code Agent
AgentOpsHITL, approval перед действиемEagle Eye (review PR после одобления)

Доменные агенты (финансы, отели, маркетинг) полезны как примеры промптов и интеграций, но для обучения архитектуре достаточно 2–3 проектов из таблицы выше.


Ветка 3 — OCR и документы

Сначала в энциклопедииНавыкПроект
OCR в 120Классическая цепочка OCRСравните Tesseract/EasyOCR с проектами ниже
Structured extraction в 120Картинка → валидированный JSONImage-to-Structured-Data
Там жеФормулы → LaTeX, локальная VLMLaTeX Formula OCR
Здравоохранение + OCRДоменная валидация (RxNorm)Medical Prescription Digitizer
Structured extraction в 120Локальный OCR, Markdown из PDFGLM-OCR Pro
Продвинутый RAG в 113Layout parsing + clinical RAGClinical RAG with ADE

Ветка 4 — аудио, видео, мультимодальность

Сначала в энциклопедииНавыкПроект
Whisper в 8ASR, транскриптYouTube Transcript RAG
Практика — аудио и видео в 8Чат с аудиофайломMusic Explorer
Там жеСаммари YouTube, главыVideo Understanding Agent
Мультимодальность в 8Vision + tool callingMultimodal Weather App
OCR + RAGQ&A по страницам PDFImage Question Answering

Рекомендуемые мини-треки

"Чат-бот по своим документам" (3–5 дней)

  1. 113 — локальный RAGRock Music RAG
  2. Продвинутый RAGHyDE RAG
  3. Agentic RAGSelf-Reflective Agentic RAG

"Агент с tools" (3–5 дней)

  1. 116 — агентыAgentic SQL Search
  2. MCPGitHub Intelligence Agent
  3. 121 — оркестрацияMulti-Agent Coding Assistant

"Документы и сканы" (2–4 дня)

  1. 120 — OCRImage-to-Structured-Data
  2. Clinical RAG — если интересна медицина или сложная вёрстка

После практикума


См. также