Практикум — проекты по ИИ
Энциклопедия даёт теорию, архитектуру и паттерны; длинный код — в lab и на code.spirzen.ru. Для закрепления "руками" удобен внешний сборник Hands-On-AI-Engineering — ~40 проектов с README, requirements.txt и .env.example — RAG, агенты, OCR, мультимодальность. Лицензия MIT; язык инструкций — английский.
Ниже — карта обучения — сначала прочитайте главу энциклопедии, затем клонируйте проект и запустите по README. Не обязательно проходить всё подряд — выберите ветку под свою цель.
Туториалы из репозитория не дублируются в энциклопедии. Здесь — только маршрут и связь "навык ↔ проект". Конкретные имена моделей в репо меняются быстрее, чем паттерны — ориентируйтесь на архитектуру, а не на чекпоинт.
Как пользоваться картой
- Пройдите базовый маршрут из раздела "ИИ" хотя бы до RAG, MCP и агентов.
- Выберите ветку (RAG, агенты, OCR, мультимодальность).
- Клонируйте репозиторий:
git clone https://github.com/Sumanth077/Hands-On-AI-Engineering.git - Перейдите в папку проекта, скопируйте
.env.example→.env, заполните API-ключи. - После запуска сравните код с теорией в указанной главе и зафиксируйте, что изменили бы для prod (AgentOps).
Базовый URL проекта: https://github.com/Sumanth077/Hands-On-AI-Engineering/tree/main/<путь>.
Этап 0 — первый вызов API
| Сначала в энциклопедии | Навык | Проект в репо |
|---|---|---|
| OpenAI / API — готовые промпты | Chat Completions, system/user, ключи | Любой минимальный RAG или агент с одним LLM-вызовом, например Rock Music RAG |
Ветка 1 — RAG и поиск по знаниям
| Сначала в энциклопедии | Навык | Проект |
|---|---|---|
| RAG в 113 + векторные БД | Чанкинг, эмбеддинги, ChromaDB | YouTube Transcript RAG |
| Продвинутый RAG в 113 — HyDE | Гипотетический документ вместо сырого запроса | HyDE RAG |
| GraphRAG | Граф сущностей + тематические запросы | GraphRAG Knowledge System |
| Продвинутый RAG в 113 — hybrid | Параллельно vector + knowledge graph | Hybrid RAG System |
| Оркестрация — Router | Маршрутизация по нескольким индексам | RAG Agent with Database Routing |
| Продвинутый RAG в 113 — agentic | Retrieve → grade → rewrite → generate | Self-Reflective Agentic RAG |
| Продвинутый RAG в 113 — web | Скрапинг + RAG | Agentic RAG with Qwen & FireCrawl |
| Мультимодальность в 8 | Индексация изображений и медиа | Vision RAG, Multimodal RAG |
Ветка 2 — агенты и оркестрация
| Сначала в энциклопедии | Навык | Проект |
|---|---|---|
| Агенты ИИ | ReAct, tools, цикл агента | Agentic SQL Search |
| MCP-серверы | Tools через MCP | GitHub Intelligence Agent, Eagle Eye |
| Память агента в 116 | Персистентная память между сессиями | CartMate — AI Customer Support |
| Оркестрация — Sequential | Planner → Coder → Reviewer | Multi-Agent Coding Assistant |
| Оркестрация — мультиагент | Несколько ролей, отчёт | Multi-Agent Research Assistant (AG2), Research Team |
| Фреймворки в 121 | smolagents, код как tool | Smolagents Code Agent |
| AgentOps | HITL, approval перед действием | Eagle Eye (review PR после одобления) |
Доменные агенты (финансы, отели, маркетинг) полезны как примеры промптов и интеграций, но для обучения архитектуре достаточно 2–3 проектов из таблицы выше.
Ветка 3 — OCR и документы
| Сначала в энциклопедии | Навык | Проект |
|---|---|---|
| OCR в 120 | Классическая цепочка OCR | Сравните Tesseract/EasyOCR с проектами ниже |
| Structured extraction в 120 | Картинка → валидированный JSON | Image-to-Structured-Data |
| Там же | Формулы → LaTeX, локальная VLM | LaTeX Formula OCR |
| Здравоохранение + OCR | Доменная валидация (RxNorm) | Medical Prescription Digitizer |
| Structured extraction в 120 | Локальный OCR, Markdown из PDF | GLM-OCR Pro |
| Продвинутый RAG в 113 | Layout parsing + clinical RAG | Clinical RAG with ADE |
Ветка 4 — аудио, видео, мультимодальность
| Сначала в энциклопедии | Навык | Проект |
|---|---|---|
| Whisper в 8 | ASR, транскрипт | YouTube Transcript RAG |
| Практика — аудио и видео в 8 | Чат с аудиофайлом | Music Explorer |
| Там же | Саммари YouTube, главы | Video Understanding Agent |
| Мультимодальность в 8 | Vision + tool calling | Multimodal Weather App |
| OCR + RAG | Q&A по страницам PDF | Image Question Answering |
Рекомендуемые мини-треки
"Чат-бот по своим документам" (3–5 дней)
- 113 — локальный RAG → Rock Music RAG
- Продвинутый RAG → HyDE RAG
- Agentic RAG → Self-Reflective Agentic RAG
"Агент с tools" (3–5 дней)
- 116 — агенты → Agentic SQL Search
- MCP → GitHub Intelligence Agent
- 121 — оркестрация → Multi-Agent Coding Assistant
"Документы и сканы" (2–4 дня)
- 120 — OCR → Image-to-Structured-Data
- Clinical RAG — если интересна медицина или сложная вёрстка
После практикума
- Зафиксируйте eval — 10–20 эталонных вопросов и ожидаемых ответов — AgentOps.
- Проверьте безопасность tools и секретов — Опасные скрипты.
- Для монетизации навыка — Монетизация цифровых продуктов с ИИ.
См. также
- Работа с ИИ-моделями — LangChain, ChromaDB, продвинутый RAG
- Оркестрация AI-агентов — паттерны и фреймворки
- Практический AI-стек — Lovable, Supabase, Cursor, n8n
- Исходный репозиторий — github.com/Sumanth077/Hands-On-AI-Engineering