Работа с локальными моделями

О портале huggingface. Зачем он нужен

Hugging Face — глобальная платформа-репозиторий для инструментов искусственного интеллекта, аналог GitHub для ML-сообщества. В материале описаны основные разделы платформы: модели, датасеты, Spaces, а также варианты доступа и тарифные планы.

Немного о выборе модели на Huggingface

Обзор методов поиска и фильтрации LLM-моделей на платформе Hugging Face. Рассматриваются ключевые критерии выбора: тип задачи, количество параметров для разных конфигураций оборудования и выбор библиотеки (Transformers, GGUF) в зависимости от целей использования.

О способах разворачивания локальных LLM моделей

Узнайте, как запустить языковую модель ИИ на своём компьютере: от выбора подходящего способа до баланса между скоростью и возможностями железа. Рассмотрите сценарии — от мощных серверных решений с vLLM для тысяч запросов в минуту до вариантов для локального использования. Поймите, какое оборудование и инструменты нужны для эффективного развёртывания модели под ваши задачи.

Несколько слов о разворачивании моделей с помощью Transformers

Библиотека Transformers от Hugging Face — это основной инструмент для запуска локальных нейросетевых моделей, таких как LLaMA, Mistral и Qwen, в их оригинальном, неизменённом виде. Она обеспечивает полную точность работы моделей без сжатия или квантизации, сохраняя все интеллектуальные возможности, заложенные разработчиками. Однако для работы в таком формате требуются значительные аппаратные ресурсы, включая большой объём видеопамяти. Например, модели с миллиардами параметров могут занимать десятки гигабайт памяти, что необходимо учитывать при развёртывании.

Почему Nvidia видеокарты стали стандартом для AI

Для комфортного запуска локальных LLM-моделей на компьютере рекомендуется видеокарта Nvidia, ставшая отраслевым стандартом. Она обеспечивает простоту настройки, высокую скорость и стабильность работы. Альтернативные варианты, такие как процессоры, экосистема Apple или оборудование AMD, могут вызывать сложности при установке и настройке. Исторически стандарт сложился благодаря готовой инфраструктуре и оптимизации моделей ИИ под платформу Nvidia.

Подробнее о запуске LLM моделей с помощью библиотеки Transformers

Несколько слов о gguf LLM моделях

Какую степень сжатия использовать для GGUF моделей

Пример скрипта для запуска gguf модели