Назад Содержание Далее

Несколько слов о разворачивании моделей с помощью Transformers

смотреть через YouTube

смотреть через dzen

Содержание

1. Библиотека Transformers для запуска локальных моделей

Библиотека Transformers для запуска локальных моделей

Один из основных способов развернуть локальные модели на своих компьютерах — использование библиотеки Transformers. Эта библиотека разрабатывалась компанией Hugging Face и предназначена для работы с предобученными нейросетевыми моделями. С её помощью вы можете загружать и использовать модели, адаптированные для работы с этой библиотекой и публикуемые на хабе Hugging Face.

Библиотека является шлюзом к основным моделям. Чаще всего это такие модели, как LLaMA, Mistral, Qwen и другие модели с открытым исходным кодом. Transformers — основной интерфейс загрузки и управления этими моделями.

В отличие от GGUF-моделей, здесь мы имеем дело с оригинальным состоянием моделей. У нас будет полная точность без потери интеллектуальных способностей модели — именно так, как задумывали исследователи. Если вам нужна точность модели, нужно использовать Transformers. Здесь нет квантизации или сжатия модели. Модель будет потреблять ровно столько ресурсов, сколько в неё заложили создатели.

Аппаратные требования и ограничения

Главное ограничение при использовании Transformers — запуск моделей в оригинальном качестве требует значительных аппаратных ресурсов. Семимиллиардная модель занимает почти всю память стандартной мощной видеокарты. Для работы модели с 7–8 миллиардами параметров требуется минимум 16 ГБ видеопамяти для комфортной работы и 24 ГБ для более производительной работы.

Если говорить о модели на 70 миллиардов параметров, она требует в 10 раз больше ресурсов. В этом случае не получится обойтись одной видеокартой — потребуется масштабирование. Для таких ситуаций существует два решения:

Multi-GPU — объединение видеокарт
Квантизация моделей — снижение точности для экономии памяти

Второе решение — это уже не про Transformers.

PyTorch — это вычислительное ядро. Если Transformers — это интерфейс, то PyTorch — это двигатель. Это дополнительная библиотека, которая позволяет производить числовые вычисления для работы с нейросетями.

Для запуска локальной модели с помощью Transformers потребуется код, обычно на языке Python. Могут использоваться и C++, и другие языки программирования. Также потребуются библиотеки:

Transformers — интерфейс модели
PyTorch — вычислительное ядро

Это обязательные компоненты. Запускать модель можно либо на процессоре, либо на видеокарте. Для работы требуются обе библиотеки.

Назад Содержание Далее

Дмитрий Ченгаев 💎
Занимаюсь заказной веб-разработкой. Подписывайтесь на телеграм канал https://t.me/dchengaev ;)

Отзывы