Библиотека Transformers для запуска локальных моделей
Один из основных способов развернуть локальные модели на своих компьютерах — использование библиотеки Transformers. Эта библиотека разрабатывалась компанией Hugging Face и предназначена для работы с предобученными нейросетевыми моделями. С её помощью вы можете загружать и использовать модели, адаптированные для работы с этой библиотекой и публикуемые на хабе Hugging Face.
Библиотека является шлюзом к основным моделям. Чаще всего это такие модели, как LLaMA, Mistral, Qwen и другие модели с открытым исходным кодом. Transformers — основной интерфейс загрузки и управления этими моделями.
В отличие от GGUF-моделей, здесь мы имеем дело с оригинальным состоянием моделей. У нас будет полная точность без потери интеллектуальных способностей модели — именно так, как задумывали исследователи. Если вам нужна точность модели, нужно использовать Transformers. Здесь нет квантизации или сжатия модели. Модель будет потреблять ровно столько ресурсов, сколько в неё заложили создатели.
Аппаратные требования и ограничения
Главное ограничение при использовании Transformers — запуск моделей в оригинальном качестве требует значительных аппаратных ресурсов. Семимиллиардная модель занимает почти всю память стандартной мощной видеокарты. Для работы модели с 7–8 миллиардами параметров требуется минимум 16 ГБ видеопамяти для комфортной работы и 24 ГБ для более производительной работы.
Если говорить о модели на 70 миллиардов параметров, она требует в 10 раз больше ресурсов. В этом случае не получится обойтись одной видеокартой — потребуется масштабирование. Для таких ситуаций существует два решения:
- Multi-GPU — объединение видеокарт
- Квантизация моделей — снижение точности для экономии памяти
Второе решение — это уже не про Transformers.
PyTorch — это вычислительное ядро. Если Transformers — это интерфейс, то PyTorch — это двигатель. Это дополнительная библиотека, которая позволяет производить числовые вычисления для работы с нейросетями.
Для запуска локальной модели с помощью Transformers потребуется код, обычно на языке Python. Могут использоваться и C++, и другие языки программирования. Также потребуются библиотеки:
- Transformers — интерфейс модели
- PyTorch — вычислительное ядро
Это обязательные компоненты. Запускать модель можно либо на процессоре, либо на видеокарте. Для работы требуются обе библиотеки.