Библиотека Transformers для запуска локальных моделей

Один из основных способов развернуть локальные модели на своих компьютерах — использование библиотеки Transformers. Эта библиотека разрабатывалась компанией Hugging Face и предназначена для работы с предобученными нейросетевыми моделями. С её помощью вы можете загружать и использовать модели, адаптированные для работы с этой библиотекой и публикуемые на хабе Hugging Face.

Библиотека является шлюзом к основным моделям. Чаще всего это такие модели, как LLaMA, Mistral, Qwen и другие модели с открытым исходным кодом. Transformers — основной интерфейс загрузки и управления этими моделями.

В отличие от GGUF-моделей, здесь мы имеем дело с оригинальным состоянием моделей. У нас будет полная точность без потери интеллектуальных способностей модели — именно так, как задумывали исследователи. Если вам нужна точность модели, нужно использовать Transformers. Здесь нет квантизации или сжатия модели. Модель будет потреблять ровно столько ресурсов, сколько в неё заложили создатели.

Аппаратные требования и ограничения

Главное ограничение при использовании Transformers — запуск моделей в оригинальном качестве требует значительных аппаратных ресурсов. Семимиллиардная модель занимает почти всю память стандартной мощной видеокарты. Для работы модели с 7–8 миллиардами параметров требуется минимум 16 ГБ видеопамяти для комфортной работы и 24 ГБ для более производительной работы.

Если говорить о модели на 70 миллиардов параметров, она требует в 10 раз больше ресурсов. В этом случае не получится обойтись одной видеокартой — потребуется масштабирование. Для таких ситуаций существует два решения:

  • Multi-GPU — объединение видеокарт
  • Квантизация моделей — снижение точности для экономии памяти

Второе решение — это уже не про Transformers.

PyTorch — это вычислительное ядро. Если Transformers — это интерфейс, то PyTorch — это двигатель. Это дополнительная библиотека, которая позволяет производить числовые вычисления для работы с нейросетями.

Для запуска локальной модели с помощью Transformers потребуется код, обычно на языке Python. Могут использоваться и C++, и другие языки программирования. Также потребуются библиотеки:

  • Transformers — интерфейс модели
  • PyTorch — вычислительное ядро

Это обязательные компоненты. Запускать модель можно либо на процессоре, либо на видеокарте. Для работы требуются обе библиотеки.