Почему Markdown стал стандартом для систем искусственного интеллекта

Если вы работали с системами искусственного интеллекта, как-то их настраивали, строили какие-то RAG-системы, возможно, вы встречались с тем, что в таких системах очень часто в качестве базы знаний и документации используется формат Markdown.

Этот специальный формат файла не обязательно будет использоваться только для RAG-систем или искусственного интеллекта. Это общепринятый формат данных, который существовал ещё до появления искусственного интеллекта. В этом видео мы подробнее остановимся на вопросе, почему этот формат получил такое распространение именно для систем искусственного интеллекта и почему его удобно использовать для разработки таких систем.

Первое, на чём хотелось остановиться — это то, что Markdown представляет собой структуру без усложнений. Markdown — это простой текстовый файл, который содержит определённый формат разметки. Он позволяет нам структурировать информацию без сложного форматирования и необходимости в специальных инструментах. Вы можете открывать Markdown-файл в любом текстовом редакторе.

Пусть это будет обычный блокнот Windows либо какой-то другой текстовый редактор. Если в этом редакторе есть плагины, которые позволяют форматированно отобразить содержимое, это будет смотреться более красиво. Если же этого нет, текст всё равно будет читаться и будет понятно, что в нём написано, даже без сложных инструментов.

Универсальность и совместимость

Markdown-файлы — это универсальные файлы. Так как они являются обычными текстовыми файлами, мы можем открывать их в любой программе: Obsidian, VS Code, Vim и других редакторах и IDE-системах, которые вы используете. Неважно, где вы будете открывать и работать со своим проектом — везде это будет работать, открываться и взаимодействовать.

Любая модель искусственного интеллекта, которую вы будете применять, спокойно сможет взаимодействовать с этим файлом и каким-то образом вытащить оттуда нужную информацию, потому что это обычный текст. Причём текст стандартизированный. Зная, что это Markdown-формат, модель искусственного интеллекта сможет построить специальные конструкции, которые извлекут нужные фрагменты текста из этого файла.

Markdown-файл — это достаточно минималистичный файл, который использует строгий минимальный набор элементов, чтобы сохранить фокус на сути. Благодаря этому мы получаем значительную экономию на токенах, потому что у нас нет такой лишней разметки, как это, например, есть в JSON-формате либо в XML-формате, где мы можем очень подробно всё расписывать и объяснять, что где и в какой структуре находится.

Освоить разметку Markdown можно буквально за пару часов — понять, как это всё работает и как это всё строить. Любой человек может в этом разобраться. Текст у нас остаётся читабельным, меньше символов, и модель искусственного интеллекта тратит меньше токенов.

Экономия токенов и структурированность

Вы тратите меньше денег на поддержку такого файла. Если вы попробуете, например, хранить документацию в DOCX, Word-файле либо PDF, там будет огромное количество шума и скрытый код разметки. Читать такие файлы для модели искусственного интеллекта будет достаточно сложно.

Даже та же самая HTML-разметка либо Rich Text содержит значительно больше символов, которые нужно будет обрабатывать модели искусственного интеллекта. Благодаря структурированной разметке заголовков, модели понимают иерархию, что позволяет вам более точно делать разбивку на чанки, если вы будете использовать RAG-системы. Текст таким образом значительно проще разбить на куски, зная структуру документа, если ваш источник придерживается этой структуры.

Markdown-файл сейчас стал де-факто стандартом для большинства современных инструментов. С ним умеют работать из коробки такие сервисы, как GitHub, GitLab, базы знаний вроде Notion и другие. В Data Science и в искусственном интеллекте это тоже стало стандартом — такой формат данных позволяет эффективно работать с README-файлами, технической документацией и какими-то другими данными.

Вот такие причины, почему стоит применять Markdown-файлы, если вы работаете с моделями искусственного интеллекта и строите RAG-системы.