Skip to content

Latest commit

 

History

History
97 lines (75 loc) · 4.39 KB

File metadata and controls

97 lines (75 loc) · 4.39 KB

📋 Информация о проекте

🎯 Цель проекта

Создание универсального парсера документации 1С для извлечения синтаксиса и создания контекстных файлов для языковых моделей (LLM).

🔧 Технические детали

Архитектура

  • Модульная структура - каждый компонент выполняет свою задачу
  • Обработка потоков - поддержка больших файлов
  • Множественные форматы - JSON, TXT, Markdown
  • Поисковый индекс - быстрый поиск по ключевым словам

Технологии

  • Python 3.8+ - основной язык
  • BeautifulSoup4 - парсинг HTML
  • lxml - быстрый XML/HTML парсер
  • zipfile - работа с архивами

Производительность

  • Полная обработка: Все файлы документации (по умолчанию)
  • Поддержка больших архивов: до 50MB+
  • Оптимизированный поиск: индексация ключевых слов
  • Ограниченная обработка: Доступна при указании параметра max_files

Структура данных

  • Content: Краткое описание для быстрого понимания
  • Metadata: Структурированные данные для программного доступа
  • Специализированные поля: syntax_variants, parameters_by_variant, collection_elements
  • Информация об использовании: methods, availability, version

📊 Статистика проекта

Обработанные файлы

  • Основной файл: ~25000 HTML файлов (полная документация)
  • Файл оглавления: 51065 HTML файлов
  • Общий размер: 70MB+ данных

Извлеченные элементы

  • Объекты: 24,048 (из полной документации)
  • Методы: 105 (из полной документации)
  • Функции: 117 (из полной документации)
  • Операторы: 22 (из полной документации)
  • Свойства: 49 (из полной документации)
  • Всего элементов: 24,341

Созданные файлы

  • JSON файлы: 3+ структурированных данных
  • Текстовые файлы: 2+ для LLM
  • Поисковые индексы: 2+ для быстрого поиска
  • Оптимизированная версия: 1,240 элементов (5.2MB)

📈 Планы развития

Краткосрочные (v1.2)

  • Убрать ограничение в 500 файлов
  • Добавить оптимизированную версию
  • Улучшить структуру данных (content/metadata)
  • Добавить веб-интерфейс

Среднесрочные (v1.3)

  • Поддержка других версий 1С
  • Автоматическое обновление документации
  • Интеграция с популярными LLM
  • API для внешних систем

Долгосрочные (v2.0)

  • Машинное обучение для улучшения парсинга
  • Поддержка других языков программирования
  • Облачная версия
  • Мобильное приложение

🤝 Сообщество

Вклад в проект

  • Отчеты об ошибках
  • Предложения новых функций
  • Улучшение документации
  • Код-ревью

Поддержка

  • GitHub Issues
  • Документация
  • Примеры использования
  • FAQ

📄 Лицензия

MIT License - свободное использование для любых целей.

🙏 Благодарности

  • Команде 1С за документацию
  • Сообществу разработчиков 1С
  • Проекту BeautifulSoup
  • Всем участникам проекта