Команда DeepSeek представила модель DeepSeek-OCR, которая полностью переосмысляет традиционные методы распознавания текста. Вместо того чтобы работать с текстовыми токенами, как это делают многие системы, новая модель опирается на визуальные образы страниц, что кардинально меняет подход к хранению и анализу информации. В отличие от обычных OCR-моделей, которые разбивают текст на токены, DeepSeek-OCR преобразует текст в изображение и сжимает его в компактные визуальные токены с помощью собственного алгоритма DeepEncoder. Это позволяет значительно снизить затраты на обработку данных, сохраняя при этом высокую точность. В ходе испытаний модель продемонстрировала впечатляющие результаты, сохраняя точность 97% даже при десятикратном сжатии. Архитектура DeepSeek-OCR включает три ключевых этапа: локальное внимание для деталей, свёрточное сжатие в 16 раз и глобальное внимание для анализа структуры. Также разработчики внедрили механизм забывания, позволяющий постепенно снижать разрешение старых данных. Не упустите возможность оптимизировать свои рутинные задачи с BotHub, получив 100 000 бесплатных токенов для первых задач!
Опубликовано вРазное