Компания Mistral, разработчик моделей большого языка из Франции, анонсировала новый API для обработки сложных PDF-документов. Mistral OCR — это инструмент оптического распознавания символов, который преобразует PDF в текстовые файлы, облегчая их использование моделями искусственного интеллекта. В отличие от большинства подобных API, Mistral OCR является мультимодальным и может распознавать иллюстрации и фотографии, интегрированные в текстовые блоки, формируя вокруг них ограничительные рамки.
Важно отметить, что выходной результат Mistral OCR не является просто сплошным текстом — он форматируется в Markdown, что позволяет разработчикам добавлять ссылки, заголовки и другие элементы форматирования. Это делает его особенно ценным для моделей наподобие ChatGPT, которые активно используют Markdown для создания форматированного текста. По словам сооснователя Mistral Гийома Лампле, этот инструмент поможет компаниям конвертировать сложные документы в доступный для ИИ формат.
Mistral OCR доступен на собственной платформе API компании или через облачных партнеров, таких как AWS, Azure и Google Cloud Vertex. Для компаний, которые работают с конфиденциальными данными, Mistral предлагает возможность локального развертывания. Парижская компания утверждает, что ее OCR-модель превосходит решения от Google, Microsoft и OpenAI, особенно при работе с документами, содержащими сложные макеты или таблицы.
Кроме того, Mistral уже интегрировала свой OCR в собственного ассистента Le Chat, что позволяет ему быстро анализировать содержимое PDF-файлов перед их обработкой. Ожидается, что Mistral OCR найдет свое применение в различных сферах, включая юридические фирмы, которые смогут быстрее обрабатывать большие объемы документов.