Индексация PDF-документов

В индексе содержимое многих PDF-файлов хранится в компактном виде, подходящем для его быстрого поиска и извлечения.

Используйте команду «Документ» > «Расширенная обработка» > Создать полнотекстовые индексы для создания нового или обновления существующего индекса.

Индексировать можно PDF-документы, написанные на языках с использованием латинского или азиатского (китайского, японского или корейского) шрифтов. Можно индексировать не только текст документа, но и закладки, комментарии, вложения, цифровые подписи, поля форм, метаданные и другие пользовательские свойства документа.

Файл индекса можно создать изо всех PDF-файлов, находящихся в указанных папках. Перед началом создания индекса выберите каталог для его сохранения. Индексация выполняется в фоновом режиме. В результате создается небольшой файл определения индекса с расширением ZPI. В нем содержатся ссылки на файлы индекса, которые хранятся в автоматически созданных вложенных папках с таким же именем, как у ZPI-файла, но с суффиксом _index.

Индексы поиска не внедряются в PDF-файлы. Чтобы индексы стали доступны другим пользователям, их необходимо сохранить в папке с общим доступом. Для создания встроенного индекса используется другая команда, делающая документ действительно переносимым.
 

Подготовка к индексации

Соберите в одной или нескольких папках все PDF-документы, подлежащие индексации. Если выбираются существующие папки, проверьте, чтобы в них были только индексируемые PDF-файлы.

Если планируется перенести PDF-файлы вместе с их индексом, лучше сохранить их в одной папке.

Добавьте свойства документа в PDF-файлы, чтобы их можно было использовать в качестве критериев поиска.

  • Используйте команду «Документ» > Свойства документа > Описание для указания заголовка, автора, базового URL-адреса и ключевых слов, описывающих содержимое документа. Используйте команду Свойства документа > Настройка для добавления пользовательских полей.

Примечания

Имейте в виду, что если создать полнотекстовый индекс перед редактированием документа для удаления важной информации, эти сведения НЕ будут удалены из индекса и их можно будет легко найти. После завершения редактирования будет предложено проверить документ. Примите предложение и удалите индекс. Редактирование и проверку рекомендуется выполнять для копии документа — это позволяет сохранить индекс в исходном документе.

Индексация большого количества PDF-файлов может потребовать значительных затрат времени и вычислительных ресурсов, поэтому лучше всего делать это во время обеденного перерыва.

 

 

 

Индексация PDF-документов