Параметры создания документа
UnitextDocument функцией
createDocumentПространство имен: com.pullenti.unitext
Синтаксис
Java |
public class CreateDocumentParam |
Методы
|
Имя |
Тип значения |
Описание |
 | progress | нет | В наследной функции можно переопределить это для получения бегунка
(используется для PDF, когда он очень большой, то прогресс обработки страниц) |
Поля
|
Имя |
Тип |
Описание |
 | correctParams | CorrectDocumentParam | Параметры корректировки результата (по умолчанию, корректировать всё).
Если нужно что-либо отключать, то явно задавайте здесь флажки. |
 | dontGenerateItemsId | boolean | Не генерировать Id для элементов. По умолчанию false, то есть генерировать. |
 | extractPageImageContent | boolean | Извлекать ли картинки для страниц тексто-графических форматов (PDF, DJVU).
Используется для OCR распознаваний |
 | ignoreInnerDocuments | boolean | Для архивов не извлекать файлы, для почтовых форматов игнорировать вложения |
 | ignoreWord6 | boolean | Не разбирать документы формата Word6 и ранее (иначе выделяет из него только текст, и то не всегда правильно) |
 | loadDocumentStructure | boolean | Загружать ли структуру документа, если есть, оформляя её через UnitextDocblock.
Сейчас поддержано только для HTML и FB2. |
 | maxImageSize | int | При установке картинки с содержимым большего размера будут игнорироваться |
 | maxTableRows | int | Можно поставить ограничитель на число строк таблиц (больше этого порога будут отбрасываться) |
 | onlyForPureText | boolean | Признак того, что создание предназначено только для последующего
выделения плоского текста. То есть картинки и пр. можно игнорировать. |
 | setFormulaAsImage | boolean | Представлять формулы MS Word картинками UnitextImage (но без содержимого) |
 | splitTableRows | boolean | Разбивать ли слипшиеся строки таблиц на отдельные строки (когда в ячейках таблицы строки
моделируются переходами на новую строку) |