Анализируемый текст, точнее, обёртка над ним

Пространство имен: Pullenti.Ner

Expand
	imageСинтаксис

Конструкторы

  Имя   Описание
Public constructorSourceOfAnalysis Создать контейнер на основе плоского текста. При создании будут автоматически сделаны транслитеральные замены, если они будут найдены.

Свойства (get/set)

  Имя Тип Описание
Public propertyTagobjectИспользуется произвольным образом
Public propertyTextstringИсходный плоский текст

Методы

  Имя Тип значения Описание
Public methodSubstringstringИзвлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами.

Поля

  Имя Тип Описание
Public fieldClearDustboolИгнорировать сбойные участки (это участки с неправильной кодировкой, мусором и т.п.)
Public fieldCorrectionDictDictionary<string, string>Словарь корректировки типовых ошибок. Ключ - ошибочное написание, Значение - правильное. Ключи и значения должны быть в верхнем регистре и без Ё.
Public fieldCreateNumberTokensboolСоздавать автоматически NumberToken
Public fieldCrlfCorrectedCountintКоличество исправлений переходов на новую строку
Public fieldDoWordCorrectionByMorphboolПытаться ли делать коррекцию слов, не попавших в словарь.
Public fieldDoWordsMergingByMorphboolОбъединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря (очень полезно для текстов из PDF)
Public fieldIgnoredBeginCharintНачало фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов.
Public fieldIgnoredEndCharintОкончание фрагмента текста, игнорируемого большинством анализаторов при анализе. Используется для поверхностной обработки больших текстов. По умолчанию, 0 - текст обрабатывается целиком.
Public fieldUserParamsstringСтрока с доп. параметрами (зависят от анализаторов) Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес, что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре)