Анализируемый текст, точнее, обёртка над ним
Пространство имен: Pullenti.Ner
Синтаксис
CSharp |
public class SourceOfAnalysis |
Конструкторы
|
Имя |
|
Описание |
| SourceOfAnalysis | | Создать контейнер на основе плоского текста.
При создании будут автоматически сделаны транслитеральные замены, если они будут найдены. |
Свойства (get/set)
|
Имя |
Тип |
Описание |
| Tag | object | Используется произвольным образом |
| Text | string | Исходный плоский текст |
Методы
|
Имя |
Тип значения |
Описание |
| Substring | string | Извлечь фрагмент из исходного текста. Переходы на новую строку заменяются пробелами. |
Поля
|
Имя |
Тип |
Описание |
| ClearDust | bool | Игнорировать сбойные участки (это участки с неправильной кодировкой,
мусором и т.п.) |
| CorrectionDict | Dictionary<string, string> | Словарь корректировки типовых ошибок.
Ключ - ошибочное написание, Значение - правильное.
Ключи и значения должны быть в верхнем регистре и без Ё. |
| CreateNumberTokens | bool | Создавать автоматически NumberToken |
| CrlfCorrectedCount | int | Количество исправлений переходов на новую строку |
| DoWordCorrectionByMorph | bool | Пытаться ли делать коррекцию слов, не попавших в словарь. |
| DoWordsMergingByMorph | bool | Объединять соседние слова, не попавшие в словарь, если при объединении получается слово из словаря
(очень полезно для текстов из PDF) |
| IgnoredBeginChar | int | Начало фрагмента текста, игнорируемого большинством анализаторов при анализе.
Используется для поверхностной обработки больших текстов. |
| IgnoredEndChar | int | Окончание фрагмента текста, игнорируемого большинством анализаторов при анализе.
Используется для поверхностной обработки больших текстов.
По умолчанию, 0 - текст обрабатывается целиком. |
| UserParams | string | Строка с доп. параметрами (зависят от анализаторов)
Например, для адресов параметр-строка ADDRESS обозначает, что анализируемый текст есть чистый адрес,
что даёт некоторые доп. улучшения при анализе (слова в нижнем регистре) |