16 января 2008

Ответ от Свистунович

"2 St.Shadow, и все равно Ваш алогритм покрывает не все случаи.
Как я говорил нахождение границ предложения задача нетривиальная.

Тривиальным способом, как предложил Easy, точность распознования границ будет может быть 80% (сильно зависит от входного текста).
Ваш первый вариант, или вариант от SerJo улучшит точность до 90%
Следующий Ваш алгоритм улучшает ситуацию до 95%.
Написав еще пару тысяч строк кода, Вы получите алгоритм, который распознает уже 99% границ.
Что б распознать 99.9% границ теста нужна уже работа целой группы лингвистов и программистов.
(Приведение проценты взяты от балды, но именно такая тенденция и наблюдается).

Сравните например:
"У меня были яблоки, штук 3.14 хулиганов напали на меня и отобрали их."
"Длину окружности можно вычислить умножив 3.14 на диаметр."

В этом случае без лингвистического анализа текста уже не понять, что значит '.' внутри '3.14'

Поэтому я считаю, что Вашего последнего варианта для автора будет достаточно. Он и так с большой вероятностью правильно угадает границу предложения. Для более высокой точности требуется уже нетривиальный алгоритм."

Это ответ от пользователя Свистунович на вопрос: как с помощью C# написать считывание с текстового файла допустим 3 предложения, ни больше ни меньше?

Оцените, пожалуйста, этот ответ
Отказаться от рассылки ответов на этот вопрос