Миша, коментарием к этому посту повешу рассказ как это все делается. Заодно это послужит лишним аргументом к тому, что русскую морфологию гуглю делать придется не пару месяцев.
На первом этапе из новостных текстов выделяются обозначения людей с помощью морфологической информации, словарей имен собственных и специальных алгоритмов анализа. На втором этапе внутри одного текста и на множестве документов программа отождествляет формально различные обозначения одного человека (ср. Борис Ельцин - Ельцин Борис Николаевич - Б. Н. Ельцин). На последнем этапе из обозначений людей отбирается N самых упоминаемых - тех, о которых написано в наибольшем количестве текстов. Главной особенностью программы является отсутствие какого бы то ни было заранее заданного списка людей - новые несловарные фамилии автоматически определяются и приводятся к словарной форме по специфическому контексту (имя, инициалы и др.). Кроме того, с высокой точностью разграничиваются однофамильцы и разрешается родовая омонимия (ср. Валентина Матвиенко, Александра Лебедева - мужчина или женщина?).
Что тут сложного или Откуда столько ошибок В принципе, ничего сложного тут нет. А ошибок бы и вовсе не было, если бы все имена и фамилии были в словаре. Перечислю несколько самых частотных проблем: 1. Имена омонимичны обычным словам. В самом начале в "Сегодня в лицах фигурировали" такие персонажи: Гера Советского, Вячеслав Богу, Надежда Доброй. 2. Фамилии могут совпадать с отчествами. Бывшие бизнес партнеры Борис Абрамович Березовский и Роман Аркадьевич Абрамович и в придачу президент компании КрасЭйр Борис Михайлович Абрамович доставили нам немало хлопот. 3. Некоторые фамилии склоняются, некоторые нет. И если их нет в словаре, по их внешнему виду (по буквам) понять, к какому типу относится фамилия (и если склоняется, то как), далеко не всегда удается. Ардзинба и Анкваба. Знаете, что первая фамилия в именительном падеже, а вторая в родительном? А так похожи. 4. Мужские и женские имена тоже очень часто имеют общие формы (см. выше). 5. Есть такие народы, в которых одного имени человеку недостаточно. Мы этого не понимаем и ошибаемся. Без энциклопедического багажа совершенно не понятно, сколько человек тут упомянуто: Джон Рональд Руэл Толкиен.