Одним из главных принципов уникальной «системы Физтеха», заложенной в основу образования в МФТИ, является тщательный отбор одаренных и склонных к творческой работе представителей молодежи. Абитуриентами Физтеха становятся самые талантливые и высокообразованные выпускники школ всей России и десятков стран мира.

Студенческая жизнь в МФТИ насыщенна и разнообразна. Студенты активно совмещают учебную деятельность с занятиями спортом, участием в культурно-массовых мероприятиях, а также их организации. Администрация института всячески поддерживает инициативу и заботится о благополучии студентов. Так, ведется непрерывная работа по расширению студенческого городка и улучшению быта студентов.

Адрес e-mail:

Межпредметный семинар 02.11.2011

В среду 2 ноября 2011 г. в 18:35 в аудитории 202НК состоится межпредметный семинар по теме:

"Новые матоды статистического анализа литературных текстов"

Докладчик:

д.ф.-м.н. Орлов Юрий Николаевич (кафедра высшей математики МФТИ; ИПМ им. М.В. Келдыша РАН)

объявление-pdf

Рассматриваются задачи классификации и идентификации литературных текстов, написанных на европейских языках, на основе анализа статистических закономерностей буквенных распределений, т.е. вероятностей встречаемости букв и буквосочетаний. Тексты классифицируются по авторам, жанрам и иным атрибутам текста.
В основе лежит кинетический подход к анализу нестационарных временных рядов, каковыми являются последовательности букв в книге. Для выборочного распределения фрагмента текста по буквам вводится оператор эволюции и выписывается уравнение Лиувилля. Строится спектральный портрет этого оператора и находятся инвариантные подпространства, специфические для каждого автора. Даются оценки на точность метода.
При идентификации автора неизвестного текста внутри библиотеки известных текстов используется квазинорма Кульбака-Лэйблера для расстояния между распределениями текста по буквам. При изучении текста на однородность (в случае нескольких авторов) применяется индикативная статистика «горизонтных рядов» для распределения расстояний между одинаковыми буквами.
Будет рассказан статистический подход к решению таких задач, как установление наиболее вероятного автора неизвестного произведения, переводное это произведение или написанное на языке автора, сколько авторов участвовало в его написании.
Тестирование метода идентификации автора на достаточно большой выборке (100 авторов, 1000 текстов) показало очень высокую точность: только 16 текстов были ошибочно отнесены не к своим авторам.

Если вы заметили в тексте ошибку, выделите её и нажмите Ctrl+Enter.

© 2001-2016 Московский физико-технический институт
(государственный университет)

Техподдержка сайта

МФТИ в социальных сетях

soc-vk soc-fb soc-tw soc-li soc-li
Яндекс.Метрика