Филолингвия
Понедельник, 23.12.2024, 18:31
Приветствую Вас Гость
 
Главная страница Информация о сайтеРегистрацияВход
Меню сайта
  • Главная страница
  • Информация о сайте
  • Новости
  • Каталог статей
  • Рейтинг статей
  • Каталог ресурсов
  • Каталог ссылок
  • Как выучить английский
  • Форум
  • Фотоальбом
  • Рефераты по языкам
  • Гостевая книга
  • TOP 100
  • Методы.
  • Методики.
  • Новости языков
  • Новости английского
  • Прямой эфир.
  • Доска объявлений
  • Гостевая книга
  • TOP 100
  • Категории каталога
    Лингвистика [139]
    Филология [6]
    Грамматика [66]
    Лексика [68]
    Фонетика [22]
    Психология. [184]
    Нейрология [75]
    Философия [5]
    Психолингвистика [41]
    Педагогика [184]
    Дидактика [4]
    Лингводидактика [11]
    Текстология [3]
    Интерлингвистика [6]
    Лингвокультурология [231]
    Логопедия [2]
    Этология [12]
    физиология [5]
    Этимология [99]
    Сленг [12]
    Морфология [1]
    Семиотика [2]
    Сейчас на сайте
    Онлайн всего: 10
    Гостей: 10
    Пользователей: 0
    С днем рождения!
    countess(45), zulpa(49), WepeEsserve21712(25), menoneard16802(47), Ar4i(36), Trefound(38), Polina23(29), maxxx8008(44), ap4fake(31)
    Сегодня сайт посетили
    Система Эффективного Самостоятельного Изучения Языков
    [28.08.2024]
    Тайное знание элиты: Структурный Дифференциал Коржибского (0)
    [06.02.2019]
    Прекращение поддержки домена filolingvia.ru (0)
    [14.08.2018]
    Английский без правил! (1)
    [13.08.2018]
    Прогнозирование - это не чудо, а технология или зачем искусство стратегии тем, кто учит английский язык? (0)
    [08.03.2018]
    Тридцать два самых красивых английских слова! (0)
    [06.01.2018]
    Доброе Поздравление - 2018 от Студии Языков (0)
    [23.11.2017]
    Набор для игры "88 8опросо8" с глаголом "to buy" (0)
    [20.11.2017]
    Pushing the button - Динамика действия в реальности (0)
    [15.11.2017]
    Скачать Бесплатно Лингвокарты (0)
    [15.11.2017]
    В четверг, 16 ноября, 19.00 МСК - Интерактивная Лингвокарта. Виталий Диброва представляет новый мастер-класс на Марафоне. (0)
    [15.11.2017]
    В четверг, 16 ноября, 19.00 МСК - Интерактивная Лингвокарта. Виталий Диброва представляет новый мастер-класс на Марафоне. (0)
    [23.09.2017]
    Говорящий тренажер с "живой" Лингвокартой на 2-х языках (0)
    [20.09.2017]
    ТАВАЛЕ фестиваль: 13 - 22 октября 2017 в Харькове. Студия Языков на крупнейшем фестивале тренингов и методов развития человека! (0)
    [15.09.2017]
    You'll get the power! (0)
    [11.09.2017]
    10 лайфхаков для изучения английского каждый день (1)
    [07.09.2017]
    Прямая Линия Поддержки. (0)

    Начало » Статьи » Науки. » Лингвокультурология

    Лингвистический анализ текста и распознавание автора

    Лингвистический анализатор, описываемый в данной статье, разрабатывался в течение 2007-2008 годов в рамках сайта «Лаборатории Фантастики». Изначально ставилась цель проанализировать тексты русскоязычных писателей-фантастов и выявить значимые их характеристики, описывающие в совокупности авторский стиль, или так называемый «авторский лингвопрофиль».
    Для достижения поставленной цели был написан програмный код, получающий на входе текст, скажем, романа, и выдающий на выходе более тысячи различных его статистических характеристик, среди которых:

        * Средняя длина предложения (СДП), знаков
        * СДП авторского текста, знаков
        * СДП диалога, знаков
        * Доля диалогов в тексте
        * Доля авторского текста в диалогах
        * Динамика использование диалогов по тексту (график)
        * Использовано уникальных слов (всего уникальных слов, как словарных, так и выдуманных автором)
        * Активный словарный запас (количество уникальных словарных слов в тексте)
        * Активный несловарный запас (количество уникальных выдуманных слов в тексте — сюда входят все имена, названия и неологизмы)
        * Удельный АСЗ на 3000 слов текста (среднее количество уникальных словарных слов на 3000 слов текста)
        * Удельный АСЗ на 10000 слов текста
        * Удельный АСЗ на 100000 слов текста
        * Динамика изменения УАСЗ-3000 от начала до конца произведения (график)
        * Статистика использования частей речи: процент существительных, прилагательных, глаголов, местоимений-существительныхм, местоименных прилагательных, местоимений-предикативов, числительных (количественных), числительных (порядковых), наречий, предикативов, предлогов, послелогов, союзов, междометий, вводных слов, фразовых глаголов, частиц, кратких прилагательных, причастий, деепричастий, кратких причастий и инфинитивов. А также — неопределённых частей речи и т.н. служебных частей речи.
        * Биграммы частей речи — частота употребления пар «существительное-глагол», «наречие-прилагательное» и т.д. для всех перечисленных выше частей речи.
        * Части речи на позициях в предложении — как часто первым словом в предложении является местоимение, как часто вторым является глагол и т.п. По всем частям речи, вплоть до 20й позиции.
        * Частоты всех известных знаков препинания.
        * Биграммы буквенных пар — простой подсчёт частот всех алфавитных пар «аа», «аб», «ав»... «ба», «бб» и т.д.
        * Биграммы «соединительных символов» (частоты пар первой буквы текущего слова и последней буквы предыдущего — исключая имена, названия и пр.)

    Пару слов скажу о словарном запасе. Словарный запас — это, грубо говоря, количество уникальных слов, которые знает автор. Но знает ещё не значит, что они их употребляет в своих текстах. Поэтому гораздо более актуальной характеристикой является «активный словарный запас», что для случая конкретной книги означает количество использованных в ней уникальных слов. Но, учитывая тот факт, что книги различаются по объёму, логичным будет считать т.н. «удельный активный словарный запас», то есть количество уникальных слов на сколько-то слов текста. Если мы вычленим из текста 10000 идущих подряд слов, удалим из них повторяющиеся и посчитаем сколько осталось, то мы получим ни что иное как «удельный АСЗ на 10000 слов текста». И ещё один нюанс: несловарные слова (названия, имена, выдуманные автором слова) в подсчёте АСЗ и УАСЗ не участвуют. Количество этих слов считается как отдельная характеристика — «активный несловарный запас».

    Для определения значимых в формировании авторского лингвопрофиля характеристик были построены их функции распределения плотности вероятности. Выяснилось, что подавляющее большинство характеристик имеет нормальное Гауссово распределение.

    Возьмём для примера одну из характеристик (например, среднюю длину слова), обозначим её W и рассмотрим трёх произвольно взятых авторов. Назовём их «автор 1», «автор 2» и «автор 3». Считаем, что у каждого автора для каждого из N произведений (b1,b2,b3... bN) посчитано значение W. Тогда среднее значение W для автора считаем как средневзвешенное:

    Ma(W) = (Mb1(W)*WCount(b1)+Mb2(W)*WCount(b2)+ ... +MbN(W)*WCount(bN)) / (WCount(b1)+WCount(b2)+ ... +WCount(bN))

    , где MbX(W) — среднее значение параметра W для произведения X, WCount(bX) — вес = количество слов в произведении X.

    Таким же способом, используя количество слов в произведении как вес слагаемого, посчитаем среднеквадратическое отклонение характеристики W от среднего Ma(W):

    Sa(W) = Sqrt(((Mb1(W)-Ma(W))^2*WCount(b1)+(Mb2(W)-Ma(W)^2*WCount(b2)+ ... +(MbN(W)-Ma(W)^2*WCount(bN)) / (WCount(b1)+WCount(b2)+ ... +WCount(bN)))

    Формула выглядит нечитаемо, за что прошу прощения. Рисовать в графике лень. Просто скажу, что это та же средняя сумма квадратов разностей, только в весовых долях, как и в формуле среднего.

    Среднее значение и среднеквадратичное отклонение каждой характеристики являются минимально необходимыми и достаточными критериями для формализации функции распределения. Теперь мы можем графически отобразить распределение значений W для трёх наших авторов:

    Теперь представим, что нам в руки попался неизвестный текст, и нам нужно узнать кто его автор. Вот мы определили значение характеристики W для этого текста и, допустим, оказалось, что оно чуть меньше, чем M1. Глядя на график, не сложно сделать вывод, что такое значение W характерно скорее для автора 1, чем для автора 2 либо автора 3. Но если мы получили значение, лежащее в диапазоне [M2..M3], то это означает, что текст может принадлежать либо автору 2, либо автору 3 (вероятность того, что текст принадлежит автору 1 существует, но крайне мала). Это значение попадает в область неопределённости, где пересечение плотностей вероятностей разных авторов очень велико. Эти области на рисунке закрашены серым. Исходя из этого, полагаем, что чем больше пересечение интегралов плотностей вероятностей, тем менее W характеризует авторский стиль (существует много авторов с близкой по значению характеристикой W, и сложно по значению W анализируемого текста определить автора). Если же графики плотностей вероятностей разных авторов удалены друг от друга и их пересечение крайне мало, то считаем, что W можно считать весомой характеристикой авторского стиля. Но что тогда считать её весом?..

    Вычислять пересечение интегралов — задача не из лёгких и достаточно ресурсоёмка. Автором предложено простое, но эффективное альтернативное решение. За вес принимается отношение среднеквадратичного отклонения средних значений M1, M2, M3 ... к усреднённому по всем авторам среднеквадратичному отклонению величины. Таким образом, вес характеристики тем выше, чем больше разброс авторских средних и чем у'же область распределения значения характеристики для каждого автора. Практика показала, что характеристики с весами выше 0.7 являются оптимальным (с точки зрения распознавания автора) множеством, характеризующим авторский стиль.

    Для вычисления вероятности того, что текст принадлежит тому или иному автору, имея под рукой таблицу весов всех характеристик, достаточно лишь посчитать средневзвешенное значение авторской функции распределения по всех характеристикам текста.

    Алгоритм, приведённый выше, позволяет распознавать автора романа с вероятностью 98.79%, рассказа — 84.32%. В статье лишь вкрадце обрисован алгоритм работы анализатора. Особенности его работы, корректирующие коэффициенты и некоторые выявленные в ходе исследования закономерности, позволившие повысить точность распознавания, пока остаются авторским «ноу хау».

    Особую благодарность автор выражает Алексею Сокирко и всей команде aot.ru за морфологический анализатор, идеально подошедший для наших целей.

    Источник: http://fantlab.ru/article374
    Категория: Лингвокультурология | Добавил: sveta (31.01.2009) | Автор: Львов Алексей
    Просмотров: 3165 | Рейтинг: 0.0 |
    Вы овладеете английским!
    • Вы верите, что всего за несколько часов можно понять, как поставить правильное произношение, не изучая долго и нудно теоретическую фонетику, а всего-лишь поймав "фокус" языка?
    • Вы верите, что за несколько часов можно понять всю систему английских времен, которую безуспешно учат годами в школе, институте или на курсах?
    • Вы верите, что вместо скучных учебников можно заниматься по Вашим любимым фильмам и сериалам, испытывая при этом восторг и наслаждение от занятий английским?
    Мы не только верим, а и твердо убеждены, так как уже сотни людей прошли по этому пути и поделились с нами своми успехами и достижениями!
    И мы верим в Вас, потому что Вы легко научились говорить на языке, который на порядок сложнее английского!
    Поэтому более простым и логичным английским Вы овладеете гораздо быстрее и легче! Конечно,если будете делать это правильно, естественным путем - моделируя носителей языка.
    Руководствуясь при этом не громоздкими правилами, а простыми и понятными визуальными моделями!


    Получите бесплатно материалы - подпишитесь на рассылку!
    Подписка на рассылку
    Никакого спама, гарантируем!


    Получите результат немедленно - приступайте к занятиям прямо сейчас!

    Получить Лингвокарты
    Никакого спама, гарантируем!

     


    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]

    Подпишись на RSS ленту
    RSS лента
    Форма входа
    Рекомендуем
        

    Друзья сайта
    Статистика
    Прямой эфир
    Copyright Filolingvia © 2007-2009
    Сайт управляется системой uCoz