Il'inykh

1) Определение summary, список существующих систем, которые занимаются автоматическим реферированием, назначание summary. 2) Деление summary на экстракты и абстракты. Существование саммаризации одного документа и мульти-суммаризация. 3) Мульти-саммаризация (совсем немного, определение + сложности при этом процессе) 3) Саммаризация одного документа через экстракт (техники, методики существующих систем) - скорее всего, займет 2 слайда 4) Саммаризация одного документа через абстракт. Здесь как раз будет затронута основная связь между экстрактами/абстрактами. Существующие методики. Появление research question. - 2, 3 слайда займет 6) Методы оценки качества полученного саммари, что приведет к сравнению экстракта и абстракта (плюсы, минусы). Ответ на research question. - 2 слайда 7) Выводы, представленные в виде перекрестной таблицы: какое свойство экстракта влияет на абстракт и наоборот. Будущие исследования (обязательно ли, не знаю).
 * 18.05**
 * план презентации**

Why the process of extraction in text summarization is the basis for the process of abstraction and how are they related to each other?
 * 6.05**
 * new** research question:

Ответ: Потому что экстракт, содержащий в себе уже всю основную информацию из входного текста, служит материалом, который абстракт преобразует. Он является ключевой частью, которая получает грамматическую оболочку от машины, после чего машина подбирает синонимы и другие слова, связанные с тематикой экстракта. Из этих новых слов и создается абстракт. Таким образом, связь между этими двумя понятиями крепка, одно зависит от другого (зависимость абстракта от экстракта описана выше, а экстракт зависит от абстракта тем, что оценка его качества зависит от того, насколько успешным получился абстракт).

research question:
 * 20.04**

1) How much changing the initiator of summarization (human, machine) affects the summarized text (extract, abstract)?

Я пришел к выводу, что буду исследовать различия в создании саммари (экстракты или абстракты, буду исследовать оба) человеком и машиной. А не просто плюсы и минусы их в автоматическом реферировании. Может быть, стоит добавить в вопрос следующее: text in particular field (могу подумать над конкретным дискурсом, но пока оставил так, чтобы сузить вопрос, т.к. вроде бы это хорошо).

Ответить на 1 вопрос, думаю, можно следующим образом:

1) Undoubtedly, the summarized text depends on those who created it. On the one hand, if it was a human, the summarized text would be completed and holistic. The reason is as follows: take our mind, for example, which can be used so effectively that we can extract any needed information from any space of communication. We have been learning for a long period of our life how to recognize things that are the most important to us and how to fix them in our heads or on paper. On the other hand, the process of summarization occurs very rapidly if it is controlled by machine. The mechanism follows the programm within unconditionally and as the result we will get quite good summarized text. To conclude, both human and machine have different impact on the process of summarization. While the first can construct the text that is absolutely meets all the requirements, the second one is able to have many more texts on the output because of high speed of generating.

Из ответа у меня вытекает вопрос о том, как нам сделать этот процесс универсальным (качество и количество должны быть высокими). Если я буду исследовать специальную методику, чтобы ответить на этот вопрос, можно ли его считать за еще один research question? Т.е. у меня будет в вопросе что-то вроде: В какой мере **такой-то способ (здесь тот самый определенный способ, который, возможно, я буду исследовать)** может нам помочь улучшить основные характеристики (качество и количество) процессе создания реферированных текстов?

Варианты research question: 1) What are the details that make us feel unfavourable to automated summarization process? - пожалуй, самый легко реализуемый вопрос из представленных 2) What should be done in order to improve artificial intellegence (in case of summarization)? - более сложный, но для меня более интересный вопрос 3) Is there any possibility of creating special enviroment where all the processes will be controlled by a human as well as by machine and what are the ways to do release it? - это более философский вопрос, его очень хочется затронуть, но углубляться, думаю не стоит. Про него наверное всего лишь описательно порассуждаю.
 * 1.04**

Тема исследования - Text summarization process: extracts or abstracts?
 * 26.03**

1) Рассказываю, что такое summary, abstracts и extracts (стр 583-584 в учебнике Миткова, 1 ссылка). Здесь информации совсем немного, основные понятия, поэтому максимум это будет на секунд 30 (остальное не стал брать, поскольку там рассматривается уже сам процесс реферирования, а тема у меня претерпела качественные изменения). Также использую вторую ссылку (introduction to the special issue), т.к. там на 1 и 2 странице есть информация по summary и она объяснена простым языком, правда это будет повторение, поэтому может быть я ее и не использую вовсе. Если использую, то + 30 секунд.

2) Затем беру из 1 ссылки (introduction) большой кусок со 2 страницы до 5 (до evaluation of summaries - это в конце). Там описываются основные проблемы, причины, цели получения двух типов summary при multi и не multidoc. summarization. Опять же, это затянется на 4 минуты примерно, т.к. описания длинные, зато интересные).

3) На этой стадии перехожу к программам выделения экстрактов и абстрактов. Сперва беру информацию из статьи по 3 ссылке (authomated text summarization and the summarist system), откуда беру основные признаки текста на входе (они на 1 и 2 странице перечислены). Я внимательно прочитал 2 и 3 статью - они практически одинаковы, описывают одни и те же вещи, поэтому в дальнейшем буду брать информацию там, где она более понятно изложена. После признаков текста идет общая характеристика программы SUMMARIST (стр 1-2 по 2 и 3 стр в 3 ссылке). В 3 статье даже изложен пример в конце 3 страницы про реферерирование Индонезийского языка. Думаю, если я смогу связать его со схемами из 2 статьи (там большие такие программы с 3 страницы вроде бы), то про SUMMARIST получится рассказать очень быстро. На все это уйдет чуть больше 4 минут, наверное, 4 с половиной даже.

Небольшое отступление: для того, чтобы сравнить, что лучше, я думаю взять именно какой-то конкретный пример в анализе этой программы, и сравнить его по evaluation of summaries в секции 5 по 1 ссылке и по книге Миткова на стр 591 тоже присутствует информация об оценивании саммари. К тому же, абстракт через эту программу не создается, следовательно, его я должен создать сам по какому-то тексту. Я как раз и занимался обдумыванием этого тупика в моем исследовании все последнее время и решил, что это будет самым оптимальным вариантом.

4) Таким образом на заключительной стадии я как раз описываю тексты, которые анализирую в исследовании, как их анализирует машина и я, что получается, потом использую методики сравнения (информация о них присутствует в небольшом отступлении выше). На это у меня уйдет минуты 3.

В сумме получается около 12 минут. Зная, что это много, и надо уложиться в 10 минут, я постараюсь еще все оптимизировать, потому что материал крайне сложный, слишком много того, что мне не надо. Работаю над тем, чтобы уменьшить время хотя бы до 11 минут. Еще у меня вызывает подозрение, что я слишком много информации уделяю не исследованию, а предоставлению информации об исследовании - тоже сокращу и время увеличу в пользу 4 пункта.

1) Определение, общее описание, основные термины на 2 - 2,5 минуты. Думаю, что там будут только определения терминов и сфера использования в целом. Здесь, в принципе, говорить не о чем, т.к. до меня уже все объяснено и известно (это secondary research, как было сказано в одном из видео)
 * 2.03**

2) Основная часть на 9 минут. Здесь я не стал делить все именно по частям (сравнение, примеры, анализ, плюсы и минусы), поскольку еще сам вчитываюсь в литературу и пытаюсь найти границы. Этот блок будет однозначно состоять из множества составляющих, в которых будет собственно заключено мое исследование.

3) Ну и заключение и выводы на одну минуту хватят, я думаю.

"Advantages and disadvantages of extracts and abstracts as types of summary in text summarization process".
 * 4.03**

План моего исследования: 1) дать определение, общее описание 2) плюсы и минусы, область использования, исключения и некоторые особенности объектов исследования 3) приведение примеров из практики, программа SUMMARIST (может быть, будет еще один практический пример, пока не уверен на его счет) 4) общий вывод, заключительная таблица сравнения (по-моему, это самый оптимальный путь представления сравнения объектов) 5) информация о будущих исследованиях, о направлениях, которые развиваются Ну и я хочу включить личное мнение во все это, правда не уверен, надо ли это. Жду Вашего ответа по этому поводу)

Ниже я представляю Вам список работ и ссылки к ним, на которых я буду основываться в процессе работы. Наверное, он будет дополняться.

0) Самое первое, на что я буду опираться, это книга Руслана Миткова "The Oxford Handbook of Computational Linguistics" http://books.google.ru/books?id=OaClhre-vW4C&printsec=frontcover&dq=%22The+Oxford+Handbook+of+Computational+Linguistics%22&hl=en&sa=X&ei=I7oWU_J8xpTgBMbMgagF&ved=0CCkQ6AEwAA#v=onepage&q=%22The%20Oxford%20Handbook%20of%20Computational%20Linguistics%22&f=false Со страницы 583 там начинается описательная часть. Описывается целая глава этого процесса, в самом ее начале сказано про типы саммари, а потом даются ссылки на работы, где можно найти эту информацию.

1) @http://acl.ldc.upenn.edu/J/J02/J02-4001.pdf Эта статья, можно сказать, дает начальное представление об абстрактах и экстрактах, на ней будет базироваться первая часть моей работы, где я опишу и дам определение предметам моего исследования.

2) @http://www.isi.edu/natural-language/people/hovy/papers/98hovylin-summarist.pdf Вот еще одна интересная статья, на примере которой можно рассказать о конкретных программах, где реализуется техника получения абстрактов и экстрактов. Таким образом я перейду ко второй части работы, где буду представлять использование уже на конкретных примерах, на практике.

3) @http://research.microsoft.com/en-us/people/cyl/tipster-proc-hovy-lin-final.pdf А эта статья описывает все процессы в деталях и похоже в некоторой степени на статью под номером 1. Тоже очень полезна.

4) @http://research.microsoft.com/en-us/people/cyl/acl95.pdf Информация в этой статье является слишком углубленной именно в определенную область моей темы. Поэтому я ее использую как вспомогательную, т.к. в ней сказано о генерализации как о ключевом процессе (чего я пока не нашел в большом количестве в других статьях) и там даже приводится интересный пример с компьютерами.

26.02 "Фоносемантика. Проблемы, критика, реалии". Я не хочу углубляться слишком сильно в эту науку, потому что для первого знакомства это будет очень "резко", а затрону ее основные черты, исследования в этой области, и критику, что является практически самой главной ее частью, за которую, собственно, она так и популярна среди лингвистов в последнее время. список материалов 1) @http://www.docme.ru/doc/122530/zhuravlev-a.p.-zvuk-i-smysl Это самый первый ресурс, к которому меня отослала Википедия (туда, как правило, сперва заходят все =) Журавлев очень внимательно изучал эту проблему, и по-моему, его теория наиболее реальна и близка к логике, о ней я обязательно расскажу. 2) еще я буду использовать различные графики и формулы 3) если удастся, я даже смогу найти методику оценивания тональности любого слова через фоносемантические признаки