Архивы

2016

Том 19, № 2 (2016)

Настоящий выпуск журнала «Электронные библиотеки» представляет собой тематический сборник статей, подготовленных сотрудниками Института прикладной семиотики Академии наук Республики Татарстан (www.ips.antat.ru). Институт прикладной семиотики выполняет фундаментальные и прикладные исследования в области прикладной семиотики, компьютерной и когнитивной лингвистики, интеллектуальных информационных технологий. Одним из ключевых проектов Института в настоящее время является разработка Национального корпуса татарского языка «Туган тел» (www.corpus.antat.ru). Этот проект выполняется в рамках мероприятий по государственной программе «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014 – 2020 годы» и нацелен на разработку аннотированного корпуса татарского языка для гуманитарных и образовательных приложений. Корпусное исследование языка дает богатейший материал для построения лингвистических моделей и ресурсов, применимых в задачах перевода, семиотических и когнитивных исследованиях, образовательных программах.

Обзорные статьи А.М. Галиевой и Р.Р. Гатауллина, представленные в настоящем выпуске, посвящены актуальным проблемам корпусной лингвистики – разрешению грамматической многозначности корпусных данных и подготовке лингвистических ресурсов, которые могут быть использованы при семантическом аннотировании корпусных данных. Для татарского языка в настоящее время отсутствуют большие коллекции данных со снятой многозначностью, что затрудняет применение методов машинного обучения в лингвистических приложениях. Тем не менее, авторы рассматривают машинное обучение как наиболее перспективное направление для снятия многозначности и показывают сравнительные оценки методов применительно к различным языкам. В статье А.М. Галиевой дан обзор основных англоязычных электронных лексикографических ресурсов, разработанных для представления семантики глагола. Данное направление имеет важнейшие применения в задачах обработки естественного языка, поэтому статья является весьма своевременной и актуальной.

Статья А.Ф. Хусаинова, А.Х. Хусаиновой и Р.А. Гильмуллина посвящена еще одному направлению деятельности Института прикладной семиотики, связанному с разработкой интеллектуальных обучающих систем и технологий. Эти исследования ориентированы на разработку семиотических моделей в обучении, их реализацию в прикладных системах и образовательных ресурсах, формирование концепции и методик обучения в условиях инфокоммуникационной образовательной среды. В названной статье описана технология создания электронных версий обучающих материалов в образовательной среде, построенной на основе принципов Smart Education – современного метода обучения, базирующегося на облачных технологиях и обеспечивающего интерактивность учебного процесса.

Публикуемые материалы отражают круг актуальных проблем и задач, которые были представлены для обсуждения на Международной конференции по компьютерной и когнитивной лингвистике TEL-2016, прошедшей в Казани 21–24 апреля 2016 года.

Составитель тематического выпуска О.А. Невзорова


2015

Том 18, № 3-4 (2015)

Настоящий выпуск журнала «Электронные библиотеки» представляет собой тематический сборник статей, посвященный проблеме автоматического анализа тональности текстов на русском языке.
Задача анализ тональности состоит в автоматическом определении отношения автора текста (позитивном, негативном или нейтральном) к объектам и ситуациям, о которых говорится в анализируемом тексте. В настоящее время автоматический анализ тональности используется в самых различных приложениях, ключая мониторинг репутации компаний и публичных персон, анализ общественных настроений в том или ином регионе, анализ сообществ в социальных сетях и многое другое.
В данном тематическом выпуске представлены статьи участников открытого тестирования систем анализа тональности на русском языке SentiRuEval, провeденном в 2014–2015 годах. В данном тестировании участникам были предложены для решения две основные задачи.
Первая задача состояла в автоматическом анализе отзывов пользователей в двух предметных областях (рестораны и автомобили) с целью определить основные характеристики обсуждаемых объектов (так называемые аспекты, например, салат, интерьер для ресторанов) и их оценку пользователем – автором отзыва.
Вторая задача заключалась в анализе постов Твиттера (твитов) для мониторинга репутации организаций в заданной сфере деятельности (банки и телекоммуникационные компании). Данная задача включает как выявление положительного или отрицательного отношения авторов твитов к заданным организациям,
так и оценку распространяемых в Твиттере позитивных или негативных новостей об этих организациях.
В статье Н.В. Лукашевич (НИВЦ МГУ им. М.В. Ломоносова) «Автоматический анализ текстов по отношению к заданному объекту и его характеристикам» представлен обзор задач, возникающих в рамках анализа тональности текстов по аспектам. Представлены особенности предлагаемых подходов и достигаемые ими характеристики качества.
Статья П.Д. Блинова и Е.В. Котельникова (Вятский государственный гуманитарный университет) «Семантическое сходство в задаче аспектно-эмоционального анализа» описывает совокупность подходов к анализу тональности текстов по аспектам, начиная с извлечения аспектов, их дальнейшей классификации и определению тональности. Подход к извлечению аспектов сущности основан на выявлении контекстов употребления слов, представления их в виде векторов и дальнейшем группировании этих слов в аспектные категории.
В статье группы авторов из Казанского федерального университета (Е.В. Тутубалина, В.В. Иванов, М.А. Загулова, Н.Р. Мингазов, И.С. Алимова, В.А. Малых) представлены подходы на основе методов машинного обучения к обеим задачам SentiRuEval: анализ отзывов и анализ твитов. Подробно описаны признаки, используемые в применяемых методах машинного обучения, их модификации в конкретных задачах, а также проведен анализ ошибок.
В статье Ю.В. Адаскиной, П.В. Паничевой и А.М. Попова (ООО «InfoQubes»,
Санкт-Петербургский государственный университет) исследуется вклад синтаксического анализа в задаче анализа тональности твитов. Для этого проводится синтаксический анализ твитов, получившаяся синтаксическая структура преобразуется в тройки вида (отношение, слово1, слово2), и затем эти тройки используются
как дополнительные признаки для системы классификации.
Статья П.Ю. Полякова, М.В. Калининой, В.В. Плешко (ООО «ЭР СИ О») посвящена рассмотрению лингвистико-инженерного подхода к анализу тональности твитов, включающего использование словаря оценочных слов, синтаксического анализатора, а также правил вычисления тональности на основе проведенного анализа.
В статье Ю.В. Рубцовой и С.А. Кошельникова (Институт систем информатики им. А.П. Ершова СО РАН) рассматриваются особенности применения известного метода машинного обучения CRF для анализа тональности твитов, анализируются ошибки полученного классификатора.
Нужно отметить, что мировая практика научных исследований в области автоматической обработки текстов свидетельствует о важности открытых тестирований типа SentiRuEval, в результате которых выявляются и получают большее распространение лучшие подходы, в целом ускоряется развитие автоматических систем. Поэтому практика проведения открытых тестирований становится все более распространенной в мире, в России также будут продолжаться такого рода тестирования автоматического анализа текстов на русском языке.

Н.В. Лукашевич

Том 18, № 1-2 (2015)

Настоящий выпуск журнала «Электронные библиотеки», включающий два его первых номера за 2015 год, представляет собой тематический сборник статей, посвященный вопросам поддержки жизненного цикла как отдельных научных статей, так и научных журналов в целом с использованием программных платформ управления электронными научными изданиями.

Сегодня электронные издания являются основным источником научной информации, а печатные издания имеют электронные варианты, доступные по подписке или в свободном доступе. Переход к электронной форме научных изданий обусловлен постоянно возрастающими объемами информации, обработка которой уже невозможна без применения информационно-коммуникационных технологий. Несмотря на их использование на всех этапах подготовки научных публикаций, организация большинства рабочих процессов остается традиционной, ориентированной на печатные издания. Причина такого положения – в сложившейся системе рассмотрения материалов в редакциях журналов, которые по-разному регламентируют правила их оформления и систему научного рецензирования.

В области хранения информации широко применяются технологии электронных библиотек, созданы соответствующие информационные системы, этой проблематике посвящено большое количество исследований. Однако вопросы создания самого контента, размещаемого в электронных коллекциях, менее исследованы.

На рубеже веков для обработки постоянно растущего объема научной информации стали создаваться специализированные информационно-издательские системы – ведущие мировые научные издательства внедрили системы автоматического управления рабочими процессами, в числе которых – наиболее сложные и длительные по времени редакционные процессы независимого научного рецензирования. Таким образом, к настоящему времени в мире внедрены десятки таких систем, построенных на различных программных платформах и позволяющих управлять редакционно-издательским процессом. Одновременно стал более оперативным доступ к результатам научных исследований. Информационные системы управления научными журналами и публикациями являются подклассом систем управления электронными библиотеками. Следовательно, при их создании могут быть использованы развитые и широко применяемые технологии электронных библиотек с учетом специфики бизнес-процессов, характерных для научного издания.

В соответствии с международными стандартами публикация научного журнала предполагает дальнейшую обработку публикуемых материалов информационно-аналитическими системами. К последним относятся международные библиографические и реферативные базы данных Scopus, Web of Science и Российский индекс научного цитирования. В течение последнего десятилетия они активно используются для оценки научного уровня как самих журналов, так и публикуемых ими статей с помощью ряда показателей (импакт-факторы журналов, индексы цитирования по различным базам данных и др.). Метаданные являются важным элементом научных публикаций, а их наличие и полнота важны для ориентации в научном пространстве и учета в аналитических системах. Программные платформы управления научными журналами позволяет автоматизировать процесс загрузки метаданных научного контента в базы научного цитирования.

В настоящем тематическом выпуске представлены статьи, посвященные созданию и развитию систем управления электронными научными журналами. В частности, проанализированы свободно распространяемые системы автоматизации редакционных бизнес-процессов и возможности их применения в работе электронных научных журналов; обсуждены дополнительные функции, востребованные редакциями таких журналов, предложены варианты их реализации с использованием дополнительных плагинов для самой распространенной в мире свободной программной платформы Open Journal Systems (OJS). Предложен алгоритм автоматического извлечения библиографических данных и метаданных из публикаций для экспорта в международные информационно-аналитические системы. Развиты методы интеграции платформы OJS и международных баз научного цитирования. Рассмотрен целый ряд близких вопросов и проблем.

Главный редактор журнала «Электронные библиотеки», составитель тематического выпуска А.М. Елизаров


11 - 16 из 16 результатов     << < 1 2