Как работают
Яндекс.Новости
Татьяна Исаева
Руководитель службы Яндекс.Новости
Миссия Яндекса –
отвечать на заданные
и незаданные вопросы
пользователей
Задачи Яндекс.Новостей
На главной странице Яндекса удовлетворяют потребность
пользователей в актуальной информации
– Незаданный вопрос: «Что сейчас происходит?»
В Поиске отвечают на явно сформулированные вопросы
пользователей
– Заданные вопросы: «Таганский ряд», «Ким Чен Ын», «свадьба Пугачёвой»
4 Принципы Яндекс.Новостей Полностью автоматический сервис Партнерский сервис Единые требования для всех изданий Зеркало медиа-среды Цели:
Отразить новостную картину дня и дать ссылки на издания, содержащие наиболее полную информацию о событиях.
Полностью автоматический сервис Все страницы сервиса формируются автоматически (с помощью алгоритмов) Ручное вмешательство в работу алгоритмов невозможно.
Модераторов и редактора у сервиса нет Топ-5 новостей на главной странице Яндекса также представляет собой результат работы алгоритмов.
Сервис обновляется каждые 20 минут Партнёры Яндекс.Новостей На данный момент — около 6000 изданий, количество постоянно растёт Индексируются все издания, которые обратились с заявкой, и чей контент отвечает требованиям, изложенным на следующем слайде Партнёрство оформляется юридически Новостной контент Соответствие формату (не подходят для трансляции реклама, пресс-релизы компаний, блоги, тв-программа, гороскопы...) Технические требования (доступность сайта, отдельные адреса для каждого сообщения...) Требования законодательства (защита прав на интеллектуальную собственность; противодействие терроризму; защита чести, достоинства, репутации…) Модель сервиса Читатели Вопрос Пользователи Издания Обеспечивают Узнают новости на Яндексе (30 млн человек в сутки) Читают подробности у источников (3,5 млн человек в сутки) Задают вопросы о новостях (300 тыс. запросов в сутки) Релевантный новостной ответ Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следующие свойства сообщений:
– принадлежность первоисточнику – оперативность – цитируемость – информативность Источники, у которых доминируют такие сообщения, предлагаются пользователям в первую очередь.
Основные продукты Яндекс.Новостей пользователей пользователей пользователей пользователей Сюжет Основные задачи Выбор заголовка Создание аннотации сюжета Основные задачи Представление Отображение разных точек зрения основных актуальных на одно событие фактов сюжета Предоставление Отражение развития материалов о событии Схема создания сюжета поискового запроса заголовков сюжета из ключевых слов документа, построение матрицы близости документов Выбор статей содержащих основные Сюжет в Яндекс.Новостях Сюжет в Яндекс.Новостях Выбор заголовка сюжета Соответствие региону пользователя Лексическая и фактологическая «ядерность»
Актуальность фактов Информативность и читаемость Цель:
Первый по времени заголовок, наиболее полно отражающий актуальную фактическую сторону сюжета, не содержащий нехарактерных для сюжета слов и фактов.
Заголовок сюжета Создание аннотации сюжета Из самых весомых сообщений сюжета автоматически выделяются наиболее значимые объекты, имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации.
Цель:
Показать предложения из сообщений, содержащие основные факты, события.
Аннотация сюжета. Информативность Аннотация сюжета. Информативность Выбор основных заголовков сюжета Цитирование источника в сюжете Дата публикации Вес источника Цель:
Должны быть представлены первоисточник(и), наиболее цитируемые источники и заголовки, отражающие актуальное состояние сюжета.
Выбор заголовков для первой страницы. Цитируемость в сюжете Интерфакс Выбор заголовков для первой страницы. Цитируемость в сюжете Интерфакс 12: 11: 10: Цитируемость Дата публикации Определение рубрики и географии сюжета Тематическая рубрика – Специализация изданий – Рубрикация от источника – Лексические запросы Цель:
Получить все новости рубрики и региона.
Определение рубрики и географии сюжета География – Выделение обозначений географических объектов из сообщений сюжета – Автоматическое определение релевантных для сюжета географических объектов – Карта населенного пункта, адреса Цель:
Получить все новости рубрики и региона.
Главные новостные сюжеты Цель:
Отобрать самые освещаемые в СМИ, общезначимые, актуальные и вызывающие интерес пользователей события Определение веса сюжета Вес отдельного Динамика сообщения сюжета Время создания Плотность Место новости Вес источника сообщений партнёров Соответствие Время жизни сюжета специализации агентства Вес источника Цитируемость учитывает, насколько часто ссылаются на издание другие новостные ресурсы Оперативность учитывает, насколько часто издание быстро реагирует на события Вес изданий пересчитывается каждую неделю Tоп-10 самых цитируемых агентств (в алфавитном порядке) По данным еженедельно обновляемого отчёта, формируемого роботом Яндекс.Новостей Поиск по Яндекс.Новостям Выдача с группировкой по сюжетам Сортировка результатов по важности Возможности расширенного поиска Фильтры по жанрам Поиск по пресс-портретам, цитатам, архивным сюжетам, БД СМИ Главная страница Яндекс.Новостей Цель:
дать более развернутый и структурированный ответ на вопрос «что происходит». Главное в разных срезах (разные рубрики, жанры, ньюсмейкеры, …).
Информация для СМИ Отслеживание перепечаток Определение дубликатов Специальный интерфейс для СМИ Что необходимо для индексации Отслеживание перепечаток 25% всех сообщений онлайн-СМИ содержат ссылки на другие издания (гиперссылки или текстовые упоминания). 10% из них являются перепечатками, то есть практически полностью копируют тексты других сообщений. Еще около 15% всех сообщений — перепечатки без ссылок на источник.
Осенью 2010 только 30% изданий ни разу не перепечатали чужих материалов вчистую.
По данным аналитического отчета Яндекса «Медиасфера Рунета. Сентябрь 2010 – Январь 2011»
download.yandex.ru/company/yandex_on_internet_media_spring_2011.pdf Яндекс.Новости предоставляют для индексируемых СМИ специальный сервис - поиск похожих новостных сообщений.
Определение дубликатов Перед формированием сюжета автоматически определяются группы очень похожих документов («дубликатов»).
Из каждой группы остается по одному сообщению («мастеру»), которое может быть представлено на страницах сюжета и в результатах поиска.
«Мастер» определяется по времени публикации сообщения на сайте, по сравнительному анализу текстов, по цитированию источника (учитываются гиперссылки, текстовые упоминания).
«Дубликаты» по умолчанию не представлены в сюжетах и не участвуют в поиске по Яндекс.Новостям.
Специальный интерфейс для СМИ Специальный интерфейс для СМИ Предназначен для поиска похожих новостных сообщений (дубликатов, заимствований, цитат и т.п.).
Используются те же алгоритмы, что и в массовом сервисе Яндекс.Новости, что позволяет увидеть все ошибки алгоритма в разметке дубликатов.
Находит связи сообщения по заголовку или фрагменту текста.
Для индексации необходимо:
Прочитать news.yandex.ru/cooperation.html Подать заявку на info@news.yandex.ru Выполнить технические требования Подписать соглашение с Яндексом Спасибо за внимание!
Татьяна Исаева Руководитель службы Яндекс.Новости info@news.yandex.ru