Программа

Программа в формате PDF
Слайды докладов единым архивом (17 МБ)

9:30–10:00
Регистрация участников
10:00–10:15
Приветствие участников GraphHPC-2014
Воеводин В.В., чл.-корр. РАН, НИВЦ МГУ
Симонов А.С., к.т.н., ОАО «НИЦЭВТ»
10:15–10:40
Райгородский А.М., проф., д.ф.-м.н., Яндекс/Мехмат МГУ/МФТИ
В докладе речь пойдет о задачах, возникающих в связи с исследованием графовой структуры Интернета и других подобных сетей.
10:40–11:05
Согласование графов и конкурентные системы
Любецкий В.А., проф., д.ф.-м.н., ИППИ РАН
Как найти граф (дерево) «среднее» для данного набора графов (деревьев)? Другая задача. Дана последовательность в фиксированном алфавите. На ней отмечены два типа участков, называемых промоторами и генами (на каждом указано направление). Для каждого промотора задана очередь попыток связаться с ним одинаковых объектов. В момент попытки объект успешно связывается, если промотор свободен от всех других объектов; после чего объект начинает двигаться в указанном направлении. При встречном столкновении оба объекта покидают последовательность. Каковы частоты прохождений генов в указанных направлениях. Эта важная задача далека от теоретического анализа и с трудом поддаётся моделированию на многопроцессорных системах.
11:05–11:30
Фролов А.С., DISLab/ОАО «НИЦЭВТ»
В докладе будет представлен краткий обзор существующих инструментальных средств параллельной обработки графов с использованием суперкомпьютеров и кластерных систем, а также тенденции их развития. Будут представлены результаты первичного оценочного тестирования нескольких инструментальных систем, таких как Apache Giraph, GraphLab, Yappi и Green-Marl на задаче поиска кратчайшего пути к вершинам графа (Single Source Shortest Path).
11:30–12:00
Кофе-брейк
12:00–12:25
Горбунов В.С., к.т.н.; Титов А.Г., ФГУП «НИИ «Квант»
Основной проблемой, которую приходится решать в больших вычислительных системах, предназначенных для обработки информации, представляемой в виде графов, является достижение требуемой скорости работы с памятью и обмена данными между параллельными процессами. Современные процессоры массового производства, на основе которых создаются вычислительные кластеры, имеют значительные ограничения, как по функциональным возможностям работы с памятью, так и по абсолютным характеристикам пропускных возможностей каналов. В результате этого вычислительные кластеры имеют ограниченное масштабирование производительности и, в ряде случаев, не могут достигнуть приемлемой эффективности, в том числе и энергетической. Для преодоления проблемы использования вычислительных кластеров при решении рассматриваемого типа задач предлагается использовать микроэлектронную элементную базу программируемых логических интегральных схем (ПЛИС). ПЛИС обеспечивают более чем на порядок выше скорость работы с памятью внутреннего и внешнего типа. Имеется множество высокоскоростных каналов, которые можно использовать для межпроцессных коммуникаций. Для отработки техники программирования и построения эмуляторов ориентированных на рассматриваемые задачи проблемно-ориентированных процессоров предлагается использовать инструментарий создаваемой моделирующей гибридной вычислительной системы (МГВС). В докладе рассматривается структура и возможности МГВС, а также характеристики модулей на ПЛИС, которые использованы в этой системе.
12:25–12:50
Корж А.А., к.ф.-м.н., Т-Платформы
В докладе описывается разработанная автором коммуникационная библиотека DISLIB, позволяющая распараллеливать Data-Intensive приложения на десятки тысяч ядер при сохранении простоты программирования. Показано как с помощью нее автором были получены рекордные результаты суперкомпьютера «Ломоносов» в списке Graph500 на бенчмарке поиска вширь (BFS). Приводятся код и результаты для программы поиска кратчайшего пути в графе (SSSP), написанной с помощью DISLIB.
12:50–13:15
Позднеев А.В., к.ф.-м.н., IBM
В докладе будет дан обзор второго поколения алгоритмов BFS, с помощью которых были получены результаты для систем IBM Blue Gene/Q Mira и Sequoia, отраженные в редакциях рейтинга Graph500 за 2012-2013 годы. Будут описаны структура для хранения графа, схема декомпозиции данных, принципы балансировки нагрузки и методы, позволяющие в ряде случаев на порядок сократить число ребер, которые необходимо рассмотреть в процессе обхода. Вторая часть доклада будет посвящена новому параллельному алгоритму решения задачи SSSP. Алгоритм характеризуется существенно меньшим по сравнению с известными алгоритмами объемом межпроцессорных коммуникаций. Будут рассмотрены классы оптимизаций, направленные на решение проблемы балансировки нагрузки для больших графов, а также вопросы уменьшения количества итераций алгоритма и числа релаксаций ребер. В докладе будет показано влияние отдельных приемов оптимизации на производительность алгоритмов BFS и SSSP на системах архитектуры IBM Blue Gene/Q. Материалы для доклада любезно предоставлены доктором Fabrizio Petrini (IBM Research) и будут опубликованы в трудах конференции IPDPS-2014.
13:15–13:40
Милаков М.В., NVIDIA
Графические процессоры широко используются для ускорения вычислительно емких, хорошо структуированных проблем. Графовые задачи ограничены не мощностью вычислительного блока, а задержками обращений к памяти и ее пропускной способностью; они также гораздо менее структуированны, ход их выполнения существенным образом зависит от данных. Тем не менее, эти задачи также могут быть ускорены на GPU. В докладе будет сделан обзор архитектуры графических процессоров, приведены примеры ускорения ряда графовых задач на GPU.
13:40–14:40
Обед
14:40–15:05
Кукушкин А.В., Тихонов А.В., Яндекс
Каждый день Яндекс обрабатывает сотни миллионов запросов. Группа аналитики поиска ставит перед собой амбициозную цель: понять как устроено это множество и проследить его эволюцию во времени. Изучение структуры позволяет, например, выделять крупные классы запросов и строить специальные системы поиска для них (поиск по людям, поиск по музыке). Выявление трендов помогает, например, готовить систему к изменениям на рынке (рост числа мобильных запросов). Для решения этой задачи строится граф, в котором вершины — это запросы, а связи тем сильнее, чем больше похожи запросы по смыслу. Затем граф кластеризуется и соединяется в похожие кластеры в соседних днях. В докладе будет рассказано, как именно строится граф, какими средствами он кластеризуется, будут продемонстрированы некоторые результаты, показаны проблемы, с которыми приходится сталкиваться.
15:05–15:30
Грузликов А.М.; Колесов Н.В., д.т.н., проф.; Скородумов Ю.М.; Толмачева М.В, к.т.н., ОАО «Концерн «ЦНИИ «Электроприбор», г. Санкт-Петербург
Доклад посвящен приложению теории графов к решению проблемы планирования и мониторинга параллельных вычислений. Решение проблемы опирается на анализ взвешенных графов заданий — совокупности задач, связанных отношением предшествования и представляющих собой подграф информационного графа системы. При этом рассматриваются также процедуры аттестации алгоритмов планирования и мониторинга, требующие статистического исследования и предполагающие случайную генерацию графов заданий.
15:30–15:55
Шеблаев М.В., Русаков А.С., ИППМ РАН
При решении неструктурированных задач на распределенных вычислительных системах возникает необходимость разбиения исходной высокоразмерной задачи на подзадачи для того, чтобы решать каждую из них на выделенных узлах. При этом требуется сбалансировать использование вычислительных ресурсов и минимизировать межпроцессорные коммуникации. Если исходная задача может быть описана в виде графа или гиперграфа, то задача балансировки может быть решена с помощью алгоритмов сбалансированного разбиения графа. В нашей работе разработан новый многоуровневый алгоритм разбиения графа. Предложены новые эвристики и комбинации эвристик для FM-алгоритма, позволяющие решать задачу минимизации разбиения графа с лучшим качеством.
15:55–16:20
Климов А.В.; Окунев А.С., к.т.н.; Левченко Н.Н., к.т.н.; Змеев Д.Н., ИППМ РАН
Задача SSSP (Single Source Shortest Paths) - это хороший пример задачи, в которой необходимость синхронизации (барьеров или иных глобальных коллективных операций) сочетается с высокой пространственно-временной неоднородностью рабочей нагрузки, что пагубно отражается на масштабируемости. Удается добиваться высокой масштабируемости через асинхронное решение, опирающееся только на попарно-точечные взаимодействия, возможно, ценой некоторой лишней работы. Такие решения удобно создавать, описывать и объяснять в потоковой модели вычислений в парадигме раздачи (опирающейся на обмен односторонними сообщениями), что и демонстрируется в докладе с использованием графического языка представления потоковых программ.
16:20–16:40
Кофе-брейк
16:40–17:05
Черноскутов М.А., ИММ УрО РАН, г. Екатеринбург
В докладе представлена GPU-реализация теста производительности Graph500. Основными отличительными особенностями данной custom-реализации является механизм балансировки нагрузки между вычислительными потоками на GPU, а также работа с глобальной битовой маской, хранящей информацию обо всех размеченных вершинах. Данная реализация проводит разметку как массива предшествующих вершин, так и массива уровней, и при этом демонстрирует ускорение в два раза по сравнению со стандартной replicated-реализацией, выполняющей только разметку массива предшествующих вершин.
17:05–17:30
Семенов А.С., к.т.н.; Головина Е.А.; Фролов А.С., DISLab/ОАО «НИЦЭВТ»
В докладе представляются результаты исследования выполнения поиска вширь в графе на сопроцессорах семейства Intel Xeon Phi. Для получения высокой производительности применен потоковый подход с эффективным использованием пропускной способности памяти при последовательном доступе, с сохранением нерегулярного доступа к памяти, при этом необходимо было осуществить ручную развертку цикла и преднакачку данных в кэш. В сравнении с Intel Xeon E5-2660 для разных графов Intel Xeon Phi 7120P оказался в среднем быстрее на 37%, в лучшем случае — на 78%. Intel Xeon Phi 5110P быстрее Intel Xeon E5-2660 в лучшем случае на 34%, медленнее в худшем случае на 29%, в среднем производительность приблизительно одинаковая. Полученный на Intel Xeon Phi 7120P результат в 4366 миллионов пройденных дуг в секунду вошел в ноябрьскую редакцию рейтинга Graph500 (2013 год) и занял 89-ое место среди всех систем и 4-ое место среди исследовательских групп в классе одноузловых систем на базе платформы x86.
17:30–18:00
Объявление итогов конкурса
18:00–18:20
Закрытие GraphHPC-2014