Тема: sndm

FACEBOOK MINING

Вот все радуются появившейся намедни карте дружбы Фейсбука, а, как по мне, так она скучная и неинтересная.

Гораздо более занятным мне показался прошлогодний проект Breakups от Ли Байрона и Дэвида МакКандлеса — этакая визуальная аналитика по разрывам отношений в Фейсбуке:

Помимо графика распределения вероятности разрыва от даты, там есть и другие интересные картинки, например, сравнения методов и причин разрыва отношений.

Ну и другие проекты Байрона заслуживают внимания, например, визуализации паттернов рифм в лимериках и прочей поэзии.

Tags: , , , , | Make a comment

NETFLIX

Уже с год порывался написать про Netflix, а стремительный товарищ Костя меня опередил.

Поэтому, просто даю ссылку на Костин пост. Ёмко и полезно.

Tags: , , , , | Make a comment

6 DEGREE

Дункан Уаттс, учёный, который в 90-ых вместе со Стивеном Строгатц подводил математическую базу под известный эксперимент Стенли Милграма по опеределению диаметра графа знакомств жителей США (эксперимент известен под названиями “Small world experiment” и “Six degrees of separation“) пишет новую книгу под названием “Everything Is Obvious* (*Once You Know the Answer)”. Она должна выйти в 2011, а сейчас доступен предзаказ на Амазоне.

Тем временем, можно посмотреть забавный документальный фильм “Six Degrees of Separation”, снятый по мотивам оригинального эксперимента.

Tags: , , | Make a comment

LIFE & COMMUNICATION MINING

Сегодня поделюсь подборкой ссылок на некоторые проекты, посвященные анализу и моделированию поведения человека в [социальной] окружающей среде.

  • Во-первых, всё те же SocioPatterns, про которых я писал почти год назад. Они, судя по всему, продолжают эксперименты с анализом и визуализации информации о взаимодействии людей, собранной с помощью сети RFID-датчиков. Качественного прорыва у них пока, кажется, не произошло, но болтают интересно.
  • Во-вторых, конечно же, MIT-овский проект RealityMining. В нем 100 студентов/асприрантов/сотрудников MIT получили на год в бесплатное пользование Nokia 6600 с предустановленным софтом, собирающим информацию о положении относительно сотовых вышек, других участников (по Bluetooth), стационарных объектов (лабораторных компьютеров с включенным BT), а также об использовании телефона — подробные логи звонков, смс и использования приложений на телефоне.
    Полученные 500 тысяч человекочасов логов они серьезно и вдумчиво обрабатывают до сих пор — строят модели общения и поведения, рисуют странные диаграммы и прочее. И, кстати, дают (после переписки) возможность выкачать у них эти самые логи при условии, что на них будет делаться ссылка во всех вытекающих публикациях. Я их скачал, но с логами этими, правда, есть беда — там файл от бородатого 5-го матлаба, который при открытии в современных матлабах полностью теряет типизацию полей и портит данные. А, может, это у меня руки кривые.
    Так или иначе, проект очень занятный, для ознакомления всячески рекомендую.
  • В третьих, можно вспоминить DARPA-вскую тему LifeLog. В DARPA люди сидят серьезные, военные, так что про проект с 2003 года особо ничего не известно. Можно, однако, почитать request for proposal на этот проект, который сохранился в веб-архиве. Дословно там идет речь о системе “that captures, stores, and makes accessible the flow of one person’s experience in and interactions with the world in order to support a broad spectrum of associates/assistants and other system capabilities“, а также о задаче “to trace the “threads” of an individual’s life in terms of events, states, and relationships“.
  • Японцы какими-то неведомыми мне способами собрали суточную поминутную статистику о том, кто чем занимается в Токио. На удивительном веб-апплете можно, скажем, посмотреть сколько японок-домохозяек в полшестого вечера заняты шитьем в качестве хобби (около 35.5 тысяч). Данные взяты из каких-то исследований Statistics Bureau of Japan.
  • Про IBM-овский ManyEyes я уже писал в серии постов про Infovis — это огромная площадка, куда можно заливать свои данные и обрабатывать их одним из множества встроенных методов, после чего там же публиковать результаты. По сути, это ближе к визуализации, но и интересный анализ коммуникаций тоже попадается.
  • Из более новых и легковесных можно упомянуть Connected Action, чьи проекты в основном основаны на использовании их же системы NodeXL (мощного SNA-плагина к Excel). Последние месяцы они выкладывают разнообразные мини-исследования социальных коммуникаций вокруг тех или иных событий чуть ли не раз в неделю.
  • Интересна также контора Orgnet.com, занимающаяся исследованиями и разработкой софта в области SNA. Они утверждают, что принимали участие уже в более чем 500 проектов, ну, а на сайте у них выложено много интересных тематических статей и постов.

В заключение порекомендую для чтения книгу Филипа Болла “Критическая масса“, посвященную истории методов “социофизики” — т.е. применения физических подходов и моделей для анализа и моделирования социальной активности.

Tags: , , , , , | Make a comment

ГРАФЬЯ И ПРОЧАЯ ТОПОЛОГИЯ

Несколько интересных, на мой взгляд, ссылок:

  • Неплохая статья про хранение графов и аналогичных структур в реляционных БД: “SQL meets social networks“.
  • Статья про подготовку данных о структуре сети для последующего анализа с помощью R и Gephi.
  • Интересный формализм half-edge structure — подход, позволяющий описывать топологию поверхностей, например, задавать с помощью графоподобной структуры такие объекты, как бутылка Клейна или проективная плоскость.
  • Библиотека Hemesh — реализация half-edge structures под язык Processing. Красивые картинки.
  • И чудесный пост о том, как связать на спицах проективную плоскость:

Tags: , , , , | Make a comment

DNDM

Недавно нашел интересный сайт с замечательным названием хуистори.ком. На сайте этом публикуется история регистрации доменных имен в зоне ru, история подневная, начиная с февраля 2006 года, т.е. на текущий момент уже почти за 4.5 года. Решил я эту историю немного покрутить-порисовать. Получилось с десяток картинок, их-то я и выкладываю с некоторыми пояснениями.

Это общий подневный график регистрации доменов + его сглаженная версия + кубический тренд. Явные выбросы — это активность сквоттеров. Общее впечатление — рост сходит на нет, деятельность сквоттеров приглушена с осени 2009 года.

Дальше интереснее.

Continue reading

Tags: , , , | Make a comment

NETWORKS, CROWDS & MARKETS

Еще одна интересная книга. “Networks, Crowds, and Markets” от авторов David Easley и Jon Kleinberg (по мотивам их курса лекций) выходит в этом году в Cambridge University Press.

Книга описывает математическую специфику структуры современных информационных сообществ — сетей общения, рынков, динамики распространения информации и прочее.

Книга доступна к предзаказу на амазоне и, что самое приятное, в виде pdf на сайте авторов.

Tags: , , | Make a comment

Я.Ф DENSITY

В продолжение экспериментов по визуализации геотеггированных фотографий решил построить распределение Яндекс.Фоток на карте Москвы. Уж где-где, а там фотографий Москвы предостаточно.

Были некоторые технические проблемы — API Я.Ф не предоставляет никаких возможностей по поиску фотографий по положению и/или по тегам. С другой стороны, на Яндекс.Картах эти фотки хорошо видно с привязкой к местности — и, как выяснилось, видно их через приличное json-овское API (недокументированное, вестимо). Немного реверсинжиниринга fiddler-ом, небольшой скрипт — и ~сорок тысяч фотографий успешно собраны в локальную таблицу. Информация по ним, правда, пока скудная: широта, долгота и уникальный идентификатор. Остальную информацию можно ресолвить через API Я.Ф, но по одной фотографии за раз. Этого я делать не стал, дабы не загружать чужой сервер, не нарываться на бан, да и вообще было лениво. Поэтому решил пока исследовать исключительно плотность распределения (картинка распределения, кстати, получилась вот такая).

А вот как выглядит карта плотности (в данном случае, это карта высот, совмещенная с heatmap):

Меж прочим освоил под это дело питоновский matplotlib — полезная и удобная штука, если к питону привыкнуть.

Данные сглажены, значения, как водится, прологарифмированы. Будет время, подумаю как цивилизованно вытащить детали по всем этим фотографиям. Советы инсайдеров приветствуются ;)

PS. Выяснил, что id фотографии имеет внутреннюю структуру, так что можно группировать фото по авторам без доп. запросов. Но за датой/временем каждой фотографии все равно придется лазить отдельным запросом. Хотя… если идентификаторы назначаются монотонно возрастающими (проверить), можно сотней-другой запросов получить опорные точки для построения апроксимирующей функции время(id). Для задачи построения маршрутов и разделения туристов/аборигенов такой точности должно хватить. Потом подумаю.

Tags: , , , , | Make a comment

TWITTER SUPER BOWL

Старенький, но интересный пост аналитика из Twitter-а про то, как анализируется активность пользователей во время суперкубка — упоминания кубка и рекламных брендов и прочее:

И, как легкий оффтопик, презентация, довольно доходчиво объясняющая основы архитектуры их базы и методы борьбы с нагрузкой, используемые в Twitter-е, а так же предполагаемые в будущем модификации.

Tags: , , | Make a comment

MORPHING CITY

Пару месяцев назад я упоминал о проекте визуализации Лиссабонского дорожного трафика. Автор проекта, Pedro M Cruz, продолжает занятные изыскания. В конце мая он выложил видео The Morphing City.

Общая идея ролика такова: сеть дорог выполняет роль скелета, а данные о средней скорости в опеределенный момент на каждом участке используются для динамического расчета напряженности “пружины”, связывающей соответствующие участки сети. В итоге география города деформируется под воздействием пробок, увеличивая расстояния до труднодостижимых участков за счет искривления в третьем измерении.



Посмотреть результаты (и краткое описание) можно тут. А парой постов ранее он выкладывал какие-то странные промежуточные результаты.

А мне вот что подумалось. Сама идея очень неплохо перекликается с классической метафорой ОТО. Возникает мысль попробовать применить уравнения ОТО к этой деформированной поверхности, чтобы расчитать положения и перемещения “масс” — возможно это даст какой-то наглядный способ описания трафика.

Tags: , , , | Make a comment