Тема: sna

ANOTHER FACEBOOK STATUS ANALYSIS

Очередной анализ статусов Facebook. Ничего супер-нового, но в целом занятно:

Полностью посмотреть можно тут.

Tags: , , , | Make a comment

СОЦСЕТИ ПЕРСОНАЖЕЙ ФИЛЬМОВ

Товарищ Michael Schober нарисовал карты соцсетей по сценариям нескольких фильмов. Вот, например, Бэтмен:

А по ссылке еще несколько. Любопытно, поддаются ли они классификации по морфологии (т.е. на макро уровне)?

Tags: , , | Make a comment

CLUES & MOODS

Если кто не видел, портал Yahoo не так давно запустил забавный сервис — Yahoo Clues. В двух словах — это аналог Google Trends, но с разбивкой ищущих по социально-демографическим срезам. Занятная игрушка.

Ну, и чтобы два раза не вставать, дам ссылку на относительно старое, но интересное исследование “Pulse of Nation” — попытка извлечь меняющееся во времени настроение пользователей твиттера из твитов и нанести на карту США. Радует почти вечнозеленая Флорида (Шурик, привет!). Куча графиков, наглядный ролик и много ссылок на сопутствующие материалы в конце страницы.

Tags: , , | Make a comment

TRUTHY CLASSIFICATION

Интересный проект по визуальному сопоставлению деревьев распространения мемов (политических) в твиттере:

Так уже и до морфологической классификации недалеко.

Tags: , , | Make a comment

NETFLIX

Уже с год порывался написать про Netflix, а стремительный товарищ Костя меня опередил.

Поэтому, просто даю ссылку на Костин пост. Ёмко и полезно.

Tags: , , , , | Make a comment

6 DEGREE

Дункан Уаттс, учёный, который в 90-ых вместе со Стивеном Строгатц подводил математическую базу под известный эксперимент Стенли Милграма по опеределению диаметра графа знакомств жителей США (эксперимент известен под названиями “Small world experiment” и “Six degrees of separation“) пишет новую книгу под названием “Everything Is Obvious* (*Once You Know the Answer)”. Она должна выйти в 2011, а сейчас доступен предзаказ на Амазоне.

Тем временем, можно посмотреть забавный документальный фильм “Six Degrees of Separation”, снятый по мотивам оригинального эксперимента.

Tags: , , | Make a comment

ПРО GEPHI

Я уже упоминал и использовал систему анализа и визуализации графов Gephi. Сегодня расскажу чуть подробнее, т.к. она действительно того стоит.

Девиз системы — “Like Photoshop™ for graphs”.

Главное достоинство Gephi в том, что она открыта для использования и наращивания. Базовая функциональность системы не слишком велика, но включает все самое необходимое: импорт графов из нескольких популярных форматов (и напрямую из таблиц mysql/postgree), фильтрация данных, расчет стандартных показателей (degree и его распределение, PageRank, betweenness, диаметр сети и прочее), несколько базовых методов укладки, раскраска и изменение размеров узлов на базе загруженных и расчитанных атрибутов, общая стилизация, экспорт.

Но за счет постоянного роста числа плагинов эта функциональность существенно и быстро растет. Например, недавно вышли плагин импорта семантической сети текста через AlchemyAPI и плагин экспорта больших изображений под Seadragon (если кто не знает, это такой виджет для публикации и просмотра огромных картинок с зумом в google-maps-стиле). А еще, в данный момент анонсированы, например, плагины для импорта сетей из Twitter, Facebook и New York Times API, плагин для обработки живого потока событий, расширенная система обработки загруженных данных и подсистема поддержки современных GPU.

Из недостатков системы, пожалуй, отмечу небольшое пока число алгоритмов укладки (но это со временем пройдет) и общая неповоротливость java-приложения (однако, с моими 30k-50k графами она в целом успешно справляется).

P.S. Ну и чтоб два раза не вставать, упомяну про Gremlin — графо-ориентированный язык программирования. Наткнулся на него недавно, пока вдумчиво не изучал.

Tags: , , , , | Make a comment

LIFE & COMMUNICATION MINING

Сегодня поделюсь подборкой ссылок на некоторые проекты, посвященные анализу и моделированию поведения человека в [социальной] окружающей среде.

  • Во-первых, всё те же SocioPatterns, про которых я писал почти год назад. Они, судя по всему, продолжают эксперименты с анализом и визуализации информации о взаимодействии людей, собранной с помощью сети RFID-датчиков. Качественного прорыва у них пока, кажется, не произошло, но болтают интересно.
  • Во-вторых, конечно же, MIT-овский проект RealityMining. В нем 100 студентов/асприрантов/сотрудников MIT получили на год в бесплатное пользование Nokia 6600 с предустановленным софтом, собирающим информацию о положении относительно сотовых вышек, других участников (по Bluetooth), стационарных объектов (лабораторных компьютеров с включенным BT), а также об использовании телефона — подробные логи звонков, смс и использования приложений на телефоне.
    Полученные 500 тысяч человекочасов логов они серьезно и вдумчиво обрабатывают до сих пор — строят модели общения и поведения, рисуют странные диаграммы и прочее. И, кстати, дают (после переписки) возможность выкачать у них эти самые логи при условии, что на них будет делаться ссылка во всех вытекающих публикациях. Я их скачал, но с логами этими, правда, есть беда — там файл от бородатого 5-го матлаба, который при открытии в современных матлабах полностью теряет типизацию полей и портит данные. А, может, это у меня руки кривые.
    Так или иначе, проект очень занятный, для ознакомления всячески рекомендую.
  • В третьих, можно вспоминить DARPA-вскую тему LifeLog. В DARPA люди сидят серьезные, военные, так что про проект с 2003 года особо ничего не известно. Можно, однако, почитать request for proposal на этот проект, который сохранился в веб-архиве. Дословно там идет речь о системе “that captures, stores, and makes accessible the flow of one person’s experience in and interactions with the world in order to support a broad spectrum of associates/assistants and other system capabilities“, а также о задаче “to trace the “threads” of an individual’s life in terms of events, states, and relationships“.
  • Японцы какими-то неведомыми мне способами собрали суточную поминутную статистику о том, кто чем занимается в Токио. На удивительном веб-апплете можно, скажем, посмотреть сколько японок-домохозяек в полшестого вечера заняты шитьем в качестве хобби (около 35.5 тысяч). Данные взяты из каких-то исследований Statistics Bureau of Japan.
  • Про IBM-овский ManyEyes я уже писал в серии постов про Infovis — это огромная площадка, куда можно заливать свои данные и обрабатывать их одним из множества встроенных методов, после чего там же публиковать результаты. По сути, это ближе к визуализации, но и интересный анализ коммуникаций тоже попадается.
  • Из более новых и легковесных можно упомянуть Connected Action, чьи проекты в основном основаны на использовании их же системы NodeXL (мощного SNA-плагина к Excel). Последние месяцы они выкладывают разнообразные мини-исследования социальных коммуникаций вокруг тех или иных событий чуть ли не раз в неделю.
  • Интересна также контора Orgnet.com, занимающаяся исследованиями и разработкой софта в области SNA. Они утверждают, что принимали участие уже в более чем 500 проектов, ну, а на сайте у них выложено много интересных тематических статей и постов.

В заключение порекомендую для чтения книгу Филипа Болла “Критическая масса“, посвященную истории методов “социофизики” — т.е. применения физических подходов и моделей для анализа и моделирования социальной активности.

Tags: , , , , , | Make a comment

ONLINE DATING LIES

В серии постов про инфовиз я уже упоминал, что в официальном блоге службы знакомств okcupid.com часто выкладывают очень интересные статистические исследования.

С месяц назад там появился еще один занятный пост — “The Big Lies People Tell In Online Dating” — о том, кто и как врёт при заполнении анкеты службы знакомств. Рекомендую, много интересных мыслей и хитрой статистики.

Tags: , , , | Make a comment

СОЗВЕЗДИЯ OZON

В рамках освоения всяческого нового инструментария сподобился я выкачать и поизучать связи между товарами онлайн-магазина OZON.ru.

Товары я, конечно, взял не все, ибо их там сильно много. Ограничился разделом “Зарубежное кино”, но и там оказалось больше 28 тысяч наименований. Эти товары раскиданы по очень большой и странной структуре каталога. Она (только для зарубежных фильмов) состоит из ~450 пунктов, изрядно переплетенных и перекрывающихся так, что один товар вполне может оказаться привязанным к 8-10 листовым разделам.

Что касается связей между товарами, то тут всё оказалось еще запутаннее. В первую очередь меня интересовала система рекомендаций, которую OZON судя по всему позаимствовал у Амазона и дополнил какими-то своими идеями. Меня, как пользователя, эта система поставила в совершеннейший тупик, ибо в ней одновременно присутствуют такие различные связи, как:

  • Этот же фильм в других форматах,
  • “Вместе с этим товаром покупают”,
  • “Купившие этот товар также покупают”,
  • “Те, кто смотрел эту страницу, затем купили”,
  • “Те, кто смотрел эту страницу, интересовались”.

Все эти связи вполне могут присутствовать у одного товара сразу. В чем разница между вторым и третьим типом связи я так и не понял; но еще более непонятно, что с этим всем делать бедному пользователю. Ну да шут с ними, зато не скучно.

Выкачав всю эту радость (~212 тысяч связей), я решил её порисовать, чтобы составить общее представление.
Некоторая укладка базы в целом, раскрашенная согласно принадлежности основным разделам, получилась вот такой:


(крупнее и с цветовой легендой)

Размер узлов, если не путаю, строил по PageRank-у.

Дальше интереснее.

Continue reading

Tags: , , , , | Make a comment