Тема: dm

NETFLIX

Уже с год порывался написать про Netflix, а стремительный товарищ Костя меня опередил.

Поэтому, просто даю ссылку на Костин пост. Ёмко и полезно.

Tags: , , , , | Make a comment

ПРИЧУДЫ КОРРЕЛЯЦИИ

Я уже как-то приводил пару занятных корреляций. Недавно наткнулся на пост Мэтью Зука из floatingsheep, в котором приводятся новые примеры.

Вот, скажем, явно положительно корреляция между средним ожирением населения городов и количеством христианских достопримечательностей:

Ну, и вообще, там есть чего почитать.

Tags: , , , | Make a comment

OKTRENDS PHOTO ANALYSIS

OkTrends продолжают радовать.

На сей раз они обработали более полумиллиона фотографий, загруженных на сайт службы знакомств; и в виде мини опроса заставили посетителей выбирать лучшую фотографию из случайных пар (11.4 миллионов выборов).

По итогам был составлен занятный отчет, включающий в себя информацию о том, снимки каких классов и моделей камер больше нравятся пользователям:

Остальное тоже интересно.

P.S. “The flash adds 7 years.”

Tags: , , , | Make a comment

LIFE & COMMUNICATION MINING

Сегодня поделюсь подборкой ссылок на некоторые проекты, посвященные анализу и моделированию поведения человека в [социальной] окружающей среде.

  • Во-первых, всё те же SocioPatterns, про которых я писал почти год назад. Они, судя по всему, продолжают эксперименты с анализом и визуализации информации о взаимодействии людей, собранной с помощью сети RFID-датчиков. Качественного прорыва у них пока, кажется, не произошло, но болтают интересно.
  • Во-вторых, конечно же, MIT-овский проект RealityMining. В нем 100 студентов/асприрантов/сотрудников MIT получили на год в бесплатное пользование Nokia 6600 с предустановленным софтом, собирающим информацию о положении относительно сотовых вышек, других участников (по Bluetooth), стационарных объектов (лабораторных компьютеров с включенным BT), а также об использовании телефона — подробные логи звонков, смс и использования приложений на телефоне.
    Полученные 500 тысяч человекочасов логов они серьезно и вдумчиво обрабатывают до сих пор — строят модели общения и поведения, рисуют странные диаграммы и прочее. И, кстати, дают (после переписки) возможность выкачать у них эти самые логи при условии, что на них будет делаться ссылка во всех вытекающих публикациях. Я их скачал, но с логами этими, правда, есть беда — там файл от бородатого 5-го матлаба, который при открытии в современных матлабах полностью теряет типизацию полей и портит данные. А, может, это у меня руки кривые.
    Так или иначе, проект очень занятный, для ознакомления всячески рекомендую.
  • В третьих, можно вспоминить DARPA-вскую тему LifeLog. В DARPA люди сидят серьезные, военные, так что про проект с 2003 года особо ничего не известно. Можно, однако, почитать request for proposal на этот проект, который сохранился в веб-архиве. Дословно там идет речь о системе “that captures, stores, and makes accessible the flow of one person’s experience in and interactions with the world in order to support a broad spectrum of associates/assistants and other system capabilities“, а также о задаче “to trace the “threads” of an individual’s life in terms of events, states, and relationships“.
  • Японцы какими-то неведомыми мне способами собрали суточную поминутную статистику о том, кто чем занимается в Токио. На удивительном веб-апплете можно, скажем, посмотреть сколько японок-домохозяек в полшестого вечера заняты шитьем в качестве хобби (около 35.5 тысяч). Данные взяты из каких-то исследований Statistics Bureau of Japan.
  • Про IBM-овский ManyEyes я уже писал в серии постов про Infovis — это огромная площадка, куда можно заливать свои данные и обрабатывать их одним из множества встроенных методов, после чего там же публиковать результаты. По сути, это ближе к визуализации, но и интересный анализ коммуникаций тоже попадается.
  • Из более новых и легковесных можно упомянуть Connected Action, чьи проекты в основном основаны на использовании их же системы NodeXL (мощного SNA-плагина к Excel). Последние месяцы они выкладывают разнообразные мини-исследования социальных коммуникаций вокруг тех или иных событий чуть ли не раз в неделю.
  • Интересна также контора Orgnet.com, занимающаяся исследованиями и разработкой софта в области SNA. Они утверждают, что принимали участие уже в более чем 500 проектов, ну, а на сайте у них выложено много интересных тематических статей и постов.

В заключение порекомендую для чтения книгу Филипа Болла “Критическая масса“, посвященную истории методов “социофизики” — т.е. применения физических подходов и моделей для анализа и моделирования социальной активности.

Tags: , , , , , | Make a comment

СОЗВЕЗДИЯ OZON

В рамках освоения всяческого нового инструментария сподобился я выкачать и поизучать связи между товарами онлайн-магазина OZON.ru.

Товары я, конечно, взял не все, ибо их там сильно много. Ограничился разделом “Зарубежное кино”, но и там оказалось больше 28 тысяч наименований. Эти товары раскиданы по очень большой и странной структуре каталога. Она (только для зарубежных фильмов) состоит из ~450 пунктов, изрядно переплетенных и перекрывающихся так, что один товар вполне может оказаться привязанным к 8-10 листовым разделам.

Что касается связей между товарами, то тут всё оказалось еще запутаннее. В первую очередь меня интересовала система рекомендаций, которую OZON судя по всему позаимствовал у Амазона и дополнил какими-то своими идеями. Меня, как пользователя, эта система поставила в совершеннейший тупик, ибо в ней одновременно присутствуют такие различные связи, как:

  • Этот же фильм в других форматах,
  • “Вместе с этим товаром покупают”,
  • “Купившие этот товар также покупают”,
  • “Те, кто смотрел эту страницу, затем купили”,
  • “Те, кто смотрел эту страницу, интересовались”.

Все эти связи вполне могут присутствовать у одного товара сразу. В чем разница между вторым и третьим типом связи я так и не понял; но еще более непонятно, что с этим всем делать бедному пользователю. Ну да шут с ними, зато не скучно.

Выкачав всю эту радость (~212 тысяч связей), я решил её порисовать, чтобы составить общее представление.
Некоторая укладка базы в целом, раскрашенная согласно принадлежности основным разделам, получилась вот такой:


(крупнее и с цветовой легендой)

Размер узлов, если не путаю, строил по PageRank-у.

Дальше интереснее.

Continue reading

Tags: , , , , | Make a comment

ФОТОРОБОТ СКВОТТЕРА

Когда делал свой небольшой анализ доменных имен, как-то совсем забыл про Wordle. Восполняю пробел — вот лицо среднего киберсквоттера в домене ru:

Для тех, кто не в курсе — это визуализация частоупотребимых слов в названиях доменов, зарегистрированных в течение последних 5 лет. Больше шрифт — чаще употребляется.

Tags: , , , | Make a comment

DMIMDB

Про кино давно не писал. А накопилось. Сегодня напишу простыню про свои эксперименты, а в следующий раз про то, как эпотажный экс-репортер Ва предсказал войну 2011 года или еще что-нибудь интересное.

Так, вот. Вчера провернул одну старую свою идею.

Мы с товарищем Ва давненько перемываем кости рейтингу top250 imdb. Дело там в том, собственно, что в рейтинге этом вперемешку фильмы очень хорошие и очень ээ.. голивудские. Голивудские в том смысле, что они может и неплохие, но одноразовые — например, мультфильмы типа “Корпорация Монстров“. В этом top250 соседние места занимают “Касабланка” и “Звездные Войны, эпизод 5“, а мультфильм “ВАЛЛ-И” обогнал “Сияние” Кубрика. Короче, в рейтинге много хорошего, но затруднительно напрямую использовать его содержимое как рекомендации к просмотру. Оно и понятно, т.к. ранжирование идет по формуле, учитывающей, в целом, только средние оценки и число голосовавших (формула эта там внизу приведена). А данных там гораздо больше.

Слегка поковырявшись на сайте imdb (и постоянно выпадая в платную pro-зону), я нашел следующие интересные показатели:

  • Позиция в рейтинге, оценка, название, год выпуска, число голосов — на странице top250.
  • Позиция в мужском рейтинге, мужская оценка, число мужских голосов — на странице male rate top50
  • Позиция в женском рейтинге, женская оценка, число женских голосов — на странице female rate top50
  • Сборы в США — на странице USA Box Office
  • Жанры — для этого уже надо залезать на страничку каждого конкретного фильма

Кроме этого я нашел еще данные по Оскарам и прочим наградам, данные по сборам в Европе и прочее, но решил пока это всё не трогать.

Совместив это всё в единую табличку (не по всем фильмам из top250 есть все данные, т.к. мужские и женские рейтинги содержат только по 50 строк) я ручками отметил те фильмы, которые мне достаточно сильно нравятся. Полный список из 27 “положительных” фильмов приводить не буду, но, чтоб вам было понятно, там оказались “Pulp Fiction“, “Полет над гнездом кукушки“, “Бойцовский клуб“, “Обычные подозреваемые“, “Семь“, “Memento“,”Леон“, “Сияние“, “Красота по американски“, “Карты, деньги, два ствола“, “Trainspotting“, “День сурка“, “Manhattan“, “Шоу Трумана“, “Бразилия” и разные другие. Кроме того, я расставил около 20 “отрицательных” пометок, в основном напротив мультфильмов и одноразовых боевиков. Более 200 фильмов осталось непомеченными.

Полученный микс я загрузил в Weka и прогнал несколько вариантов кластеризации с функцией качества, учитывающей мои пометки как целевые классы. Наиболее вменяемые результаты показали методы DensityBasedClustering и FilteringClustering (почитать в целом можно тут и тут). Последний предложил мне еще 26 фильмов, из которых только три оказались мне не по вкусу.

Итак, кинематографический DataMining рекомендует:

  • The Shawshank Redemption
  • The Godfather и The Godfather: Part II
  • Schindler’s List
  • 12 Angry Men
  • Casablanca
  • It’s a Wonderful Life
  • Citizen Kane
  • Forrest Gump
  • WALL·E
  • Saving Private Ryan
  • A Clockwork Orange
  • To Kill a Mockingbird
  • Up
  • 2001: A Space Odyssey
  • Full Metal Jacket
  • Gran Torino
  • Braveheart
  • Slumdog Millionaire
  • The Sixth Sense
  • The Big Lebowski
  • Amores perros
  • Casino
  • Crash
  • The Curious Case of Benjamin Button
  • Mulholland Dr.

Жалко только, что я из этого списка смотрел всё кроме одного фильма (который мне давно уже советуют разные друзья).
Кстати, если кому надо, табличку с данными и результатами я выложил сюда. Не забудьте только, что она сейчас более или менее отражает именно мои вкусы.

Tags: , , , | Make a comment