Тема: datamining

GRAPH CHI

В начале июля всплыл отличный проект GraphChi, которой может сильно облегчить жизнь исследователям, работающим с большими объемами информации.

Авторы предлагают подход, позволяющий гонять на обычном десктопе обработку больших графов с эффективностью, сопоставимой с работой среднего кластера. Так, три итерации расчёта по этому методу PageRank-а над графом из 1.5 миллиардов ребёр на Mac Mini с SSD-диском заняли 13 минут (сравнить Spark-кластером из 50 машин, где эта же задача заняла 8.1 минуты).

Похоже на магию, но на самом деле логика довольно простая — коль скоро граф у нас уже в любом случае не помещается в память, авторы предлагают сразу эффективно хранить его на харде, минимизируя число операций “не-последовательного” чтения.

Не очень понятно, сколько в таком режиме протянет обычная SSD-шка, но сама идея выглядит очень изящной.

Сама система (с несколькими уже готовыми примерами применения, типа PageRank, Community Detection, etc) доступна в исходном коде на C++ здесь. Кроме того, есть её частичный порт на Java, он лежит тут. Жду, когда кто-нибудь сподобится переписать на питоне ;)

Tags: , , , , | Make a comment

CLUSTERS ZOO

Наглядное сравнение нескольких алгоритмов кластеризации — из примеров питоновой библиотеки scikit-learn:

Сама библиотека мне сильно пригодилась при очередном анализе облаков геотегированных фотографий.
Ну и другие примеры там впечатляют.

Tags: , , , , | Make a comment

ЗАБАСТОВКА ДАТАМАЙНЕРОВ

Узкоспециализированный юмор: фото протестных выступлений датамайнеров в Питтсбурге:

Больше фотографий.

Tags: , , | Make a comment

VIRTUAL ECONOMICS

Valve наняла известного греческого экономиста Яниса Варуфакиса для консультации по слиянию двух иговых экономик. Гейб Ньювел (президент Valve) руководствовался аналогией между его задачей и ситуацией между Грецией и Германией. Сама история приглашения Яниса достаточно забавна и описана тут.

Среди прочего, Янис теперь будет вести выделенный блог на сайте Valve, где обещает выкладывать свои достижения:

Горстка цитат из открывающего поста:

“For let’s face it: Econometrics is a travesty! While its heavy reliance on statistics often confuses us into believing that it is a form of applied statistics, in reality it resembles computerised astrology: a form of hocus pocus that seeks to improve its image by incorporating proper science’s methods, displays and processes.”

“Think of it: An economy where every action leaves a digital trail, every transaction is recorded; indeed, an economy where we do not need statistics since we have all the data! …Valve’s digital economies are a marvelous test-bed for meaningful experimentation. …we can change the economy’s underlying values, rules and settings, and then sit back to observe how the community responds, how relative prices change, the new behavioural patterns that evolve. An economist’s paradise indeed…”

“Starting from today, I shall be committing to this blog weekly reports on our projects, experiences and ideas regarding Valve’s various social ‘economies’.”

Tags: , , , | Make a comment

DRUG MINING

Товарищи из Беркли взяли текстовые описания ощущений эмм.. добровольцев от принятия различных наркотиков и обучили на них random forest classifier, что позволило построить систему автоматического распознования принятого вещества по характерным эпитетам испытуемого:

Ссылки:
* Попсовый пересказ сути работы
* Собственно, статья на arxiv.org

Tags: , , , | Make a comment

IRONSPREAD

Для любителей тонких извращений: IronSpread — плагин для MS Excel 2010, позволяющий писать макросы на питоне.

Have fun.

Tags: , , , , | Make a comment

DATAMINING PRIMER

Нашелся очень доходчивый букварь по методам DataMining-а, оформленный в странной полуграфической форме.
Для знакомых с темой там ничего нового, скорее всего, не найдется. Но новичкам будут полезны доходчивые определения и куча примеров задачек под Orange и Weka.

Ну, и, чтобы два раза не вставать, дам пару ссылок на занятные интерактивные визуализации:

Tags: , , | Make a comment

ANOTHER FACEBOOK STATUS ANALYSIS

Очередной анализ статусов Facebook. Ничего супер-нового, но в целом занятно:

Полностью посмотреть можно тут.

Tags: , , , | Make a comment

FOURSQUARE HEATMAP

Сервис WhereDoYouGo от Steven Lehrburger позволяет генерировать тепловые карты на основе записей в Foursquare. Т.е. если вы достаточно долго пользуетесь Forsquare для выставления отметок о своём местопребывании, вы сможете посмотреть на карту своего присутствия. Примерно так:

И еще много различных примочек для lifelogging-а.

Tags: , , , | Make a comment

МАШИНА ПРОТИВ ТОЛПЫ

Согласно недавнему исследованию товарищей из Yelp, Inc. классификатор на основе Naive Bayes побеждает в схватке с Amazon’s Mechancial Turk в решении задачи верификации и классификации адресных данных различных организаций.

Еще раз, для нормальных людей: программа с довольно известным алгоритмом справляется с задачами в духе “определите является ли этот url официальным адресом компании Х” лучше, чем исполнители из Mechancial Turk (сервис Amazon-а, позволяющий нанять толпу “космонавтов”, которые за центы будут массированно выполнять однообразные действия).

Краткое описание результатов тут, а сама статья, собственно тут. Выходит этакий антитест Тьюринга.

Tags: , | Make a comment