Дайджест статей з аналізу даних і big data

    Частенько читаю Хабр і помітив що останнім часом з'явилися Дайджести новин за багатьма тематиками, таким як веб-розробка на php, розробка на Python, мобільні програми, але не зустрів жодного добірки по популярному зараз напрямку, а саме аналізу даних і big data.
 
Нижче я вирішив зібрати невелику підбірку матеріалів по даній темі. Т.к. російською матеріалів не так багато, в даний дайджест потрапили переважно англомовні статті.
 
Кого зацікавила дана тема прошу підкат. А також чекаю зауважень, побажань і доповнень, буду дуже радий зворотного зв'язку.
 
 
Читати далі →

Автоматична розстановка пошукових тегів

  У цій статті ми спробуємо розповісти про проблему множинної класифікації на прикладі рішення задачі автоматичної розстановки пошукових тегів для текстових документів у нашому проекті www.favoraim.com . Добре знайомі з предметом читачі швидше за все не знайдуть для себе нічого нового, проте в процесі вирішення цього завдання ми перечитали багато різної літератури де про проблему множинної класифікації говорилося дуже мало, або не говорилося взагалі.
 
Отже, почнемо з постановки задачі класифікації. Нехай X — безліч описів об'єктів, Y — безліч номерів (або найменувань) класів. Існує невідома цільова залежність — відображення y ^ *: X → Y, значення якої відомі тільки на об'єктах кінцевої навчальної вибірки X ^ m = {(x_1, y_1), ..., (x_m, y_m)}. Потрібно побудувати алгоритм a: X → Y, здатний класифікувати довільний об'єкт x ∈ X. Однак більш поширеним є імовірнісна постановка задачі. Нехай X — безліч описів об'єктів, Y — безліч номерів (або найменувань) класів. На безлічі пар «об'єкт, клас» X × Y визначена імовірнісна міра P. Мається кінцева навчальна вибірка незалежних спостережень X ^ m = {(x_1, y_1), ..., (x_m, y_m)}, отриманих згідно ймовірнісної мірою P.
 
Читати далі →

Data Mining в Big Data: рейтинг цитованості ЗМІ в соціальних медіа

  «Який же аналітик не любить Big Data!» — Так можна перефразувати популярну прислів'я про швидку їзду. 650 мільйонів повідомлень соцмедіа від 35 мільйонів авторів, 358000000 посилань, з яких 110 мільйонів «коротких» — такий обсяг даних був проаналізований за березень 2014р, щоб скласти рейтинг цитованості ЗМІ.
У даному пості ми поговоримо про методолого-технологічних аспектах, а також запропонуємо обговорити ідеї «поглибленого буріння» Data Mining соцмедіа. Зацікавлених запрошуємо під кат.
 image
 
Читати далі →

Частина перша, а друга частина все одно ніхто не читає

  Про що власне мова
Якось раз одним пізнім грудневого вечора завершився збір матеріалу для Хабра-статті, присвяченій SAT. Матеріалу виявилося занадто багато і переді мною постав вибір: розділити статтю на дві частини або зібрати весь матеріал разом в одній статті. Вибір був зроблений на користь поділу на частини (перша і другий ). На мій подив, друга частина отримала значно менше уваги, ніж перша — фактично її прочитали в два рази менше людей.
 
Час йшов, і я став помічати, що це відбувалося не тільки з моїми статтями, але і з багатьма іншими статтями в декількох частинах. Тоді у мене виникло питання, а чи вірно в загальному, що друга частина отримує менше уваги (переглядів, плюсів, і записів обраного)?
 
(Зроблено на основі Хабра-статті Як брехати за допомогою статистики )
 
Структура статті
 
     
  1. Про що власне мова
  2.  
  3. Дані
  4.  
  5. Порівнюємо частини
  6.  
  7. Серії статей
  8.  
  9. Висновок
  10.  
  11. Подальше читання
  12.  
 
Читати далі →

CTOcast # 1: Кирило Сафонов (RuTarget)

  Представляємо перший випуск подкасту про технології, процесах, інфраструктурі та людей в IT-компаніях (нульовий випуск можна послухати і почитати тут ). Сьогодні в гостях у "CTOcast" — Кирило Сафонов, технічний директор компанії RuTarget.
Читати далі →

ФБР планує збільшити базу розпізнавання осіб до 52 млн зображень

  Фонд електронних рубежів опублікував нові документи про біометричної бази даних Next Generation Identification (NGI), яка розробляється за замовленням ФБР і повинна почати роботу влітку 2014 року. Документи отримані в ході судового процесу проти ФБР з приводу засекречування інформації про цей проект.
 
Відповідно до документів, базу NGI вже наступного року планують розширити до 52 млн індивідуальних записів. У перспективі вона може містити біометричні дані на третину населення США. ФБР має намір отримати частину інформації з «цивільних джерел», тобто для розпізнавання облич людей, які, можливо, ніколи не скоювали злочинів.
 
Фонд електронних рубежів попереджає, що автоматичне розпізнавання осіб в такому масштабі становить реальну загрозу для недоторканності приватного життя всіх американців.
 
Читати далі →

2ndb - зошит для записів, яка вивчає, а потім покращує того, хто в неї пише

  У тебе є такі друзі, які весь час щось записують в зошит або в файлик в Google Docs? Ти запитував у них про те, навіщо вони це роблять, і що саме вони туди пишуть? Якщо ні, то відповім за них (нема за всіх, але за багатьох):
 
Це вживана їжа (в тому числі її енергетична цінність), витрати, час, що витрачається на серіали (ігри, роботу, спорт), їх плани на майбутнє, їх відчуття від того, що вони споживають (наприклад, оцінка шоколадок) та інші метрики і відомості про їх життя.
 
 Ð˜Ð»Ð»ÑŽÑÑ‚рация: между двух книг лежит толстая тетрадка с пружиной
 
Але задумайся: якщо інформації настільки багато, і вона настільки докладна, то ж напевно з цих даних можна щось отримати? Використовуючи їх, можна обчислити щось ще. Знайти тенденції, закономірності. І тоді це вже буде не просто зошит, а дійсно цінний і незамінний інструмент, який не тільки дозволяє зберігати інформацію, а й може давати поради. Він міг би рекомендувати людині скорегувати щось у своєму житті таким чином, який, згідно з результатами статистичного обчислення, з найбільшою ймовірністю дасть бажаний результат.
 
Саме таку систему я б і хотів описати більш докладно: програмний продукт, здатний збирати інформацію (на початкових етапах це в основному ті дані, які користувач надає самостійно, регулярно заносячи їх у систему) і, аналізуючи її, знаходити в ній різні тенденції , пов'язувати різноманітні аспекти людського життя з яких-небудь загальним параметрами (наприклад, виявляючи хронологічну зв'язок) і інформувати користувача в тому випадку, якщо у системи є для нього які-небудь рекомендації, поради або застереження .
 
Одним з ключових компонентів цього програмного комплексу є система автоматичного виявлення тенденцій (скорочено — САОТ).
 
Читати далі →

Жива нейросеть з даних від клієнтів на iOS і Android

  Ми продовжуємо розповідати про розроблену нами нейромережі та кластерному аналізі для проекту favoraim.com . Щоб наочно уявити, як розвивається нейросеть в часі, ми спробували інтерпретувати зміни в ній в невелике відео, яке показує життя мережі від її «створення» до притягнення першого трафіку — користувачів Хабра.
 
Вибух на початку — це народження нейромережі, яка отримала першу інформацію при запуску. Потім система починає обростати нейронами — новими смисловими одиницями і користувачами. Точки — це користувачі. Чим більше схожі їх інтереси, поведінку, активність і введені дані, тим ближче вони розташовані один до одного. Сірі лінії — це пружини, які моделюють систему, вони відображають зв'язку в нейромережі.
Новий користувач з'являється у випадковому положенні з «натягнутими пружинами».
Читати далі →

Як ваші твіти розкривають ваше місце розташування

       

Дослідники з IBM розробили алгоритм, що дозволяє визначати місце проживання користувача з точністю до 70% шляхом аналізу 200 його останніх твітів.

 
 USA tweets
 
Читати далі →