Джентельменський набір пакетів R для автоматизації бізнес-завдань

Продовження попередніх публікацій «Інструменти DataScience як альтернатива класичної інтеграції»
«Екосистема R як інструмент для автоматизації бізнес-завдань».
Ця стаття є відповіддю на питання, що виникли по пакетах R, які корисні для реалізації описаних підходів. Я її розглядаю виключно як довідкову інформацію, і відправну точку для подальшого детального вивчення зацікавилися, оскільки за кожним пакетом ховається величезний простір зі своєю філософією та ідеологією, математикою і шляхами розвитку.
Як правило, всі пакети (9109 штук на 07.09.2016) знаходяться в репозиторії CRAN. Ті, що по тим або іншим причинам, поки не опубліковані в репозиторій, можуть бути знайдені на GitHub. Отже, коротким списком:
Пакети Hadley Wickham (Hadleyverse
Детально про пакети можна прочитати на репозиторії GitHub
  • 'dplyr' — розширення граматичних конструкцій для маніпуляцій з даними. В якості вступної статті, я б порадив "dplyr and pipes: the basics", незважаючи на те, що опублікована вона була в 2014-му році
  • 'ggplot2' — розширення граматичних конструкцій для візуалізації. Уявлення про можливості можна отримати у книзі "Cookbook for R", голова "Graphs"
  • 'scales' — розширення ggplot2 для масштабування осей графіків
  • 'ggmap' — розширення ggplot2 для роботи з картографією
  • 'lubridate' — "магія" по роботі з датами і часом. Ідеологія описана в статті "Dates and Times Made Easy with lubridate"
  • 'readr' — покращений імпорт текстових даних в R
  • 'forcats' — покращена робота з категориальными змінними
  • 'tibble' — сучасне переосмислення штатної структури даних data.frame
  • 'readxl' — імпорт excel в R
  • 'purrr' — розширення граматичних конструкцій для функціонального програмування
  • 'tidyr'- покращена робота з "брудними" вихідними даними. Ідеологія описана в статті "Tidy Data"
  • 'reshape2' — покращена трансформація даних. Ідеологія описана в статті "Reshaping Data with the reshape Package"
  • 'stringr' — покращена робота з текстовими рядками
  • 'curl' — покращений підхід для роботи з даними по HTTP
  • 'httr' — спрощений підхід по роботі з даними по протоколу http
  • 'xml2' — покращена робота з підтримки XML
Елементи програмування і роботи з даними
  • 'futile.logger' — розвинена система логування
  • 'iterators' — підтримка ітераторів
  • 'magrittr' — граматтика маршрутизація даних (pipe)
  • 'jsonlite' — спрощена підтримка JSON
  • 'sp' — підтримка роботи з геоданными
  • 'data.table' — розширення штатної моделі даних data.frame для роботи з великими даними
  • 'broom' — перетворення даних стат. функцій у формат tidy data (див. вище). Детально можна ознайомитися в статті broom: An R Package for Converting Statistical Analysis Objects Into Tidy Data Frames
  • 'knitr' — підготовка документів різних форматів (статика та інтерактив, детальніше тут з єдиного формату R Markdown. В цілому, це взагалі окремий світ.
Shiny і веб форми
  • 'shiny' — сам фреймворк
  • 'shinythemes' — додаткові теми (shiny побудований на bootstrap)
  • 'highcharter' — врапперов для highcharts
  • 'shinydashboard' — набори функцій для побудови дашбордов (трохи застарів)
  • 'flexdashboard' — сучасний підхід до побудови дашбордов. Детально можна ознайомитися тут
  • 'shinyjs' — додатковий JS інтерактив
  • 'htmlwidgets' — підтримка html віджетів, галерея тут
  • 'plotly' — інтерфейс до інтерактивної системи візуалізації Plot.ly. Детально можна ознайомитися тут
  • 'leaflet' — врапперов для інтерактивних карт JS leaflet. Детально можна ознайомитися тут
  • 'DT' — врапперов для інтерактивних таблиць JS DataTable. Детально можна ознайомитися тут
  • 'rbokeh' — R інтерфейс до бібліотеки візуалізації Bokeh. Детально можна ознайомитися тут
Кольори і теми
  • 'RColorBrewer' — пакет для гнучкої роботи з квітами
  • 'viridis' — колірна палітра Virdis. Деталі тут
  • 'wesanderson' — ще палітра
  • 'ggthemes' — теми для ggplot2. Деталі тут
У своїй діяльності я ще використовую 2-3 десятка інших пакетів, але вони мають більш вузьку специфіку, або просто забезпечують коннекти до зовнішніх источикам (ODBC, No-SQL, git, dropbox, etc.)
Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.