Шпаргалка Java програміста 7.1 Типові завдання: Оптимальний шлях перетворення InputStream в рядок


У мене є хобі: я збираю різні рішення типових завдань в Java, які знаходжу в інеті, і намагаюся вибрати найбільш оптимальний за розміром/продуктивності/елегантності. В першу чергу по продуктивності. Давайте розглянемо таку типову завдань, які часто зустрічаються в програмування на Java як "перетворення InputStream в рядок" і різні варіанти її вирішення.
Подивимося які обмеження є у кожного (вимоги підключення певної бібліотеки певної версії, коректна робота з unicode і т. д.). Англійську версію цієї статті можна знайти в моїй відповіді на stackoverflow. Тести в моєму проекті на github.
Загальний зміст 'Шпаргалок'1. JPA і Hibernate в питаннях і відповідях
2. Триста п'ятдесят найпопулярніших не мобільних Java opensource проектів на github
3. Колекції в Java (стандартні, guava, apache, скарб, gs-collections та інші)
4. Java Stream API
5. Двісті п'ятдесят російськомовних навчальних відео доповідей і лекцій про Java
6. Список корисних посилань для Java програміста
7 Типові завдання
  7.1 Оптимальний шлях перетворення InputStream в рядок
Якщо ви ще не бачив, раджу подивитися статтю Список корисних посилань для Java програміста, на мій погляд найбільш корисна з усіх моїх статей на даний момент.
Перетворення InputStream в рядок (String)
Дуже часто зустрічається завдання, давайте розглянемо якими способами можна це зробити (їх буде 11):
  1. Використовуючи IOUtils.toString з бібліотеки
    Apache Commons
    . Один з найкоротших однострочников.
    String result = IOUtils.toString(inputStream, StandardCharsets.UTF_8);

  2. Використовуючи CharStreams з бібліотеки
    guava
    . Теж досить короткий код.
    try(InputStreamReader reader = new InputStreamReader(inputStream, Charsets.UTF_8)) {
    String result = CharStreams.toString(reader);
    }

  3. Використовуючи
    Scanner
    JDK). Рішення короткий, хитре, з допомогою чистого JDK, але це скоріше хак, який винесе мозок тим хто про таке фокусі не знає.
    try(Scanner s = new Scanner(inputStream).useDelimiter("\\A")) { 
    String result = s.hasNext() ? s.next() : "";
    }

  4. Використовуючи Stream Api за допомогою
    Java 8
    . Попередження: Воно заміняє різні переноси рядків (такі як
    \r\n
    )
    \n
    , іноді це може бути критично.
    try(BufferedReader br = new BufferedReader(new InputStreamReader(inputStream))) {
    String result = br..lines().collect(Collectors.joining("\n"));
    }

  5. Використовуючи parallel Stream Api (
    Java 8
    ). Попередження: Як і 4 рішення, воно замінює різні переноси рядків (такі як
    \r\n
    )
    \n
    .
    try(BufferedReader br = new BufferedReader(new InputStreamReader(inputStream))) {
    String result = br.lines().parallel().collect(Collectors.joining("\n"));
    }

  6. Використовуючи InputStreamReader і StringBuilder зі звичайного
    JDK

    final int bufferSize = 1024;
    final char[] buffer = new char[bufferSize];
    final StringBuilder out = new StringBuilder();
    try(Reader in = new InputStreamReader(inputStream, "UTF-8")) {
    for (; ; ) {
    int rsz = in.read(buffer, 0, buffer.length);
    if (rsz < 0)
    break;
    out.append(buffer, 0, rsz);
    }
    return out.toString();
    }

  7. Використовуючи StringWriter і IOUtils.copy
    Apache Commons

    try(StringWriter writer = new StringWriter()) {
    IOUtils.copy(inputStream, writer, "UTF-8");
    return writer.toString();
    }

  8. Використовуючи ByteArrayOutputStream і inputStream.read
    JDK

    try(ByteArrayOutputStream result = new ByteArrayOutputStream()) {
    byte[] buffer = new byte[1024];
    int length;
    while ((length = inputStream.read(buffer)) != -1) {
    result.write(buffer, 0, length);
    }
    return result.toString("UTF-8");
    }

  9. Використовуючи BufferedReader
    JDK
    . Попередження: Це рішення замінює різні переноси рядків (такі як
    \n\r
    )
    line.separator
    system property (наприклад, у Windows на "\r\n").
    String newLine = System.getProperty("line.separator");
    try(BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream))) {
    StringBuilder result = new StringBuilder();
    String line; boolean flag = false;
    while ((line = reader.readLine()) != null) {
    result.append(flag? newLine: "").append(line);
    flag = true;
    }
    return result.toString();
    }

  10. Використовуючи BufferedInputStream і ByteArrayOutputStream
    JDK

    try(BufferedInputStream bis = new BufferedInputStream(inputStream); ByteArrayOutputStream buf = new ByteArrayOutputStream()) {
    int result = bis.read();
    while(result != -1) {
    buf.write((byte) result);
    result = bis.read();
    }
    return buf.toString();
    }

  11. Використовуючи inputStream.read() і StringBuilder (
    JDK
    ). Попередження: Це рішення не працює з Unicode, наприклад з російським текстом
    int ch;
    StringBuilder sb = new StringBuilder();
    while((ch = inputStream.read()) != -1)
    sb.append((char)ch);
    reset();
    return sb.toString();

Отже про використання:
  1. Рішення
    4
    ,
    5
    та
    9
    перетворю різні перенесення рядка в одну.
  2. Рішення
    11
    не працює з Unicode текстом
  3. Рішення
    1
    ,
    7
    вимагає використання бібліотеки Apache Commons,
    2
    вимагає бібліотеку Guava,
    4
    та
    5
    вимагають Java 8 і вище,
Виміри продуктивності
Попередження: виміри продуктивності завжди сильно залежать від системи, умов виміру і т. п. Я вимірював на двох різних комп'ютерах, один Windows 8.1, Intel i7-4790 CPU 3.60 GHz2, 16Gb, другий — Linux Mint 17.2, Celeron Dual-Core T3500 2.10 Ghz2, 6Gb, однак не можу гарантувати, що результати є абсолютною істиною, ви завжди можете повторити тести (test1 і test2) на вашій системі.
Виміри продуктивності для невеликих рядків (довжина = 175), тести можна знайти на github режим = середній час виконання (AverageTime), система = Linux Mint 17.2, Celeron Dual-Core T3500 2.10 Ghz*2, 6Gb, ніж значення нижче тим краще, 1,343 — найкраще):
Benchmark Mode Cnt Score Error Units
8. ByteArrayOutputStream and read (JDK) avgt 10 1,343 ± 0,028 us/op
6. InputStreamReader and StringBuilder (JDK) avgt 10 6,980 ± 0,404 us/op
10.BufferedInputStream, ByteArrayOutputStream avgt 10 7,437 ± 0,735 us/op
11.InputStream.read() and StringBuilder (JDK) avgt 10 8,977 ± 0,328 us/op
7. StringWriter and IOUtils.copy (Apache) avgt 10 10,613 ± 0,599 us/op
1. IOUtils.toString (Apache Utils) avgt 10 10,605 ± 0,527 us/op
3. Scanner (JDK) avgt 10 12,083 ± 0,293 us/op
2. CharStreams (guava) avgt 10 12,999 ± 0,514 us/op
4. Stream Api (Java 8) avgt 10 15,811 ± 0,605 us/op
9. BufferedReader (JDK) avgt 10 16,038 ± 0,711 us/op
5. parallel Stream Api (Java 8) avgt 10 21,544 ± 0,583 us/op

Виміри продуктивності для великих рядків (довжина = 50100), тести можна знайти на github режим = середній час виконання (AverageTime), система = Linux Mint 17.2, Celeron Dual-Core T3500 2.10 Ghz*2, 6Gb, ніж значення нижче тим краще, 200,715 — найкраще):
Benchmark Mode Cnt Score Error Units
8. ByteArrayOutputStream and read (JDK) avgt 10 200,715 ± 18,103 us/op
1. IOUtils.toString (Apache Utils) avgt 10 300,019 ± 8,751 us/op
6. InputStreamReader and StringBuilder (JDK) avgt 10 347,616 ± 130,348 us/op
7. StringWriter and IOUtils.copy (Apache) avgt 10 352,791 ± 105,337 us/op
2. CharStreams (guava) avgt 10 420,137 ± 59,877 us/op
9. BufferedReader (JDK) avgt 10 632,028 ± 17,002 us/op
5. parallel Stream Api (Java 8) avgt 10 662,999 ± 46,199 us/op
4. Stream Api (Java 8) avgt 10 701,269 ± 82,296 us/op
10.BufferedInputStream, ByteArrayOutputStream avgt 10 740,837 ± 5,613 us/op
3. Scanner (JDK) avgt 10 751,417 ± 62,026 us/op
11.InputStream.read() and StringBuilder (JDK) avgt 10 2919,350 ± 1101,942 us/op

Графік залежності середнього часу від довжини рядка, система Windows 8.1, Intel i7-4790 CPU 3.60 GHz 3.60 GHz, 16Gb:
enter image description here
Таблиця залежності середнього часу від довжини рядка, система Windows 8.1, Intel i7-4790 CPU 3.60 GHz 3.60 GHz, 16Gb:
довжина 182 546 1092 3276 9828 29484 58968

test8 0.38 0.938 1.868 4.448 13.412 36.459 72.708
test4 2.362 3.609 5.573 12.769 40.74 81.415 159.864
test5 3.881 5.075 6.904 14.123 50.258 129.937 166.162
test9 2.237 3.493 5.422 11.977 45.98 89.336 177.39
test6 1.261 2.12 4.38 10.698 31.821 86.106 186.636
test7 1.601 2.391 3.646 8.367 38.196 110.221 211.016
test1 1.529 2.381 3.527 8.411 40.551 105.16 212.573
test3 3.035 3.934 8.606 20.858 61.571 118.744 235.428
test2 3.136 6.238 10.508 33.48 43.532 118.044 239.481
test10 1.593 4.736 7.527 20.557 59.856 162.907 323.147
test11 3.913 11.506 23.26 68.644 207.591 600.444 1211.545

Висновки
  1. найшвидшим рішенням у всіх випадках і всіх системах виявився 8 тест: Використовуючи ByteArrayOutputStream і inputStream.read
    JDK

    ByteArrayOutputStream result = new ByteArrayOutputStream();
    byte[] buffer = new byte[1024];
    int length;
    while ((length = inputStream.read(buffer)) != -1) {
    result.write(buffer, 0, length);
    }
    return result.toString("UTF-8");

  2. Коротким і досить швидким рішенням буде використання IOUtils.toString з
    Apache Commons

    String result = IOUtils.toString(inputStream, StandardCharsets.UTF_8);

  3. Stream Api з Java 8 показує середній час, а використання паралельних стримов має сенс тільки при досить великий рядка, інакше він працює дуже довго (що в загальному-то було очікувано)
  4. Рішення 11 краще не використовувати в принципі, так як він працює повільніше всіх і не працює з Unicode,
p.s.
  1. Англійську версію цієї статті можна знайти в моїй відповіді на stackoverflow. Тести в моєму проекті на github. Якщо ця стаття вам сподобалася і ви поставите плюс на stackoverflow буду вам вдячний.
  2. Буду дуже вдячний за будь-які зауваження, виправлення, вказівки на помилки або інші способи перетворення InputStream в рядок
  3. Якщо ви ще не бачив, раджу подивитися статтю Список корисних посилань для Java програміста, на мій погляд найбільш корисна з усіх моїх статей на даний момент.
Загальний зміст 'Шпаргалок'1. JPA і Hibernate в питаннях і відповідях
2. Триста п'ятдесят найпопулярніших не мобільних Java opensource проектів на github
3. Колекції в Java (стандартні, guava, apache, скарб, gs-collections та інші)
4. Java Stream API
5. Двісті п'ятдесят російськомовних навчальних відео доповідей і лекцій про Java
6. Список корисних посилань для Java програміста
7 Типові завдання
  7.1 Оптимальний шлях перетворення InputStream в рядок

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.