Що нам варто сайт розпарсити. Основи webdriver API

Пошук житла, інформації про товари, вакансій, знайомств, порівняння товарів фірми з конкурентами, дослідження відгуків у мережі.



В інтернет опубліковано багато корисної інформації і вміння отримувати дані допоможе в житті і роботі. Навчимося отримувати інформацію з допомогою webdriver API. У публікації наведу два приклади, код яких доступний на github. В кінці статті скрінкасти про те, як програма управляє браузером.

Програма або скрипт за допомогою вебдрайвера керує вашим браузером — виконує введення тексту, перехід за посиланнями, клацнути по елементу, витягує дані з сторінки та її елементів, робить скріншоти сайту і т. п.

Для роботи webdriver потрібно два компоненти: браузер/сервер протоколу і клієнтська частина у вигляді бібліотеки для вашого мови програмування.

Ви можете використовувати webdriver API з різних мов програмування та віртуальних машин: офіційні клієнти webdriver є для C#, Ruby, Python, Javascript(Node), а так же клієнти від спільноти Perl, Perl 6, PHP, Haskell, Objective-C, Javascript, R, Dart, Tcl.

На даний момент Webdriver є стандарту W3C, над яким все ще йде робота. Спочатку Webdriver API з'явився в проекті selenium для цілей тестування, в результаті еволюції Selenium-RC API.

В якості сервера використовується окремий процес «розуміє» мову протоколу. Цей процес керує вашим браузером. Є такі драйвера:

  • AndroidDriver
  • ChromeDriver
  • FirefoxDriver
  • InternetExplorerDriver
  • SafariDriver
З цього списку виділяються два драйвера:

  • HtmlUnitDriver — є обгорткою для бібліотеки HtmlUnit-емулятора браузера, яка працює в тому ж java процесі, що і клієнтська частина
  • PhantomJSDriver — це браузер на основі webkit без графічної частини (headless) і драйвер в одному процесі з сервером.
Суть технології...

Мінімум теорії для подальшої роботи. Послідовність дій клієнта
Отже, наш вибір phantomjs. Це повноцінний браузер, який управляється за протоколом webdriver. Можна запускати безліч його процесів одночасно, не потрібно графічна підсистема, всередині повноцінно виповнюється javascript (в контраст з обмеженнями htmlunit). Якщо писати сценарії javascript і передавати його як параметр при старті, то phantomJS може їх виконувати і без вебдрайвер протоколу і навіть доступна налагодження за допомогою іншого браузера.



Описане нижче відноситься здебільшого до API для java/groovy. В клієнтах інших мов список функцій і параметрів повинен бути схожий.

Отримуємо сервер з вебдрайвером.
String phantomJsPath = PhantomJsDowloader.getPhantomJsPath()

Завантажує phantomjs з репозитарію maven, розпаковує і повертає шлях до цього браузеру. Для використання потрібно підключити до проекту бібліотеку з maven: com.github.igor-suhorukov:phantomjs-runner:1.1.

Цей крок можна пропустити, якщо ви попередньо встановили в локальну файлову систему вебдрайвер для вашого браузера.

Створюємо клієнт, єднаємося з сервером
WebDriver driver = new PhantomJSDriver(settings)

Конфігурує порт для взаємодії з webdriver протоколу, запускає процес phantomjs і підключається до нього.

Відкриваємо в браузері сторінку
driver.get(url)

Відкриває в браузері сторінку для заданої адреси.

Отримуємо интересующу нас інформацію
WebElement leftmenu = driver.findElement(By.id("leftmenu"))
List<WebElement> linkList = leftmenu.findElements(By.tagName("a"))

У примірника драйвера driver і у елемента, отриманого з нього, є два корисних методу: findElement, findElements. Перший повертає елемент або кидає виняток NoSuchElementException, якщо елемент не знайдений. Другий — повертає колекцію елементів.

Елементи можна вибирати за такими запитами org.openqa.selenium.By:

  • id
  • name
  • tagName
  • xpath
  • className
  • cssSelector
  • linkText
  • partialLinkText
Я буду активно використовувати id, tagName і xpath. Для не знайомих з xpath — рекомендую розібратися на прикладах або за статтями, а лише потім перейти до читання специфікації.

Виконуємо дії з елементами на сторінці і зі сторінкою
З елементом можна робити наступне:

  • menuItem.click() — посилає елементу подія клік
  • inputField.sendKeys(«blah-blah») — посилає елементу події натискання клавіш
  • formButton.submit() — відправляє дані форми, викликаючи подія submit
driver.getScreenshotAs(type)

Робить знімок вікна браузера. Корисним доповненням до стандартної функції знімка рекомендую бібліотеку aShot — вона дозволяє робити знімок тільки певного елемента у вікні і дозволяє порівнювати елементи зображення.

Скріншоти можна отримати як:

  • OutputType.BASE64 — рядок в цьому форматі, можна, наприклад, вставити в HTML embedded картинку
  • OutputType.BYTES — масив байт і крутись з ним як вмієш
  • OutputType.FILE — файл, для багатьох інструментів самий зручний спосіб
Закриваємо з'єднання з браузером
driver.quit()

Закриває з'єднання по протоколу і в нашому випадку зупиняє процес phantomjs.

Приклад 1: Гуляємо groovy скриптом за профілями соціальної мережі
Запустимо команду:

java -jar <a href="http://central.maven.org/maven2/com/github/igor-suhorukov/groovy-grape-aether/2.4.5.1/groovy-grape-aether-2.4.5.1.jar">groovy-grape-aether-2.4.5.1.jar</a> <a href="https://raw.githubusercontent.com/igor-suhorukov/crawler-example/master/crawler.groovy">crawler.groovy</a> http: //??.com/catalog.php

Скрипт в консолі надрукує шлях до html-файлу, що створив на основі інформації з соціальної мережі. На сторінці ви побачите ім'я користувача, момент останнього відвідування соцмережі і скріншот всієї сторінки користувача.

Навіщо запускати груви скрипт за допомогою groovy-grape-aether-2.4.5.1Про збірку груви groovy-grape-aether-2.4.5.1.jar нещодавно розповідав у статті «Вулична магія в скриптах або що пов'язує Groovy, Ivy і Maven?». Головна відмінність від groovy-all-2.4.5.jar — можливість роботи механізму Grape з репозитариями більш коректним порівняно з ivy способом, за допомогою бібліотеки aether, а так само наявність класів доступу до репозитариям в збірці.

crawler.groovy
package com.github.igorsuhorukov.phantomjs

@Grab(group='commons-io', module='commons-io', version='2.2')
import org.apache.commons.io.IOUtils
@Grab(group='com.github.detro', module='phantomjsdriver', version='1.2.0')
import org.openqa.selenium.*
import org.openqa.selenium.phantomjs.PhantomJSDriver
import org.openqa.selenium.phantomjs.PhantomJSDriverService
import org.openqa.selenium.remote.DesiredCapabilities
@Grab(group='com.github.igor-suhorukov', module='phantomjs-runner', version='1.1')
import com.github.igorsuhorukov.phantomjs.PhantomJsDowloader

public class Crawler {
public static final java.lang.String USER_AGENT = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36"

public static void run(String baseUrl) {

def phantomJsPath = PhantomJsDowloader.getPhantomJsPath()

def DesiredCapabilities settings = new DesiredCapabilities()
settings.setJavascriptEnabled(true)
settings.setCapability("takesScreenshot", true)
settings.setCapability("userAgent", com.github.igorsuhorukov.phantomjs.Crawler.USER_AGENT)
settings.setCapability(PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY, phantomJsPath)

def WebDriver driver = new PhantomJSDriver(settings)

def randomUrl = null
def lastVisited=null
def name=null

boolean pass=true
while (pass){
try {
randomUrl = getUrl(driver, baseUrl)
driver.get(randomUrl)
def titleElement = driver.findElement(By.id("title"))
lastVisited = titleElement.findElement(By.id("profile_time_lv")).getText()
name = titleElement.findElement(By.tagName("a")).getText()
pass=false
} catch (NoSuchElementException e) {
System.out.println(e.getMessage()+". Try again.")
}
}
String screenshotAs = driver.getScreenshotAs(OutputType.BASE64)
File resultFile = File.createTempFile("phantomjs", ".html")
OutputStreamWriter streamWriter = new OutputStreamWriter(new FileOutputStream(resultFile), "UTF-8")
IOUtils.write("""<html><head><meta http-equiv="content-type" content="text/html; charset=UTF-8"></head><body>
<p>${name}</p><p>${lastVisited}</p>
<img alt="Embedded Image" src="data:image/png;base64,${screenshotAs}"></body>
</html>""", streamWriter)
IOUtils.closeQuietly(streamWriter)

println "html ${resultFile} created"

driver.quit();
}

static String getUrl(WebDriver driver, String baseUrl) {

driver.get(baseUrl)

def elements = driver.findElements(By.xpath("//div[@id='content']//a"))
def element = elements.get((int) Math.ceil(Math.random() * elements.size()))
String randomUrl = element.getAttribute("href")
randomUrl.contains("catalog") ? getUrl(driver, randomUrl) : randomUrl
}
}

Crawler.run(this.args.getAt(0))

Добре знають груви, помітять що Geb більш відповідне рішення. Але оскільки воно ховає за своїм DSL всю роботу з webdriver, то в наших навчальних цілях Geb не підходить. З естетичних міркувань я з вами погоджуся!

Приклад 2: Витягаємо дані про проекти з java-source програми на java
Приклад доступний тут. Для запуску потрібна java8, так як використовуються стріми і try-with-resources.

git clone https:// github.com/igor-suhorukov/java-webdriver-example.git
mvn clean package -Dexec.args="http:// java-source.net"

У цьому прикладі використовую xpath і axis для отримання інформації сторінки. Як приклад, фрагмент класу Project.

WebElement main = driver.findElement(By.id("main"));
name = main.findElement(By.tagName("h3")).getText();
description = main.findElement(By.xpath("//h3/following-sibling::table/tbody/tr/td[1]")).getText();
link = main.findElement(By.xpath("//td[text()='HomePage']/following-sibling::*")).getText();
license = main.findElement(By.xpath("//td[text()='License']/following-sibling::*")).getText();

Частина витягнутих з сайту даних. Файлу projects.xml — результат роботи програми
<?xml version="1.0" encoding="UTF-8" standalone="так"?>
<projects source="http://java-source.net">
<category>
<category>Open Source Ajax Frameworks</category>
<project>
<name>DWR</name>
<description>DWR is a Java open source library which allows you to write Ajax web sites. It allows code in a browser to use Java functions running on a web server just as if it was in the browser. DWR works by dynamically generating Javascript based on Java classes. The code does some Ajax magic to make it feel like the execution is happening on the browser, but in reality the server is executing the code and DWR is marshalling the data back and forwards.</description>
<license>Apache Software License</license>
<link>http://getahead.org/dwr</link>
</project>
<project>
<name>Google Web Toolkit</name>
<description>Google Web Toolkit (GWT) is an open source Java software development framework that makes writing AJAX applications like Google Maps and Gmail easy for developers who don't speak browser quirks as a second language. Writing dynamic web applications today is a tedious and error-prone process; you spend 90% of your working time around subtle incompatibilities between web browsers and platforms, and JavaScript's lack of modularity makes sharing, testing, and reusing AJAX components and difficult fragile. GWT lets you avoid many of these headaches while offering your users the same dynamic, standards-compliant experience. You write your front end in the Java programming language, and the GWT compiler converts your Java classes to browser-compliant JavaScript and HTML.</description>
<license>Apache Software License</license>
<link>http://code.google.com/webtoolkit/</link>
</project>
<project>
<name>Echo2</name>
<description>Echo2 is the next-generation of the Echo Web Framework, a platform for developing web-based applications that approach the capabilities of rich clients. The version 2.0 holds true to the core concepts of Echo while providing dramatic performance, capability, and user-experience enhancements made possible by its new Ajax-based rendering engine.</description>
<license>Mozilla Public License</license>
<link>http://www.nextapp.com/platform/echo2/echo/</link>
</project>
<project>
<name>ICEfaces</name>
<description>ICEfaces is an integrated Ajax application framework that enables Java EE application developers to easily create and deploy thin-client rich Internet applications (RIA) in pure Java. ICEfaces leverages the entire standards-based Java EE ecosystem of tools and execution environments. Rich enterprise application features are developed in pure Java, and in a pure thin-client model. There are no Applets or proprietary browser plug-ins required. ICEfaces applications are JavaServer Faces (JSF) applications, so Java EE application development skills apply directly and Java developers are isolated from doing any JavaScript related development.</description>
<license>Mozilla Public License</license>
<link>http://www.icefaces.org</link>
</project>
<project>
<name>SweetDEV RIA</name>
<description>SweetDEV RIA is a complete set of world-class Ajax tags in Java/J2EE. It helps you to design Rich GUI in a thin client. SweetDEV RIA provides you Out-Of-The-Box Ajax tags. Continue to develop your application with frameworks like Struts or JSF. SweetDEV RIA tags can be plugged into your JSP pages.</description>
<license>Apache Software License</license>
<link>http://sweetdev-ria.ideotechnologies.com</link>
</project>
<project>
<name>ItsNat, Natural AJAX</name>
<description>ItsNat is an open source (dual licensed GNU Affero General Public License v3/commercial license for closed source projects) Java AJAX Component based Web Framework. It offers a natural approach to the modern Web 2.0 development. ItsNat simulates a Universal W3C Java Browser in the server. The server mimics the behavior of a web browser, containing a W3C DOM Level 2 node tree and receiving W3C DOM Events using AJAX. Every DOM server change is automatically sent to the client and updated the client DOM accordingly. Consequences: pure (X)HTML templates and pure Java W3C DOM for the view logic. No JSP, no custom tags, no XML meta-programming, no expression languages, no black boxed components where the developer has absolute control of the view. ItsNat provides an, optional, event-based (AJAX) Component System, inspired in Swing and reusing Swing as far as possible such as data and selection models, every where DOM element or element group can be easily a component.</description>
<license>GNU General Public License (GPL)</license>
<link>http://www.itsnat.org</link>
</project>
<project>
<name>ThinWire</name>
<description>ThinWire is an development framework that allows you to easily build applications for the web that have responsive, expressive and interactive user interfaces without the complexity of the alternatives. While virtually any web application can be built with ThinWire, when it comes to enterprise applications, the framework excels with its highly interactive and rich user interface components.</description>
<license>GNU Library or Lesser General Public License (LGPL)</license>
<link>http://www.thinwire.com/</link>
</project>
</category>
<category>
<category>Open Source Aspect-Oriented Frameworks</category>
<project>
<name>AspectJ</name>
<description>AspectJ is a seamless aspect-oriented extension to the Java programming language, Java platform compatible and easy to learn and use. AspectJ enables the clean modularization of crosscutting concerns such as: error checking and handling, synchronization, context-sensitive behavior, performance optimizations, monitoring and logging, debugging support, multi-object protocols.</description>
<license>Mozilla Public License</license>
<link>http://eclipse.org/aspectj/</link>
</project>
<project>
<name>AspectWerkz</name>
<description>AspectWerkz is a dynamic, lightweight and high-performant AOP framework for Java. AspectWerkz offers both power and simplicity and will help you to easily integrate AOP in both new and existing projects. AspectWerkz utilizes runtime bytecode modification to weave your classes at runtime. It hooks in and тче classes loaded by any class loader except the bootstrap class loader. It has a rich and highly orthogonal join point model. Aspects, advices and introductions are written in plain Java and your target classes can be regular POJOs. You have the possibility to add, remove and re-structure advice as well as swapping the implementation of your introductions at runtime. Your aspects can be defined using either an XML definition file or using runtime attributes.</description>
<license>GNU Library or Lesser General Public License (LGPL)</license>
<link>http://aspectwerkz.codehaus.org/</link>
</project>
<project>
<name>Nanning</name>
<description>Nanning Aspects is a simple yet scaleable aspect-oriented framework for Java.</description>
<license>BSD License</license>
<link>http://nanning.codehaus.org/</link>
</project>
<project>
<name>JBossAOP</name>
<description>JBoss-AOP allows you to apply interceptor technology and patterns to plain Java classes and Dynamic Proxies. It includes: * Java Class Interception. Field, constructor, and method interception, public, private, protected, package and protected, static and class members. * Fully compositional pointcuts caller side for methods and constructors, control flow, annotations. * Aspect classes Advices can be incapsulated in scoped Java classes * Hot-Deploy. Interceptors can be deployed, undeployed, and redeployed at runtime for both dynamic proxies and classes.(working) * Introductions. The ability to add any arbitrary interface to a Java class. Either an interceptor or a 'mixin' class service can method calls for the attached interfaces. * Dynamic Proxies. The ability to define a dynamic proxy and an interceptor chain for it. Proxies can either be created from an existing class, or from a set of interfaces ala java.lang.reflect.Proxy. * Metadata Attribute and Programming. The ability to define and attach metadata configuration to your or classes dynamic proxies. Interceptors can be triggered when metadata is added to a class. We also have Metadata Chains, the ability to define defaults at the cluster and application level, as well as the ability to override configuration at runtime for a specific method call. * Dynamic AOP. All доконаного виду objects can be typecasted to an AOP api. You can do things like add/remove new interceptors to a specific instance or add/remove instance configuration/metadata at runtime.</description>
<license>GNU Library or Lesser General Public License (LGPL)</license>
<link>http://www.jboss.org/products/aop</link>
</project>
<project>
<name>dynaop</name>
<description>dynaop, a proxy-based Aspect-Oriented Programming (AOP) framework, enhances Object-Oriented (OO) design in the following areas: code reuse decomposition dependency reduction</description>
<license>Apache Software License</license>
<link>https://dynaop.dev.java.net/</link>
</project>
<project>
<name>CAESAR</name>
<description>CAESAR is a new aspect-oriented programming language compatible to Java, that is, all Java programs will run with CAESAR.</description>
<license>GNU General Public License (GPL)</license>
<link>http://caesarj.org/</link>
</project>
<project>
<name>EAOP</name>
<description>Event-based Aspect-Oriented Programming (EAOP) for Java. EAOP 1.0 realizes the EAOP model through the following характеристики: * Expressive crosscuts: execution points can be represented by events and crosscuts can be expressed which denote arbitrary relations between events. * Explicit aspect composition: Aspects may be combined using a (extensible) set aspect of composition operators. * Aspects of aspects: Aspects may be applied to other aspects. * Dynamic aspect management: Aspects may be instantiated, composed and destroyed at runtime.</description>
<license>GNU General Public License (GPL)</license>
<link>http://www.emn.fr/x-info/eaop/tool.html</link>
</project>
<project>
<name>JAC</name>
<description>JAC (Java Aspect Components) is a project consisting in developing an aspect-oriented middleware layer.</description>
<license>GNU Library or Lesser General Public License (LGPL)</license>
<link>http://jac.objectweb.org/</link>
</project>
<project>
<name>Colt</name>
<description>Open Source Libraries for High Performance Scientific and Technical Computing in Java</description>
<license>The Artistic License</license>
<link>http://hoschek.home.cern.ch/hoschek/colt/</link>
</project>
<project>
<name>DynamicAspects</name>
<description>DynamicAspects enables you to do aspect-oriented programming in pure Java. Using the \"instrumentation\" and \"agent\" features introduced with Sun JDK 1.5, aspects can be installed and deinstalled during runtime!</description>
<license>BSD License</license>
<link>http://dynamicaspects.sourceforge.net/</link>
</project>
<project>
<name>PROSE</name>
<description>The PROSE system (PROSE stands for PROgrammable extenSions of sErvices) is a dynamic weaving tool (allows inserting and withdrawing aspects to and from running applications) PROSE aspects are regular JAVA objects that can be sent to and be received from computers on the network. Signatures can be used to guarantee their integrity. Once an aspect has been in a JVM, any occurrence of the events of interest results in the execution of the corresponding aspect advice. If an aspect is withdrawn from the JVM, the aspect code is discarded and the corresponding interception(s) will no longer take place.</description>
<license>Mozilla Public License</license>
<link>http://prose.ethz.ch/Wiki.jsp?page=AboutProse</link>
</project>
<project>
<name>Azuki Framework</name>
<description>The Azuki Framework is a java application framework, designed to reduce the development, deployment and maintenance costs of software systems. The Azuki Framework also provides an unique combination of powerful design patterns (decorator, injection, intercepter, command, proxy...). It provides a rapid application assembly from known components in order to build large systems. The software conception is split into two main stages : * Creation of independent components (technical & business service). * Definition of component dependencies (тку)</description>
<license>GNU Library or Lesser General Public License (LGPL)</license>
<link>http://www.azuki-framework.org/</link>
</project>
<project>
<name>CALI</name>
<description>CALI is a framework to prototype and compose Aspect-Oriented Programming Languages on top of Java. It is based on an abstract aspect language that its extensible to implement new AOPL. As proof of approach and methodology, the following language have been implemented: -AspectJ (Dynamic part of AspectJ, where intertype declartion can be implemented using regular AspectJ); -EAOPJ : An implementation of Event-Based AOP for Java; -COOL: A DSAL for coordination; -Decorator DSAL. You can use CALI to implement your new AOPL and compose it with existing implementation or using existing implementation to write your applications with aspects form different AOPL.</description>
<license>Other</license>
<link>http://www.emn.fr/x-info/cali/</link>
</project>
</category>
</projects>


Ось так цей же приклад працює з драйвером ChromeDriver (org.seleniumhq.selenium:selenium-chrome-driver:2.48.2). На відміну від PhantomJS в цьому випадку видно що відбувається під час запуску програми: перехід за посиланнями, відображення сторінки.



Висновок
Webdriver API можна використовувати з різних мов програмування. Написати скрипт або програму для керування браузером і вилучення інформації зі сторінок досить просто: дані з сторінки зручно отримувати з Id тегів, CSS селектору або виразу XPath. Можливо робити знімки сторінки і окремих елементів на ній. На основі прикладів і документації можна розробити сценарії майже будь-якої складності для роботи з сайтом. Для розробки та налагодження краще використовувати звичайний браузер і вебдрайвер для нього. Для повністю автоматичної роботи краще підходить PhantomJS.

Удачі у витягу відкритою і корисної інформації з веб!

Джерело: Хабрахабр

0 коментарів

Тільки зареєстровані та авторизовані користувачі можуть залишати коментарі.