Як зібрати биграммы для корпусу будь-якого розміру на домашньому комп'ютері

У сучасної комп'ютерної лінгвістики биграммы, або в загальному випадку n-грами, є важливим статистичним інструментом. У статті ми розповімо з якими труднощами можна зіткнутися при розрахунку биграмм на великому корпусі текстів і наведемо алгоритм, який можна використовувати на будь-якому домашньому комп'ютері.

Читати далі →