sastrawi/tokenizer

PHP library that allows you to tokenize Bahasa Indonesia.


Keywords
tokenizer, nlp, natural language processing, indonesian, bahasa, indonesia, tokenization, text preprocessing
License
MIT

Documentation

Sastrawi Tokenizer

Build Status Scrutinizer Code Quality Code Coverage Latest Stable Version

Sastrawi Tokenizer adalah library PHP untuk melakukan tokenization pada Bahasa Indonesia.

Tokenization

Saya sedang belajar NLP Bahasa Indonesia.

Text di atas dapat di-tokenize menjadi:

["Saya", "sedang", "belajar", "NLP", "Bahasa", "Indonesia", "."]

Sastrawi Tokenizer

  • Library PHP untuk melakukan tokenization pada Bahasa Indonesia.
  • Mudah diintegrasikan dengan framework / package lainnya.
  • Mempunyai API yang sederhana dan mudah digunakan.

Demo

http://sastrawi.github.io/tokenizer.html

Cara Install

Sastrawi Tokenizer dapat diinstall dengan Composer.

  1. Buka terminal (command line) dan arahkan ke directory project Anda.
  2. Download Composer sehingga file composer.phar berada di directory tersebut.
  3. Tambahkan Sastrawi Sentence Detector ke file composer.json Anda :
php composer.phar require sastrawi/tokenizer:0.*

Jika Anda masih belum memahami bagaimana cara menggunakan Composer, silahkan baca Getting Started with Composer.

Penggunaan

Melalui kode PHP

Copy kode berikut di directory project anda. Lalu jalankan file tersebut.

<?php

// demo.php

// include composer autoloader
require_once __DIR__ . '/vendor/autoload.php';

$tokenizerFactory  = new \Sastrawi\Tokenizer\TokenizerFactory();
$tokenizer = $tokenizerFactory->createDefaultTokenizer();

$tokens = $tokenizer->tokenize('Saya membeli barang seharga Rp 5.000 di Jl. Prof. Soepomo no. 67.');

var_dump($tokens);

Melalui CLI (Command Line Interface)

Sastrawi-tokenize CLI membaca teks dari STDIN dan menulis token-tokennya ke STDOUT.

$ echo Saya sedang belajar NLP Bahasa Indonesia. | php vendor/bin/sastrawi-tokenize

Untuk menampilkan bantuan:

$ php vendor/bin/sastrawi-tokenize --help

Lisensi

Sastrawi Tokenizer dirilis di bawah lisensi MIT License (MIT). Library ini memuat daftar singkatan Bahasa Indonesia dengan lisensi Creative Common BY SA yang bersumber dari http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia.

Informasi Lebih Lanjut