sastrawi/sentence-detector

PHP library that detects sentence in Bahasa Indonesia.


Keywords
nlp, natural language processing, indonesian, bahasa, indonesia, sentence detector, sentence segmentation, text segmentation
License
MIT

Documentation

Sastrawi Sentence Detector

Sastrawi Sentence Detector adalah library PHP untuk melakukan deteksi kalimat.

Development Master Releases Statistics
Build Status Code Coverage Scrutinizer Code Quality Build Status Latest Stable Version Total Downloads

Sentence Detector

Indonesia menempati posisi ke-4 negara berpenduduk terbanyak di dunia. Berdasarkan sumber, pada 2013 tercatat Lebih dari 64 juta pengguna facebook berasal dari Indonesia.

Dalam aktivitas sehari-hari, pengguna internet di Indonesia menggunakan Bahasa Indonesia sebagai bahasa utama. Oleh sebab itu, para developer mulai membutuhkan bantuan software untuk melakukan analisa text dalam Bahasa Indonesia. Salah satu tahap analisa tersebut adalah sentence detection atau sentence segmentation, yaitu memecah text menjadi kalimat-kalimat, contohnya:

Saya sedang belajar NLP Bahasa Indonesia. Saya sedang melakukan segmentasi kalimat.

Text di atas terdiri dari 2 kalimat, yaitu:

- Saya sedang belajar NLP Bahasa Indonesia.
- Saya sedang melakukan segmentasi kalimat.

Masih terlihat sederhana, sampai muncul kalimat-kalimat berikut:

Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11. Kapan saya harus ke sana?

Text di atas terdiri dari 2 kalimat, yaitu:

- Saya belajar NLP di Jl. Prof. Dr. Soepomo SH no. 11.
- Kapan saya harus ke sana?

Sastrawi Sentence Detector

  • Library PHP untuk melakukan sentence segmentation pada Bahasa Indonesia.
  • Mudah diintegrasikan dengan framework / package lainnya.
  • Mempunyai API yang sederhana dan mudah digunakan.
  • Terinspirasi oleh Apache OpenNLP.

Demo

http://sastrawi.github.io/sentence-detector.html

Cara Install

Sastrawi Sentence Detector dapat diinstall dengan Composer.

  1. Buka terminal (command line) dan arahkan ke directory project Anda.
  2. Download Composer sehingga file composer.phar berada di directory tersebut.
  3. Tambahkan Sastrawi Sentence Detector ke file composer.json Anda :
php composer.phar require sastrawi/sentence-detector:~1

Jika Anda masih belum memahami bagaimana cara menggunakan Composer, silahkan baca Getting Started with Composer.

Penggunaan

Copy kode berikut di directory project anda. Lalu jalankan file tersebut.

<?php

// demo.php

// include composer autoloader
require_once __DIR__ . '/vendor/autoload.php';

// create sentence detector
$sentenceDetectorFactory = new \Sastrawi\SentenceDetector\SentenceDetectorFactory();
$sentenceDetector = $sentenceDetectorFactory->createSentenceDetector();

// detect sentence
$text = 'Saya belajar NLP Bahasa Indonesia. Saya sedang belajar melakukan segmentasi kalimat.';
$sentences = $sentenceDetector->detect($text);

foreach ($sentences as $i => $sentence) {
    echo "$i : $sentence<br />\n";
}

Lisensi

Sastrawi Sentence Detector dirilis di bawah lisensi MIT License (MIT). Library ini memuat daftar singkatan Bahasa Indonesia dengan lisensi Creative Common BY SA yang bersumber dari http://id.wiktionary.org/wiki/Wiktionary:Daftar_singkatan_dan_akronim_bahasa_Indonesia.

Informasi Lebih Lanjut