Sitemap XML, bagi pecandu AGC mestinya sudah tahu apa yang di saya bahas ini. Yups, sitemap kalau dibahasa indonesiakan berarti peta situs, dimana peta situs adalah sumber dari segala informasi yang terdapat dari sebuah website/blog. Di peta situs ada banyak bagian yang ditampilkan, bisa menampilkan list url postingan artikel, kategori, tag , dll . Tujuan dari dibuatnya sitemap.xml adalah agar search engine seperti google dengan mudahnya dalam menemukan informasi yang terdapat pada situs yang kita miliki.
Seiring berjalannya waktu, banyak salah satu diantara dari pemain AGC atau banyak dikenal dengan Auto Generate Content yang memanfaatkan dari sitemap ini untuk mengclone isi website/blog yang memiliki pengunjung rame. Dari sitemap, kita bisa meniru sama persis isi dari sebuah website, kita bisa mengambil dari beberapa bagian situs tersebut, seperti title,keyword, dan lain-lain.
Disitulah ide saya bekerja, ide saya untuk mengembangkan sebuah sitemap scraper, dimana tujuannya untuk scrape atau mengambil seluruh url yang ada pada sitemap.xml di blog/web
Untuk scraper, saya memanfaatkan script php untuk melakukan scrapingnya. Saya menggunakan script php karena script php ini berbasis web, jadi mudah untuk digunakan. Anda bisa menjalankan script ini pada web hosting pribadi Anda, atau jika tidak mau repot-repot, silahkan gunakan server offline seperti xampp. Masalah konfigurasi xampp bisa cari di Google, karena ada banyak panduannya.
 |
| Penampakan Script Scraper di localhost |
Download Scriptnya Disini
https://drive.google.com/file/d/0BxtiptfwmLvmYWJiQmVTcUZkR2c/view
Cara Menggunakan Script:
Upload di hosting atau di localhost, jalankan seperti biasa, taruh di public html agar mudah, namadomain.com/scrapesitemap.php
Sudah begitu saja, mohon maaf kalau masih apa adanya, tanpa style apapun, karena tujuannya cuma untuk scraping jadi mending polosan. hehehe.
Artikel keren lainnya:
efeknya bagi web / blog yang pasang scrape xml itu apa mas ?
BalasHapusente pemain agc bukan? ini bukan tools yang di integrasikan ke website, jadi nggak ada pengaruhnya sama sekali terhadap web atau blog.
HapusPemain AGC mestinya sudah tahu scrape sitemap untuk apa gan, kalau belum tahu konsep dasarnya agc mendingan belajar dasar2nya dulu. Right ? :)
Hapusjoss lek
BalasHapusSelamat siang suhu jogja...
HapusSemua situs bisa gan. asal xml saja, bukan berbentuk feed. kalo feed beda lagi..
BalasHapusboleh di kirim ke email saya kak? tolong ya
BalasHapus