Metin Madenciliği

in Steemit Türkiye4 years ago

Metin_madenciligi_text_mining.png

Metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği (data mining) çalışmasıdır diğer bir tanımla metin üzerinden yapısallaştırılmış (structured) veri elde etmeyi amaçlar.Metin madenciliği ile yapısal olmayan veriler yapısal bir hale getirilip, analitik analize uygun bir kaynak elde edilir.
Makale, gazete, ,internet siteleri , kitap, akademik yayınlar gibi tüm topluma açık olan metinler, e posta, hastalar raporları, adli sicil kayıtları, mektuplar, gibi bireye özel metinler de, metin madenciliğinin kaynağı olabilirler.
Günümüzde sosyal medya kullanımının artışıyla pek çok kişi güncel konular hakkında izlediği bir film veya desteklediği siyasetçiyi paylaşmaya başladı. Bu paylaşımların tamamı metin madenciliği için güzel bir kaynak oluşturmaktadır.
Metin madenciliği ile metinlerde yer alan lüzumsuz kısımlar atılarak istenilen bilgiye erişmek amaçlanır. Yapılandırılmamış veri ham haliyle bize çok fazla bilgi vermezken, metin madenciliği sayesinde, bu veriler bizi çok önemli bilgilere ulaştıracak bir kaynak haline gelir. Metinler insanlar tarafından yazılıp okunabilirken, bilgisayarların yapılandırılmış verileri işlemesi için veri tabanları programlanmıştır.
Metinleri insanlar gibi okuyup anlayabilecek bilgisayar programları henüz yoktur.Ancak bu alanda ciddi çalışmalar sürdürülmektedir. İleride insanlar gibi metinleri okuyup anlayan bilgisayar programlarının geliştirilmesi beklenmektedir.
Sosyal medyanın bir ihtiyaç haline gelmesiyle birlikte milyonlarca metin halindeki veri ortaya çıkmaktadır. Yapılan araştırmaya göre Twitter’da, 1 saniyede 9,387 adet tweet atılmaktadır. .Facebook gibi Twitter’dan daha fazla kullanılan diğer sosyal
Mecralar da düşünüldüğünde anlık üretilen verinin büyüklüğü daha da çok ortaya
çıkmaktadır. Dolayısıyla bu metinler, araştırmacılar için büyük bir nimet haline gelmiştir.

Yapılandırılmış veya yapılandırılmamış halde bulunan veriler, metin madenciliği için birer girdidirler. Metin madenciliği sürecinin çıktısı ise; karar vermek için kullanılacak olan özel bilgilerdir. Süreç; yazılım donanım kısıtları, güvenlik sorunları ve dilbilim kısıtları (doğal dil işleme) gibi zorlukları içermektedir. Metin madenciliğinin temel amacı verilerden hareketle, metinden anlamlı sonuçlar çıkarmak için metni işlemektir. Bu amaçla metinler çeşitli araç ve alan uzmanlığı (istatistik ve makine öğrenme) ile işlenirler.

Coin Marketplace

STEEM 0.17
TRX 0.16
JST 0.029
BTC 74698.65
ETH 2837.65
USDT 1.00
SBD 2.46