Bilgisayar ağlarına yapılan saldırılar günden güne artarken ve saldırıların nitelikleri de sürekl... more Bilgisayar ağlarına yapılan saldırılar günden güne artarken ve saldırıların nitelikleri de sürekli olarak değişmektedir. Ağ saldırıları, bilgisayar ağlarına zarar vererek bilgi güvenliğini ortadan kaldırmaktadır. Bu durum kişiler, şirketler, kurumlar ve hatta devletler için büyük bir risk oluşturmaktadır. Ağ trafiğinin analizi ve böylece saldırıların ortaya çıkarılabilmesi için Saldırı Tespit Sistemlerinden yararlanılmaktadır. Saldırı türlerini tanıyacak şekilde oluşturulan bu sistemlerin gelişimleri de artan saldırı tiplerine göre sürekli devam etmektedir. Bu çalışmada makine öğrenmesi teknikleri yardımıyla anormallik tabanlı bir saldırı tespit sistemi oluşturulması amaçlanmıştır. Çalışma sürecinde; Yinelemeli Özellik Elemesi, İleri Yönelimli Seçim, Rastgele Orman, Karar Ağaçları, Naive Bayes, Lojistik Regresyon ve Ekstrem Gradyan Artırma gibi algoritmalardan yararlanılmış ve Doğruluk, Kesinlik, Duyarlılık ve F1 gibi metrikler ile değerlendirmeler yapılmıştır. Ayrıca model değerlendirme için ROC eğrilerinden yararlanılmıştır. Bahsi geçen bu algoritmalardan elde edilen sonuçlar karşılaştırılarak en etkili modelin bulunması için CICIDS 2017 veri seti kullanılmıştır. Çalışma kapsamında Yinelemeli Özellik Elemesi ve İleri Yönelimli Seçim teknikleriyle özellik seçimi yapılmış ve en iyi sınıflandırma sonuçları Rasgele Orman ve Ekstrem Gradyan Artırma algoritmalarından elde edilmiştir.
Since statistical analysis of poetry is a challenging task in Natural Language Processing (NLP), ... more Since statistical analysis of poetry is a challenging task in Natural Language Processing (NLP), making inferences about the poets also becomes a very challenging task. In this study, a dataset of Turkish poems which is obtained for 5 different poets is used to compare classification performance of the Artificial Neural Network (ANN) and Deep Neural Network (DNN) architectures. While Multilayer Perceptron (MLP) is selected for ANN architecture, Convolutional Neural Network (CNN) is selected as DNN architecture. Two main feature representation approaches are used for the experiments-Term Frequency-Inverse Document Frequency (TF-IDF) is used for ANN and word embedding is used for DNN. As a result of the experiments it has been seen that MLP has the highest performance in terms of accuracy, precision, recall and F-score.
Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi
Kalp hastalıkları ölüm oranı bakımından bütün hastalıklar arasında ilk sırada yer alır. Hastalığı... more Kalp hastalıkları ölüm oranı bakımından bütün hastalıklar arasında ilk sırada yer alır. Hastalığın kesin tedavisi olmamakla birlikte doğru teşhis hastaların hayatta kalma süresi ve yaşam kalitesine olumlu yönde etki eder. Bugüne kadar kalp hastalıklarının teşhisi için çeşitli klinik yöntemler kullanılmıştır. Son dönemde hastalığın teşhisi için makine öğrenmesi algoritmaları da kullanılmaktadır. Bu kapsamda yaptığımız çalışmada kalp hastalığı teşhisi için KNN sınıflayıcı kullanılmıştır. Algoritmanın sınıflandırma başarısını iyileştirmek için optimum parametreler bulunmaya çalışılmıştır. KNN algoritması için ilk parametre uzaklık yöntemidir ve bu parametre için Manhattan, Euclidean, Chebyshev ve Cosine ölçümleri tercih edilmiştir. Diğer parametre komşu sayısıdır ve en uygun komşu sayısını tespit edebilmek için 1…15 arasındaki tek sayılar denenmiştir. Kalp hastalıklarını sınıflandırmak için kullandığımız KNN algoritması C++ programlama dilinde kodlanmış ve çalıştırılmıştır. Model değer...
Diyabetik Retinopati (DR), diyabet kaynaklı yüksek kan şekerinin retinadaki kan damarlarının geçi... more Diyabetik Retinopati (DR), diyabet kaynaklı yüksek kan şekerinin retinadaki kan damarlarının geçirgenliğinde oluşturduğu hasar nedeniyle meydana gelen hastalıktır. Hastalığa erken tanı konmadığı ve tedavi edilmediği durumlarda ileri derecede göz bozukları ve görme kaybına neden olmaktadır. Komplikasyonların çoğu kan şekeri kontrolü ve erken tedavi ile önlenebilmekte ancak DR'nin karmaşıklığı ve çeşitliliği nedeniyle manuel yöntemlerle tespiti zor olmaktadır. Uzmanlar tarafından tespiti zor olan hastalıkların teşhisinde bir derin öğrenme modeli olan Evrişimsel Sinir Ağı (ESA) ile günümüzde büyük başarı elde edilmiştir. Bu çalışmada DR'nin tespiti ve derecelendirilmesi için ESA ve makine öğrenmenin beraber kullanıldığı hibrit bir model önerilmektedir. Modelimizde ESA mimarisine sahip transfer öğrenme modeli otomatik özellik çıkarıcı olarak görev yapmakta ve ResNET-50 kullanılmaktadır. Makine öğrenme algoritmaları ise sınıflandırıcı olarak görev yapmakta ve K-En Yakın Komşu Algoritması, Rastgele Orman Algoritması ve Ekstra Ağaçlar Algoritması ayrı ayrı kullanılmaktadır. Çalışmada hastalığın şiddetine göre 'Proliferatif ', 'Şiddetli', 'Orta', 'Hafif' ve 'Diyabetik retinopati yok' retina görüntülerinin yer aldığı Aptos 2019 veri seti kullanılmıştır. Veri setinde sınıf dengesizliği bulunduğundan sentetik veri artırma (SMOTE) tekniği kullanılarak sınıflar arasındaki dengesizlik giderilmiş ve veri artırımı sağlanmıştır. Eğitim ve test işlemi için veri setimize 10 kat çapraz doğruluma işlemi uygulanarak sınıflandırma işlemi gerçekleştirilmiştir. Sınıflandırma işlemi sonucunda %93 lük doğruluk ve %93 F1-skoru elde edilmiştir.
Dünya bankası lojistik performans indeksi 2012 raporuna göre Türkiye 27. sırada yer almaktadır. G... more Dünya bankası lojistik performans indeksi 2012 raporuna göre Türkiye 27. sırada yer almaktadır. Geçmiş yıllara göre lojistik performans indeksi daha iyiye giden Türkiye, 2023 yılı ekonomik hedefleri doğrultusunda lojistik performans indeksinde üst sıralarda yer almalıdır. Bunun için ekonomik altyapısını geliştirmelidir. Ayrıca lojistik ve denizcilik sektörü bakımından başarılı ülkeler ile arasındaki lojistik altyapısal farkları analiz edip ona göre yatırım yapmak zorundadır. Bunun için lojistik alanındaki küresel büyük verinin toplanması, temizlenmesi, modellenmesi ve analiz edilmesi gereklidir. Modelleme için en iyi yöntemlerden birisi de veri madenciliğidir. Veri madenciliği bir konuya ait bilgi kümesinde o anki durumu net bir biçimde göstermesi ve ileriye yönelik öngörüleri içermesi açısından çok değerli bilgiler sağlayabilir. Bu çalışmada birçok alanda uygulanan veri madenciliğinin lojistik sektöründeki uygulamaları gösterilmiş ve Türkiye açısından önemi ele alınmıştır.
Breast cancer is a common cancer type among women. With its increasing incidence early diagnosis ... more Breast cancer is a common cancer type among women. With its increasing incidence early diagnosis has become more important. There are a variety of age-dependent methods for early diagnosis of breast cancer but mammography is the most used method. However, the radiologists show considerable variability in how they interpret a mammogram. Therefore, there is need computer-aided decision-making mechanisms for more reliable results. In this scope various machine learning techniques such as support vector machines, multi layer perceptron and decision trees have been used to early diagnosis in recent years. In this study, centroid-based classifiers are examined for the early diagnosis of breast cancer. The most important reason for this preference is centroid classifiers have low complexity and high performance. Experiments were evaluated on Wisconsin, Diagnostic and Prognostic Dataset. Comparisons between centroid classifiers and the orher classifiers have been done and the results have b...
Nowadays, there is an interaction between the web sites and users. In this interaction, user requ... more Nowadays, there is an interaction between the web sites and users. In this interaction, user requests are sent to web servers in URL strings. Sometimes, harmful code may be embedded into those strings. Harmful code embedding is one of web attacks. User input data may be analyzed for detection of this type of attack. In this study, a text based anomaly detection method has been proposed. Proposed method uses textual properties of input data for analysis. This method that is implemented and given experimental results is particularly a new approach for web based anomaly detection.
The Online Journal of Science and Technology, 2012
Individuals have their own style of speaking and writing. Style of a text can be used as a distin... more Individuals have their own style of speaking and writing. Style of a text can be used as a distinctive feature to recognize its author. In recent years, practical applications for authorship attribution have grown in areas such as criminal law, civil law and computer security. Recent research has used techniques from machine learning, information retrieval and natural language processing in authorship attribution. In this paper, Statistical Language Modeling is utilized in Authorship Attribution. Each author is represented with feature statistics. Letters, punctuations and special characters which build up the feature set are utilized to calculate the profiles of the authors.
Risk değerlendirme ve risk yönetimi, bilgi güvenliği yönetim sistemlerinin önemli parçalarıdır. B... more Risk değerlendirme ve risk yönetimi, bilgi güvenliği yönetim sistemlerinin önemli parçalarıdır. Bu yüzden, literatürde konuyla ilgili çok sayıda risk değerlendirme ve analiz çalışması vardır. Bu çalışmada, Bilgi Güvenliği Yönetim Sistemleri ile ilişkili varlıklar için bir risk değerlendirme modeli önerilmiştir. Önerilen model, riski varlıkların değerlerindeki değişime bağlı olarak hesap etmektedir. Model, soysal bir ağ üzerinde bazı varlıklar için test edilmiştir.
Otizm kişinin çevresiyle uygun ilişkiler kuramadığı gelişimsel bir bozukluktur. Otizmin erken teş... more Otizm kişinin çevresiyle uygun ilişkiler kuramadığı gelişimsel bir bozukluktur. Otizmin erken teşhisi kişinin erken yaşta eğitilip çevresiyle olan ilişkisinin düzenlenmesinde hayati önem taşımaktadır. Bu çalışmada, otizm teşhisinin geç konulması sebebiyle otizm teşhisi konulan kişilerin yaşadığı sorunların çözümüne katkı sağlayabilmek için Naive Bayes Makine Öğrenmesi algoritmasıyla hastalığa erken tanı konulması amaçlanmıştır. Çalışma analizinin gerçekleştirilebilmesi için veri setinde otizmli insanların bebeklik, ergenlik ve yetişkinlik dönemleri ele alınmıştır. Veriler üzerinde; aykırılıkların ayıklanması, eksik verilerin doldurulması, öznitelik ağırlığına göre öznitelik seçimi yapılması ve parametre optimizasyonu sonrası eğitilen modellerin başarı oranları ile ham veri üzerinden parametre optimizasyonu yapılmadan elde edilen modellerin başarı oranları karşılaştırılmıştır. Yapılan çalışmalar neticesinde parametre optimizasyonu yapılmamış veri setine oranla; yetişkin veri setinde modelin başarısı % 2.27, ergen veri setinde %7.01 ve çocuk veri setinde %3.78 performans artışı gözlemlenmiştir. Bu çalışma, veri ön işleme teknikleri ve parametre optimizasyon işlemleri sonrası başarı oranlarının arttığını göstermektedir.
The International Arab Journal of Information Technology, 2023
The amount of spam is increasing rapidly while the popularity of emails is increasing. This situa... more The amount of spam is increasing rapidly while the popularity of emails is increasing. This situation has led to the need to filter spam emails. To date, many knowledge-based, learning-based, and clustering-based methods have been developed for filtering spam emails. In this study, machine-learning-based spam detection was targeted, and C4.5, ID3, RndTree, C-Support Vector Classification (C-SVC), and Naïve Bayes algorithms were used for email spam detection. In addition, feature selection and data transformation methods were used to increase spam detection success. Experiments were performed on the UC Irvine Machine Learning Repository (UCI) spambase dataset, and the results were compared for accuracy, Receiver Operating Characteristic (ROC) analysis, and classification speed. According to the accuracy comparison, the C-SVC algorithm gave the highest accuracy with 93.13%, followed by the RndTree algorithm. According to the ROC analysis, the RndTree algorithm gave the best Area Under Curve (AUC) value of 0.999, while the C4.5 algorithm gave the second-best result. The most successful methods in terms of classification speed are Naïve Bayes and RndTree algorithms. In the experiments, it was seen that feature selection and data transformation methods increased spam detection success. The binary transformation that increased the classification success the most and the feature selection method was forward selection.
Afyon Kocatepe University Journal of Sciences and Engineering
Bilgisayar ağlarına yapılan saldırılar günden güne artarken ve saldırıların nitelikleri de sürekl... more Bilgisayar ağlarına yapılan saldırılar günden güne artarken ve saldırıların nitelikleri de sürekli olarak değişmektedir. Ağ saldırıları, bilgisayar ağlarına zarar vererek bilgi güvenliğini ortadan kaldırmaktadır. Bu durum kişiler, şirketler, kurumlar ve hatta devletler için büyük bir risk oluşturmaktadır. Ağ trafiğinin analizi ve böylece saldırıların ortaya çıkarılabilmesi için Saldırı Tespit Sistemlerinden yararlanılmaktadır. Saldırı türlerini tanıyacak şekilde oluşturulan bu sistemlerin gelişimleri de artan saldırı tiplerine göre sürekli devam etmektedir. Bu çalışmada makine öğrenmesi teknikleri yardımıyla anormallik tabanlı bir saldırı tespit sistemi oluşturulması amaçlanmıştır. Çalışma sürecinde; Yinelemeli Özellik Elemesi, İleri Yönelimli Seçim, Rastgele Orman, Karar Ağaçları, Naive Bayes, Lojistik Regresyon ve Ekstrem Gradyan Artırma gibi algoritmalardan yararlanılmış ve Doğruluk, Kesinlik, Duyarlılık ve F1 gibi metrikler ile değerlendirmeler yapılmıştır. Ayrıca model değerlen...
Veri madenciliği çok büyük hacimli veriden anlamlı, ilginç, ve önemli bilginin otomatik veya yarı... more Veri madenciliği çok büyük hacimli veriden anlamlı, ilginç, ve önemli bilginin otomatik veya yarı-otomatik yöntemlerle çıkarılması ile bir disiplin olup pazarlama, bankacılık, sigortacılık ve tıp sektörü başta olmak üzere bir çok sektörde etkin bir şekilde kullanılmaktadır. Veri madenciliği uygulamalarından biri olan web kullanım madenciliği sayesinde web üzerindeki faydalı bilginin keşfi ve analizi yapılmaktadır. Kullanıcı erişim örüntülerinin bulunması web içerik madenciliği konusuna girmekte olup veri madenciliği tekniklerinden özellikle bağlantı analizi ile yerine getirilmektedir. Bu çalışmada kütüphane sitesi web günlüklerine dayalı olarak kütüphane kullanıcılarının erişim örüntüleri bulunmaya çalışılmıştır. Bu çalışma yapılırken istatistiksel yöntemler kullanılmıştır.
Classification of Extracranial and Intracranial EEG Signals by using Finite Impulse Response Filter through Ensemble Learning
2019 27th Signal Processing and Communications Applications Conference (SIU)
Electroencephalogram (EEG) is the main diagnostic tool for the monitoring, diagnosis and treatmen... more Electroencephalogram (EEG) is the main diagnostic tool for the monitoring, diagnosis and treatment of epilepsy which is a neurological disorder. EEG signals can disrupt easily by involuntary movements that are called artifact contaminants such as blinking, coughing. In this study, the artifacts in the extrac- and intracranial EEG signals have been cancelled out from the EEG with the use of Kaiser window based Finite Impulse Response (FIR) filter. The most important features in the EEG signals have been selected by the Principle Component Analysis (PCA) method. The selected features have been classified by applying ensemble learning methods that are Boosting, Bagging and Random Subspace. The aim of this study is to increase the extrac- and intracranial EEG signal classification by calculating window spectral parameters. The algorithms' classification performances have been compared in terms of accuracy rates, sensitivities, specificities, prediction rates and training times according to the 5 × 5 cross validation. Subspace KNN algorithm, as revealed by results, is higher than the other algorithms' classification performances.
Bilecik Şeyh Edebali Üniversitesi Fen Bilimleri Dergisi, 2021
Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar ar... more Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency-Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.
Web Ataklari İçi̇n Meti̇n Tabanli Anormalli̇k Tespi̇ti̇ (Wamtat)
Bugunlerde bircok web sitesi kullanicilarla etkilesim icerisinde olup bu etkilesimde kullanicilar... more Bugunlerde bircok web sitesi kullanicilarla etkilesim icerisinde olup bu etkilesimde kullanicilar isteklerini URLicinde gomulu olarak web sunucuya iletirler. URL icerisine giris verisi olarak zararli kodun gomulmesi atakyontemlerinden biridir ve bu tip ataklarin tespiti icin giris verisi analiz edilebilir. Bu calismada, atak tespiti icinmetin tabanli bir anormallik tespiti yontemi onerilmektedir. Onerilen yontem kullanici girislerinin analizindegiris verisinin metinsel ozelliklerini kullanir. Gerceklemesi yapilarak deneysel sonuclari bu makalede verilenyontem web tabanli ataklarin anormallik tabanli tespitinde yeni bir yaklasimdir.
Diagnosing Autism Spectrum Disorder Using Machine Learning Techniques
2021 6th International Conference on Computer Science and Engineering (UBMK), 2021
Autism is a generalized pervasive developmental disorder that can be characterized by language an... more Autism is a generalized pervasive developmental disorder that can be characterized by language and communication disorders. Screening tests are often used to diagnose such a disorder; however, they are usually time-consuming and costly tests. In recent years, machine learning methods have been frequently utilized for this purpose due to their performance and efficiency. This paper employs the most eight prominent machine learning algorithms and presents an empirical evaluation of their performances in diagnosing autism disorder on four different benchmark datasets, which are up-to-date and originate from the QCHAT, AQ-10-child, and AQ-10-adult screening tests. In doing so, we also utilize precision, sensitivity, specificity, and classification accuracy metrics to scrutinize their performances. According to the experimental results, the best outcomes are obtained with C-SVC, a classifier based on a support vector machine. More importantly, in terms of C-SVC performance metrics even lead to 100% in all datasets. Multivariate logistic regression has been taken second place. On the other hand, the lowest results are obtained with the C4.5 algorithm, a decision tree-based algorithm.
Uploads
Papers by Hidayet Takci