(1/7) I completed the "LLM Science Exam" competition in
@kaggle
within Top 1% over 2745 teams and got another solo silver medal. The goal of the competition was to answer science-based questions written by an LLM that leverages contexts from
@Wikipedia
dumps of
@Wikimedia
.
We’re thrilled to announce we’re partnering with
@OpenAI
to bring best in class technical knowledge and the world’s most popular LLM models for AI development together! This groundbreaking partnership with OpenAI will drive our mission to empower the world to develop technology
Yaptığımız çalışmayı açıklarken veya bir makale yazarken kullandığımız neural-network'ün yapısını resmetmek genelde bir külfet oluyor. NN-SVG isimli çok iyi bir araca denk geldim. Bir arayüz üzerinden istediğiniz network'ü resmedebiliyorsunuz.
GitHub:
Veri bilimi kursumuza Python ile giriş yapıyoruz. Dilimden döndüğünce basit bir search algoritması nasıl yazarsınız onu anlattım. Yorumlarınız çok değerli, iyi seyirler.
Microsoft'un yapay zekaya yeni başlayacak olanlar için hazırladığı 12 haftalık müfredat programı. Temel NN yapısı, görüntü işleme ve NLP hakkında fazla teknik detaya girmeyen markdown metinler ve örnek kodlar içeriyor.
GitHub:
Yapay zeka & makine öğrenmesi alanlarında iş arayan arkadaşların teknik mülakatları terletici geçebiliyor. Aşağıdaki repoda konular kategorilere göre bölünmüş, örnek kodlar veya linkler ile verilmiş. Temel bilgileri tazelemek için de uygun olabilir:
ML mülakatları hakkında kodlama, sistem tasarımı ve teori üzerine daha çok sohbet havasında örnekler içeren bir repo. Teknik ödevlerden ziyade mülakatların sözel use-case aşamaları için faydalı olabilir.
Deep Learning'i giriş seviyesinden DRL'e varana kadar kapsamlı bir şekilde kod örnekleri, slaytlar ve e-book ile ele alan
@SimonPrinceAI
'a ait bir repo.
GitHub:
Görüntü işleme taskleriniz için halihazırda bulunan modelleri kullanarak size yardımcı olan bir etiketleme arayüzü. Neredeyse her ay güncelleme alarak taskler için çıkmış en güncel modelleri ekliyorlar.
GitHub:
MIT'nin Introduction to Deep Learning serisine ait ders videoları ve lab derslerinin kodları. 2024 yılı müfredatı da 2 gün önce başlamış. Canlı takip etmek isteyenler olabilir. 😄
Site:
Playlist:
GitHub:
Geneleksel ML algoritmalarını, derin öğrenme tarafında da Tensorflow ve Pytorch örneklerini videolarıyla birlikte bulunduran bir kaynak. Derin öğrenme tarafında güncelliğini yitirmek üzere ama son günlerde yine trendlere çıkabilmiş.
GitHub:
LLM'lerin arkasındaki teoriyi anlama, güncel teknikler ile LLM fine-tune etme gibi zor erişilecek rafine bilgileri içeren bir repo. Yakın zamanda LLM uygulamaları geliştirme ve bunları deploy etmeye dair içerikler ekleyeceğini de söylüyor.
GitHub:
Python ile alakalı önemli konseptleri kurallı örneklerle anlatan bir repo. Sonlara doğru eşeğin kulağına su kaçırıp ek kütüphanelere, oyun yapımına vs. bile girmiş ama hoş. 😄
Yandex Data School'un NLP kursunun reposu. Embedding, fine-tuning, sevdalısına prompting gibi konular hakkında içerikler var. 😄 Anladığım kadarıyla 1-2 senede bir müfredatları güncel metotlara göre yenileniyor.
GitHub:
Son günlerde iyice ismi duyulan TheAlgorithms'in Python örnekleri. İçinde lisans ve yüksek lisans programlama-algoritma derslerinizle ilgili olabilecek birçok kaynak kod bulabilirsiniz. Çoğu ev ödevi tadında.
Pandas ile veri üzerinde yapılan bazı işlemler alanda yeni olan arkadaşların kafasını karıştırabiliyor. 'PandasTutor' yazdığınız pandas fonksiyonlarını görselleştirerek olayların mantığını daha iyi kavramanıza yardımcı olabilir:
Neural-network üzerine yazılmış paper ve modüllerin kaynak kodlarını ve ilgili açıklamalarını yan yana bulabileceğiniz güzel bir kaynak. Ben de transformer tarafı için faydalanmayı düşünüyorum.
Link:
Pandas sütunlara en uygun dtype'ı otomatik olarak seçmiyor. Örneğin float32'ye sığabilecek bir sütununuzu float64 modunda kullanıyor olabilirsiniz. Bu da boşu boşuna fazladan RAM harcamanız demek. FastAI'ın 'df_shrink' fonksiyonu ile bütün sütunlarınızı optimize edebilirsiniz.
PandasAI sayesinde OpenAI keyinizi kullanarak pandas verisetlerinizle konuşabilirsiniz. 😄 Ayrıca otomatik feature üretme, veri temizleme, eksik veri doldurma gibi deneysel rutinlere de sahip.
GitHub:
"Deep Learning with Python" kitabının yardımcı materyalleri. CV, text ve time-series data için örnek notebooklar içeriyor. Son bölümde temel seviyede de olsa Generative AI'a ufaktan bir giriş var. 😄
Andrej Karpathy'nin "Neural Networks: Zero-to-Hero" serisi. Konuyu backprop'tan aktivasyonlardan almaya başlamış, zaman geçtikçte de LLM'lere kaydırıyor gibi. Güncel olarak ekleme yapmaya devam ediyor.
Anadolu Hayat Emeklilik Datathon'un
@kaggle
etabını
@atarikkarakas
ile birlikte 185 takım / 268 katılımcı arasından 1. olarak tamamladık. Final etabından sonra çözüme dair kodu ve detaylı anlatımını paylaşmayı düşünüyoruz. rrrrrrrocksolidd
Takımımızın çözümü
@isbankasi
Machine Learning Challenge
#5
yarışmasının final etabında 284 takım arasından 1. olarak seçildi. Amaç, kullanıcının geçmiş etkinliklerine bakarak uygulama içindeki en uygun menülerin öne çıkmasını sağlayan bir çözümün geliştirilmesiydi.
Artık deprem için gereksinim paylaşımları yapılıyor.
@snnclsr
,
@oguuzhansahiin
ve
@mervenoyann
ile birlikte verilen metinden ihtiyaç türünün çıkarılması için bir multi-label model geliştirdik. Model, toplanan ihtiyaçların ilgili birimlere hızlıca iletilmesine yardımcı olacak.
Birkaç gün önce sektörde ses getiren Kolmogorov-Arnold Network (KAN) yapısının kod implementasyonu. Repo içerisinde örnek kullanıma dair notebook da bulabilirsiniz. Şimdilik sadece küçük problemler için CPU'larda çalışabilen bir yapıya benziyor.
GitHub:
Anadolu Hayat Emeklilik Datathon'un
@atarikkarakas
ile katıldığımız final etabını da 185 takım içinde birinci olarak tamamladık.
@coderspace_io
ve
@aheemeklilik
ekibine organizasyon için teşekkürler. Çözümümüzü GitHub'da açık olarak paylaştık.
Çözüm:
ML tarafında çalışacak yeni mezun arkadaşların CVlerinde artık rekabetçi işlere dair metriklerin bulunması gerektiğini düşünüyorum. Biliyorum, büyük ihtimal bir mühendislik bölümünün ağır müfredatından geçiyorsunuz, fakat zaman geçtikçe sektöre giriş önşartları acımasızlaşıyor.
Youtube'daki ~2 milyon videonun transkriptini içeren bir veriseti. CC-BY lisansı ile paylaşılmış. T2S, S2T veya çeşitli LLM taskleri için kullanılabilir.
Link:
Veri bilimi alanında çalışacağınız gerçek hayata dair sınıflandırma problemlerinde bazı zamanlar sınıf dengesizliği göreceksiniz. Bu tür durumlarda Stratified K-Fold Cross Validation kullanarak sınıfların train ve test setlerinde eşit oranlarda dağılmasını sağlayabiliyoruz.
@mertcobanov
,
@mervenoyann
ve Discord'daki onlarca insanla birlikte deprem hakkında sosyal medyaya yüklenen görsellerin içerisindeki metinleri bulan, ayrıca metin girdilerinden de adres bilgilerini çıkartan bir uygulama tasarladık.
Link:
Holdinglerden biri "AI Software Engineer" rolü için ulaştı. Başladı saymaya Java, React falan diyor. Dedim "Bu daha çok hazır sistemlere kabuk yazan bir SE rolü gibi, AI Engineer rolü değilse boşuna yorulmayın". Diyo ki "Öyle diyosunuz ama birazdan devreye ChatGPT giricek". 😌
Pandas'ta temel işlemleri örnek veri ve kodlarla anlatmaya çalışan bir repo. Veri bilimine yeni başlayan arkadaşlar için faydalı olabilir. Hızlıca alışın sonra polars'a geçersiniz. :d
GitHub:
🧵 (1/5) İdeal şartlarda problemimize ait verinin eğitim ve test dağılımlarının aynı olmasını istiyoruz. Fakat gerçek hayatta, özellikle elimizde kısıtlı miktarda veri varken bunu sağlamak zorlaşabiliyor. İki setin arasındaki bu feature kayıklığına "Covariate Shift" deniyor. +++
Llama2'deki hızlandırma taktiklerini bütün HuggingFace modelleri için kullanılabilir hale getiren bir model dönüştürücü. 7 kata kadar hızlanma vadediyor.
GitHub: