May The Data Be With You Podcast ⚔️ 11# : Veri Madenciliğinden Veri Bilimine Veriden Bilgi Çıkarımının Hikayesi

Şevval Hatice ÖTER

May The Data Be With You

Merhabalar, Made in Data BBT Podcast'ın yeni bölümüne hoş geldiniz.

Hello, welcome to the new episode of the Made in Data BBT Podcast.

Bu bölümü çok sevdiğim bir şarkıyla açmak istedim.

I wanted to open this section with a song that I really love.

M.H.G. grubundan Wait şarkısıyla.

With the song "Wait" from the M.H.G. group.

Benim için duygusal olarak çok anlamlı bir şarkıydı.

It was a song that had a lot of emotional meaning for me.

Zor zamanlarımda böyle geceyi izlerken dinlediğim bir şarkıydı.

It was a song I listened to while watching the night during my difficult times.

Hiç söz olmayan bir şarkı ama aslında müziğin sözsüzce neler ifade edebileceğini gösterebileceği bir şarkı benim için.

It's a song with no lyrics, but for me, it's a song that can illustrate what music can express without words.

Ve bugün aslında bu şarkıyla gecede madencilik yaparken hayallerim için

And today, actually, while mining at night with this song for my dreams.

veri madenciliği veya şu anki adıyla veri bilimi denen şeyin nereden çıktığıyla ilgili bir podcast bölümü ele alacağız.

We will discuss a podcast episode about where data mining, or as it is currently called, data science, originated from.

Bu podcast'ta kullandığım kaynakların referansları,

The references for the sources I used in this podcast,

Yıldız Teknik Üniversitesi'nde veri madenciliğine giriş dersinde aldığım dersteki notlardır.

These are the notes from the course I took in the introductory data mining class at Yıldız Technical University.

Veri madenciliği veya veri bilimi olarak adlandırdığımız şey,

What we call data mining or data science,

gereksinimlerin buluşlarımızın başlangıcı ve kaynağı olmasından dolayı çıktı.

The output emerged because the requirements are the starting point and source of our inventions.

Ne demek?

What does it mean?

Son yıllarda ölçüm cihazları çok arttı ve buna paralel olarak veri sayısı ve veri türleri arttı.

In recent years, the number of measuring devices has greatly increased, and in parallel, the amount and types of data have also increased.

Mesela ne dediğimi tam anlayamadıysanız bileklerinizdeki,

For example, even if you didn't fully understand what I said, in your wrists,

akıllı saatlere bakın.

Look at the smartwatches.

Bu akıllı saatler bile kalp verimizden adım sayımıza bir sürü veriyi ve bir sürü çeşitteki veriyi topluyor.

Even these smart watches collect a lot of data from our heart rate to our step count and various types of data.

Dolayısıyla veri toplama araştırı ve veri tabanı teknolojilerindeki gelişmeler bilgi depolarında çok miktarda bilginin depolanmasını ve çözümlenmesini gerektirdi.

Therefore, advancements in data collection research and database technologies required the storage and analysis of large amounts of information in data warehouses.

Veri içinde boğuluyoruz yani çok fazla veri var ama bilgi açlığı içindeyiz.

We are drowning in data, meaning there is too much data, but we are hungry for information.

Bu kadar veri bizim için neler yapar?

What does this much data do for us?

Bunu yeterince gözlemleyemiyoruz.

We cannot observe this enough.

Ve buna da çözümümüz veri tabanı ve veri madenciliği dediğimiz teknikler oluyor.

And our solution to this is the techniques we call database and data mining.

Süreçte büyük veri tabanlarındaki veri içinden ilgi çekici bilgilerin aranması şeklinde ilerliyor.

It proceeds in the form of seeking interesting information from data in large databases.

Burada düzenli bilgiyi arıyoruz.

We are looking for regular information here.

Yani veri içindeki düzeni, örüntüyü, bu veride bize anlam ifade edecek örüntü ve bundan bilgi çıkarabileceğimiz,

So, the order within the data, the pattern, the pattern that will be meaningful to us in this data, and from which we can extract information,

bu örüntüden bilgi çıkarabileceğimiz,

from this pattern, we can extract information,

şeyler nedir? Bunu arıyoruz aslında.

What are things? This is what we are actually searching for.

Peki niçin veri madenciliği veya veri bilimi?

So why data mining or data science?

Hızlı artan veri kayıtları var.

There are rapidly increasing data records.

Baktığımız zaman dünya ve uzay arasında uydu ve uzaktan algılama sistemleriyle bir sürü veri üretiliyor.

When we look at it, a lot of data is being produced between the world and space through satellite and remote sensing systems.

Teleskoplar buna dahil, uzay taramaları yapılıyor bu teleskoplarla.

Telescopes are included in this; space surveys are being conducted with these telescopes.

Ve ticari açıdan da baktığımız zaman çok fazla veri var.

And when we look at it from a commercial perspective, there is a lot of data.

Bunlara web verisi var.

They have web data.

Bunlara web verisi, banka verileri, e-ticaret verileri örnek verilebilir.

Examples of these include web data, bank data, and e-commerce data.

Ve CRM dediğimiz müşteri ilişkilerinin yönetimini içine alan alan çok gelişti ve önem kazandı.

And the field we call CRM, which includes the management of customer relations, has developed greatly and gained importance.

Ve burada markalar üzerindeki rekabet baskısı fazla.

And there is a lot of competitive pressure on brands here.

Geleneksel eski teknikler ham verileri işlemede yetersiz kalıyor.

Traditional old techniques are insufficient for processing raw data.

Dolayısıyla veri madenciliği de bilim insanlarına veri sınıflandırması ve gruplamada hipotezler oluşturma ve karar vermede yardım ediyor.

Therefore, data mining also helps scientists in forming hypotheses and making decisions in data classification and grouping.

Peki veri madenciliği dediğimiz şey ne değildir?

So what is not data mining?

Arama motorundan Amazon kelimesinin aranması yani basit sorgular veri madenciliği veya veri bilimi dediğimiz şey değildir.

Searching for the word Amazon on a search engine, that is, simple queries, is not what we call data mining or data science.

Bu şekilde üretilen çok fazla verinin aslında depolanması için de veri ambarı denilen teknolojiler kullanıyoruz.

We use technologies called data warehouses to actually store a large amount of data produced in this way.

Veri ambarlarını bir dahaki bölümde işleyeceğim.

I will cover data warehouses in the next section.

Büyük veri neden oluştu peki?

So what caused big data to occur?

Buna baktığımız zaman da web verileri ve e-ticaret verileri çok arttı.

When we look at this, web data and e-commerce data have increased significantly.

Büyük marketler ve holdingler dijitalde markalarını daha da arttırdılar.

Large supermarkets and holdings have further increased their brands digitally.

Bankalar ve kredi kartları kullanımı arttı.

The use of banks and credit cards has increased.

Bankalar varlıklarını dijitale aktardı ve kredi kartları kullanımında müşteri politikalarını ve müşterileri elde tutmak yeni bir müşteriyi kazanmaktan daha kolay olduğu için ve daha az maliyetli.

Banks have moved their assets to digital and in credit card usage, it is easier and less costly for customer policies and retaining customers than acquiring new ones.

Yani bir müşteri elimde tutmak daha az maliyetli olduğu için dijitalde artan veri politikaları uygulandı.

So, increased data policies were implemented digitally because it is less costly to retain a customer.

Dolayısıyla da markalar dijitalde verilerini arttırırken büyük verinin oluşmasına da yardımcı oldular.

Thus, brands contributed to the creation of big data while increasing their data in the digital space.

Etkin ve ucuz bilgisayarlar hızla gelişti.

Efficient and inexpensive computers have rapidly developed.

Şu an ellerimizde tuttuğumuz bilgisayarların RAM'i veya hafıza kartları çok fazla arttı.

The RAM or memory cards of the computers we currently hold in our hands have increased significantly.

Ama ilk başta bilgisayarlara baktığımız zaman MIT'nin laboratuvarlarına mesela ilk bilgisayarlara baktığımız zaman bir odayı kaplayacak şekilde bilgisayarlar vardı.

But when we first looked at computers, for example, in the labs at MIT, there were computers that would take up an entire room.

Ve RAM'i ve hafıza kartları çok fazla arttı.

And the RAM and memory cards have increased significantly.

Ve hafızası o kadar gelişmiş değildi.

And its memory was not that developed.

Veri saklama maliyetleri ucuz olan.

Storage costs are cheap.

Yani bulutlarda da aslında artık mesela 50-60 TL fotoğraflarınızı depolayabiliyorsunuz.

So you can actually store your photos in the cloud for about 50-60 TL now.

Dolayısıyla veri saklama maliyetinin de azalması bunun da önemli oldu.

Therefore, the reduction in data storage costs has also been significant.

Evet büyük veri var. Elimizde bir sürü veri var.

Yes, there is big data. We have a lot of data at hand.

Ama yani bu büyük veri neden önemli?

But why is this big data important?

Askeri maliyetli azami kalitede müşteri hizmeti var.

There is maximum quality customer service at military cost.

Eldeki müşteriyi tutmak, yeni bir müşteriye edinmekten kolay ve daha az maliyetli.

Retaining an existing customer is easier and less costly than acquiring a new one.

Müşterimiz ve markamız için politikalarımızı belirlerken persona dediğimiz,

While determining our policies for our customer and our brand, what we call a persona,

bizi tercih eden kişileri tanımlamamız daha önemli hale geldi.

It has become more important for us to define the people who choose us.

Büyük veri nasıl bir bilgiyi amaçlıyor peki?

What kind of information does big data aim for?

Büyük veri kaynaklarından yerle ve ilginç bulmayı amaçlıyor.

It aims to find interesting and intriguing data from big data sources.

Knowledge discovery from data.

Veriden bilgi keşfi.

adlandırdığımız şey, bulunan bilginin gizli, yani o bilgi daha önceden bilinmeyen olması lazım.

What we call something must be the information that is hidden, meaning that this information should have been previously unknown.

Önemli ve önceden bilinmeyen ve geçerli ve yararlı olmasını amaçlıyor.

It aims to be important, previously unknown, valid, and useful.

Beyin madenciliğinde teknikleri belli bir modele uyduruyoruz.

In brain mining, we fit the techniques to a specific model.

Veri içindeki örüntüleri bulurken bulunan örüntülerin önemli olması,

The importance of the patterns found while identifying patterns within the data,

insanlar tarafından kolayca anlaşılabilir, test vericisi veya yeni veriler üzerinde de

easily understandable by people, on test data or new data as well.

belli oranda geçerli olmasını amaçlıyoruz.

We aim for it to be valid to a certain extent.

Süreç nasıl işliyor dersek, veriyi topluyoruz.

If we ask how the process works, we collect the data.

Büsüneşik veri ambarları oluşturuyoruz.

We are creating integrated data warehouses.

Veri temizleniyor.

Data is being cleaned.

Sonra temizlenen veri, veri ambarları içine gidiyor.

Then the cleaned data goes into the data warehouses.

Veri ambarları artık dinamik olduğu için de artık akan veri üzerinde de analizler yapabiliyoruz.

Since data warehouses are now dynamic, we can also perform analyses on streaming data.

Amacıma yönelik aldığım veriye, ambarda amaca uygun analizler yaparak,

By analyzing the data I obtained for my purpose with appropriate analyses in the warehouse,

veri madenciliği dediğimiz şekilde modeller kuruyoruz.

We create models in what we call data mining.

Sonra kurduğumuz modelleri değerlendirip,

Then we will evaluate the models we have established,

bu modellerden bir bilgi yürütüyoruz.

We are conducting an analysis based on these models.

Bilgi keşfi uygulamalarını incelemeden,

Without examining data mining applications,

amaca uygun veri kümesini oluşturmada yardımcı oluyor.

It helps in creating a dataset suitable for the purpose.

Peki, amaca uygun veri kümesi oluşturma dediğimiz şey ne?

So, what is it that we call creating a dataset suitable for the purpose?

Verimiz çöpse, yaptığımız işlem de çöptür.

If our data is garbage, then the process we are doing is also garbage.

Dolayısıyla veriyi düzgün toplamak ve amacımıza uygun veri seçmek çok önemli.

Therefore, it is very important to collect data properly and choose data suitable for our purpose.

Veri ayıklama ve ön işleme aşaması geliyor sonra.

The data extraction and preprocessing phase is coming next.

Bu da işlemin 160'lı kısmını oluşturuyor.

This also makes up the 160 part of the process.

Sonrasında veri azaltma ve veri dönüşüm dediğimiz kısımlar,

Afterwards, the sections we call data reduction and data transformation,

incelemede gerekli boyutları, özellikleri seçme,

selecting the necessary dimensions and features in the review.

boyut ayarısı, ilişkiyi belirleme, yani boyut azaltma yapılıyor.

Size adjustment, determining the relationship, meaning size reduction is being performed.

Veri madenciliği tekniği seçerken de,

When choosing a data mining technique,

burada sınıflandırma, regresyon, kümeleme şeklinde tekniklerimiz var.

Here we have techniques such as classification, regression, and clustering.

Veri bilimi algoritmasını seçtikten sonra,

After selecting the data science algorithm,

model değerlendirme ve bilgi çıkarıma adımlar oluyor.

There are model evaluation and information extraction steps.

Sonra da bulduğumuz veriyi, eğer bilgi bulabiliyorsak,

Then, if we can find information, we will use the data we found.

bulunan bilginin yararlılığı ve gizli,

the usefulness of the information found and its secrecy,

önceden bilinmeyen ve geçerli olmasını istiyoruz.

We want it to be unknown beforehand and valid.

Ve bu bilgiyi yorumlayarak,

And by interpreting this information,

bu bilgiyi de kullanabileceğimiz yerler arıyoruz.

We are looking for places where we can also use this information.

Burada dikkat etmemiz gereken şeylerden biri de,

One of the things we need to pay attention to here is,

veri bilimi yöntemleri geçmiş olaylara bakarak örüntüler buluyor.

Data science methods identify patterns by examining past events.

Gelecekteki olaylar geçmiştekilerle aynı değildir.

Future events are not the same as past ones.

İlişkiler her zaman nedenleri açıklamaz.

Relationships do not always explain the reasons.

Mesela, burada da özellikle bizimler ise şöyle bir örnek veriliyordu,

For example, a specific example was given here particularly for us,

hot dog dediğimiz bu sosisli sandviçler,

the sausages in the sandwiches we call hot dogs,

hamburgerler ve barbekü sosunun arasında bir ilişki gözlemlenmiş ama

A relationship has been observed between hamburgers and barbecue sauce, but

bunun arasında aslında bir ilişki yok.

There is actually no relationship between this.

Yani her zaman bir nedensellik açıklamak zorunda değil aslında bulduğumuz şey.

So what we find doesn't actually have to explain a causality all the time.

Evet, bugün size bilgi olarak anlatacaklarım bunlar da,

Yes, these are what I will tell you for information today, too.

benim iç gözlemlerime gelecek olursak da,

as for my inner observations,

bu yöntem her zaman benim için etkileyiciydi.

This method has always been impressive to me.

Üniversiteye ilk geldiğim zamandan beri veri bilimi,

Since the first time I came to university, data science,

yapay zeka konuları bende bir merak uyandırmıştı.

Artificial intelligence topics had sparked my curiosity.

Çünkü insanlığın artık kolektif bilinci düzgün kullanıp,

Because humanity can now use collective consciousness properly,

cansızları yeterince ürettikten sonra,

after producing enough of the lifeless things,

aslında Birleşmiş Milletlerin o hedeflerine odaklanmamız gerektiğini düşünüyorum.

I actually think we should focus on the goals of the United Nations.

Şu an önümde mesela bir dünya haritası var ve

Right now, for example, there is a world map in front of me and

bizim su sıkıntımız, iklim krizimiz ve benzeri sorunlarımız bence çok daha önemli.

I think our water shortage, climate crisis, and similar issues are much more important.

Benim yaptığım ve ürettiğim tüm içeriklerdeki amaç bu.

The purpose of everything I create and produce is this.

Bir kolektif bilinç oluşturup,

Creating a collective consciousness,

bu kolektif bilinciye katkı sunarken,

while contributing to this collective consciousness,

hepimizin bu alanda, kendi işinde,

we all have our own work in this field,

mesela sosyologsan o alanda, biyologsan o alanda,

for example, if you are a sociologist in that field, if you are a biologist in that field,

bu yetkinlikleri bir iç gözlem olarak kazanıp,

gaining these competencies as an inner observation,

işlerimizi kolaylaştırmada yardımcı olmak.

To help facilitate our work.

Ben de bu alanda sunabileceğim katkıyı sizlerle paylaşmaya çalışıyorum.

I am also trying to share the contribution I can offer in this field with you.

Öğrendiklerimi, bilgilerimi.

What I have learned, my knowledge.

Burada mesela Yıldız'da benim çok emek verdim.

For example, I put a lot of effort into Yıldız here.

Hatta ambarlarını da izleyip sonrasında derse iyice hazırlandım.

In fact, I even monitored the warehouses and then prepared thoroughly for the lesson.

Ve haftaya da aslında finali olan bu derse

And next week, there is actually a final for this class.

hem kendimi daha iyi pekiştiriyorum,

I am also reinforcing myself better.

hem de sizlerin de faydasını sunuyorum.

I am also offering you the benefit.

Dolayısıyla beraber büyümek ve bu yolda güzelce beraber yol almak için

Therefore, to grow together and beautifully walk along this path together.

daha güzel neler mümkün diyorum.

I say what more beautiful things are possible.

Beni dinlediğiniz için çok teşekkür ederim sayın dinleyen.

Thank you very much for listening to me, dear listener.

Bugünkü bölümün de sonuna geldik.

We have come to the end of today's episode as well.

Görüşmek üzere.

See you soon.

