Analisis Penjualan Starbucks – Bagian 1 – Menuju AI — Publikasi AI dan Teknologi Terkemuka di Dunia

Penulis (s): Abhishek Jana

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Analisis data

Pandangan mendalam pada data penjualan Starbucks!

Setiap data menceritakan sebuah cerita! Sebagai bagian dari program gelar nano Ilmu Data Udacity, saya cukup beruntung untuk melihat data penjualan Starbucks. Dalam proyek batu penjuru ini, saya bebas menganalisis data dengan cara saya. Jadi, di blog ini, saya akan mencoba menjelaskan apa yang saya lakukan.

Ikhtisar Kumpulan Data

Data tersebut dibuat untuk mendapatkan gambaran tentang hal-hal sebagai berikut:

Untuk mengamati keputusan pembelian orang berdasarkan penawaran promosi yang berbeda. Ada tiga jenis penawaran: BOGO ( beli satu dapat satu ), diskon, dan informasional. Saya ingin melihat pengaruh penawaran ini terhadap pembelian. Akhirnya, saya ingin melihat bagaimana tawaran mempengaruhi sekelompok orang tertentu.

Ada 3 file dalam kumpulan data:

profile.json

Pengguna program hadiah (17.000 pengguna x 5 bidang)

jenis kelamin: (kategoris) M, F, O, atau nol usia: (numerik) nilai yang hilang dikodekan sebagai 118 id: (string/hash) id dari setiap pengguna. menjadi_anggota_pada: (tanggal) format YYYYMMDD pendapatan: (numerik)

portfolio.json

Penawaran dikirim selama periode pengujian 30 hari (10 penawaran x 6 bidang)

hadiah: (numerik) uang yang diberikan untuk jumlah yang dihabiskan saluran: (daftar) web, email, seluler, kesulitan sosial: (numerik) uang yang harus dikeluarkan untuk menerima hadiah durasi: (numerik) waktu untuk membuka tawaran, dalam hari-hari offer_type: (string) BOGO, diskon, id informasi: (string/hash) id dari penawaran

transkrip.json

Log peristiwa (306648 peristiwa x 4 bidang)

orang: (string/hash) acara: (string) penawaran diterima, penawaran dilihat, transaksi, penawaran selesai nilai: (kamus) nilai yang berbeda tergantung pada jenis acara id penawaran: (string/hash) tidak terkait dengan jumlah “transaksi” apa pun: (numerik) uang yang dihabiskan dalam “transaksi” hadiah: (numerik) uang yang diperoleh dari waktu “penawaran selesai”: (numerik) jam setelah dimulainya tes

Pernyataan masalah

Ada tiga pertanyaan utama yang coba saya jawab.

Bagaimana pola pembelanjaan berdasarkan jenis penawaran dan demografi? Bagaimana cara merekomendasikan kupon/penawaran kepada pelanggan saat ini berdasarkan pola pengeluaran mereka? Bagaimana cara merekomendasikan kupon/penawaran kepada pelanggan baru?

Analisis data

Dari file portfolio.json, saya menemukan bahwa ada 10 penawaran dari 3 jenis berbeda: BOGO, Diskon, Informasi.

BOGO: Untuk penawaran beli satu dapat satu, kita perlu membeli satu produk untuk mendapatkan produk yang sama dengan nilai ambang batas.

Diskon: Dalam penawaran ini, pengguna harus merogoh kocek dalam jumlah tertentu untuk mendapatkan diskon.

Informasional: Jenis penawaran ini tidak memiliki diskon atau jumlah minimum untuk dibelanjakan.

Untuk menebus penawaran, seseorang harus mengeluarkan 0, 5, 7, 10, atau 20 dolar.

Data profile.json adalah informasi dari 17.000 orang unik. Data memiliki beberapa nilai nol. Dan dengan melihat data kami dapat mengatakan bahwa beberapa orang tidak mengungkapkan jenis kelamin, usia, atau pendapatan mereka. Itu sebabnya kami memiliki jumlah nilai nol yang sama di kolom jenis kelamin dan pendapatan, dan kolom usia yang sesuai memiliki 118 sebagai usia.

Distribusi data profil


Gambar 1. Kiri: distribusi rata-rata usia vs jenis kelamin; Kanan: distribusi data usia dan pendapatan

Data profil memiliki distribusi usia rata-rata yang sama di antara jenis kelamin.

Seperti yang kita lihat, data usia hampir merupakan distribusi Gaussian (sedikit condong ke kanan) dengan 118 sebagai outlier sedangkan data pendapatan condong ke kanan.

Data transcript.json memiliki detail transaksi dari 17.000 orang unik. 4 jenis acara terdaftar, transaksi, penawaran diterima, dan penawaran dilihat

Kolom nilai memiliki id penawaran atau jumlah transaksi.

Prapemrosesan Data

Untuk menjawab pertanyaan pertama: Bagaimana pola pembelanjaan berdasarkan jenis penawaran dan demografi? Saya akan mengatur ulang file data dan mencoba menjawab beberapa pertanyaan untuk menjawab pertanyaan 1.

Sub-pertanyaannya adalah:

Apa saja penawaran yang populer? Bagaimana penawaran digunakan di antara jenis kelamin yang berbeda? Bagaimana transaksi bervariasi menurut jenis kelamin, usia, dan pendapatan?

Pertama, saya menggabungkan file portfolio.json, profile.json, dan transcript.json untuk menambahkan informasi demografis dan menawarkan informasi untuk visualisasi yang lebih baik. Jadi dataset baru saya memiliki kolom berikut:

‘orang’, ‘peristiwa’, ‘nilai’, ‘waktu’, ‘jenis kelamin’, ‘usia’, ‘penghasilan’, ‘tanggal’.

Juga, saya mengubah jenis kelamin ‘null’ menjadi ‘Tidak diketahui’ untuk menjadikannya fitur baru.

Mari kita rekap kolom untuk pemahaman yang lebih baik:

orang (kategori): 17.000 pengguna unik. event(category): 4 kategori unik: penawaran selesai, penawaran diterima, penawaran dilihat, dan transaksi. value(category/numeric): ketika event = ‘transaction’, value adalah numerik, jika tidak kategoris dengan id penawaran sebagai kategori. waktu(numerik): 0 adalah awal percobaan. jenis kelamin (kategori): 4 kategori unik: Pria, Wanita, Lainnya, dan Tidak Diketahui. usia (numerik): kolom numerik dengan 118 tidak diketahui atau outlier. pendapatan(numerik): kolom numerik dengan beberapa nilai nol yang sesuai dengan usia 118. tanggal: tanggal transaksi.

Apa saja jenis penawaran yang populer?

Kita dapat membuat plot berapa persen dari penawaran yang dibagikan adalah BOGO, Diskon, dan Informasi dan akhirnya mengetahui berapa persen dari penawaran yang diterima, dilihat, dan diselesaikan.

Untuk melakukannya, saya memisahkan data penawaran dari data transaksi (peristiwa = ‘transaksi’).

Gambar 2. persentase penawaran yang diterima vs jenis penawaran

Kita dapat melihat bahwa penawaran informasional tidak perlu diselesaikan. Meskipun, penawaran BOGO dan Diskon dibagikan secara merata,

Penawaran BOGO dilihat lebih dari penawaran diskon. Tapi, penawaran Diskon lebih lengkap.

Jadi, penawaran diskon lebih populer dalam hal penyelesaian.

Bagaimana penawaran digunakan di antara jenis kelamin yang berbeda?

Karena tidak ada penyelesaian penawaran untuk penawaran ‘informasi’, kami dapat mengabaikan baris yang berisi penawaran ‘informasi’ untuk mengetahui hubungan antara penawaran yang dilihat dan penyelesaian penawaran.

Gambar 3 jenis penawaran vs jenis kelamin

Dari plot ‘Rata-rata penawaran yang diterima berdasarkan jenis kelamin’, kami melihat bahwa rata-rata penawaran yang diterima per orang menurut jenis kelamin hampir sama.

Plot ‘distribusi penawaran menurut Gender’ menunjukkan persentase penawaran yang dilihat di antara penawaran yang diterima menurut jenis kelamin dan persentase penawaran yang diselesaikan di antara penawaran yang diterima menurut jenis kelamin.

Kami melihat itu,

Pelanggan lain melihat penawaran paling banyak dan pelanggan Pria melihat penawaran paling sedikit. Pelanggan wanita menyelesaikan penawaran paling banyak dan, Grup Tidak Dikenal menyelesaikan penawaran paling sedikit.

Dapat kami katakan, dengan adanya suatu penawaran, peluang untuk menukarkan penawaran tersebut lebih tinggi di antara Wanita dan jenis kelamin lainnya!

Bagaimana transaksi bervariasi menurut jenis kelamin, usia, dan pendapatan?

Dari data transaksi, mari kita coba mencari tahu bagaimana hubungan jenis kelamin, usia, dan pendapatan dengan rata-rata jumlah transaksi.

Gambar 4. ketergantungan pada usia, jenis kelamin, pendapatan pada pengeluaran rata-rata

Kita bisa melihat tren yang diharapkan dalam usia dan pendapatan vs pengeluaran. Dengan bertambahnya usia dan pendapatan, berarti pengeluaran meningkat.

Dalam plot gender, kami melihat wanita cenderung membelanjakan uang paling banyak, dan kelompok yang tidak memiliki data demografis (Jenis kelamin tidak diketahui) cenderung membelanjakan uang paling sedikit. Ada korelasi positif antara usia dan pengeluaran rata-rata. Orang menghabiskan lebih banyak dengan pendapatan yang lebih tinggi.

Kesimpulan

Jadi, kesimpulannya, untuk menjawab Bagaimana pola pembelanjaan berdasarkan jenis penawaran dan demografi?

Jawaban yang mungkin adalah,

Meskipun penawaran BOGO dilihat lebih banyak, penawaran Diskon lebih populer dalam hal penyelesaian. Diberi penawaran, peluang untuk menukarkan penawaran lebih tinggi di antara Wanita dan Jenis kelamin lainnya! Wanita cenderung menghabiskan paling banyak. Pengeluaran meningkat seiring bertambahnya usia dan pendapatan.

Di bagian 2 blog ini, saya akan menjelaskan,

Bagaimana cara merekomendasikan kupon/penawaran kepada pelanggan saat ini berdasarkan pola pengeluaran mereka? Bagaimana cara merekomendasikan kupon/penawaran kepada pelanggan baru?

Tautan ke bagian 2 dari blog ini dapat ditemukan di sini.

Repositori GitHub dari proyek ini dapat ditemukan di sini.

Analisis Penjualan Starbucks – Bagian 1 awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI