NLP Cypher | 05.23.21 – Menuju AI – Teknologi, Sains, dan Teknik Terbaik
Penulis: status kuantum
Foto oleh Timothy Eberly di Unsplash
PENGOLAHAN BAHASA ALAM (NLP) WEEKLY NEWSLETTER
Lembur
Hai Selamat datang kembali, satu minggu lagi telah berlalu dan begitu banyak kode / penelitian telah dirilis ke alam liar.
Oh dan btw, Indeks NLP aktif ???, dan saya ingin berterima kasih kepada semua kontributor!
Berikut sekilas tentang kontribusi yang luar biasa: Kumpulan kumpulan data NLP Medis Spanyol yang dipersembahkan oleh Salvador Lima di Barcelona untuk Anda. ?? Akan memperbarui Indeks NLP dengan aset ini dan aset lainnya besok.
Cantemist (kasus klinis onkologi untuk penambangan teks kanker): https://zenodo.org/record/3978041
PharmaCoNER (Zat Farmakologis, Senyawa dan protein dalam laporan kasus klinis Spanyol): https://zenodo.org/record/4270158
CodiEsp (Abstrak dari Lilacs dan Ibecs dengan kode ICD10): https://zenodo.org/record/3606662
MEDDOCAN (Anonimisasi Dokumen Medis): https://zenodo.org/record/4279323
MESINESP2 (Pengindeksan Semantik Medis): https://zenodo.org/record/4722925
Wav2vec-U: Pengenalan Ucapan Tanpa Pengawasan ?
Model FAIR baru ini tidak memerlukan transkripsi untuk mempelajari pidato. Itu hanya membutuhkan rekaman dan teks pidato tanpa pengawasan. Mereka menggunakan GAN untuk membantu membedakan fonem (bunyi bahasa). Meskipun Wav2vec-U tidak mencapai SOTA pada benchmark Librispeech, Wav2vec-U masih mendapatkan skor yang cukup bagus mengingat fakta tidak memerlukan 960 jam data ucapan yang ditranskrip. ?
Blog:
wav2vec Tanpa pengawasan: Pengenalan ucapan tanpa pengawasan
Kode:
pytorch / fairseq
Polars Dataframes ?
Jika Anda sering menggunakan kerangka data, Anda harus memeriksa Polars. Ini adalah pustaka kerangka data mengagumkan yang ditulis dalam Rust (termasuk binding Python). Hadir dengan dukungan Arrow dan semua kemegahannya termasuk file parket dan dukungan AWS S3 IO.
rs-bidang / kutub
Dokumen:
Polars – Panduan Pengguna
Universitas Amsterdam | Notebook dan Tutorial
University of Amsterdam memiliki koleksi notebook colab yang memadukan berbagai domain termasuk GNN, Transformers, dan computer vision.
Berikut TOC mereka:
Tutorial 2: Pengantar PyTorch
Tutorial 3: Fungsi aktivasi
Tutorial 4: Optimasi dan Inisialisasi
Tutorial 5: Inception, ResNet dan DenseNet
Tutorial 6: Transformers dan Perhatian Multi-Kepala
Tutorial 7: Membuat Grafik Jaringan Neural
Tutorial 8: Model Energi Dalam
Tutorial 9: Autoencoder
Tutorial 10: Serangan Musuh
Tutorial 11: Normalisasi Arus
Tutorial 12: Pemodelan Gambar Autoregressive
Selamat datang di Tutorial Pembelajaran Mendalam UvA! – Dokumentasi UvA DL Notebooks v1.0
KELM | Mengonversi WikiData ke Bahasa Alami
Google memperkenalkan kumpulan data KELM dalam kemenangan besar bagi para kutu buku factoid. Datasetnya adalah grafik pengetahuan Wikidata yang diubah menjadi bahasa alami dengan gagasan menggunakan korpus untuk meningkatkan pengetahuan faktual dalam model yang telah dilatih sebelumnya! Sebuah T5 digunakan untuk konversi ini. Korpus terdiri dari ~ 18 juta kalimat yang mencakup ~ 45 juta tripel dan ~ 1500 relasi.
KELM: Mengintegrasikan Grafik Pengetahuan dengan Korpora Pra-pelatihan Model Bahasa
Berbicara tentang grafik pengetahuan…
Pengantar Grafik Pengetahuan
Tidak Ada Pencarian Sampah!
Tidak Ada Pencarian Sampah
LabML.AI Annotated PyTorch Papers
Belajar dari makalah akademis yang dianotasi dengan kode yang sesuai. Cukup keren jika Anda ingin menguraikan penelitian.
labml.ai Implementasi Kertas PyTorch Beranotasi
Tugas yang Sepenuhnya Normal (alias tidak mencurigakan)
applicationaai / kleister-charity
Repo Cypher ??
Koleksi repo yang baru-baru ini dirilis yang menangkap our kami
Mengukur Kompetensi Coding Challenge Dengan APPS
Tolok ukur untuk pembuatan kode.
Simak hasil GPT-Neo jika dibandingkan dengan GPT-2/3, sangat menarik.
kertas
hendrycks / apps
Makalah Terhubung ?
wikipiifed – Pembuatan Kumpulan Data Otomatis dan Pembelajaran Gabungan
Repo untuk mengotomatiskan pembuatan set data dari halaman biografi wikipedia dan memanfaatkan set data untuk pembelajaran federasi dari pengenal entitas bernama berbasis BERT.
ratmcu / wikipiifed
Makalah Terhubung ?
Tolok Ukur OpenMEVA
OpenMEVA adalah tolok ukur untuk mengevaluasi pembuatan cerita terbuka.
thu-coai / OpenMEVA
Makalah Terhubung ?
KLUE: Evaluasi Pemahaman Bahasa Korea
Tolok ukur KLUE terdiri dari 8 tugas:
Klasifikasi Topik (TC) Kalimat Kesamaan Tekstual (STS) Natural Language Inference (NLI) Named Entity Recognition (NER) Relation Extraction (RE) (Part-Of-Speech) + Dependency Parsing (DP) Machine Reading Comprehension (MRC) Pelacakan Status Dialog (DST)
KLUE-benchmark / KLUE
Makalah Terhubung ?
Terjemahan Mesin Kontekstual
Model peka konteks untuk terjemahan mesin tingkat dokumen. Juga termasuk SCAT, kumpulan data Inggris-Prancis yang terdiri dari kata-kata konteks pendukung untuk terjemahan 14K yang menurut penerjemah profesional berguna untuk disambiguasi kata ganti.
Sebagian besar model MT berada di level kalimat, jadi ini adalah repo yang menarik bagi mereka yang ingin naik ke level dokumen.
neulab / kontekstual-mt
Makalah Terhubung ?
Set Data Minggu Ini: Beberapa NERD
Apa itu?
Few-NERD adalah kumpulan data pengenalan entitas berskala besar dan terperinci yang dianotasi secara manual, yang berisi 8 jenis berbutir kasar, 66 jenis berbutir halus, 188.200 kalimat, 491.711 entitas, dan 4.601.223 token. Tiga tugas benchmark dibangun, satu diawasi: Few-NERD (SUP) dan dua lainnya adalah few-shot: Few-NERD (INTRA) dan Few-NERD (INTER).
Sampel (dalam format NER umum)
Antara O
1789 O
dan O
1793 O
a O
duduk O
adalah O
ke
komite O
meninjau O
yang O
administrasi MISC-hukum
konstitusi MISC-hukum
MISC-hukum
Hukum Galicia MISC
ke O
sedikit O
efek O
. HAI
Dimana itu?
thunlp / Few-NERD
Setiap hari Minggu kami melakukan pengumpulan mingguan berita NLP dan penurunan kode dari para peneliti di seluruh dunia.
Untuk liputan lengkap, ikuti Twitter kami: @Quantum_Stat
keadaan kuantum
https://medium.com/media/1f3e87f6aa06bee149000ccc2396c977/href
NLP Cypher | 05.23.21 awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyorot dan menanggapi cerita ini.
Diterbitkan melalui Towards AI