From 3ee4179c18137d57a2ad17c05a8b6336e5b2b319 Mon Sep 17 00:00:00 2001 From: Brage Fuglseth Date: Thu, 4 Jul 2024 23:44:52 +0200 Subject: [PATCH] i18n: Bangla text generation see #45 --- data/word_lists/bn_BD.txt | 198 ++++++++++++++++++++++++++++++++++++++ src/text_generation.rs | 5 +- 2 files changed, 202 insertions(+), 1 deletion(-) create mode 100644 data/word_lists/bn_BD.txt diff --git a/data/word_lists/bn_BD.txt b/data/word_lists/bn_BD.txt new file mode 100644 index 0000000..06da367 --- /dev/null +++ b/data/word_lists/bn_BD.txt @@ -0,0 +1,198 @@ +আমি +না +তুমি +আমার +কি +এটা +আর +তোমার +আছে +সে +এই +আমরা +করে +হবে +জন্য +আমাদের +করতে +একটা +আমাকে +ঠিক +আপনি +তো +যে +তার +থেকে +কিছু +সাথে +কিন্তু +এখানে +তোমাকে +এখন +কোন +কথা +মনে +কী +যদি +এবং +হয় +আপনার +নিয়ে +ছিল +তাকে +তারা +নেই +হয়ে +তাহলে +অনেক +কেন +করা +হ্যাঁ +করো +তাই +সব +এক +এর +হচ্ছে +যাও +কাজ +হয়েছে +ও +কে +কাছে +শুধু +একটি +স্যার +দাও +তাদের +ভালো +যা +একজন +ভাল +জানি +যেতে +দিয়ে +খুব +কোথায় +করবে +যাবে +চাই +পারে +শেষ +করার +ধন্যবাদ +যখন +বলতে +কেউ +করি +সময় +তুই +গেছে +বাবা +ওকে +মত +সেটা +হতে +চলে +ওহ +নয় +হ্যা +একটু +পারি +দেখতে +সবাই +আগে +দেখা +করছি +তিনি +বের +বলে +ঐ +কর +আবার +দিতে +নাম +যায় +ওর +পারবে +নাকি +কিভাবে +মধ্যে +তোমরা +ফিরে +আচ্ছা +সাহায্য +আপনাকে +মানুষ +তা +মা +করেছে +দিকে +দরকার +সেই +আসলে +শুরু +ওটা +দুঃখিত +দিন +চলো +মানে +কিন্ত +তোর +তোমাদের +করছে +বলছি +বিশ্বাস +বন্ধ +করেছি +এমন +অবশ্যই +নিজের +কারণ +বড় +করবো +বেশি +বছর +উপর +যাচ্ছে +আসো +চেষ্টা +তারপর +হল +হেই +এসব +দেখো +কিছুই +কোনো +এটাই +আছি +টাকা +যাচ্ছি +জানো +বুঝতে +আজ +ছিলো +বলো +মতো +ধরে +কখনো +খারাপ +কেমন +প্লিজ +মারা +পছন্দ +সেখানে +চাও +নাও +সমস্যা +দেখে +নি +পর +থাকে +এখনো +সুন্দর +তখন +ভুল +ভাই +ওখানে +পর্যন্ত diff --git a/src/text_generation.rs b/src/text_generation.rs index c362924..4ffb7f9 100644 --- a/src/text_generation.rs +++ b/src/text_generation.rs @@ -12,6 +12,8 @@ pub const CHUNK_GRAPHEME_COUNT: usize = 400; pub enum Language { #[strum(message = "العربية", to_string = "ar_SA")] Arabic, + #[strum(message = "বাংলা", to_string = "bn_BD")] + Bangla, #[strum(message = "Български", to_string = "bg_BG")] Bulgarian, #[strum(message = "Dansk", to_string = "da_DK")] @@ -97,6 +99,7 @@ impl<'a> Punctuation<'a> { pub fn simple(language: Language) -> String { match language { Language::Arabic + | Language::Bangla | Language::Bulgarian | Language::English | Language::Danish @@ -182,7 +185,7 @@ pub fn advanced(language: Language) -> String { ], ), // Hindi & Nepali use Devanagari punctuation - Language::Hindi | Language::Nepali => advanced_generic( + Language::Bangla | Language::Hindi | Language::Nepali => advanced_generic( &language.to_string(), " ", &[