Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion Jenkinsfile
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,7 @@ pipeline {
HY_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/03-12-24-0'
MR_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/03-12-24-1'
JA_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/10-17-24-1'
HI_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/01-16-26-0'
HI_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/01-29-26-0'
DEFAULT_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/06-08-23-0'
}
stages {
Expand Down
31 changes: 31 additions & 0 deletions nemo_text_processing/text_normalization/hi/data/date/days.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -29,3 +29,34 @@
२९ उनतीस
३० तीस
३१ इकतीस
01 एक
02 दो
03 तीन
04 चार
05 पाँच
06 छः
07 सात
08 आठ
09 नौ
10 दस
11 ग्यारह
12 बारह
13 तेरह
14 चौदह
15 पंद्रह
16 सोलह
17 सत्रह
18 अठारह
19 उन्नीस
20 बीस
21 इक्कीस
22 बाईस
23 तेईस
24 चौबीस
25 पच्चीस
26 छब्बीस
27 सत्ताईस
28 अट्ठाईस
29 उनतीस
30 तीस
31 इकतीस
12 changes: 12 additions & 0 deletions nemo_text_processing/text_normalization/hi/data/date/months.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -10,3 +10,15 @@
१० अक्टूबर
११ नवंबर
१२ दिसंबर
01 जनवरी
02 फ़रवरी
03 मार्च
04 अप्रैल
05 मई
06 जून
07 जुलाई
08 अगस्त
09 सितंबर
10 अक्टूबर
11 नवंबर
12 दिसंबर
Original file line number Diff line number Diff line change
Expand Up @@ -7,3 +7,12 @@
७ सात
८ आठ
९ नौ
1 एक
2 दो
3 तीन
4 चार
5 पाँच
6 छह
7 सात
8 आठ
9 नौ
Original file line number Diff line number Diff line change
@@ -0,0 +1,90 @@
10 दस
11 ग्यारह
12 बारह
13 तेरह
14 चौदह
15 पंद्रह
16 सोलह
17 सत्रह
18 अठारह
19 उन्नीस
20 बीस
21 इक्कीस
22 बाईस
23 तेईस
24 चौबीस
25 पच्चीस
26 छब्बीस
27 सत्ताईस
28 अट्ठाईस
29 उनतीस
30 तीस
31 इकतीस
32 बत्तीस
33 तैंतीस
34 चौंतीस
35 पैंतीस
36 छत्तीस
37 सैंतीस
38 अड़तीस
39 उनतालीस
40 चालीस
41 इकतालीस
42 बयालीस
43 तैंतालीस
44 चौवालीस
45 पैंतालीस
46 छियालीस
47 सैंतालीस
48 अड़तालीस
49 उनचास
50 पचास
51 इक्यावन
52 बावन
53 तिरेपन
54 चौवन
55 पचपन
56 छप्पन
57 सत्तावन
58 अट्ठावन
59 उनसठ
60 साठ
61 इकसठ
62 बासठ
63 तिरेसठ
64 चौंसठ
65 पैंसठ
66 छियासठ
67 सड़सठ
68 अड़सठ
69 उनहत्तर
70 सत्तर
71 इकहत्तर
72 बहत्तर
73 तिहत्तर
74 चौहत्तर
75 पचहत्तर
76 छिहत्तर
77 सतहत्तर
78 अठहत्तर
79 उनासी
80 अस्सी
81 इक्यासी
82 बयासी
83 तिरासी
84 चौरासी
85 पचासी
86 छियासी
87 सत्तासी
88 अट्ठासी
89 नवासी
90 नब्बे
91 इक्यानबे
92 बानबे
93 तिरानबे
94 चौरानबे
95 पंचानबे
96 छियानबे
97 सत्तानबे
98 अट्ठानबे
99 निन्यानबे
Original file line number Diff line number Diff line change
@@ -1 +1,2 @@
० शून्य
0 शून्य
Original file line number Diff line number Diff line change
Expand Up @@ -8,6 +8,16 @@
४थी चौथी
६ठा छठा
६ठी छठी
1ला पहला
1ली पहली
2रा दूसरा
2री दूसरी
3रा तीसरा
3री तीसरी
4था चौथा
4थी चौथी
6ठा छठा
6ठी छठी
१st फ़र्स्ट
२nd सेकंड
३rd थर्ड
Expand All @@ -23,3 +33,18 @@
१३th थर्टींथ
१४th फोर्टींथ
१५th फिफ्टींथ
1st फ़र्स्ट
2nd सेकंड
3rd थर्ड
4th फ़ोर्थ
5th फ़िफ्थ
6th सिक्स्थ
7th सेवंथ
8th एटथ
9th नाइंथ
10th टेंथ
11th इलेवंथ
12th ट्वेल्फ्थ
13th थर्टींथ
14th फोर्टींथ
15th फिफ्टींथ
25 changes: 25 additions & 0 deletions nemo_text_processing/text_normalization/hi/data/time/hours.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -23,3 +23,28 @@
२२ बाईस
२३ तेईस
२४ चौबीस
0 शून्य
1 एक
2 दो
3 तीन
4 चार
5 पाँच
6 छह
7 सात
8 आठ
9 नौ
10 दस
11 ग्यारह
12 बारह
13 तेरह
14 चौदह
15 पंद्रह
16 सोलह
17 सत्रह
18 अठारह
19 उन्नीस
20 बीस
21 इक्कीस
22 बाईस
23 तेईस
24 चौबीस
60 changes: 60 additions & 0 deletions nemo_text_processing/text_normalization/hi/data/time/minutes.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -58,3 +58,63 @@
५८ अट्ठावन
५९ उनसठ
६० साठ
01 एक
02 दो
03 तीन
04 चार
05 पाँच
06 छह
07 सात
08 आठ
09 नौ
10 दस
11 ग्यारह
12 बारह
13 तेरह
14 चौदह
15 पंद्रह
16 सोलह
17 सत्रह
18 अठारह
19 उन्नीस
20 बीस
21 इक्कीस
22 बाईस
23 तेईस
24 चौबीस
25 पच्चीस
26 छब्बीस
27 सत्ताईस
28 अट्ठाईस
29 उनतीस
30 तीस
31 इकतीस
32 बत्तीस
33 तैंतीस
34 चौंतीस
35 पैंतीस
36 छत्तीस
37 सैंतीस
38 अड़तीस
39 उनतालीस
40 चालीस
41 इकतालीस
42 बयालीस
43 तैंतालीस
44 चौवालीस
45 पैंतालीस
46 छियालीस
47 सैंतालीस
48 अड़तालीस
49 उनचास
50 पचास
51 इक्यावन
52 बावन
53 तिरेपन
54 चौवन
55 पचपन
56 छप्पन
57 सत्तावन
58 अट्ठावन
59 उनसठ
60 साठ
60 changes: 60 additions & 0 deletions nemo_text_processing/text_normalization/hi/data/time/seconds.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -58,3 +58,63 @@
५८ अट्ठावन
५९ उनसठ
६० साठ
01 एक
02 दो
03 तीन
04 चार
05 पाँच
06 छह
07 सात
08 आठ
09 नौ
10 दस
11 ग्यारह
12 बारह
13 तेरह
14 चौदह
15 पंद्रह
16 सोलह
17 सत्रह
18 अठारह
19 उन्नीस
20 बीस
21 इक्कीस
22 बाईस
23 तेईस
24 चौबीस
25 पच्चीस
26 छब्बीस
27 सत्ताईस
28 अट्ठाईस
29 उनतीस
30 तीस
31 इकतीस
32 बत्तीस
33 तैंतीस
34 चौंतीस
35 पैंतीस
36 छत्तीस
37 सैंतीस
38 अड़तीस
39 उनतालीस
40 चालीस
41 इकतालीस
42 बयालीस
43 तैंतालीस
44 चौवालीस
45 पैंतालीस
46 छियालीस
47 सैंतालीस
48 अड़तालीस
49 उनचास
50 पचास
51 इक्यावन
52 बावन
53 तिरेपन
54 चौवन
55 पचपन
56 छप्पन
57 सत्तावन
58 अट्ठावन
59 उनसठ
60 साठ
18 changes: 18 additions & 0 deletions nemo_text_processing/text_normalization/hi/graph_utils.py
Original file line number Diff line number Diff line change
Expand Up @@ -30,6 +30,10 @@
NEMO_HI_DIGIT = pynini.union("०", "१", "२", "३", "४", "५", "६", "७", "८", "९").optimize()
NEMO_HI_NON_ZERO = pynini.union("१", "२", "३", "४", "५", "६", "७", "८", "९").optimize()
NEMO_HI_ZERO = "०"
# Combined Hindi and Arabic digits for graphs that need to accept both
NEMO_ALL_DIGIT = pynini.union(NEMO_HI_DIGIT, NEMO_DIGIT).optimize()
NEMO_ALL_ZERO = pynini.union("०", "0").optimize()
NEMO_ALL_NON_ZERO = pynini.union(NEMO_HI_NON_ZERO, "1", "2", "3", "4", "5", "6", "7", "8", "9").optimize()

HI_DEDH = "डेढ़" # 1.5
HI_DHAI = "ढाई" # 2.5
Expand All @@ -44,6 +48,20 @@
HI_DECIMAL_25 = ".२५" # .25
HI_DECIMAL_75 = ".७५" # .75

# Arabic/English decimal representations
EN_POINT_FIVE = ".5"
EN_ONE_POINT_FIVE = "1.5"
EN_TWO_POINT_FIVE = "2.5"
EN_DECIMAL_25 = ".25"
EN_DECIMAL_75 = ".75"

# Combined Hindi and English decimal patterns
POINT_FIVE = pynini.union(HI_POINT_FIVE, EN_POINT_FIVE).optimize()
ONE_POINT_FIVE = pynini.union(HI_ONE_POINT_FIVE, EN_ONE_POINT_FIVE).optimize()
TWO_POINT_FIVE = pynini.union(HI_TWO_POINT_FIVE, EN_TWO_POINT_FIVE).optimize()
DECIMAL_25 = pynini.union(HI_DECIMAL_25, EN_DECIMAL_25).optimize()
DECIMAL_75 = pynini.union(HI_DECIMAL_75, EN_DECIMAL_75).optimize()

# Symbol constants
HI_BY = "बाई"
LOWERCASE_X = "x"
Expand Down
Loading