From 9bdd96504f3c210360ac70ea2c09ab02834e43d8 Mon Sep 17 00:00:00 2001 From: Robin Leroy Date: Thu, 12 Sep 2024 16:15:01 +0200 Subject: [PATCH 1/2] Regenerate UCD --- .../ucd/dev/auxiliary/GraphemeBreakTest.html | 201 +- .../data/ucd/dev/auxiliary/LineBreakTest.html | 3815 +++++++++++++++-- .../ucd/dev/auxiliary/SentenceBreakTest.html | 856 +++- .../data/ucd/dev/auxiliary/WordBreakTest.html | 221 +- 4 files changed, 4668 insertions(+), 425 deletions(-) diff --git a/unicodetools/data/ucd/dev/auxiliary/GraphemeBreakTest.html b/unicodetools/data/ucd/dev/auxiliary/GraphemeBreakTest.html index d5670a73b..405d0078c 100644 --- a/unicodetools/data/ucd/dev/auxiliary/GraphemeBreakTest.html +++ b/unicodetools/data/ucd/dev/auxiliary/GraphemeBreakTest.html @@ -7,7 +7,7 @@

Grapheme_Cluster_Break Chart

Unicode Version: 17.0.0

-

Date: 2024-09-11, 23:37:56 GMT

+

Date: 2024-09-12, 14:11:44 GMT

This page illustrates the application of the Grapheme_Cluster_Break specification. The material here is informative, not normative.

The first chart shows where breaks would appear between different sample characters or strings. The sample characters are chosen mechanically to represent the different properties used by the specification.

Each cell shows the break-status for the position between the character(s) in its row header and the character(s) in its column header. The × symbol indicates no break, while the ÷ symbol indicated a break. The cells with × are also shaded to make it easier to scan the table. For example, in the cell at the intersection of the row headed by “CR” and the column headed by “LF”, there is a × symbol, indicating that there is no break between CR and LF.

After the heavy blue line in the table are additional rows, either with different sample characters or for sequences. Some column headers may be composed, reflecting “treat as” or “ignore” rules.

If your browser handles titles (tooltips), then hovering the mouse over the row header will show a sample character of that type. Hovering over a column header will show the sample character, plus its abbreviated general category and script. Hovering over the intersected cells shows the rule number that produces the break-status. For example, hovering over the cell at the intersection of LVT and T shows ×, with the rule 8.0. Checking below the table, rule 8.0 is “( LVT | T) × T”, which is the one that applies to that case. Note that a rule is invoked only when no lower-numbered rules have applied.

@@ -62,109 +62,238 @@

Sample Strings

The following samples illustrate the application of the rules. The blue lines indicate possible break points. If your browser supports titles (tooltips), then positioning the mouse over each character will show its name, while positioning between characters shows the number of the rule responsible for the break-status.

1 -      a    ◌̈   +     +   +a   +   +◌̈   +
2 -  a  ◌̈   +  a   +◌̈   +
3 -       ن   +      +   +ن   +
4 -  ن        +  ن   +   +    +
5 -       +     +   +
6 -         +     +   +   +
7 -         +     +   +   +
8 -  🇦  🇧  🇨  b   +  🇦   +🇧   +🇨   +b   +
9 -  a  🇦  🇧  🇨  b   +  a   +🇦   +🇧   +🇨   +b   +
10 -  a  🇦  🇧    🇨  b   +  a   +🇦   +🇧   +   +🇨   +b   +
11 -  a  🇦    🇧  🇨  b   +  a   +🇦   +   +🇧   +🇨   +b   +
12 -  a  🇦  🇧  🇨  🇩  b   +  a   +🇦   +🇧   +🇨   +🇩   +b   +
13 -  a     +  a   +   +
14 -  a  ◌̈  b   +  a   +◌̈   +b   +
15 -  a    b   +  a   +   +b   +
16 -  a    b   +  a   +   +b   +
17 -  👶  🏿  👶   +  👶   +🏿   +👶   +
18 -  a  🏿  👶   +  a   +🏿   +👶   +
19 -  a  🏿  👶    🛑   +  a   +🏿   +👶   +   +🛑   +
20 -  👶  🏿  ◌̈    👶  🏿   +  👶   +🏿   +◌̈   +   +👶   +🏿   +
21 -  🛑    🛑   +  🛑   +   +🛑   +
22 -  a    🛑   +  a   +   +🛑   +
23 -         +     +   +   +
24 -  a       +  a   +   +   +
25 -       +     +   +
26 -    ◌्     +     +◌्   +   +
27 -    ◌्  ◌्     +     +◌्   +◌्   +   +
28 -    ◌्       +     +◌्   +   +   +
29 -    ◌़    ◌्     +     +◌़   +   +◌्   +   +
30 -    ◌़  ◌्       +     +◌़   +◌्   +   +   +
31 -    ◌्    ◌्     +     +◌्   +   +◌्   +   +
32 -    ◌्  a   +     +◌्   +a   +
33 -  a  ◌्     +  a   +◌्   +   +
34 -  ?  ◌्     +  ?   +◌्   +   +
35 -    ◌्  ◌्     +     +◌्   +◌्   +   +

diff --git a/unicodetools/data/ucd/dev/auxiliary/LineBreakTest.html b/unicodetools/data/ucd/dev/auxiliary/LineBreakTest.html index 8468f2e67..4cfb8f6d9 100644 --- a/unicodetools/data/ucd/dev/auxiliary/LineBreakTest.html +++ b/unicodetools/data/ucd/dev/auxiliary/LineBreakTest.html @@ -7,7 +7,7 @@

Line_Break Chart

Unicode Version: 17.0.0

-

Date: 2024-09-11, 23:37:58 GMT

+

Date: 2024-09-12, 14:11:46 GMT

This page illustrates the application of the Line_Break specification. The material here is informative, not normative.

The first chart shows where breaks would appear between different sample characters or strings. The sample characters are chosen mechanically to represent the different properties used by the specification.

Each cell shows the break-status for the position between the character(s) in its row header and the character(s) in its column header. The × symbol indicates no break, while the ÷ symbol indicated a break. The cells with × are also shaded to make it easier to scan the table. For example, in the cell at the intersection of the row headed by “CR” and the column headed by “LF”, there is a × symbol, indicating that there is no break between CR and LF.

Some column headers may be composed, reflecting “treat as” or “ignore” rules.

If your browser handles titles (tooltips), then hovering the mouse over the row header will show a sample character of that type. Hovering over a column header will show the sample character, plus its abbreviated general category and script. Hovering over the intersected cells shows the rule number that produces the break-status. For example, hovering over the cell at the intersection of H3 and JT shows ×, with the rule 26.03. Checking below the table, rule 26.03 is “JT | H3 × JT”, which is the one that applies to that case. Note that a rule is invoked only when no lower-numbered rules have applied.

@@ -173,868 +173,4105 @@

Sample Strings

The following samples illustrate the application of the rules. The blue lines indicate possible break points. If your browser supports titles (tooltips), then positioning the mouse over each character will show its name, while positioning between characters shows the number of the rule responsible for the break-status.

1 -      a    ◌̈   +     +   +a   +   +◌̈   +
2 -  a  ◌̈   +  a   +◌̈   +
3 -       ن   +      +   +ن   +
4 -  ن        +  ن   +   +    +
5 -       +     +   +
6 -       +     +   +
7 -       +     +   +
8 -       +     +   +
9 -       +     +   +
10 -       +     +   +
11 -    ◌̈      +     +◌̈   +    +
12 -        +     +    +
13 -    /   +     +/   +
14 -       +     +   +
15 -       +     +   +
16 -       +     +   +
17 -    -   +     +-   +
18 -       +     +   +
19 -  !     +  !   +   +
20 -       +     +   +
21 -  0     +  0   +   +
22 -    %   +     +%   +
23 -    0   +     +0   +
24 -  $     +  $   +   +
25 -  $     +  $   +   +
26 -  %     +  %   +   +
27 -       +     +   +
28 -       +     +   +
29 -       +     +   +
30 -       +     +   +
31 -    %   +     +%   +
32 -  $     +  $   +   +
33 -    🏻   +     +🏻   +
34 -  f  i  n  a  l   +  f   +i   +n   +a   +l   +
35 -  c  a  n  '  t   +  c   +a   +n   +'   +t   +
36 -  c  a  n    t   +  c   +a   +n   +   +t   +
37 -  '  c  a  n  '     n  o  t   +  '   +c   +a   +n   +'   +    +n   +o   +t   +
38 -  c  a  n     '  n  o  t  '   +  c   +a   +n   +    +'   +n   +o   +t   +'   +
39 -  b  u  g  (  s  )                  +  b   +u   +g   +(   +s   +)   +    +    +    +    +    +
40 -  b  u  g  (  s  )                     +  b   +u   +g   +(   +s   +)   +    +    +    +    +    +    +
41 -  .  .        X  M  L    .  .   +  .   +.   +   +   +   +X   +M   +L   +   +.   +.   +
42 -  a  b    b  y   +  a   +b   +   +b   +y   +
43 -  -  3   +  -   +3   +
44 -  e  .  g  .   +  e   +.   +g   +.   +
45 -    .    .   +     +.   +   +.   +
46 -  a        b   +  a   +    +    +b   +
47 -  a          b   +  a   +    +    +   +b   +
48 -  a     ◌̈  b   +  a   +    +◌̈   +b   +
49 -  1  ◌̈  b  (  a  )  -  (  b  )   +  1   +◌̈   +b   +(   +a   +)   +-   +(   +b   +)   +
50 -  g  i  v  e     b  o  o  k  (  s  )  .   +  g   +i   +v   +e   +    +b   +o   +o   +k   +(   +s   +)   +.   +
51 -    (    )   +     +(   +   +)   +
52 -  f  i  n  d     .  c  o  m   +  f   +i   +n   +d   +    +.   +c   +o   +m   +
53 -  e  q  u  a  l  s     .  3  5     c  e  n  t  s   +  e   +q   +u   +a   +l   +s   +    +.   +3   +5   +    +c   +e   +n   +t   +s   +
54 -  (  s  )  h  e   +  (   +s   +)   +h   +e   +
55 -  {  s  }  h  e   +  {   +s   +}   +h   +e   +
56 -  ˈ  s  I  l  ə  b  (  ə  )  l   +  ˈ   +s   +I   +l   +ə   +b   +(   +ə   +)   +l   +
57 -  ˈ  s  I  l  ə  b  {  ə  }  l   +  ˈ   +s   +I   +l   +ə   +b   +{   +ə   +}   +l   +
58 -  c  o  d  e  (  s  )  .   +  c   +o   +d   +e   +(   +s   +)   +.   +
59 -  c  o  d  e  (  s  .  )   +  c   +o   +d   +e   +(   +s   +.   +)   +
60 -  c  o  d  e  (  s  )  !   +  c   +o   +d   +e   +(   +s   +)   +!   +
61 -  c  o  d  e  (  s  !  )   +  c   +o   +d   +e   +(   +s   +!   +)   +
62 -  c  o  d  e  \  (  s  \  )   +  c   +o   +d   +e   +\   +(   +s   +\   +)   +
63 -  c  o  d  e  (     s     )   +  c   +o   +d   +e   +(   +    +s   +    +)   +
64 -  c  o  d  e  {  s  }   +  c   +o   +d   +e   +{   +s   +}   +
65 -  c  o  d  e  {  s  }  .   +  c   +o   +d   +e   +{   +s   +}   +.   +
66 -  c  o  d  e  {  s  }  !   +  c   +o   +d   +e   +{   +s   +}   +!   +
67 -  c  o  d  e  \  {  s  \  }   +  c   +o   +d   +e   +\   +{   +s   +\   +}   +
68 -  c  o  d  e  {     s     }   +  c   +o   +d   +e   +{   +    +s   +    +}   +
69 -  c  o  d  (  e  )    (  s  )   +  c   +o   +d   +(   +e   +)   +   +(   +s   +)   +
70 -  (  c  o  d  (  e  )    )  s   +  (   +c   +o   +d   +(   +e   +)   +   +)   +s   +
71 -  c  o  d  {  e  }    {  s  }   +  c   +o   +d   +{   +e   +}   +   +{   +s   +}   +
72 -  {  c  o  d  {  e  }    }  s   +  {   +c   +o   +d   +{   +e   +}   +   +}   +s   +
73 -  (  c  o  n  -  )  l  a  n  g   +  (   +c   +o   +n   +-   +)   +l   +a   +n   +g   +
74 -  (  c  o  n    )  l  a  n  g   +  (   +c   +o   +n   +   +)   +l   +a   +n   +g   +
75 -  (  c  o  n    )  l  a  n  g   +  (   +c   +o   +n   +   +)   +l   +a   +n   +g   +
76 -  (  c  o  n  )  -  l  a  n  g   +  (   +c   +o   +n   +)   +-   +l   +a   +n   +g   +
77 -  (  c  o  n  )    l  a  n  g   +  (   +c   +o   +n   +)   +   +l   +a   +n   +g   +
78 -  (  c  o  n  )    l  a  n  g   +  (   +c   +o   +n   +)   +   +l   +a   +n   +g   +
79 -  {  c  o  n  -  }  l  a  n  g   +  {   +c   +o   +n   +-   +}   +l   +a   +n   +g   +
80 -  {  c  o  n    }  l  a  n  g   +  {   +c   +o   +n   +   +}   +l   +a   +n   +g   +
81 -  {  c  o  n    }  l  a  n  g   +  {   +c   +o   +n   +   +}   +l   +a   +n   +g   +
82 -  {  c  o  n  }  -  l  a  n  g   +  {   +c   +o   +n   +}   +-   +l   +a   +n   +g   +
83 -  {  c  o  n  }    l  a  n  g   +  {   +c   +o   +n   +}   +   +l   +a   +n   +g   +
84 -  {  c  o  n  }    l  a  n  g   +  {   +c   +o   +n   +}   +   +l   +a   +n   +g   +
85 -  c  r  e  ◌́  (  e  ◌́  )  (  e  )   +  c   +r   +e   +◌́   +(   +e   +◌́   +)   +(   +e   +)   +
86 -  c  r  e  ◌́  [  e  r  |  e  ◌́  (  e  )  (  s  )  ]   +  c   +r   +e   +◌́   +[   +e   +r   +|   +e   +◌́   +(   +e   +)   +(   +s   +)   +]   +
87 -  c  r  e  ◌́  {  e  r  |  e  ◌́  (  e  )  (  s  )  }   +  c   +r   +e   +◌́   +{   +e   +r   +|   +e   +◌́   +(   +e   +)   +(   +s   +)   +}   +
88 -  a  m  b  i  g  u  (  ◌̈  )  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +(   +◌̈   +)   +(   +e   +◌̈   +)   +
89 -  a  m  b  i  g  u  (  «  ◌̈  »  )  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +(   +«   +◌̈   +»   +)   +(   +e   +◌̈   +)   +
90 -  a  m  b  i  g  u  (  «     ◌̈     »  )  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +(   +«   +    +◌̈   +    +»   +)   +(   +e   +◌̈   +)   +
91 -  a  m  b  i  g  u  «     (     ◌̈     )     »  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +«   +    +(   +    +◌̈   +    +)   +    +»   +(   +e   +◌̈   +)   +
92 -  a  m  b  i  g  u  «    (     ◌̈     )    »  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +«   +   +(   +    +◌̈   +    +)   +   +»   +(   +e   +◌̈   +)   +
93 -  a  m  b  i  g  u  {  ◌̈  }  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +{   +◌̈   +}   +(   +e   +◌̈   +)   +
94 -  a  m  b  i  g  u  {  «  ◌̈  »  }  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +{   +«   +◌̈   +»   +}   +(   +e   +◌̈   +)   +
95 -  a  m  b  i  g  u  {  «     ◌̈     »  }  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +{   +«   +    +◌̈   +    +»   +}   +(   +e   +◌̈   +)   +
96 -  a  m  b  i  g  u  «     {     ◌̈     }     »  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +«   +    +{   +    +◌̈   +    +}   +    +»   +(   +e   +◌̈   +)   +
97 -  a  m  b  i  g  u  «    {     ◌̈     }    »  (  e  ◌̈  )   +  a   +m   +b   +i   +g   +u   +«   +   +{   +    +◌̈   +    +}   +   +»   +(   +e   +◌̈   +)   +
98 -  (  c  z  e  r  w  o  n  o      )  n  i  e  b  i  e  s  k  a   +  (   +c   +z   +e   +r   +w   +o   +n   +o   +   +   +)   +n   +i   +e   +b   +i   +e   +s   +k   +a   +
99 -  (  c  z  e  r  w  o  n  o    )    n  i  e  b  i  e  s  k  a   +  (   +c   +z   +e   +r   +w   +o   +n   +o   +   +)   +   +n   +i   +e   +b   +i   +e   +s   +k   +a   +
100 -  (  c  z  e  r  w  o  n  o  )      n  i  e  b  i  e  s  k  a   +  (   +c   +z   +e   +r   +w   +o   +n   +o   +)   +   +   +n   +i   +e   +b   +i   +e   +s   +k   +a   +
101 -  {  c  z  e  r  w  o  n  o      }  n  i  e  b  i  e  s  k  a   +  {   +c   +z   +e   +r   +w   +o   +n   +o   +   +   +}   +n   +i   +e   +b   +i   +e   +s   +k   +a   +
102 -  {  c  z  e  r  w  o  n  o    }    n  i  e  b  i  e  s  k  a   +  {   +c   +z   +e   +r   +w   +o   +n   +o   +   +}   +   +n   +i   +e   +b   +i   +e   +s   +k   +a   +
103 -  {  c  z  e  r  w  o  n  o  }      n  i  e  b  i  e  s  k  a   +  {   +c   +z   +e   +r   +w   +o   +n   +o   +}   +   +   +n   +i   +e   +b   +i   +e   +s   +k   +a   +
104 -  o  p  e  r  a  t  o  r  [  ]  (  0  )  ;   +  o   +p   +e   +r   +a   +t   +o   +r   +[   +]   +(   +0   +)   +;   +
105 -  o  p  e  r  a  t  o  r  [  ]  (  )  {  }   +  o   +p   +e   +r   +a   +t   +o   +r   +[   +]   +(   +)   +{   +}   +
106 -    (    )       +     +(   +   +)   +   +   +
107 -    (        )       +     +(   +   +   +   +)   +   +   +
108 -      (    )         +     +   +(   +   +)   +   +   +   +
109 -    {    }       +     +{   +   +}   +   +   +
110 -    {        }       +     +{   +   +   +   +}   +   +   +
111 -    [  (    )  ]       +     +[   +(   +   +)   +]   +   +   +
112 -  (          )         +  (   +   +   +   +   +)   +   +   +   +
113 -  (        )           +  (   +   +   +   +)   +   +   +   +   +
114 -  {          }         +  {   +   +   +   +   +}   +   +   +   +
115 -  {        }           +  {   +   +   +   +}   +   +   +   +   +
116 -  (            )            ◌᠌   +  (   +   +   +   +   +   +)   +   +   +   +   +   +◌᠌   +
117 -  (          )              ◌᠌   +  (   +   +   +   +   +)   +   +   +   +   +   +   +◌᠌   +
118 -  {            }            ◌᠌   +  {   +   +   +   +   +   +}   +   +   +   +   +   +◌᠌   +
119 -  {          }              ◌᠌   +  {   +   +   +   +   +}   +   +   +   +   +   +   +◌᠌   +
120 -  (  h  t  t  p  :  /  /  )  x  n  -  -  a   +  (   +h   +t   +t   +p   +:   +/   +/   +)   +x   +n   +-   +-   +a   +
121 -  {  h  t  t  p  :  /  /  }  x  n  -  -  a   +  {   +h   +t   +t   +p   +:   +/   +/   +}   +x   +n   +-   +-   +a   +
122 -  (  0  ,  1  )  +  (  2  ,  3  )    (    4  ,  5  )    (  6  ,  7  )   +  (   +0   +,   +1   +)   ++   +(   +2   +,   +3   +)   +   +(   +   +4   +,   +5   +)   +   +(   +6   +,   +7   +)   +
123 -  {  0  ,  1  }  +  {  2  ,  3  }    {    4  ,  5  }    {  6  ,  7  }   +  {   +0   +,   +1   +}   ++   +{   +2   +,   +3   +}   +   +{   +   +4   +,   +5   +}   +   +{   +6   +,   +7   +}   +
124 -  a  b   +  a   +b   +
125 -  a  b      +  a   +b   +    +
126 -  a  b     c   +  a   +b   +    +c   +
127 -  a     +  a   +   +
128 -    ि    ◌्          +     +ि   +   +◌्   +   +   +    +
129 -        ◌ु    ि                +     +   +   +◌ु   +   +ि   +   +   +   +   +   +    +
130 -       +     +   +
131 -       +     +   +
132 -           +     +   +   +   +
133 -         +     +   +   +
134 -       +     +   +
135 -         +     +   +   +
136 -         +     +   +   +
137 -    a     +     +a   +   +
138 -           o  r        +     +   +   +    +o   +r   +    +   +
139 -    a  b      +     +a   +b   +    +
140 -    使   +     +使   +
141 -       +     +   +
142 -         +     +   +   +
143 -                 +     +    +   +    +   +   +
144 -                 +     +    +   +   +    +   +
145 -           +     +   +   +   +
146 -         +     +   +   +
147 -       +     +   +
148 -           +     +   +   +   +
149 -            使         +     +   +   +   +   +使   +   +   +   +
150 -               +     +   +   +   +   +   +
151 -         +     +   +   +
152 -  a  .  2      +  a   +.   +2   +    +
153 -  a  .  2        +  a   +.   +2   +    +   +
154 -  a  .  2        +  a   +.   +2   +    +   +
155 -  a  .  2        +  a   +.   +2   +    +   +
156 -  a  .  2        +  a   +.   +2   +    +   +
157 -  a  .  2     3   +  a   +.   +2   +    +3   +
158 -  a  b  .     2   +  a   +b   +.   +    +2   +
159 -  A  .  1        +  A   +.   +1   +    +   +
160 -      .     A  .  2        +     +   +.   +    +A   +.   +2   +    +   +
161 -      .     A  .  3        +     +   +.   +    +A   +.   +3   +    +   +
162 -    .     A  .  4        +     +.   +    +A   +.   +4   +    +   +
163 -  a  .  2        +  a   +.   +2   +    +   +
164 -        (  b  a  )           +     +   +   +(   +b   +a   +)   +   +   +   +   +
165 -      U  K                 +     +   +U   +K   +   +   +   +   +   +   +   +
166 -        =  r  a  n  d  (  )       +     +   +   +=   +r   +a   +n   +d   +(   +)   +   +   +
167 -        !       +     +   +   +!   +   +   +
168 -         +     +   +   +
169 -          ?       +     +   +   +   +?   +   +   +
170 -         +     +   +   +
171 -         +     +   +   +
172 -                +     +   +   +   +    +   +
173 -               +     +   +   +   +   +   +
174 -          (      )     +     +   +   +   +(   +   +   +)   +   +
175 -             +     +   +   +   +   +
176 -           +     +   +   +   +
177 -  (  s  )        +  (   +s   +)   +    +   +
178 -  (  s  )        +  (   +s   +)   +    +   +
179 -  (  s  )        +  (   +s   +)   +    +   +
180 -      d  o  g           +     +   +d   +o   +g   +   +   +   +   +
181 -         +     +   +   +
182 -       (  a   +     +    +(   +a   +
183 -       [      ]   +     +    +[   +   +   +]   +
184 -  a  (  s  )      +  a   +(   +s   +)   +    +
185 -                     +     +   +   +   +   +   +   +   +   +
186 -  p                 +  p   +   +   +   +   +   +   +   +
187 -  a  b       +  a   +b   +   +   +
188 -  (      )   +  (   +   +   +)   +
189 -         +     +   +   +
190 -         +     +   +   +
191 -       (     +     +    +(   +   +
192 -  s  )       +  s   +)   +   +   +
193 -  a       +  a   +   +   +
194 -           +     +   +   +   +
195 -             +     +   +   +   +   +
196 -  r  k  )       +  r   +k   +)   +   +   +
197 -    (  a  b     c  d  )       +     +(   +a   +b   +    +c   +d   +)   +   +   +
198 -            (  e  x   +     +   +   +   +   +(   +e   +x   +
199 -      (  m  a  )       +     +   +(   +m   +a   +)   +   +   +
200 -             +     +   +   +   +   +
201 -         +     +   +   +
202 -           +     +   +   +   +
203 -             +     +   +   +   +   +
204 -           +     +   +   +   +
205 -          a  b       +     +   +   +   +a   +b   +   +   +
206 -          ?         +     +   +   +   +?   +   +   +   +
207 -    )             ?       +     +)   +   +    +   +   +   +?   +   +   +
208 -    )     -     (  p  o   +     +)   +    +-   +    +(   +p   +o   +
209 -    )          (  p  o   +     +)   +    +   +    +(   +p   +o   +
210 -                       +     +   +   +    +   +    +   +   +   +
211 -  a  b  "       +  a   +b   +"   +   +   +
212 -       "  s  "      +     +    +"   +s   +"   +    +
213 -      "  T  h  e      +     +   +"   +T   +h   +e   +    +
214 -  d  o  g  "        +  d   +o   +g   +"   +    +   +
215 -  9  0  "        +  9   +0   +"   +    +   +
216 -                       +     +   +   +   +   +   +   +   +   +   +
217 -             +     +   +   +   +   +
218 -               +     +   +   +   +   +   +
219 -                     +     +   +   +   +   +   +   +   +   +
220 -                     +     +   +   +   +   +   +   +   +   +
221 -        (  a   +     +   +   +(   +a   +
222 -             +     +   +   +   +   +
223 -    :      +     +:   +    +
224 -    :        +     +:   +    +   +
225 -      :              +     +   +:   +    +   +   +   +   +
226 -         +     +   +   +
227 -               +     +   +   +   +   +   +
228 -      !  !    !  !  !     +     +   +!   +!   +   +!   +!   +!   +   +
229 -      ?    !     +     +   +?   +   +!   +   +
230 -        (  !  ?  )     +     +   +   +(   +!   +?   +)   +   +
231 -        (  ?  !  )     +     +   +   +(   +?   +!   +)   +   +
232 -            +     +    +   +   +
233 -      1  0  0  %       +     +   +1   +0   +0   +%   +   +   +
234 -  2  3     +  2   +3   +   +
235 -          2  6       +     +   +   +   +2   +6   +   +   +
236 -      £  2  3   +     +   +£   +2   +3   +
237 -         £     +     +   +    +£   +   +
238 -        q  u   +     +   +   +q   +u   +
239 -       +     +   +
240 -      a  b      +     +   +a   +b   +    +
241 -         +     +   +   +
242 -         +     +   +   +
243 -         +     +   +   +
244 -               +     +   +   +   +   +   +
245 -      i  o      2       +     +   +i   +o   +   +   +2   +   +   +
246 -       +     +   +
247 -       +     +   +
248 -       +     +   +
249 -                +     +   +   +   +   +    +
250 -      a  b     +     +   +a   +b   +   +
251 -  a  🇦  b   +  a   +🇦   +b   +
252 -  🇷  🇺   +  🇷   +🇺   +
253 -  🇷  🇺  🇸   +  🇷   +🇺   +🇸   +
254 -  🇷  🇺  🇸  🇪   +  🇷   +🇺   +🇸   +🇪   +
255 -  🇷  🇺    🇸  🇪   +  🇷   +🇺   +   +🇸   +🇪   +
256 -  א  -  א   +  א   +-   +א   +
257 -  𑼦  𑼂  𑼭  𑼦  ◌𑽂  𑼦  𑼱  𑽁   +  𑼦   +𑼂   +𑼭   +𑼦   +◌𑽂   +𑼦   +𑼱   +𑽁   +
258 -                       +     +   +   +   +   +   +   +   +   +   +
259 -            ◌ᬸ        ◌ᬶ   +     +   +   +   +   +◌ᬸ   +   +   +   +◌ᬶ   +
260 -  e    ◌̂    ◌̣   +  e   +   +◌̂   +   +◌̣   +
261 -         +     +   +   +
262 -             +     +   +   +   +   +
263 -    ◌꦳       +     +◌꦳   +   +   +
264 -    J  o  ,     n  å  r    n     d  a     h  a     g  å  t  t     e  t  t     s  t  ö  c  k     t  e  ,     s  å     k  o  m  m  e  r    n     t  e     e     å  ,     å     i     å  a     ä     e     ö  .        V  a  s  a    ,     s  a    n  .      Å     i     å  a     ä     e     ö    ,     s  a     j  a  .   +     +J   +o   +,   +    +n   +å   +r   +   +n   +    +d   +a   +    +h   +a   +    +g   +å   +t   +t   +    +e   +t   +t   +    +s   +t   +ö   +c   +k   +    +t   +e   +,   +    +s   +å   +    +k   +o   +m   +m   +e   +r   +   +n   +    +t   +e   +    +e   +    +å   +,   +    +å   +    +i   +    +å   +a   +    +ä   +    +e   +    +ö   +.   +   +   +   +V   +a   +s   +a   +   +,   +    +s   +a   +   +n   +.   +   +   +Å   +    +i   +    +å   +a   +    +ä   +    +e   +    +ö   +   +,   +    +s   +a   +    +j   +a   +.   +
265 -  E  n     g  å  n  g     u  n  d  f  ö  l  l     d  e  t     h  o  n  o  m     d  o  c  k  ,     m  e  d  a  n     h  a  n     s  l  ä  p  a  d  e     p  å     d  e  t     v  å  t  a     h  ö  e  t  :     »  V  a  r  f  ö  r     ä  r     h  ö  e  t     r  e  d  a  n     t  o  r  r  t     o  c  h     i  n  k  ö  r  t     d  ä  r     b  o  r  t  a     p  å     S  o  l  b  a  c  k  e  n  ,     o  c  h     h  ä  r     h  o  s     o  s  s     ä  r     d  e  t     v  å  t  t  ?  »          »  D  ä  r  f  ö  r     a  t  t     d  e     h  a     o  f  t  a  r  e     s  o  l     ä  n     v  i  .  »   +  E   +n   +    +g   +å   +n   +g   +    +u   +n   +d   +f   +ö   +l   +l   +    +d   +e   +t   +    +h   +o   +n   +o   +m   +    +d   +o   +c   +k   +,   +    +m   +e   +d   +a   +n   +    +h   +a   +n   +    +s   +l   +ä   +p   +a   +d   +e   +    +p   +å   +    +d   +e   +t   +    +v   +å   +t   +a   +    +h   +ö   +e   +t   +:   +    +»   +V   +a   +r   +f   +ö   +r   +    +ä   +r   +    +h   +ö   +e   +t   +    +r   +e   +d   +a   +n   +    +t   +o   +r   +r   +t   +    +o   +c   +h   +    +i   +n   +k   +ö   +r   +t   +    +d   +ä   +r   +    +b   +o   +r   +t   +a   +    +p   +å   +    +S   +o   +l   +b   +a   +c   +k   +e   +n   +,   +    +o   +c   +h   +    +h   +ä   +r   +    +h   +o   +s   +    +o   +s   +s   +    +ä   +r   +    +d   +e   +t   +    +v   +å   +t   +t   +?   +»   +    +   +    +»   +D   +ä   +r   +f   +ö   +r   +    +a   +t   +t   +    +d   +e   +    +h   +a   +    +o   +f   +t   +a   +r   +e   +    +s   +o   +l   +    +ä   +n   +    +v   +i   +.   +»   +
266 -  v  o  u  s     m  e     h  e  u  r  t  e  z  ,     v  o  u  s     d  i  t  e  s     :     «     E  x  c  u  s  e  z  -  m  o  i  ,     »     e  t     v  o  u  s     c  r  o  y  e  z     q  u  e     c  e  l  a     s  u  f  f  i  t     ?   +  v   +o   +u   +s   +    +m   +e   +    +h   +e   +u   +r   +t   +e   +z   +,   +    +v   +o   +u   +s   +    +d   +i   +t   +e   +s   +    +:   +    +«   +    +E   +x   +c   +u   +s   +e   +z   +-   +m   +o   +i   +,   +    +»   +    +e   +t   +    +v   +o   +u   +s   +    +c   +r   +o   +y   +e   +z   +    +q   +u   +e   +    +c   +e   +l   +a   +    +s   +u   +f   +f   +i   +t   +    +?   +
267 -  j    a  i     d  i  t     :     «     E  x  c  u  s  e  z  -  m  o  i  .     »     I  l     m  e     s  e  m  b  l  e     d  o  n  c     q  u  e     c    e  s  t     a  s  s  e  z  .   +  j   +   +a   +i   +    +d   +i   +t   +    +:   +    +«   +    +E   +x   +c   +u   +s   +e   +z   +-   +m   +o   +i   +.   +    +»   +    +I   +l   +    +m   +e   +    +s   +e   +m   +b   +l   +e   +    +d   +o   +n   +c   +    +q   +u   +e   +    +c   +   +e   +s   +t   +    +a   +s   +s   +e   +z   +.   +
268 -  E  t     v  i  s  e     a  u     f  r  o  n  t     m  o  n     p  è  r  e     e  n     c  r  i  a  n  t     :     «     C  a  r  a  m  b  a     !     »    L  e     c  o  u  p     p  a  s  s  a     s  i     p  r  è  s  ,     q  u  e     l  e     c  h  a  p  e  a  u     t  o  m  b  a    E  t     q  u  e     l  e     c  h  e  v  a  l     f  i  t     u  n     é  c  a  r  t     e  n     a  r  r  i  è  r  e  .    «     D  o  n  n  e  -  l  u  i     t  o  u  t     d  e     m  ê  m  e     à     b  o  i  r  e  ,     »     d  i  t     m  o  n     p  è  r  e  .   +  E   +t   +    +v   +i   +s   +e   +    +a   +u   +    +f   +r   +o   +n   +t   +    +m   +o   +n   +    +p   +è   +r   +e   +    +e   +n   +    +c   +r   +i   +a   +n   +t   +    +:   +    +«   +    +C   +a   +r   +a   +m   +b   +a   +    +!   +    +»   +   +L   +e   +    +c   +o   +u   +p   +    +p   +a   +s   +s   +a   +    +s   +i   +    +p   +r   +è   +s   +,   +    +q   +u   +e   +    +l   +e   +    +c   +h   +a   +p   +e   +a   +u   +    +t   +o   +m   +b   +a   +   +E   +t   +    +q   +u   +e   +    +l   +e   +    +c   +h   +e   +v   +a   +l   +    +f   +i   +t   +    +u   +n   +    +é   +c   +a   +r   +t   +    +e   +n   +    +a   +r   +r   +i   +è   +r   +e   +.   +   +«   +    +D   +o   +n   +n   +e   +-   +l   +u   +i   +    +t   +o   +u   +t   +    +d   +e   +    +m   +ê   +m   +e   +    +à   +    +b   +o   +i   +r   +e   +,   +    +»   +    +d   +i   +t   +    +m   +o   +n   +    +p   +è   +r   +e   +.   +
269 -  «     J  e     m  e     s  u  i  s     v  e  n  g  é     [    ]    »     O  n     n  e     m  e     v  e  r  r  a     n  i     p  a  r  l  e  r     n  i     é  c  r  i  r  e     ;     v  o  u  s     a  u  r  e  z     e  u     m  e  s     d  e  r  n  i  è  r  e  s     p  a  r  o  l  e  s     c  o  m  m  e     m  e  s     d  e  r  n  i  è  r  e  s     a  d  o  r  a  t  i  o  n  s  .    »     J  .     S  .     »   +  «   +    +J   +e   +    +m   +e   +    +s   +u   +i   +s   +    +v   +e   +n   +g   +é   +    +[   +   +]   +   +»   +    +O   +n   +    +n   +e   +    +m   +e   +    +v   +e   +r   +r   +a   +    +n   +i   +    +p   +a   +r   +l   +e   +r   +    +n   +i   +    +é   +c   +r   +i   +r   +e   +    +;   +    +v   +o   +u   +s   +    +a   +u   +r   +e   +z   +    +e   +u   +    +m   +e   +s   +    +d   +e   +r   +n   +i   +è   +r   +e   +s   +    +p   +a   +r   +o   +l   +e   +s   +    +c   +o   +m   +m   +e   +    +m   +e   +s   +    +d   +e   +r   +n   +i   +è   +r   +e   +s   +    +a   +d   +o   +r   +a   +t   +i   +o   +n   +s   +.   +   +»   +    +J   +.   +    +S   +.   +    +»   +
270 -       K  h  ô  n  g     a  i     h  ã  m     b  a  o     g  i       m  à     b  â  y     g  i       h  ã  m  ,     t  h  ế     n  ó     m    i     «     m    i     »  .   +     +    +K   +h   +ô   +n   +g   +    +a   +i   +    +h   +ã   +m   +    +b   +a   +o   +    +g   +i   +   +    +m   +à   +    +b   +â   +y   +    +g   +i   +   +    +h   +ã   +m   +,   +    +t   +h   +ế   +    +n   +ó   +    +m   +   +i   +    +«   +    +m   +   +i   +    +»   +.   +
271 -  P  a  s     u  n  e     c  i  t  a  t  i  o  n     »  Z  i  t  a  t  «     P  a  s     u  n  e     c  i  t  a  t  i  o  n     n  o  n     p  l  u  s   +  P   +a   +s   +    +u   +n   +e   +    +c   +i   +t   +a   +t   +i   +o   +n   +    +»   +Z   +i   +t   +a   +t   +«   +    +P   +a   +s   +    +u   +n   +e   +    +c   +i   +t   +a   +t   +i   +o   +n   +    +n   +o   +n   +    +p   +l   +u   +s   +
272 -  «     C  i  t  a  t  i  o  n     »    K  e  i  n     Z  i  t  a  t    «     A  u  t  r  e     c  i  t  a  t  i  o  n     »   +  «   +    +C   +i   +t   +a   +t   +i   +o   +n   +    +»   +   +K   +e   +i   +n   +    +Z   +i   +t   +a   +t   +   +«   +    +A   +u   +t   +r   +e   +    +c   +i   +t   +a   +t   +i   +o   +n   +    +»   +
273 -  s  t  a  r  t     .  7  8  9     e  n  d   +  s   +t   +a   +r   +t   +    +.   +7   +8   +9   +    +e   +n   +d   +
274 -  $  -  5     -  .  3     £  (  1  2  3  .  4  5  6  )     1  2  3  .       +  .  2  5     1  /  2   +  $   +-   +5   +    +-   +.   +3   +    +£   +(   +1   +2   +3   +.   +4   +5   +6   +)   +    +1   +2   +3   +.   +   +    ++   +.   +2   +5   +    +1   +/   +2   +
275 -  t  h  e     3  m  s     p  o  s  s  e  s  s  i  v  e     p  r  o  n  o  m  i  n  a  l     s  u  f  f  i  x     (     -  š  u     )   +  t   +h   +e   +    +3   +m   +s   +    +p   +o   +s   +s   +e   +s   +s   +i   +v   +e   +    +p   +r   +o   +n   +o   +m   +i   +n   +a   +l   +    +s   +u   +f   +f   +i   +x   +    +(   +    +-   +š   +u   +    +)   +
276 -  M  a  c     P  r  o     -  t  i  e  t  o  k  o  n  e   +  M   +a   +c   +    +P   +r   +o   +    +-   +t   +i   +e   +t   +o   +k   +o   +n   +e   +
277 -                                                                                     +     +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +
278 -                                                                                                                                                                                                 +     +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +
279 -                                                 +     +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +
280 -                                                                     +     +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +
281 -          1  9  0  1      1  9  3  6                       +     +   +   +   +1   +9   +0   +1   +   +   +1   +9   +3   +6   +   +   +   +   +   +   +   +   +   +   +
282 -  2  0  0  0            I  G  N        B  e  s  t     G  a  m  e     B  o  y     S  t  r  a  t  e  g  y         +  2   +0   +0   +0   +   +   +   +   +   +I   +G   +N   +   +   +   +B   +e   +s   +t   +    +G   +a   +m   +e   +    +B   +o   +y   +    +S   +t   +r   +a   +t   +e   +g   +y   +   +   +   +
283 -  Z  -  1              ·                                    1  9  3  0       +  Z   +-   +1   +   +   +   +   +   +   +·   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +   +1   +9   +3   +0   +   +   +
284 -  A  n  m  e  r  k  u  n  g  :       W  h  i  t  e       b  z  w  .                     i  n     d  e  r     A  m  t  l  i  c  h  e  n     S  t  a  t  i  s  t  i  k   +  A   +n   +m   +e   +r   +k   +u   +n   +g   +:   +    +   +W   +h   +i   +t   +e   +   +    +b   +z   +w   +.   +    +   +   +   +   +    +   +    +i   +n   +    +d   +e   +r   +    +A   +m   +t   +l   +i   +c   +h   +e   +n   +    +S   +t   +a   +t   +i   +s   +t   +i   +k   +
285 -       J  o  h  n     ו  -  M  i  c  h  a  e  l    ;   +      +   +J   +o   +h   +n   +    +ו   +-   +M   +i   +c   +h   +a   +e   +l   +   +;   +
286 -  ו  ◌ַ  ◌ֽ  י  ◌ְ  ה  ◌ִ  י  ־  כ  ◌ֵ  ◌ֽ  ן  ׃   +  ו   +◌ַ   +◌ֽ   +י   +◌ְ   +ה   +◌ִ   +י   +־   +כ   +◌ֵ   +◌ֽ   +ן   +׃   +
287 -  🀬  🏿   +  🀬   +🏿   +
288 -  ©  🏿   +  ©   +🏿   +

diff --git a/unicodetools/data/ucd/dev/auxiliary/SentenceBreakTest.html b/unicodetools/data/ucd/dev/auxiliary/SentenceBreakTest.html index c243ebc97..a698e956c 100644 --- a/unicodetools/data/ucd/dev/auxiliary/SentenceBreakTest.html +++ b/unicodetools/data/ucd/dev/auxiliary/SentenceBreakTest.html @@ -7,7 +7,7 @@

Sentence_Break Chart

Unicode Version: 17.0.0

-

Date: 2024-09-11, 23:38:46 GMT

+

Date: 2024-09-12, 14:12:16 GMT

This page illustrates the application of the Sentence_Break specification. The material here is informative, not normative.

The first chart shows where breaks would appear between different sample characters or strings. The sample characters are chosen mechanically to represent the different properties used by the specification.

Each cell shows the break-status for the position between the character(s) in its row header and the character(s) in its column header. The × symbol indicates no break, while the ÷ symbol indicated a break. The cells with × are also shaded to make it easier to scan the table. For example, in the cell at the intersection of the row headed by “CR” and the column headed by “LF”, there is a × symbol, indicating that there is no break between CR and LF.

Some column headers may be composed, reflecting “treat as” or “ignore” rules.

If your browser handles titles (tooltips), then hovering the mouse over the row header will show a sample character of that type. Hovering over a column header will show the sample character, plus its abbreviated general category and script. Hovering over the intersected cells shows the rule number that produces the break-status. For example, hovering over the cell at the intersection of ATerm and Close shows ×, with the rule 9.0. Checking below the table, rule 9.0 is “SATerm Close* × ( Close | Sp | ParaSep )”, which is the one that applies to that case. Note that a rule is invoked only when no lower-numbered rules have applied.

@@ -51,190 +51,920 @@

Sample Strings

The following samples illustrate the application of the rules. The blue lines indicate possible break points. If your browser supports titles (tooltips), then positioning the mouse over each character will show its name, while positioning between characters shows the number of the rule responsible for the break-status.

1 -      a    ◌̈   +     +   +a   +   +◌̈   +
2 -  a  ◌̈   +  a   +◌̈   +
3 -       ن   +      +   +ن   +
4 -  ن        +  ن   +   +    +
5 -  (  "  G  o  .  "  )     (  H  e     d  i  d  .  )   +  (   +"   +G   +o   +.   +"   +)   +    +(   +H   +e   +    +d   +i   +d   +.   +)   +
6 -  (    G  o  ?    )     (  H  e     d  i  d  .  )   +  (   +   +G   +o   +?   +   +)   +    +(   +H   +e   +    +d   +i   +d   +.   +)   +
7 -  U  .  S  .  A  ◌̀  .     i  s   +  U   +.   +S   +.   +A   +◌̀   +.   +    +i   +s   +
8 -  U  .  S  .  A  ◌̀  ?     H  e   +  U   +.   +S   +.   +A   +◌̀   +?   +    +H   +e   +
9 -  U  .  S  .  A  ◌̀  .   +  U   +.   +S   +.   +A   +◌̀   +.   +
10 -  3  .  4   +  3   +.   +4   +
11 -  c  .  d   +  c   +.   +d   +
12 -  C  .  d   +  C   +.   +d   +
13 -  c  .  D   +  c   +.   +D   +
14 -  C  .  D   +  C   +.   +D   +
15 -  e  t  c  .  )       t  h  e   +  e   +t   +c   +.   +)   +   +    +t   +h   +e   +
16 -  e  t  c  .  )       T  h  e   +  e   +t   +c   +.   +)   +   +    +T   +h   +e   +
17 -  e  t  c  .  )         (  t  h  e   +  e   +t   +c   +.   +)   +   +    +   +(   +t   +h   +e   +
18 -  e  t  c  .  )         (  T  h  e   +  e   +t   +c   +.   +)   +   +    +   +(   +T   +h   +e   +
19 -  e  t  c  .  )       ◌̈  t  h  e   +  e   +t   +c   +.   +)   +   +    +◌̈   +t   +h   +e   +
20 -  e  t  c  .  )       ◌̈  T  h  e   +  e   +t   +c   +.   +)   +   +    +◌̈   +T   +h   +e   +
21 -  e  t  c  .  )    ◌̈  T  h  e   +  e   +t   +c   +.   +)   +   +◌̈   +T   +h   +e   +
22 -  e  t  c  .  )    ◌̈  T  h  e   +  e   +t   +c   +.   +)   +   +◌̈   +T   +h   +e   +
23 -  t  h  e     r  e  s  p  .     l  e  a  d  e  r  s     a  r  e   +  t   +h   +e   +    +r   +e   +s   +p   +.   +    +l   +e   +a   +d   +e   +r   +s   +    +a   +r   +e   +
24 -    .     +     +.   +   +
25 -  e  t  c  .     +  e   +t   +c   +.   +   +
26 -  e  t  c  .     +  e   +t   +c   +.   +   +
27 -         +     +   +   +
28 -  !         +  !   +    +    +
29 -  a  .   +  a   +.   +
30 -  a  .       +  a   +.   +   +   +
31 -  a  .          +  a   +.   +   +   +    +
32 -  a  .      a   +  a   +.   +   +   +a   +
33 -  A  .      A   +  A   +.   +   +   +A   +
34 -    (    "    G    o    .    "    )         (    H    e         d    i    d    .    )       +     +(   +   +"   +   +G   +   +o   +   +.   +   +"   +   +)   +   +    +   +(   +   +H   +   +e   +   +    +   +d   +   +i   +   +d   +   +.   +   +)   +   +   +
35 -    (        G    o    ?        )         (    H    e         d    i    d    .    )       +     +(   +   +   +   +G   +   +o   +   +?   +   +   +   +)   +   +    +   +(   +   +H   +   +e   +   +    +   +d   +   +i   +   +d   +   +.   +   +)   +   +   +
36 -    U    .    S    .    A    ◌̀  .         i    s       +     +U   +   +.   +   +S   +   +.   +   +A   +   +◌̀   +.   +   +    +   +i   +   +s   +   +   +
37 -    U    .    S    .    A    ◌̀  ?         H    e       +     +U   +   +.   +   +S   +   +.   +   +A   +   +◌̀   +?   +   +    +   +H   +   +e   +   +   +
38 -    U    .    S    .    A    ◌̀  .       +     +U   +   +.   +   +S   +   +.   +   +A   +   +◌̀   +.   +   +   +
39 -    3    .    4       +     +3   +   +.   +   +4   +   +   +
40 -    c    .    d       +     +c   +   +.   +   +d   +   +   +
41 -    C    .    d       +     +C   +   +.   +   +d   +   +   +
42 -    c    .    D       +     +c   +   +.   +   +D   +   +   +
43 -    C    .    D       +     +C   +   +.   +   +D   +   +   +
44 -    e    t    c    .    )             t    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +    +   +t   +   +h   +   +e   +   +   +
45 -    e    t    c    .    )             T    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +    +   +T   +   +h   +   +e   +   +   +
46 -    e    t    c    .    )                 (    t    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +    +   +   +   +(   +   +t   +   +h   +   +e   +   +   +
47 -    e    t    c    .    )                 (    T    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +    +   +   +   +(   +   +T   +   +h   +   +e   +   +   +
48 -    e    t    c    .    )             ◌̈  t    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +    +   +◌̈   +t   +   +h   +   +e   +   +   +
49 -    e    t    c    .    )             ◌̈  T    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +    +   +◌̈   +T   +   +h   +   +e   +   +   +
50 -    e    t    c    .    )        ◌̈  T    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +◌̈   +T   +   +h   +   +e   +   +   +
51 -    e    t    c    .    )        ◌̈    T    h    e       +     +e   +   +t   +   +c   +   +.   +   +)   +   +   +   +◌̈   +   +T   +   +h   +   +e   +   +   +
52 -    t    h    e         r    e    s    p    .         l    e    a    d    e    r    s         a    r    e       +     +t   +   +h   +   +e   +   +    +   +r   +   +e   +   +s   +   +p   +   +.   +   +    +   +l   +   +e   +   +a   +   +d   +   +e   +   +r   +   +s   +   +    +   +a   +   +r   +   +e   +   +   +
53 -        .           +     +   +   +.   +   +   +   +   +
54 -    e    t    c    .           +     +e   +   +t   +   +c   +   +.   +   +   +   +   +
55 -    e    t    c    .           +     +e   +   +t   +   +c   +   +.   +   +   +   +   +
56 -                   +     +   +   +   +   +   +   +   +
57 -    !                 +     +!   +   +    +   +    +   +   +
58 -    a    .       +     +a   +   +.   +   +   +
59 -    a    .             +     +a   +   +.   +   +   +   +   +   +
60 -    a    .                  +     +a   +   +.   +   +   +   +   +    +   +   +
61 -    a    .          a       +     +a   +   +.   +   +   +   +   +a   +   +   +
62 -    A    .          A       +     +A   +   +.   +   +   +   +   +A   +   +   +

diff --git a/unicodetools/data/ucd/dev/auxiliary/WordBreakTest.html b/unicodetools/data/ucd/dev/auxiliary/WordBreakTest.html index 7b69d2fcb..52a647c4a 100644 --- a/unicodetools/data/ucd/dev/auxiliary/WordBreakTest.html +++ b/unicodetools/data/ucd/dev/auxiliary/WordBreakTest.html @@ -7,7 +7,7 @@

Word_Break Chart

Unicode Version: 17.0.0

-

Date: 2024-09-11, 23:38:50 GMT

+

Date: 2024-09-12, 14:12:18 GMT

This page illustrates the application of the Word_Break specification. The material here is informative, not normative.

The first chart shows where breaks would appear between different sample characters or strings. The sample characters are chosen mechanically to represent the different properties used by the specification.

Each cell shows the break-status for the position between the character(s) in its row header and the character(s) in its column header. The × symbol indicates no break, while the ÷ symbol indicated a break. The cells with × are also shaded to make it easier to scan the table. For example, in the cell at the intersection of the row headed by “CR” and the column headed by “LF”, there is a × symbol, indicating that there is no break between CR and LF.

After the heavy blue line in the table are additional rows, either with different sample characters or for sequences, such as “ALetter MidLetter”. Some column headers may be composed, reflecting “treat as” or “ignore” rules.

If your browser handles titles (tooltips), then hovering the mouse over the row header will show a sample character of that type. Hovering over a column header will show the sample character, plus its abbreviated general category and script. Hovering over the intersected cells shows the rule number that produces the break-status. For example, hovering over the cell at the intersection of ExtendNumLet and ALetter shows ×, with the rule 13.2. Checking below the table, rule 13.2 is “ExtendNumLet × (AHLetter | Numeric | Katakana)”, which is the one that applies to that case. Note that a rule is invoked only when no lower-numbered rules have applied.

@@ -77,112 +77,259 @@

Sample Strings

The following samples illustrate the application of the rules. The blue lines indicate possible break points. If your browser supports titles (tooltips), then positioning the mouse over each character will show its name, while positioning between characters shows the number of the rule responsible for the break-status.

1 -      a    ◌̈   +     +   +a   +   +◌̈   +
2 -  a  ◌̈   +  a   +◌̈   +
3 -       ن   +      +   +ن   +
4 -  ن        +  ن   +   +    +
5 -  ٱ  ل  ر  ◌َ  ◌ّ  ح  ◌ِ  ي  م  ◌ِ       ١   +  ٱ   +ل   +ر   +◌َ   +◌ّ   +ح   +◌ِ   +ي   +م   +◌ِ   +    +   +١   +
6 -  ܡ  ܙ  ܡ  ܘ  ܪ  ܐ       ܝ  ܗ   +  ܡ   +ܙ   +ܡ   +ܘ   +ܪ   +ܐ   +    +   +ܝ   +ܗ   +
7 -  ܬ    ܫ  ܒ  ܘ   +  ܬ   +   +ܫ   +ܒ   +ܘ   +
8 -  A  A  A   +  A   +A   +A   +
9 -  A  :  A   +  A   +:   +A   +
10 -  A  :  :  A   +  A   +:   +:   +A   +
11 -  א  '   +  א   +'   +
12 -  א  "  א   +  א   +"   +א   +
13 -  A  0  0  A   +  A   +0   +0   +A   +
14 -  0  ,  0   +  0   +,   +0   +
15 -  0  ,  ,  0   +  0   +,   +,   +0   +
16 -       +     +   +
17 -  A  _  0  _    _   +  A   +_   +0   +_   +   +_   +
18 -  A  _  _  A   +  A   +_   +_   +A   +
19 -  🇦  🇧  🇨  b   +  🇦   +🇧   +🇨   +b   +
20 -  a  🇦  🇧  🇨  b   +  a   +🇦   +🇧   +🇨   +b   +
21 -  a  🇦  🇧    🇨  b   +  a   +🇦   +🇧   +   +🇨   +b   +
22 -  a  🇦    🇧  🇨  b   +  a   +🇦   +   +🇧   +🇨   +b   +
23 -  a  🇦  🇧  🇨  🇩  b   +  a   +🇦   +🇧   +🇨   +🇩   +b   +
24 -  👶  🏿  👶   +  👶   +🏿   +👶   +
25 -  🛑    🛑   +  🛑   +   +🛑   +
26 -  a    🛑   +  a   +   +🛑   +
27 -         +     +   +   +
28 -  a       +  a   +   +   +
29 -  👶  🏿  ◌̈    👶  🏿   +  👶   +🏿   +◌̈   +   +👶   +🏿   +
30 -  🛑  🏿   +  🛑   +🏿   +
31 -    🛑  🏿   +     +🛑   +🏿   +
32 -    🛑   +     +🛑   +
33 -    🛑   +     +🛑   +
34 -  🛑  🛑   +  🛑   +🛑   +
35 -  a  ◌̈    ◌̈  b   +  a   +◌̈   +   +◌̈   +b   +
36 -  a        b   +  a   +    +    +b   +

From d9f64c85665396f843619a61475f770ea1b5b737 Mon Sep 17 00:00:00 2001 From: Robin Leroy Date: Thu, 12 Sep 2024 16:15:48 +0200 Subject: [PATCH 2/2] Avoid stupidly long lines in MeowBreakTest.html. --- .../src/main/java/org/unicode/text/UCD/GenerateBreakTest.java | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/unicodetools/src/main/java/org/unicode/text/UCD/GenerateBreakTest.java b/unicodetools/src/main/java/org/unicode/text/UCD/GenerateBreakTest.java index 90ee282b8..5d2bc8373 100644 --- a/unicodetools/src/main/java/org/unicode/text/UCD/GenerateBreakTest.java +++ b/unicodetools/src/main/java/org/unicode/text/UCD/GenerateBreakTest.java @@ -1038,7 +1038,7 @@ public void printLine( + getRule() + "'>  "); + + ">  \n"); } else { if (string.length() > 0) { string.append(' ');