HTML字符实体
-
字符实体(character entities)
1、在 HTML 中,某些字符是预留的;
2、在 HTML 中不能使用小于号<
和大于号>
,这是因为浏览器会误认为它们是标签;
3、如果希望正确地显示预留字符,我们必须在 HTML 源代码中使用字符实体。 -
不间断空格(non-breaking space)
1、HTML 中的常用字符实体是不间断空格
;
2、浏览器会截短 HTML 页面中的连续空格,总是只显示一个,如需在页面中增加空格的数量,您需要使用
字符实体。
HTML ISO-8859-1 参考手册
HTML 4.01 支持 ISO 8859-1 (Latin-1) 字符集,这些符号中的大多数都可以在不进行实体引用的情况下使用,但是实体名称或实体编号为那些不容易通过键盘键入的符号提供了表达的方法:
※ 实体名称对大小写敏感
显示 | 描述 | 实体名称 | 实体编号 |
---|---|---|---|
" | quotation mark(双引号) | " | " |
& | ampersand(与) | & | & |
' | apostrophe(撇号) | ' | ' |
< | less-than(小于) | < | < |
> | greater-than(大于) | > | > |
non-breaking space(空格) | |   | |
¡ | inverted exclamation mark(倒置感叹号) | ¡ | ¡ |
¢ | cent(美分) | ¢ | ¢ |
£ | pound(英镑) | £ | £ |
¤ | currency(货币) | ¤ | ¤ |
¥ | yen(日元)/yuan(人民币) | ¥ | ¥ |
¦ | broken vertical bar(间断的竖杠) | ¦ | ¦ |
§ | section(分节符) | § | § |
¨ | diaeresis(分音符号) | ¨ | ¨ |
© | copyright(版权所有) | © | © |
ª | feminine ordinal indicator(阴性序数记号) | ª | ª |
« | left angle quotation mark(左双角引号) | « | « |
¬ | not sign(否定) | ¬ | ¬ |
| soft hyphen(软连字符) | ­ | ­ |
® | registered trademark(注册商标) | ® | ® |
¯ | macron(长音符号) | ¯ | ¯ |
° | degree(度) | ° | ° |
± | plus-or-minus(正负号) | ± | ± |
² | superscript 2(上标2) | ² | ² |
³ | superscript 3(上标3) | ³ | ³ |
´ | acute accent(尖音符号) | ´ | ´ |
µ | micro(微米) | µ | µ |
¶ | paragraph(分段符号) | ¶ | ¶ |
· | middle dot(中间点) | · | · |
¸ | cedilla(变音符号) | ¸ | ¸ |
¹ | superscript 1(上标1) | ¹ | ¹ |
º | masculine ordinal indicator(阳性序数记号) | º | º |
» | right angle quotation mark (右双角引号) | » | » |
¼ | fraction 1/4(四分之一) | ¼ | ¼ |
½ | fraction 1/2(二分之一) | ½ | ½ |
¾ | fraction 3/4(四分之三) | ¾ | ¾ |
¿ | inverted question mark(倒置问号) | ¿ | ¿ |
À | capital A, grave accent | À | À |
Á | capital A, acute accent | Á | Á |
 | capital A, circumflex accent |  |  |
à | capital A, tilde | à | à |
Ä | capital A, umlaut mark | Ä | Ä |
Å | capital A, ring | Å | Å |
Æ | capital AE | Æ | Æ |
Ç | capital C, cedilla | Ç | Ç |
È | capital E, grave accent | È | È |
É | capital E, acute accent | É | É |
Ê | capital E, circumflex accent | Ê | Ê |
Ë | capital E, umlaut mark | Ë | Ë |
Ì | capital I, grave accent | Ì | Ì |
Í | capital I, acute accent | Í | Í |
Î | capital I, circumflex accent | Î | Î |
Ï | capital I, umlaut mark | Ï | Ï |
Ð | capital ETH, Icelandic | Ð | Ð |
Ñ | capital N, tilde | Ñ | Ñ |
Ò | capital O, grave accent | Ò | Ò |
Ó | capital O, acute accent | Ó | Ó |
Ô | capital O, circumflex accent | Ô | Ô |
Õ | capital O, tilde | Õ | Õ |
Ö | capital O, umlaut mark | Ö | Ö |
× | multiplication(乘号) | × | × |
Ø | capital O, slash | Ø | Ø |
Ù | capital U, grave accent | Ù | Ù |
Ú | capital U, acute accent | Ú | Ú |
Û | capital U, circumflex accent | Û | Û |
Ü | capital U, umlaut mark | Ü | Ü |
Ý | capital Y, acute accent | Ý | Ý |
Þ | capital THORN, Icelandic | Þ | Þ |
ß | small sharp s, German | ß | ß |
à | small a, grave accent | à | à |
á | small a, acute accent | á | á |
â | small a, circumflex accent | â | â |
ã | small a, tilde | ã | ã |
ä | small a, umlaut mark | ä | ä |
å | small a, ring | å | å |
æ | small ae | æ | æ |
ç | small c, cedilla | ç | ç |
è | small e, grave accent | è | è |
é | small e, acute accent | é | é |
ê | small e, circumflex accent | ê | ê |
ë | small e, umlaut mark | ë | ë |
ì | small i, grave accent | ì | ì |
í | small i, acute accent | í | í |
î | small i, circumflex accent | î | î |
ï | small i, umlaut mark | ï | ï |
ð | small eth, Icelandic | ð | ð |
ñ | small n, tilde | ñ | ñ |
ò | small o, grave accent | ò | ò |
ó | small o, acute accent | ó | ó |
ô | small o, circumflex accent | ô | ô |
õ | small o, tilde | õ | õ |
ö | small o, umlaut mark | ö | ö |
÷ | division(除号) | ÷ | ÷ |
ø | small o, slash | ø | ø |
ù | small u, grave accent | ù | ù |
ú | small u, acute accent | ú | ú |
û | small u, circumflex accent | û | û |
ü | small u, umlaut mark | ü | ü |
ý | small y, acute accent | ý | ý |
þ | small thorn, Icelandic | þ | þ |
ÿ | small y, umlaut mark | ÿ | ÿ |
€ | euro(欧元) | € | € |
™ | trademark(商标) | ™ | ™ |
HTML语言代码
- ISO 语言代码
1、HTML 的 lang 属性可用于网页或部分网页的语言,这对搜索引擎和浏览器是有帮助的;
2、根据 W3C 推荐标准,需要通过 html 标签中的 lang 属性对每张页面中的主要语言进行声明:
<!-- HTML 中 -->
<html lang="en">
……
</html>
<!-- XHTML 中 -->
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">
……
</html>
ISO 639-1 语言代码
ISO 639-1 为各种语言定义了缩略词,可以在 HTML 和 XHTML 中的 lang 和 xml:lang 属性中使用它们:
语言 | ISO 代码 |
---|---|
Abkhazian | ab |
Afar | aa |
Afrikaans | af |
Albanian | sq |
Amharic | am |
Arabic | ar |
Aragonese | an |
Armenian | hy |
Assamese | as |
Aymara | ay |
Azerbaijani | az |
Bashkir | ba |
Basque | eu |
Bengali (Bangla) | bn |
Bhutani | dz |
Bihari | bh |
Bislama | bi |
Breton | br |
Bulgarian | bg |
Burmese | my |
Byelorussian (Belarusian) | be |
Cambodian | km |
Catalan | ca |
Cherokee | |
Chewa | |
Chinese (简体) | zh |
Chinese (繁体) | zh |
Corsican | co |
Croatian | hr |
Czech | cs |
Danish | da |
Divehi | |
Dutch | nl |
Edo | |
English | en |
Esperanto | eo |
Estonian | et |
Faeroese | fo |
Farsi | fa |
Fiji | fj |
Finnish | fi |
Flemish | |
French | fr |
Frisian | fy |
Fulfulde | |
Galician | gl |
Gaelic (Scottish) | gd |
Gaelic (Manx) | gv |
Georgian | ka |
German | de |
Greek | el |
Greenlandic | kl |
Guarani | gn |
Gujarati | gu |
Haitian Creole | ht |
Hausa | ha |
Hawaiian | |
Hebrew | he, iw |
Hindi | hi |
Hungarian | hu |
Ibibio | |
Icelandic | is |
Ido | io |
Igbo | |
Indonesian | id, in |
Interlingua | ia |
Interlingue | ie |
Inuktitut | iu |
Inupiak | ik |
Irish | ga |
Italian | it |
Japanese | ja |
Javanese | jv |
Kannada | kn |
Kanuri | |
Kashmiri | ks |
Kazakh | kk |
Kinyarwanda (Ruanda) | rw |
Kirghiz | ky |
Kirundi (Rundi) | rn |
Konkani | |
Korean | ko |
Kurdish | ku |
Laothian | lo |
Latin | la |
Latvian (Lettish) | lv |
Limburgish ( Limburger) | li |
Lingala | ln |
Lithuanian | lt |
Macedonian | mk |
Malagasy | mg |
Malay | ms |
Malayalam | ml |
Maltese | mt |
Maori | mi |
Marathi | mr |
Moldavian | mo |
Mongolian | mn |
Nauru | na |
Nepali | ne |
Norwegian | no |
Occitan | oc |
Oriya | or |
Oromo (Afaan Oromo) | om |
Papiamentu | |
Pashto (Pushto) | ps |
Polish | pl |
Portuguese | pt |
Punjabi | pa |
Quechua | qu |
Rhaeto-Romance | rm |
Romanian | ro |
Russian | ru |
Sami (Lappish) | |
Samoan | sm |
Sangro | sg |
Sanskrit | sa |
Serbian | sr |
Serbo-Croatian | sh |
Sesotho | st |
Setswana | tn |
Shona | sn |
Sichuan Yi | ii |
Sindhi | sd |
Sinhalese | si |
Siswati | ss |
Slovak | sk |
Slovenian | sl |
Somali | so |
Spanish | es |
Sundanese | su |
Swahili (Kiswahili) | sw |
Swedish | sv |
Syriac | |
Tagalog | tl |
Tajik | tg |
Tamazight | |
Tamil | ta |
Tatar | tt |
Telugu | te |
Thai | th |
Tibetan | bo |
Tigrinya | ti |
Tonga | to |
Tsonga | ts |
Turkish | tr |
Turkmen | tk |
Twi | tw |
Uighur | ug |
Ukrainian | uk |
Urdu | ur |
Uzbek | uz |
Venda | |
Vietnamese | vi |
Volapük | vo |
Wallon | wa |
Welsh | cy |
Wolof | wo |
Xhosa | xh |
Yi | |
Yiddish | yi, ji |
Yoruba | yo |
Zulu | zu |
JS正则表达式
1、语法
/RegularExpression/modifier // modifier:修饰符(可选)
2、模式
• 普通字符:包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号
/\N/ // \N 对前面至少 N 个的匹配结果再引用一次
/\NNN/ // \NNN 匹配为八进制转义值的3个数字 NNN
/\cX/ // \cX 匹配由X指明的控制字符(X的值必须为 A-Z 或 a-z 之一)
/\d/ // \d 匹配一个数字
/\D/ // \D 匹配一个非数字字符
/\f/ // \f 匹配一个换页符
/\n/ // \n 匹配一个换行符
/\r/ // \r 匹配一个回车符
/\s/ // \s 匹配任何空白字符(空格、制表符、换页符等)
/\S/ // \S 匹配任何非空白字符
/\t/ // \t 匹配一个制表符
/\v/ // \v 匹配一个垂直制表符
/\w/ // \w 匹配字母、数字、下划线
/\W/ // \W 匹配非字母、非数字、非下划线
/\xNN/ // \xNN 匹配为十六进制转义值的2个数字 NN
/\uNNNN/ // \uNNNN 匹配以十六进制数 NNNN 规定的 Unicode 字符
• 特殊字符:一些有特殊含义的字符,需使用\转义来匹配特殊字符本身
/\x/ // \ 将特殊字符标记为原义字符/向后引用/八进制转义符
/./ // . 匹配除换行符之外的任何单字符
/x|y/ // (|) 匹配 x 或 y
/[xyz]/ // [] 匹配方括号内的任意字符
/[^xyz]/ // [^] 匹配不在方括号内的任意字符
/[x-y]/ // [-] 匹配指定范围内的任意单个字符
/[^x-y]/ // [^-] 匹配指定范围外的任意单个字符
/(pattern)/ // () 标记一个子表达式的开始和结束位置
/(?:pattern)/ // (?:) 非获取匹配,匹配但不获取结果
• 限定符:指定正则表达式的一个给定组件必须要出现多少次才能满足匹配
/pattern?/ // ? 包含0个/1个指定项(限定符后跟?将匹配限定范围内最少个)
/pattern+/ // + 包含1个/多个指定项
/pattern*/ // * 包含0个/1个/多个指定项
/pattern{N}/ // {N} 包含 N 个指定项
/pattern{N,}/ // {N,} 包含连续至少 M 个指定项
/pattern{M,N}/ // {M,N} 包含连续至少 M 个、至多 N 个指定项
• 定位符:将正则表达式固定到行首或行尾
/\b/ // \b 匹配单词边界(空格前后)
/\B/ // \B 匹配非单词边界
/^pattern/ // ^ 以指定项为行首
/pattern$/ // $ 以指定项为行尾
/(?=pattern)/ // (?=) 非获取匹配,从任何匹配指定项的字符串开始处查找
/(?!pattern)/ // (?!) 非获取匹配,从任何不匹配指定项的字符串开始处查找
/(?<=pattern)/ // (?!) 非获取匹配,从任何匹配指定项的字符串结尾处查找
/(?<!pattern)/ // (?!) 非获取匹配,从任何不匹配指定项的字符串结尾处查找
• 运算符优先级:相同优先级的从左到右进行运算,不同优先级的运算先高后低
运算符 | 优先级 |
---|---|
\ | 1 |
() (?:) (?=) [] | 2 |
* + ? {N} {N,} {M,N} | 3 |
^ $ \…… | 4 |
| | 5 |
• 字符簇:一个表示所有匹配字符的范围的组合
[a-z] // 匹配所有的小写字母中的单个字符
[A-Z] // 匹配所有的大写字母中的单个字符
[a-zA-Z] // 匹配所有的字母中的单个字符
[0-9] // 匹配所有的数字中的单个字符
[ \f\r\t\n] // 匹配所有的白字符中的单个字符
^[1-9][0-9]*$ // 匹配所有的正整数
^\-?[0-9]+$ // 匹配所有的整数
^[-]?[0-9]+(\.[0-9]+)?$ // 匹配所有的浮点数
3、修饰符
/RegExp/i // i:执行对大小写不敏感的匹配
/RegExp/g // g:执行全局匹配
/RegExp/m // m:执行多行匹配
4、相关方法
• exec()
:检索字符串中的正则表达式的匹配(返回匹配值/null)
RegExpObject.exec(string)
// *string:要检测的字符串
• test()
:检测一个字符串是否匹配某个模式(返回true/false)
RegExpObject.test(string)
// *string:要检测的字符串
• toString()
:返回正则表达式的字符串值
RegExpObject.toString()
• match()
:在字符串内检索指定的值,或找到一个或多个正则表达式的匹配
stringObject.match(regexp)
// *regexp:规定要匹配的模式的 RegExp 对象
• replace()
:在字符串中用一些字符替换另一些字符,或替换一个与正则表达式匹配的子串
stringObject.replace(searchvalue,newvalue)
// *searchvalue:规定子字符串或要替换的模式的 RegExp 对象
// *newvalue:一个字符串值,规定了替换文本或生成替换文本的函数
• search()
:检索字符串中指定的子字符串,或检索与正则表达式相匹配的子字符串
stringObject.search(searchvalue)
// *searchvalue:查找的字符串或者正则表达式
• split()
:把一个字符串分割成字符串数组
stringObject.split(separator,limit)
*separator 字符串或正则表达式,从该参数指定的地方分割 string Object
*limit 该参数可指定返回的数组的最大长度。如果设置了该参数,返回的子串不会多于这个参数指定的数组。如果没有设置该参数,整个字符串都会被分割,不考虑它的长度
5、相关属性
• constructor
:返回对象的构造函数
RegExpObject.constructor
• global
:判断正则表达式是否有修饰符 g
RegExpObject.global
• ignoreCase
:判断正则表达式是否有修饰符 i
RegExpObject.ignoreCase
• lastIndex
:规定下次匹配的起始位置(g环境下)
RegExpObject.lastIndex
• multiline
:判断正则表达式是否有修饰符 m
RegExpObject.multiline
• source
:返回模式匹配所用的文本
RegExpObject.source