【学习笔记】HTML字符实体|语言代码、JS正则表达式参考手册

shawxlee

已于 2023-09-24 14:54:37 修改

阅读量148

点赞数

分类专栏：学习笔记 HTML JS/jQuery 文章标签： html 学习笔记 javascript 字符正则表达式语言代码

于 2023-09-13 20:09:22 首次发布

本文链接：https://blog.csdn.net/weixin_43642751/article/details/132863909

版权

学习笔记同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

JS/jQuery

12 篇文章 0 订阅

订阅专栏

HTML

10 篇文章 0 订阅

订阅专栏

HTML字符实体

字符实体（character entities）
1、在 HTML 中，某些字符是预留的；
2、在 HTML 中不能使用小于号 < 和大于号 > ，这是因为浏览器会误认为它们是标签；
3、如果希望正确地显示预留字符，我们必须在 HTML 源代码中使用字符实体。
不间断空格（non-breaking space）
1、HTML 中的常用字符实体是不间断空格   ；
2、浏览器会截短 HTML 页面中的连续空格，总是只显示一个，如需在页面中增加空格的数量，您需要使用   字符实体。

HTML ISO-8859-1 参考手册

HTML 4.01 支持 ISO 8859-1 (Latin-1) 字符集，这些符号中的大多数都可以在不进行实体引用的情况下使用，但是实体名称或实体编号为那些不容易通过键盘键入的符号提供了表达的方法：

※ 实体名称对大小写敏感

显示	描述	实体名称	实体编号
"	quotation mark（双引号）	"	"
&	ampersand（与）	&	&
'	apostrophe（撇号）	'	'
<	less-than（小于）	<	<
>	greater-than（大于）	>	>
	non-breaking space（空格）
¡	inverted exclamation mark（倒置感叹号）	¡	¡
¢	cent（美分）	¢	¢
£	pound（英镑）	£	£
¤	currency（货币）	¤	¤
¥	yen（日元）/yuan（人民币）	¥	¥
¦	broken vertical bar（间断的竖杠）	¦	¦
§	section（分节符）	§	§
¨	diaeresis（分音符号）	¨	¨
©	copyright（版权所有）	©	©
ª	feminine ordinal indicator（阴性序数记号）	ª	ª
«	left angle quotation mark（左双角引号）	«	«
¬	not sign（否定）	¬	¬
	soft hyphen（软连字符）
®	registered trademark（注册商标）	®	®
¯	macron（长音符号）	¯	¯
°	degree（度）	°	°
±	plus-or-minus（正负号）	±	±
²	superscript 2（上标2）	²	²
³	superscript 3（上标3）	³	³
´	acute accent（尖音符号）	´	´
µ	micro（微米）	µ	µ
¶	paragraph（分段符号）	¶	¶
·	middle dot（中间点）	·	·
¸	cedilla（变音符号）	¸	¸
¹	superscript 1（上标1）	¹	¹
º	masculine ordinal indicator（阳性序数记号）	º	º
»	right angle quotation mark (右双角引号)	»	»
¼	fraction 1/4（四分之一）	¼	¼
½	fraction 1/2（二分之一）	½	½
¾	fraction 3/4（四分之三）	¾	¾
¿	inverted question mark（倒置问号）	¿	¿
À	capital A, grave accent	À	À
Á	capital A, acute accent	Á	Á
Â	capital A, circumflex accent	Â	Â
Ã	capital A, tilde	Ã	Ã
Ä	capital A, umlaut mark	Ä	Ä
Å	capital A, ring	Å	Å
Æ	capital AE	Æ	Æ
Ç	capital C, cedilla	Ç	Ç
È	capital E, grave accent	È	È
É	capital E, acute accent	É	É
Ê	capital E, circumflex accent	Ê	Ê
Ë	capital E, umlaut mark	Ë	Ë
Ì	capital I, grave accent	Ì	Ì
Í	capital I, acute accent	Í	Í
Î	capital I, circumflex accent	Î	Î
Ï	capital I, umlaut mark	Ï	Ï
Ð	capital ETH, Icelandic	Ð	Ð
Ñ	capital N, tilde	Ñ	Ñ
Ò	capital O, grave accent	Ò	Ò
Ó	capital O, acute accent	Ó	Ó
Ô	capital O, circumflex accent	Ô	Ô
Õ	capital O, tilde	Õ	Õ
Ö	capital O, umlaut mark	Ö	Ö
×	multiplication（乘号）	×	×
Ø	capital O, slash	Ø	Ø
Ù	capital U, grave accent	Ù	Ù
Ú	capital U, acute accent	Ú	Ú
Û	capital U, circumflex accent	Û	Û
Ü	capital U, umlaut mark	Ü	Ü
Ý	capital Y, acute accent	Ý	Ý
Þ	capital THORN, Icelandic	Þ	Þ
ß	small sharp s, German	ß	ß
à	small a, grave accent	à	à
á	small a, acute accent	á	á
â	small a, circumflex accent	â	â
ã	small a, tilde	ã	ã
ä	small a, umlaut mark	ä	ä
å	small a, ring	å	å
æ	small ae	æ	æ
ç	small c, cedilla	ç	ç
è	small e, grave accent	è	è
é	small e, acute accent	é	é
ê	small e, circumflex accent	ê	ê
ë	small e, umlaut mark	ë	ë
ì	small i, grave accent	ì	ì
í	small i, acute accent	í	í
î	small i, circumflex accent	î	î
ï	small i, umlaut mark	ï	ï
ð	small eth, Icelandic	ð	ð
ñ	small n, tilde	ñ	ñ
ò	small o, grave accent	ò	ò
ó	small o, acute accent	ó	ó
ô	small o, circumflex accent	ô	ô
õ	small o, tilde	õ	õ
ö	small o, umlaut mark	ö	ö
÷	division（除号）	÷	÷
ø	small o, slash	ø	ø
ù	small u, grave accent	ù	ù
ú	small u, acute accent	ú	ú
û	small u, circumflex accent	û	û
ü	small u, umlaut mark	ü	ü
ý	small y, acute accent	ý	ý
þ	small thorn, Icelandic	þ	þ
ÿ	small y, umlaut mark	ÿ	ÿ
€	euro（欧元）	€	€
™	trademark（商标）	™	™

HTML语言代码

ISO 语言代码
1、HTML 的 lang 属性可用于网页或部分网页的语言，这对搜索引擎和浏览器是有帮助的；
2、根据 W3C 推荐标准，需要通过 html 标签中的 lang 属性对每张页面中的主要语言进行声明：

<!-- HTML 中 -->
<html lang="en">
    ……
</html>

<!-- XHTML 中 -->
<html xmlns="http://www.w3.org/1999/xhtml" lang="en" xml:lang="en">
    ……
</html>

ISO 639-1 语言代码

ISO 639-1 为各种语言定义了缩略词，可以在 HTML 和 XHTML 中的 lang 和 xml:lang 属性中使用它们：

语言	ISO 代码
Abkhazian	ab
Afar	aa
Afrikaans	af
Albanian	sq
Amharic	am
Arabic	ar
Aragonese	an
Armenian	hy
Assamese	as
Aymara	ay
Azerbaijani	az
Bashkir	ba
Basque	eu
Bengali (Bangla)	bn
Bhutani	dz
Bihari	bh
Bislama	bi
Breton	br
Bulgarian	bg
Burmese	my
Byelorussian (Belarusian)	be
Cambodian	km
Catalan	ca
Cherokee
Chewa
Chinese (简体)	zh
Chinese (繁体)	zh
Corsican	co
Croatian	hr
Czech	cs
Danish	da
Divehi
Dutch	nl
Edo
English	en
Esperanto	eo
Estonian	et
Faeroese	fo
Farsi	fa
Fiji	fj
Finnish	fi
Flemish
French	fr
Frisian	fy
Fulfulde
Galician	gl
Gaelic (Scottish)	gd
Gaelic (Manx)	gv
Georgian	ka
German	de
Greek	el
Greenlandic	kl
Guarani	gn
Gujarati	gu
Haitian Creole	ht
Hausa	ha
Hawaiian
Hebrew	he, iw
Hindi	hi
Hungarian	hu
Ibibio
Icelandic	is
Ido	io
Igbo
Indonesian	id, in
Interlingua	ia
Interlingue	ie
Inuktitut	iu
Inupiak	ik
Irish	ga
Italian	it
Japanese	ja
Javanese	jv
Kannada	kn
Kanuri
Kashmiri	ks
Kazakh	kk
Kinyarwanda (Ruanda)	rw
Kirghiz	ky
Kirundi (Rundi)	rn
Konkani
Korean	ko
Kurdish	ku
Laothian	lo
Latin	la
Latvian (Lettish)	lv
Limburgish ( Limburger)	li
Lingala	ln
Lithuanian	lt
Macedonian	mk
Malagasy	mg
Malay	ms
Malayalam	ml

Maltese	mt
Maori	mi
Marathi	mr
Moldavian	mo
Mongolian	mn
Nauru	na
Nepali	ne
Norwegian	no
Occitan	oc
Oriya	or
Oromo (Afaan Oromo)	om
Papiamentu
Pashto (Pushto)	ps
Polish	pl
Portuguese	pt
Punjabi	pa
Quechua	qu
Rhaeto-Romance	rm
Romanian	ro
Russian	ru
Sami (Lappish)
Samoan	sm
Sangro	sg
Sanskrit	sa
Serbian	sr
Serbo-Croatian	sh
Sesotho	st
Setswana	tn
Shona	sn
Sichuan Yi	ii
Sindhi	sd
Sinhalese	si
Siswati	ss
Slovak	sk
Slovenian	sl
Somali	so
Spanish	es
Sundanese	su
Swahili (Kiswahili)	sw
Swedish	sv
Syriac
Tagalog	tl
Tajik	tg
Tamazight
Tamil	ta
Tatar	tt
Telugu	te
Thai	th
Tibetan	bo
Tigrinya	ti
Tonga	to
Tsonga	ts
Turkish	tr
Turkmen	tk
Twi	tw
Uighur	ug
Ukrainian	uk
Urdu	ur
Uzbek	uz
Venda
Vietnamese	vi
Volapük	vo
Wallon	wa
Welsh	cy
Wolof	wo
Xhosa	xh
Yi
Yiddish	yi, ji
Yoruba	yo
Zulu	zu

JS正则表达式

1、语法

/RegularExpression/modifier    // modifier：修饰符（可选）

2、模式

• 普通字符：包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号

/\N/    // \N 对前面至少 N 个的匹配结果再引用一次

/\NNN/    // \NNN 匹配为八进制转义值的3个数字 NNN

/\cX/    // \cX 匹配由X指明的控制字符（X的值必须为 A-Z 或 a-z 之一）

/\d/    // \d 匹配一个数字

/\D/    // \D 匹配一个非数字字符

/\f/    // \f 匹配一个换页符

/\n/    // \n 匹配一个换行符

/\r/    // \r 匹配一个回车符

/\s/    // \s 匹配任何空白字符（空格、制表符、换页符等）

/\S/    // \S 匹配任何非空白字符

/\t/    // \t 匹配一个制表符

/\v/    // \v 匹配一个垂直制表符

/\w/    // \w 匹配字母、数字、下划线

/\W/    // \W 匹配非字母、非数字、非下划线

/\xNN/    // \xNN 匹配为十六进制转义值的2个数字 NN

/\uNNNN/    // \uNNNN 匹配以十六进制数 NNNN 规定的 Unicode 字符

• 特殊字符：一些有特殊含义的字符，需使用\转义来匹配特殊字符本身

/\x/    // \ 将特殊字符标记为原义字符/向后引用/八进制转义符

/./    // . 匹配除换行符之外的任何单字符

/x|y/    // (|) 匹配 x 或 y 

/[xyz]/    // [] 匹配方括号内的任意字符

/[^xyz]/    // [^] 匹配不在方括号内的任意字符

/[x-y]/    // [-] 匹配指定范围内的任意单个字符

/[^x-y]/    // [^-] 匹配指定范围外的任意单个字符

/(pattern)/    // () 标记一个子表达式的开始和结束位置

/(?:pattern)/    // (?:) 非获取匹配，匹配但不获取结果

• 限定符：指定正则表达式的一个给定组件必须要出现多少次才能满足匹配

/pattern?/    // ? 包含0个/1个指定项（限定符后跟?将匹配限定范围内最少个）

/pattern+/    // + 包含1个/多个指定项

/pattern*/    // * 包含0个/1个/多个指定项

/pattern{N}/    // {N} 包含 N 个指定项

/pattern{N,}/    // {N,} 包含连续至少 M 个指定项

/pattern{M,N}/    // {M,N} 包含连续至少 M 个、至多 N 个指定项

• 定位符：将正则表达式固定到行首或行尾

/\b/    // \b 匹配单词边界（空格前后）

/\B/    // \B 匹配非单词边界

/^pattern/    // ^ 以指定项为行首

/pattern$/    // $ 以指定项为行尾

/(?=pattern)/    // (?=) 非获取匹配，从任何匹配指定项的字符串开始处查找

/(?!pattern)/    // (?!) 非获取匹配，从任何不匹配指定项的字符串开始处查找

/(?<=pattern)/    // (?!) 非获取匹配，从任何匹配指定项的字符串结尾处查找

/(?<!pattern)/    // (?!) 非获取匹配，从任何不匹配指定项的字符串结尾处查找

• 运算符优先级：相同优先级的从左到右进行运算，不同优先级的运算先高后低

运算符	优先级
`\`	1
`()` `(?:)` `(?=)` `[]`	2
`*` `+` `?` `{N}` `{N,}` `{M,N}`	3
`^` `$` `\……`	4
`\|`	5

• 字符簇：一个表示所有匹配字符的范围的组合

[a-z]    // 匹配所有的小写字母中的单个字符

[A-Z]    // 匹配所有的大写字母中的单个字符

[a-zA-Z]    // 匹配所有的字母中的单个字符

[0-9]    // 匹配所有的数字中的单个字符

[ \f\r\t\n]    // 匹配所有的白字符中的单个字符

^[1-9][0-9]*$    // 匹配所有的正整数 

^\-?[0-9]+$    // 匹配所有的整数 

^[-]?[0-9]+(\.[0-9]+)?$    // 匹配所有的浮点数

3、修饰符

/RegExp/i    // i：执行对大小写不敏感的匹配

/RegExp/g    // g：执行全局匹配

/RegExp/m    // m：执行多行匹配

4、相关方法

• `exec()`：检索字符串中的正则表达式的匹配（返回匹配值/null）

RegExpObject.exec(string)

// *string：要检测的字符串

• `test()`：检测一个字符串是否匹配某个模式（返回true/false）

RegExpObject.test(string)

// *string：要检测的字符串

• `toString()`：返回正则表达式的字符串值

RegExpObject.toString()

• `match()`：在字符串内检索指定的值，或找到一个或多个正则表达式的匹配

stringObject.match(regexp)

// *regexp：规定要匹配的模式的 RegExp 对象

• `replace()`：在字符串中用一些字符替换另一些字符，或替换一个与正则表达式匹配的子串

stringObject.replace(searchvalue,newvalue)

// *searchvalue：规定子字符串或要替换的模式的 RegExp 对象
// *newvalue：一个字符串值，规定了替换文本或生成替换文本的函数

• `search()`：检索字符串中指定的子字符串，或检索与正则表达式相匹配的子字符串

stringObject.search(searchvalue)

// *searchvalue：查找的字符串或者正则表达式

• `split()`：把一个字符串分割成字符串数组

stringObject.split(separator,limit)

*separator  字符串或正则表达式，从该参数指定的地方分割 string Object
*limit  该参数可指定返回的数组的最大长度。如果设置了该参数，返回的子串不会多于这个参数指定的数组。如果没有设置该参数，整个字符串都会被分割，不考虑它的长度

5、相关属性

• `constructor`：返回对象的构造函数

RegExpObject.constructor

• `global`：判断正则表达式是否有修饰符 g

RegExpObject.global

• `ignoreCase`：判断正则表达式是否有修饰符 i

RegExpObject.ignoreCase

• `lastIndex`：规定下次匹配的起始位置（g环境下）

RegExpObject.lastIndex

• `multiline`：判断正则表达式是否有修饰符 m

RegExpObject.multiline

• `source`：返回模式匹配所用的文本

RegExpObject.source

shawxlee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】HTML字符实体|语言代码、JS正则表达式参考手册

2、浏览器会截短 HTML 页面中的连续空格，总是只显示一个，如需在页面中增加空格的数量，您需要使用。3、如果希望正确地显示预留字符，我们必须在 HTML 源代码中使用字符实体。1、HTML 中的常用字符实体是不间断空格。1、在 HTML 中，某些字符是预留的；，这是因为浏览器会误认为它们是标签；2、在 HTML 中不能使用小于号。实体名称对大小写敏感。
复制链接

扫一扫