字节八股总结

最新推荐文章于 2024-11-15 18:38:47 发布

东东95277777

最新推荐文章于 2024-11-15 18:38:47 发布

阅读量97

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_44518194/article/details/131823807

版权

HTTP实现一个多线程下载器。如何知道一个文件大小的，如何进行切割。
核心：要知道文件的大小，先通过HTTP HEAD请求获取Content-Length长度，然后根据这个长度分块，分到不同线程中分别下载。分段下载核心是，流式下载，在请求头添加开始和结束。
实现
实现一个多线程下载器涉及到HTTP请求的使用、文件I/O操作，以及多线程的管理。这里我将使用Python语言并使用其内置的requests库进行HTTP请求，threading库来实现多线程，并使用os和shutil库进行文件操作。这种简化的多线程下载器将从指定的URL下载文件，并将其分割成若干部分，每个线程下载一部分。

首先，我们需要确定远程文件的大小，这样我们才能将其分割成相等的部分供每个线程下载。我们可以通过发送HEAD请求并检查Content-Length头来实现这一点。

然后，我们将文件分割成相等的部分，并为每个线程分配一个部分。每个线程将向服务器发送一个带有Range头的GET请求，该头指示服务器只发送文件的特定部分。

最后，每个线程将其部分写入一个临时文件。当所有线程都完成下载后，主线程将所有部分合并到一个文件中。

DNS协议。传输层协议用的什么。
UDP是DNS协议的首选传输层协议，因为UDP是一种无连接的、不可靠的协议，它的开销比TCP小，在DNS查询过程中可以提供更快的响应速度。在使用UDP协议时，DNS服务器将响应数据包发送到请求方的IP地址和端口号，而不会进行连接的建立和断开。

在某些情况下，DNS协议需要使用TCP协议来进行数据传输。例如，在传输大型DNS数据包或进行DNS区域传输时，DNS协议需要使用TCP协议进行数据传输。

视频、会议等实时通信应用一般使用UDP协议作为传输层协议，以实现低延迟和高吞吐量的数据传输。

TCP中Close Wait状态服务器还能不能发送数据。
能。

键入一个网站的完整处理过程。2.2 键入网址到网页显示，期间发生了什么？ | 小林coding (xiaolincoding.com)

数据库不同分类是否了解。关系型、非关系型、KV等，怎么使用的，如何选择。
选择关系型数据库（RDBMS）还是非关系型数据库（NoSQL）通常取决于你的应用程序的数据需求，这包括数据的结构、数据量、读写操作的比例和频率，以及数据的一致性和可扩展性需求等等。

以下是一些关于何时选择关系型数据库（例如 MySQL, PostgreSQL, Oracle）或非关系型数据库（例如 MongoDB, Cassandra, Redis）的指导原则。

关系型数据库：

非关系型数据库：

不过值得注意的是，每个数据库系统都有其特定的优势，一种数据库可能不适合所有的情况。且现在很多应用采用多数据库的策略，例如，他们可能会同时使用关系型数据库和非关系型数据库，以便根据不同的需求选择最合适的工具。
1. - 关系型数据库：基于关系模型的数据库，例如MySQL、Oracle、SQL Server等。
  - 非关系型数据库：不基于关系模型的数据库，例如MongoDB、Redis、Cassandra等。
  - 结构化数据：如果你的数据结构固定且不易改变，关系型数据库通常是一个很好的选择。关系型数据库使用评估过的表结构（即表的列是预定义的），所以它们最适合于存储结构化数据。
  - 事务性：如果你的应用需要执行复杂的事务，例如银行转账，关系型数据库通常是最佳选择。这是因为它们支持ACID（原子性，一致性，隔离性，持久性）事务。
  - 数据一致性：如果需要严格的数据一致性，关系型数据库可能是最好的选择。例如，在一个电子商务应用中，库存，订单，和支付系统之间的数据必须始终保持一致。
  - 复杂的查询：关系型数据库使用SQL（结构化查询语言）进行数据查询，它支持复杂的查询，包括联接操作，子查询等。
  - 灵活的数据模型：如果你的数据结构经常变化，或者你想避免复杂的数据库模型设计，那么非关系型数据库可能是一个好选择。例如，MongoDB允许你存储灵活的、JSON-like的文档，这些文档可以包含任何类型的数据。
  - 水平可扩展性：如果你有大量的数据（例如，TB或PB级别）或者非常高的读/写负载，非关系型数据库可能是更好的选择。许多非关系型数据库都设计成可以在廉价的硬件集群上水平扩展。
  - 高性能：如果你的应用需要非常高的性能，非关系型数据库可能是一个好选择。例如，Redis是一个在内存中存储数据的键值存储，它可以提供非常高的读写速度。
  - 非结构化数据：如果你的应用需要处理非结构化数据，例如图像，音频，视频，或者半结构化数据，例如JSON或XML文档，非关系型数据库可能是一个好选择。

Linux IO多路复用。select、epoll的核心区别。
ref：9.2 I/O 多路复用：select/poll/epoll | 小林coding (xiaolincoding.com)

在Linux系统中，I/O多路复用技术允许单个线程监视多个文件描述符（比如套接字）的I/O事件。常用的I/O多路复用机制包括select，poll，epoll，在某些系统中还包括kqueue。

以下是每种技术的简介：

在选择使用哪种I/O多路复用技术时，应考虑你的应用的需求。如果你只需要监视少量的文件描述符，并且跨平台性是一个重要因素，那么select或poll可能是一个好选择。如果你需要监视大量的文件描述符，并且应用运行在Linux系统上，那么epoll可能是一个更好的选择。

以下是Linux I/O多路复用的几种技术的实现原理：

select和epoll都是Linux系统的I/O多路复用技术，但它们的工作机制有着显著的区别。以下是它们的主要区别：

总的来说，epoll提供了比select更高的效率和扩展性，但是使用起来也更复杂。你应该根据你的具体需求选择最适合的技术。
1. select：这可能是最早的I/O多路复用机制，它可以监视文件描述符集合的读、写和异常事件。当调用select函数时，线程会阻塞，直到至少有一个文件描述符准备好I/O操作，或者超时。select的主要弊端是它只能监视的文件描述符数量有限（通常最多1024），并且每次调用select都需要重新指定监视的文件描述符集合。
2. poll：poll与select类似，但它没有监视文件描述符数量的限制。然而，poll的效率在处理大量文件描述符时会降低，因为它需要遍历整个文件描述符列表。
3. epoll：epoll是Linux特有的I/O多路复用机制，它旨在解决select和poll在处理大量文件描述符时的效率问题。与select和poll不同，epoll使用一种称为事件驱动的方式，当我们添加或删除文件描述符时，只需要通知内核一次，而且它可以处理的文件描述符数量几乎没有限制。
4. select：select函数通过内核来查询每个socket看它是否处于就绪状态。如果处于就绪状态，就可以开始进行I/O操作，否则就等待。在这个过程中，select会被阻塞。当有一个socket就绪，或者达到用户设置的超时时间时，select就会返回。这种方法的缺点是每次调用select，都需要传入所有的socket，而且最大数目也受到限制。
5. poll：poll的工作方式与select类似，不过poll并没有最大文件描述符的限制。poll采用链表的方式存储和管理socket，因此它的性能并不会随着监控的socket数量的增加而降低。但是，poll还是需要遍历和检查所有的socket，如果这些socket并没有就绪，那么这个操作就是浪费的。
6. epoll：epoll是Linux特有的I/O多路复用机制，它通过内核和用户空间共享一块内存来避免了select和poll的缺点。在调用epoll_wait时，如果没有已经就绪的文件描述符，epoll会被阻塞，而当某个文件描述符就绪时，内核会采用回调的方式激活该文件描述符，epoll_wait就会返回。这样，就避免了无效的遍历，提高了效率。
7. 效率：select在每次调用时都需要遍历整个文件描述符集，来查找就绪的文件描述符。而epoll只关注那些实际发送了事件的文件描述符。因此，epoll在处理大量文件描述符时的效率要高于select。
8. 扩展性：select有一个固定的限制在文件描述符的数量上(通常为1024)，这对于需要处理大量连接的高并发服务器来说是不够的。而epoll没有这样的限制，它可以处理数以万计的并发连接。
9. 触发方式：select采用水平触发（Level Triggered，LT）方式。也就是说，只要有一个文件描述符就绪，select就会返回，即使这个文件描述符在上一次查询后仍然没有被处理。而epoll既支持水平触发也支持边缘触发（Edge Triggered，ET）。边缘触发模式下，只有当状态发生变化时才会通知应用程序。这意味着如果你忘记了处理一个事件，你可能就会丢失它。
10. API的复杂性：select的API相对简单。只需要一个select函数，你就可以设置监视的文件描述符集，以及超时时间。然而，epoll的API更复杂。你需要使用epoll_create创建一个epoll对象，然后使用epoll_ctl添加、修改或删除要监视的文件描述符，最后使用epoll_wait等待事件的发生。

Linux定时器的实现。比如TCP中发送一个ACK包后有一个超时等待，如何去做。
自己想的思路是做一个调度的时钟线程，去调度等待线程。

在Linux中，定时器的实现主要有两种方式：内核定时器和POSIX定时器。下面是它们的简单介绍：

在TCP中，如果你发送了一个ACK包，然后需要等待一段时间，你可以使用上述的任何一种定时器。一种可能的方法是，当你发送一个ACK包时，设置一个定时器。然后在定时器的回调函数或信号处理程序中检查是否收到了响应。如果没有收到响应，你可以重新发送ACK包，或者进行其他的错误处理。
1. 内核定时器：timer_list是Linux内核中的一种定时器，它在内核空间中实现。你可以通过init_timer初始化一个定时器，add_timer添加一个定时器，del_timer删除一个定时器。当一个定时器到期时，内核会调用该定时器的回调函数。
2. POSIX定时器：POSIX定时器是在用户空间的定时器，它是按照POSIX.1b实时扩展标准设计的。你可以通过timer_create创建一个定时器，timer_settime设置一个定时器，timer_gettime获取一个定时器的剩余时间，timer_delete删除一个定时器。当一个POSIX定时器到期时，它会生成一个信号，你可以在信号处理程序中处理该事件。