字节八股总结

  1. HTTP实现一个多线程下载器。如何知道一个文件大小的,如何进行切割。

    核心:要知道文件的大小,先通过HTTP HEAD请求获取Content-Length长度,然后根据这个长度分块,分到不同线程中分别下载。分段下载核心是,流式下载,在请求头添加开始和结束

    实现

    实现一个多线程下载器涉及到HTTP请求的使用、文件I/O操作,以及多线程的管理。这里我将使用Python语言并使用其内置的requests库进行HTTP请求,threading库来实现多线程,并使用osshutil库进行文件操作。这种简化的多线程下载器将从指定的URL下载文件,并将其分割成若干部分,每个线程下载一部分。

    首先,我们需要确定远程文件的大小,这样我们才能将其分割成相等的部分供每个线程下载。我们可以通过发送HEAD请求并检查Content-Length头来实现这一点。

    然后,我们将文件分割成相等的部分,并为每个线程分配一个部分。每个线程将向服务器发送一个带有Range头的GET请求,该头指示服务器只发送文件的特定部分。

    最后,每个线程将其部分写入一个临时文件。当所有线程都完成下载后,主线程将所有部分合并到一个文件中。

  1. DNS协议。传输层协议用的什么。

    UDP是DNS协议的首选传输层协议,因为UDP是一种无连接的、不可靠的协议,它的开销比TCP小,在DNS查询过程中可以提供更快的响应速度。在使用UDP协议时,DNS服务器将响应数据包发送到请求方的IP地址和端口号,而不会进行连接的建立和断开。

    在某些情况下,DNS协议需要使用TCP协议来进行数据传输。例如,在传输大型DNS数据包或进行DNS区域传输时,DNS协议需要使用TCP协议进行数据传输。

    视频、会议等实时通信应用一般使用UDP协议作为传输层协议,以实现低延迟和高吞吐量的数据传输。

  1. TCP中Close Wait状态服务器还能不能发送数据。

    能。notion image

     notion image

     

     

    notion image

  1. 键入一个网站的完整处理过程。2.2 键入网址到网页显示,期间发生了什么? | 小林coding (xiaolincoding.com)
  1. 数据库不同分类是否了解。关系型、非关系型、KV等,怎么使用的,如何选择。

    选择关系型数据库(RDBMS)还是非关系型数据库(NoSQL)通常取决于你的应用程序的数据需求,这包括数据的结构、数据量、读写操作的比例和频率,以及数据的一致性和可扩展性需求等等。

    以下是一些关于何时选择关系型数据库(例如 MySQL, PostgreSQL, Oracle)或非关系型数据库(例如 MongoDB, Cassandra, Redis)的指导原则。

    关系型数据库:

    非关系型数据库:

    不过值得注意的是,每个数据库系统都有其特定的优势,一种数据库可能不适合所有的情况。且现在很多应用采用多数据库的策略,例如,他们可能会同时使用关系型数据库和非关系型数据库,以便根据不同的需求选择最合适的工具。

      • 关系型数据库:基于关系模型的数据库,例如MySQL、Oracle、SQL Server等。
      • 非关系型数据库:不基于关系模型的数据库,例如MongoDB、Redis、Cassandra等。
      • 结构化数据: 如果你的数据结构固定且不易改变,关系型数据库通常是一个很好的选择。关系型数据库使用评估过的表结构(即表的列是预定义的),所以它们最适合于存储结构化数据。
      • 事务性:如果你的应用需要执行复杂的事务,例如银行转账,关系型数据库通常是最佳选择。这是因为它们支持ACID(原子性,一致性,隔离性,持久性)事务。
      • 数据一致性:如果需要严格的数据一致性,关系型数据库可能是最好的选择。例如,在一个电子商务应用中,库存,订单,和支付系统之间的数据必须始终保持一致。
      • 复杂的查询:关系型数据库使用SQL(结构化查询语言)进行数据查询,它支持复杂的查询,包括联接操作,子查询等。
      • 灵活的数据模型:如果你的数据结构经常变化,或者你想避免复杂的数据库模型设计,那么非关系型数据库可能是一个好选择。例如,MongoDB允许你存储灵活的、JSON-like的文档,这些文档可以包含任何类型的数据。
      • 水平可扩展性:如果你有大量的数据(例如,TB或PB级别)或者非常高的读/写负载,非关系型数据库可能是更好的选择。许多非关系型数据库都设计成可以在廉价的硬件集群上水平扩展。
      • 高性能:如果你的应用需要非常高的性能,非关系型数据库可能是一个好选择。例如,Redis是一个在内存中存储数据的键值存储,它可以提供非常高的读写速度。
      • 非结构化数据:如果你的应用需要处理非结构化数据,例如图像,音频,视频,或者半结构化数据,例如JSON或XML文档,非关系型数据库可能是一个好选择。
  1. Linux IO多路复用。select、epoll的核心区别。

    ref:9.2 I/O 多路复用:select/poll/epoll | 小林coding (xiaolincoding.com)

    在Linux系统中,I/O多路复用技术允许单个线程监视多个文件描述符(比如套接字)的I/O事件。常用的I/O多路复用机制包括selectpollepoll,在某些系统中还包括kqueue

    以下是每种技术的简介:

    在选择使用哪种I/O多路复用技术时,应考虑你的应用的需求。如果你只需要监视少量的文件描述符,并且跨平台性是一个重要因素,那么selectpoll可能是一个好选择。如果你需要监视大量的文件描述符,并且应用运行在Linux系统上,那么epoll可能是一个更好的选择。

    以下是Linux I/O多路复用的几种技术的实现原理:

    selectepoll都是Linux系统的I/O多路复用技术,但它们的工作机制有着显著的区别。以下是它们的主要区别:

    总的来说,epoll提供了比select更高的效率和扩展性,但是使用起来也更复杂。你应该根据你的具体需求选择最适合的技术。

    1. select:这可能是最早的I/O多路复用机制,它可以监视文件描述符集合的读、写和异常事件。当调用select函数时,线程会阻塞,直到至少有一个文件描述符准备好I/O操作,或者超时。select的主要弊端是它只能监视的文件描述符数量有限(通常最多1024),并且每次调用select都需要重新指定监视的文件描述符集合。
    2. pollpollselect类似,但它没有监视文件描述符数量的限制。然而,poll的效率在处理大量文件描述符时会降低,因为它需要遍历整个文件描述符列表。
    3. epollepoll是Linux特有的I/O多路复用机制,它旨在解决selectpoll在处理大量文件描述符时的效率问题。与selectpoll不同,epoll使用一种称为事件驱动的方式,当我们添加或删除文件描述符时,只需要通知内核一次,而且它可以处理的文件描述符数量几乎没有限制。
    4. selectselect函数通过内核来查询每个socket看它是否处于就绪状态。如果处于就绪状态,就可以开始进行I/O操作,否则就等待。在这个过程中,select会被阻塞。当有一个socket就绪,或者达到用户设置的超时时间时,select就会返回。这种方法的缺点是每次调用select,都需要传入所有的socket,而且最大数目也受到限制。
    5. pollpoll的工作方式与select类似,不过poll并没有最大文件描述符的限制。poll采用链表的方式存储和管理socket,因此它的性能并不会随着监控的socket数量的增加而降低。但是,poll还是需要遍历和检查所有的socket,如果这些socket并没有就绪,那么这个操作就是浪费的。
    6. epollepoll是Linux特有的I/O多路复用机制,它通过内核和用户空间共享一块内存来避免了selectpoll的缺点。在调用epoll_wait时,如果没有已经就绪的文件描述符,epoll会被阻塞,而当某个文件描述符就绪时,内核会采用回调的方式激活该文件描述符,epoll_wait就会返回。这样,就避免了无效的遍历,提高了效率。
    7. 效率select在每次调用时都需要遍历整个文件描述符集,来查找就绪的文件描述符。而epoll只关注那些实际发送了事件的文件描述符。因此,epoll在处理大量文件描述符时的效率要高于select
    8. 扩展性select有一个固定的限制在文件描述符的数量上(通常为1024),这对于需要处理大量连接的高并发服务器来说是不够的。而epoll没有这样的限制,它可以处理数以万计的并发连接。
    9. 触发方式select采用水平触发(Level Triggered,LT)方式。也就是说,只要有一个文件描述符就绪,select就会返回,即使这个文件描述符在上一次查询后仍然没有被处理。而epoll既支持水平触发也支持边缘触发(Edge Triggered,ET)。边缘触发模式下,只有当状态发生变化时才会通知应用程序。这意味着如果你忘记了处理一个事件,你可能就会丢失它。
    10. API的复杂性select的API相对简单。只需要一个select函数,你就可以设置监视的文件描述符集,以及超时时间。然而,epoll的API更复杂。你需要使用epoll_create创建一个epoll对象,然后使用epoll_ctl添加、修改或删除要监视的文件描述符,最后使用epoll_wait等待事件的发生。
  1. Linux定时器的实现。比如TCP中发送一个ACK包后有一个超时等待,如何去做。

    自己想的思路是做一个调度的时钟线程,去调度等待线程。

    在Linux中,定时器的实现主要有两种方式:内核定时器和POSIX定时器。下面是它们的简单介绍:

    在TCP中,如果你发送了一个ACK包,然后需要等待一段时间,你可以使用上述的任何一种定时器。一种可能的方法是,当你发送一个ACK包时,设置一个定时器。然后在定时器的回调函数或信号处理程序中检查是否收到了响应。如果没有收到响应,你可以重新发送ACK包,或者进行其他的错误处理。

    1. 内核定时器timer_list是Linux内核中的一种定时器,它在内核空间中实现。你可以通过init_timer初始化一个定时器,add_timer添加一个定时器,del_timer删除一个定时器。当一个定时器到期时,内核会调用该定时器的回调函数。
    2. POSIX定时器:POSIX定时器是在用户空间的定时器,它是按照POSIX.1b实时扩展标准设计的。你可以通过timer_create创建一个定时器,timer_settime设置一个定时器,timer_gettime获取一个定时器的剩余时间,timer_delete删除一个定时器。当一个POSIX定时器到期时,它会生成一个信号,你可以在信号处理程序中处理该事件。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值