- 博客(101)
- 资源 (22)
- 收藏
- 关注
原创 从google产品来看搜索引擎需求
1)搜索需求人human 关键字key 信息infomation 2)网页搜索搜索中最成熟的技术,从关键字找到信息,使用倒排索引这种极有效果的索引格式;其它MP3搜索,新闻搜索等都是其一个子项,要么是限制站点的站内搜索,要么就是对时间特别敏感,有时效性; 3)网页目录导航这是从信息中抽取关键字,自动网页分类技术; 用到的是数据挖掘技术,这个也比较成熟了.首先建
2008-05-21 12:57:00 2798
原创 搜索引擎开发经验
一 查询子系统1)逻辑表达式综合的搜索引擎通常支持逻辑与,逻辑或,逻辑非这三种操作.多个查询词的时候要进行逻辑操作,通常空格默认为&,如果在多个查询结果前进行预排序,那么就可以把原来复杂的逻辑操作转为有序集合的合并操作,时间复杂度仅为O(m+n).2)排序a)文本排序文本内容是最重要的依据,而文本内容在词汇的集合,因此排序主要考虑到文本词汇的权重,涉及到的因素有:查询词的邻近关系,命中位置(包
2008-05-21 12:03:00 2863 1
原创 试分析中国未来的互联网格局
facebook为什么吸引着我来用,在使用了将近三个有后,我开始考虑这个问题。原因一,facebook将工作work,学习college, 区域region聚集成网络network,这基本上将人物理上交往空间在网络上延续下去了;原因二,facebook提供photo,video,可以对用户更全面更细致的了解;原因三,facebook提供的开放平台,有大量的应用程序,如similar,city
2008-05-22 18:49:00 2851
原创 google数学之美系列
Google 黑板报 — 系列一 — 统计语言模型 http://googlechinablog.com/2006/04/blog-post.html 系列二 — 谈谈中文分词 http://googlechinablog.com/2006/04/blog-post_10.html 系列三 — 隐含马尔可夫模型在语言处理中的应用 http://googlechinablog.com/2
2008-05-22 18:40:00 4559 2
原创 windows线程同步机制摘要
线程之间的同步使用一些核心对象:如thread, process, evnet, mutex, semaphore.在线程之间使用等待函数如WaitForSingleObjects, WaitForMultipleObjects.等待函数使用核心对象的handle作为参数,如果handle被激发,则执行下一步。handle被激发的条件: (handle是一段内存指针,为了掩藏内部实
2008-04-25 18:12:00 5537
原创 vc7.0常见调试问题
1)disable#pragma warning (disable: 4311 4312) //指针类型强制转化,大小不完全匹配warning C4311: type cast : pointer truncation from TriNode *const to long warning C4312: type cast : conversion from un
2008-04-13 21:18:00 4420
原创 alexa使用指南
正确认识alexa排名纳入统计的访问量仅来自使用Alexa工具栏(Alexa Toolbar)的用户, Alexa工具栏仅在windows操作系统下,Internet Explorer浏览器中使用有效,使用其它操作系统或者浏览器的访问将不能被计数。因此alexa排名有很大的局限性. 又因为alexa工具条是英文,对于非英文区的用户,安装者极少,因此alexa只能反映英语语言区中wind
2008-04-13 03:21:00 11575
原创 Rose建模历程(3 双向工程与小结)
双向工程1).正向工程: 根据模型框图生成指定语言的代码步骤:需要在组件图(component view)中创建一个组件(component),设置好需要进行转换的组件的信息,open Sepcification...-->Realizes -->assign(选择要生成代码的类),最后Generate Code确定后就生成代码了. 2).逆向工程产生模型:根据选择开发应用程序的
2007-11-27 18:03:00 3582
原创 日志和时间函数设计
日志函数的需求:a)输出错误日志,每天一个错误日志文件;b)使用一些标准宏,准确定位错误位置和发生错误时间;c)使用有格式的输出.时间函数需求:a)秒级second: time(NULL)b)毫秒级ms: GetTickCount (win32 api,返回当前时间的毫秒级,1tick=55us),常用于费时程序的统计,压缩一个文件.c)微秒级us: gettimeofday返回的是一个时间
2007-11-19 17:57:00 2523
原创 LAMP安装配置手记
配置环境操作系统:Redhat Enterprise AS 4已安装包:httpd2.0.4, mysql4.1,libxml2.6.16, zlib1.2.1.2,gd2.0.28, libpng1.2.7说明:网上的各种安装说明都不是很好地说明了配置参数的来由,本文将尽可能标明每一步的必要性.已安装包不是必需的,其中mysql可以独立安装,而rpm包形式的httpd因为不是mod-so形式安装
2007-11-14 18:02:00 11432
原创 mysql使用常见问题
MYSQL4.1权限管理mysql> use mysql;Reading table information for completion of table and column namesYou can turn off this feature to get a quicker startup with -A Database changedmysql> show ta
2007-08-17 18:40:00 2548
原创 ubuntu应用小结
一 ubuntu概述 基于debian的LINUX发行版,采用DPG的软件管理包(区别于redhat的RPM包),安装软件常用apt-get命令,管理软件包文本界面aptitude,图形界面synaptic.二 常用软件列表电影播放 - realplay + w32codecs, totem + gstreamer音乐播放 - rhythmbox(系统自带)+gstreamer/x
2007-08-16 18:15:00 3020
原创 认证的原理及使用
问题的来源在一个开放的分布式网络环境中,用户通过工作站访问服务器上提供的服务。n 服务器应能够限制非授权用户的访问并能够认证对服务的请求。n 工作站不能够被网络服务所信任其能够正确地认定用户,即工作站存在三种威胁。一个工作站上一个用户可能冒充另一个用户操作;一个用户可能改变一个工作站的网络地址,从而冒充另一台工作站工作;一个用户可能窃听他人的
2007-06-29 19:42:00 3098
原创 2007年NASDAQ中国概念股
由全美证券交易商协会(NASD)创立的纳斯达克(National Association of Securities Dealers Automated Quotation,简称NASDAQ),纳斯达克(NASDAQ)是全球最大的电子股票交易市场,约有3200家公司在此上市,上市公司数量为美国所有股票交易市场之最。在纳斯达克挂牌上市的公司中,有322家是非美国公司,其中包括40(?)家中国内地公司
2007-06-18 20:44:00 4220
原创 进程间通信总结
进程间通信就是在不同进程之间传播或交换信息,那么不同进程之间存在着什么双方都可以访问的介质呢?进程的用户空间是互相独立的,一般而言是不能互相访问的,唯一的例外是共享内存区。但是,系统空间却是“公共场所”,所以内核显然可以提供这样的条件。除此以外,那就是双方都可以访问的外设了。在这个意义上,两个进程当然也可以通过磁盘上的普通文件交换信息,或者通过“注册表”或其它数据库中的某些表项和记录交换信息。广义
2007-03-23 11:37:00 5990
转载 OPENSSL 学习整理-介绍
来源: http://www.mscenter.edu.cn/blog/jeffrey/articles/8850.htmlOpenssl目录名以及功能描述 目录名 功能描述
2007-03-13 20:33:00 5806 1
原创 哈希表的使用
数据结构:hash_map原理 这是一节让你深入理解hash_map的介绍,如果你只是想囫囵吞枣,不想理解其原理,你倒是可以略过这一节,但我还是建议你看看,多了解一些没有坏处。hash_map基于hash table(哈希表)。哈希表最大的优点,就是把数据的存储和查找消耗的时间大大降低,几乎可以看成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下,用空间换时间的做
2007-03-12 17:30:00 22992 8
转载 数据库设计三大范式应用实例剖析
来源:http://dev.yesky.com/424/2220924.shtml引言 数据库的设计范式是数据库设计所需要满足的规范,满足这些规范的数据库是简洁的、结构明晰的,同时,不会发生插入(insert)、删除(delete)和更新(update)操作异常。反之则是乱七八糟,不仅给数据库的编程人员制造麻烦,而且面目可憎,可能存储了大量不需要的冗余信息。 设计范式是不是很难懂呢?非也,
2007-03-07 11:36:00 2980 3
原创 ANSI C字符串相关的实现
1 strlen/*原型:size_t strlen(const char *s)功能:获取字符串s的长度说明:*/int stringlen(const char *s)...{ int i=0; while(*s++)i++; //只能是*s++,不能++*s,因为s是const char* return i;}
2007-03-05 12:08:00 1394
翻译 md5算法描述
原文http://www.ietf.org/rfc/rfc1321.txt 3. MD5 Algorithm Description We begin by supposing that we have a b-bit message as input, and that we wish to find its message digest. Here b is an
2007-03-01 18:20:00 1554 1
原创 FTP协议概述
ftp协议FTP协议将使用两条单独的TCP连接,一条专用于发送FTP命令,称为控制连接,另一条则专用于传递数据, 称为数据连接。1)控制连接客户端希望与FTP服务器建立上传下载的数据传输时,它首先向服务器的TCP 21端口发起一个建立连接的请求,FTP服务器接受来自客户端的请求,完成连接的建立过程,这样的连接就称为FTP控制连接。 2)数据连接FTP控制连接建立之后,即可开
2007-02-10 20:24:00 2473
原创 HTTP协议概述
HTTP协议是基于请求/响应范式的。HTTP的请求格式:统一资源标识符、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。------------------------------请求方法URLHTTP协议的版本号提交的元信息**空行**实体------------------------------HTTP的响应格式:一个状态行包括信息的协议版本号、一个成功或错
2007-02-06 12:19:00 3861
原创 配置文件读取的n种方法
摘要使用了下面5种方法来读取配置文件:1)字符串读写操作;2)xml解析配置文件;3)stl的读取配置文件封装类,很繁杂,但在大型配置文件中比较有用;4)shell语言的字符串匹配,这是最简单的;5)将1与4结合,shell与c的嵌套使用。1字符串读写操作测试文件[test.init]#ini for path[path]dictfile = /home/tmp/dic
2007-01-28 15:57:00 4331 1
原创 人月神话读书笔记
1964-1965: IBM操作系统OS/360的经理1974: 查珀尔希尔,北卡罗来纳 Frederick P. Brooks,Jr写了此书。1994:20年后再版,修正了一些观点 几个谬误1)所以系统编程的进度安排背后的第一个假设是:一切都将运作良好,每一项任务仅花费它所“应该”花费的时间。在单个的任务中,“一切都将运转正常”的假设在时间进度上具有可实现性。。然而大型的编
2007-01-28 14:06:00 1398
原创 MySQL中文化问题
1)中文模糊查找 2)中文全文索引 3)数据库表中文的正常显示其实要正常显示中文,有下面这种方法,优先高的在后面:n 编译mysql时配置参数:configure--with-charset=gb2312;n 修改/etc/my.cnf,:设置字符集,default-character-set=gb2312n 创建数据
2007-01-25 21:46:00 2348
原创 安全加密技术汇总
开篇 使用密码学可以达到以下目的:保密性:防止用户的标识或数据被读取。数据完整性:防止数据被更改。身份验证:确保数据发自特定的一方。一 消息摘要消息摘要主要用于保持数据的完整性,我们经常听到的校验和就是消息摘要的一个特例。它的算法是一个单项函数。也就是直接将输入的数据进行消息摘要提取,但绝不能从消息摘要生成原数据。消息摘要的算法分为如下几类(最常用的是MD5和SHA-1):MD2:是一
2007-01-22 19:50:00 3775
原创 2周Web开发的总结
http://dl2.csdn.net/down4/20070629/29195248472.pdf Ajax技术热门一时,在2周的web开发中,也使用了所谓的Ajax技术。但我要说明的是:Ajax技术本身没有什么技术含量,Ajax的名字来源就是:asyn(异步)+ javascript + xml, 它的技术核心主要就是xml, javascript以及dhtml的一些高级特性:如css
2007-01-18 20:06:00 1564
原创 xsl:script与函数调用输出xsl:eval应用示例
本文来源于我在csdn社区的一个帖。http://community.csdn.net/Expert/TopicView.asp?id=5299556-)函数说明xsl:script xsl的扩展脚本函数xsl:eval 输出字符串形式的数据二)示例:功能:遍历xml文件,将里面的数字取出,输出以数字为参数的函数调用后的值。 test.xml - -> 10 4
2007-01-18 19:32:00 3925
原创 xml排序
1 xsl:sort所使用的名字空间:xmlns:xsl=http://www.w3.org/1999/XSL/TransformSyntaxselect="expression"lang="language-code"data-type="text|number|qname" //数据类型,可支持按数字排序order="ascending|desc
2007-01-18 19:21:00 5447 2
原创 Javascript编程小结(3 css property, Event...)
DHTML: Scripting CSS Styles Property Description/Values
2007-01-17 17:44:00 1320
原创 Javascript编程小结(1通用对象)
javaScript 所处理的每一个对象都是属于一个类 (class) ,类里边定义了组成对象的数据、属性、方法(即是类里边的一些函数)等,使用类可以增加程序代码的复用性,这在一种程序语言中是很重要的,因为这样可以避免重复开发! 对象的属性(Propertie): 在 javaScript 中使用英文句号 (.) 来访问对象的属性值。 对象的方法(Method):
2007-01-17 17:26:00 1526
原创 xml内容显示的4种方法
CSS(叠层样式表)和XSL(可扩展样式语言)都可以定义XML文件的显示.如果一个XML文件仅仅用于交换信息,就无需考虑它的显示问题。编辑XML文件,我们仅仅需要关注文件的内容、信息的结构,至于它怎么显示,则交给CSS(叠层样式表)和XSL(可扩展样式语言)来完成。此外使用数据岛技术与javascript也能定制xml的内容显示,这就使得用户可以根据需要来定义数据的表现形式。1)用cs
2007-01-15 11:58:00 32352
原创 html基础知识
HTML文档中,第一个标签是。这个标签告诉浏览器这是HTML文档的开始。HTML文档的最后一个标签是,这个标签告诉浏览器这是HTML文档的终止。在和标签之间文本的是头信息。在浏览器窗口中,头信息是不被显示的。在和标签之间的文本是文档标题,它被显示在浏览器窗口的标题栏。在和标签之间的文本是正文,会被显示在浏览器中。在和标签之间的文本会以加粗字体显示。 HTML文档是由HTML元素组成的文本文
2007-01-14 21:03:00 1364
原创 XML基础知识
什么是XML?l XML是EXtensible Markup Language的缩写 l XML是一种类似于HTML的标记语言 l XML是用来描述数据的 (用来存放数据的)l XML的标记不是在XML中预定义的,你必须定义自己的标记 l XML使用文档类型定义(DTD)或者模式(Schema)
2007-01-14 17:32:00 1434
原创 Ajax技术入门及其适用范围
什么是Ajax技术? AJAX全称为“Asynchronous JavaScript and XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。它有机地包含了以下几种技术:基于web标准(standards-based presentation)XHTML+CSS的表示;使用 DOM(Document Object Model)进行
2007-01-14 17:28:00 2578 2
转载 追MM与Java的23种设计模式
创建型模式 1、FACTORY—追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如:如何创建及如
2007-01-14 17:06:00 1137
原创 utf8编码转化为unicode的一个精彩函数
UTF-8就是对unicode编码的一种实现, UTF-8的一个特别的好处是它与ISO-8859-1完全兼容。UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下: UCS-2编码(16进制) UTF-8 字节流(二进制) 0000 - 007F 0xxxxxxx 0080 - 07FF
2007-01-09 21:49:00 2148
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人