二、字符数据处理

在应用程序的设计中，经常会遇到各种字符或字符串的处理。字符处理通常包括字符的比较、检索、插入、删除和统计等。

1.字符串比较

例、在数据区BUF1和BUF2地址开始分别有一字符串，长度均为14字节。试比较这两个字符串，若相同，则给RES单元置0；若不同，则给RES单元置0FFH，并将失配字节地址送RES＋1开始的两个存储单元中。

源程序：

DATA     	SEGMENT
BUF1      	DB   'I am a student'
BUF2      	DB   'I am a studant'
RES       	DB   3  DUP (?)
NUMBER  	EQU  14
DATA     	ENDS
STACK1   	SEGMENT  PARA  STACK  'STACK'
STA       	DB   100  DUP (?)
STACK1   	ENDS
CODE     	SEGMENT
          	ASSUME  CS: CODE, DS: DATA, ES:DATA, SS: STACK1
START：   	MOV	AX, DATA
          	MOV	DS, AX
          	MOV	ES, AX
		    LEA	BX, RES
          	LEA	SI, BUF1
          	LEA	DI, BUF2
          	MOV	CX, NUMBER
          	CLD
          	REPE CMPSB						          	
            JNZ	UNSAME
		    MOV	AX, 0
		    MOV	[BX], AL
		    MOV	DL, [BX] 
      		JMP	OVER
UNSAME： 	MOV	AX, 0FFH
		    MOV	[BX], AL
          	INC	BX
		    DEC	DI
		    MOV	[BX], DI						
OVER：	    MOV AH, 4CH 					          		
            INT	21H
CODE     	ENDS
          	END	START

2.字符串检索

字符串检索就是在一个字符串中寻找一些关键字符或关键字符（串）。
例、在内存数据区有一数据块，首地址BUF，长度为50字节。检索其中是否有与内存单元KEYWORD中相同的字符。若有则记录第一个遇到的关键字地址；若无则DI赋0。

源程序：

DATA 	SEGMENT
KEYWORD 	DB   50H
BUF      	DB   20H, 34H, 98H, 78H, ……
RES		    DW   ？
DATA     	ENDS
STACK1   	SEGMENT  PARA  STACK  ‘STACK’
STA       	DB   100  DUP (?)
STACK1   	ENDS
CODE     	SEGMENT
     ASSUME  CS: CODE, DS: DATA, ES: DATA, SS:STACK1
START：   	MOV	AX, DATA
          	MOV	DS, AX
        	MOV	ES, AX
		    MOV	AL, KEYWORD
        	LEA	DI, BUF
      		MOV	CX, 50
      		CLD
     		REPNE  SCASB           ；重复搜索
      		JZ	FOUND
    		MOV	DI, 0
        	JMP	OVER
FOUND：  	DEC	DI
		    MOV	RES, DI      ；送第一个遇到的关键字地址
OVER：  		MOV	AH, 4CH 
         	INT	21H
CODE     	ENDS
		END START

3.字符插入与删除

字符的插入和删除是字符运用的主要形式。

1）字符插入

例、假设从BUF1地址开始有一个长度为100的字符串，串长度存于LONG单元。现要求在第一个“E”字符后插入一个字符串，其长度6。该字串存于BUF2单元开始的存储区中。若进行插入，SIGN单元置1，否则置0。

源程序：

DATA		SEGMENT
LONG      	DB   100
BUF1		DB   'ABCDEFGADE……'
FREEDOM	DB  6  DUP (?)
BUF2      	DB   ‘INSERT’
SIGN      	DB   ？
DATA     	ENDS
STACK1	    SEGMENT  PARA  STACK  'STACK'
            STA	DB   100  DUP (?)
STACK1   	ENDS
CODE     	SEGMENT
          	ASSUME  CS: CODE, DS: DATA, ES: DATA, SS: STACK1
START：   	MOV	AX, DATA
          	MOV	DS, AX
          	MOV	ES, AX
		    MOV	CL, LONG
          	LEA DI, BUF1
          	MOV	AL, 'E'
          	CLD
          	REPNE SCASB					          	
            JZ	FOUND
		    MOV	SIGN, 0
          	JMP	OVER
FOUND：  	MOV	SI, OFFSET	FREEDOM－1	
          	MOV	DI, OFFSET	FREEDOM＋5	
         	STD 
          	REP	MOVSB						
            LEA SI, BUF2＋5	
		    MOV CX, 6
		    STD
		    REP		MOVSB
		    MOV		SIGN, 1
OVER：   	MOV	AH, 4CH
          	INT	21H
CODE    	ENDS
        END	START

2）字符删除

例、假设从BUF地址开始有一个字符串，串长度存于LONG单元。现要求删除所有的“D”字符并要求修改字符长度并存入LONG单元中。

源程序：

DATA		SEGMENT
LONG      	DB   100
BUF      	DB   'ABCDEFGADE……'
DATA     	ENDS
STACK1   	SEGMENT  PARA  STACK  'STACK'
STA       	DB   100  DUP (?)
STACK1   	ENDS
CODE     	SEGMENT
     ASSUME  CS: CODE, DS: DATA, ES: DATA, SS:STACK1
START：   	MOV	AX, DATA
          	MOV	DS, AX
          	MOV	ES, AX
		    MOV	CL, LONG
          	LEA	DI, BUF
          	MOV	BL, CL						
            MOV	AL, ‘D’
NEXT：	    CLD
          	REPNE SCASB 
          	JZ	FOUND
          	JMP	OVER
FOUND：  	MOV	SI, DI 
          	DEC	DI
          	PUSH DI							 
            PUSH CX 
            CLD
          	REP	MOVSB
		    DEC	BL
		    POP	CX
		    POP	DI
		    JMP	NEXT
OVER：     	MOV	LONG, BL					
		    MOV	AH, 4CH
          	INT	21H
CODE     	ENDS
        END	START

4.字符统计

例、在数据区STRING地址开始存有一字符串，以“$”作为结尾标志，长度不超过250个字节。统计该字符串的长度，并存于LENG单元中。

源程序：
DATA		SEGMENT
STRING    	DB   'ABCDEFGHIJKLM……'
LENG      	DB   ? 
DATA     	ENDS
STACK1   	SEGMENT  PARA  STACK  'STACK'
STA       	DB   100  DUP (?)
STACK1   	ENDS
CODE     	SEGMENT
          	ASSUME  CS: CODE, DS: DATA, SS: STACK1
START：     MOV AX, DATA
          	MOV	DS, AX       		
			MOV	CX, 0
          	LEA	DI, STRING
          	MOV	AL, '$'
NEXT：      CMP AL, [DI]
          	JZ	OVER	
          	INC	DI
          	INC	CX								
          	JMP	NEXT
OVER：  	    MOV	LENG, CL 
			MOV	AH, 4CH
          	INT	21H
CODE     	ENDS
        END START

三.表处理

表的应用很广泛，如有平方表、转移表、换码表等。表中可以存放一系列供机器执行的任务、一系列相关联的数据及执行结果，以供在各种情况下使用。

1）表查询

表查询有直接表查询、顺序表查询、折半表查询和散列值表查询等。

直接表查询是查询的内容正是表内要查项的地址，因而不用比较，直接取该地址的内容。如果该地址内容为非空则查找成功，否则为查找失败。这种查表法查找速度快，但要求表中各项内容是连续有序的。所以在设计表格时，应尽量满足这个要求。

四.检索

检索是在计算机数据处理中，特别是管理软件中经常使用的一种操作。检索就是在一组数据中寻找出需要的数据项。检索的过程，就是在数据组中找出具有给定关键字的过程。当找到时，称为检索成功；找不到，称检索失败。

实际使用的数据项，通常是一个记录，它包含有多个数据项。关键字不过只占用其中的一个或几个域。它能唯一地将各记录区别开。一般来说，无论哪个方面的检索系统，其信息量都是很大的。所以检索过程是很费时间的，所以检索算法的优劣将直接影响检索的速度。

1）顺序检索

顺序检索是一种简单的检索方法。这种检索方法是使用给出的关键字与数据序列中的各项关键字逐个进行比较，直到整个数据序列结尾。如果找到则检索成功，否则检索失败。

顺序检索常用来对无序数据序列进行检索。因为无序序列中关键字的排列没有任何规律，所以，必须从头开始逐一向后检索，以获得所要检索的项。

2）折半检索

折半检索也称二分检索，主要用于对已排序好的数据序列进行检索。其检索过程大致如下：设有一升序数据序列，首先用要检索的关键字与该数据序列的中间一项进行比较，如果相等则检索成功；如果不等则判断关键字是否小于中间项值，若小于则要查找的项位于数据序列前半部分，否则在后半部分。然后再在可能含有关键字的部分中间取一项与关键字比较，相等则检索成功，不等则重复上述操作，直至整个数据序列检索完毕。由于这种检索方法每次都将范围缩小一半，故称折半检索。

折半检索完成一次成功的查找平均进行的比较次数为log₂－1。显然要比顺序检索法速度快得多。

在折半检索中，确定中间项是关键。下面讨论中间项的确定方法。

设一个数据序列包含N个数据，其第一个数据为下限数据，序号为1，用下限序号指针L表示。最后一个数据为上限数据，序号为N，用上限序号指针H表示。中间项数据序号M则可以由公式M＝INT[(L＋H)/2]得到。其中INT表示取整操作。当关键字与中间项比较之后，如果关键字包含在前半部分，则上限指针改为H＝M－1，下限指针不变。如果关键字包含在后半部分，则上限指针不变，下限指针改为H＝M＋1。然后再根据上、下限的指针确定新的中间项。如此不断地确定中间项与关键字进行比较，直到找到或确知无此关键字为止。此时L＞H。

例、在数据区BUF地址起有一组升序数据，长度为10字节。KEYWORD单元中为已知关键字。检索其在数据序列中的序号。若检索成功，序号送RESULT单元，否则RESULT单元置0FFH。

源程序：

DATA	SEGMENT
BUF		DB	09H, 23H, 45H, 68H, 90H
		DB	0A0H, 0ABH, 0C8H, 0D7H, 0F8H
N		DB	10
KEYWORD	DB	90H
RESULT	DW	？
DATA		ENDS
STACK1	SEGMENT  PARA  STACK  'STACK'
STA		DB   100  DUP (?)
STACK1	ENDS
CODE	SEGMENT
		ASSUME  CS: CODE, DS: DATA, SS; STACK1
START： MOV AX, DATA
        MOV	DS, AX
		MOV	BL, 1			；置下限指针
		MOV	BH, N			；置上限指针
		LEA	DI, BUF
        MOV	CL, KEYWORD
NEXT：   MOV	AH, 0
        MOV	AL, BH		；取上限指针值
        ADD	AL, BL		；取下限指针值
        SHR	AL, 1			；取中间项
        MOV	CH, AL		；暂存中间项
        ADD	AX, DI		；取中间项地址
        MOV	SI, AX
        CMP	CL, [SI]		；与关键字比较
        JZ	FOUND		；找到，转FOUND
		MOV	AL, CH		；取回中间值
        JA	BIG			；高转BIG
        DEC	CH		；低于，修改上限指针
        MOV	BH, CH
        JMP	LOW
BIG：    INC	CH		；高于，修改下限指针
        MOV	BL, CH
LOW：   	CMP	BL, BH		；比较上下限指针
        JA	OVER	；下限指针大于上限指针，转结束
        MP	NEXT			；继续检索
FOUND：  MOV	RESULT, CH
		JMP	OVER1
OVER：   MOV	RESULT, 0FFH
OVER1：  MOV	AH, 4CH
		INT	21H
CODE     ENDS
    END	START

五.排序

排序，是指对给定的一组元素，按规定的顺序进行排列。排序的目的就是为了检索提供方便。排序的方法很多，有交换排序、选择排序、插入排序、快速排序等。

常用思想：冒泡排序（“小数往上浮，大数往下沉”）

例、在内存BUF单元开始的区域中存放有一组无符号的字节数据，试编程序将这些数据按从小到大的顺序排序，排序后的数据依然放在原来的存储区中。

具体算法是：首先在一组数中进行第一轮比较，将第一个存储单元中的数与其后的N－1个数进行比较，若两个数不满足降序排列，则将两者交换，即总是将两数中较大者放在第一存储单元中。这样经过N－1次比较后，N个数中最大数就存入到第一个单元中，其中N－1次比较可以用计数型循环来控制；接着进行第二轮比较，将第二个存储单元中的数与其后的N－2个存储单元中的数依次进行比较，不满足降序则交换。这样经过N－2次比较后，N个数中的次大者就存入第二个存储单元中，……，如此重复下去，直到第N－l轮比较完成后，将N个数中的第（N－1）大者存入第N－1个存储单元中，剩下第N个存储单元中的数自然是最小者。这样经过N－1轮比较就可以实现N个数的降序排序，从第一轮到第N－1轮的控制又可以用一个计数型循环来实现。这样整个程序就要用到双重循环来控制实现，其中，外循环是用来控制是第几轮比较，内循环是用来控制每一轮中比较的次数。

源程序：

DATA		SEGMENT
BUF		DB	34H, 4BH, 22H, 1AH, 53H, 5DH
N  			EQU $-BUF    
DATA  		ENDS
CODE		SEGMENT
    		ASSUME  CS: CODE, DS: DATA
BEGIN:		MOV	AX, DATA
      		MOV	DS, AX      	
 			MOV	SI, 1
L1:			MOV	DI, SI
    		INC DI
    		MOV AL, [BUF＋SI－1]
L2:			CMP AL, [BUF＋DI－1]
      		JAE L3
      		XCHG [BUF＋DI－1], AL
      		MOV [BUF＋SI－1], AL
L3:			INC DI
       		CMP	DI, N
       		JBE	L2
       		INC SI 
			CMP	SI, N－1
       		JBE L1
       		MOV AH, 4CH
       		INT 21H
CODE  ENDS
       	END	BEGIN

二、字符数据处理

1.字符串比较

2.字符串检索

3.字符插入与删除

1） 字符插入

2）字符删除

4.字符统计

三.表处理

1）表查询

四.检索

1）顺序检索

2）折半检索

五.排序

1）字符插入