html文件怎么转换dom Html文件怎么转换成word文件

浏览器是怎么把html文档解析成DOM结构的

浏览器解析html的过程如下：

HTML解析器的工作是解析HTML标记到解析树

1)HTML语法定义

HTML的词汇与句法定义在w3c组织创建的规范中。当前版本是HTML4，HTML5的工作正在进行中。

2)不是上下文无关语法

在对解析器的介绍中看到，语法可以用类似BNF的格式规范地定义。不幸的是所有常规解析器的讨论都不适用于HTML（我提及它们并不是为了娱乐，它们可以用于解析CSS和JavaScript）。HTML无法用解析器所需的上下文无关的语法来定义。过去HTML格式规范由DTD (Document Type Definition)来定义，但它不是一个上下文无关语法。

HTML与XML相当接近。XML有许多可用的解析器。HTML还有一个XML变种叫XHTML，那么它们主要区别在哪里呢？区别在于HTML应用更加”宽容”，它容许你漏掉一些开始或结束标签等。它整个是一个“软”句法，不像XML那样严格死板。总的来说这一看似细微的差别造成了两个不同的世界。一方面这使得HTML很流行，因为它包容你的错误，使网页作者的生活变得轻松。另一方面，它使编写语法格式变得困难。所以综合来说，HTML解析并不简单，现成的上下文相关解析器搞不定，XML解析器也不行。

3)HTML DTD

HTML的定义使用DTD文件。这种格式用来定义SGML族语言，它包含对所有允许的元素的定义，包括它们的属性和层级关系。如我们前面所说，HTML DTD构不成上下文无关语法。

DTD有几种不同类型。严格模式完全尊守规范，但其它模式为了向前兼容可能包含对早期浏览器所用标签的支持。当前的严格模式DTD：

4)DOM

解析器输出的树是由DOM元素和属性节点组成的。DOM的全称为：Document Object Model。它是HTML文档的对象化描述，也是HTML元素与外界（如Javascript）的接口。

DOM与标签有着几乎一一对应的关系，如下：

<html>

<body>

<p>hello world</p>

</body>

</html>

怎样把html文件转换成标准的DOM4j的DOM

由于html文件不是标准的xml文件

比如：

</OBJECT>

<param>标签不是成对出现的，所以用dom4j是不能解析的

解决方法:

利用cobra.jar架包先把html文件解析成org.w3c.dom.Document类型的dom

然后利用dom4j的方法

DOMReader xmlReader = new DOMReader();

xmlReader.read(org.w3c.dom.Document document)

代码：

UserAgentContext uacontext = new SimpleUserAgentContext();

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

DocumentBuilder builder = factory.newDocumentBuilder();

InputStream in = new FileInputStream(“F:/iKnow/chmimport/U2000FAQ_WebHome_123/U2000.hhc”);

Reader reader = new InputStreamReader(in, “GBK”);

org.w3c.dom.Document document = builder.newDocument();

// Here is where we use Cobra’s HTML parser.

HtmlParser parser = new HtmlParser(uacontext, document);

parser.parse(reader);

DOMReader xmlReader = new DOMReader();

System.out.println(xmlReader.read(document).asXML());

如何把html文档表示成dom

举个例子：

你把html看做是一个装有行李的行李箱，箱子里外会有各种大小的储物空间，储物空间里可以放东西。那么，这个装有行李的箱子就可以看是html文档，各个储物空间类似于html的闭合的标签，比如<div></div>，箱子里的衣服看做是某个标签中得数据，比如某个标签中的字符串”HELLO

WORLD”。

假设，全球范围内需要使用一种“机器”对过安检的箱子进行检查，检查过程为：打开箱子，分别去各个储物空间把东西拿出来，检查完毕后再把东西放进去。

为了便于各种类型的“机器”能方便的检查行李箱，人类提出了一种可供机器使用的模块，这种模块可以把箱子抽象为一种类似于树的数据结构，所有可以操作这种树形结构的机器，都可以很方便的检查行李箱中得东西。这种模块就类似于DOM。

那么，HTML可以看做是结构性的文本，然后可以将其抽象为DOM类型的模型，这样所有的程序处理模块只要能够处理DOM，那么就可以处理HTML。

总之，你也可以自己通过自己定义的方法去操作HTML文本，但是基于DOM的操作会更加方便，因为你不需要考虑HTML文本的内容格式，你只需要关心结构良好的DOM文档，并且现成的开发接口提供了丰富的DOM操作接口。

如何将HTML String 转换为 dom 元素

前一段时间因为需求，所以把这方面的资料自己查询规整了一下，以备后用。

DOMParser

对于开发者来说，我们”期盼”的最好的方式当然是原生的浏览器支持，就像下面这样

1: var parser = new DOMParser();

2: var doc = parser.parseFromString(“<input />”, “text/html”);

Tips:

parseFromString 返回的并不仅仅是一个 input 元素的 node，而是一个完整的 Document

这里是支持 script 标签的，但是当解析出的 dom 被添加到页面时，script是不会被执行的

最好保证格式良好，否则可能并不会展现如我们预期的 dom 结构

遗憾的是，DOMParser 对 HTML 的解析仅仅得到了 Firefox 12+, IE 10+ 的支持，其余的浏览器均不支持，所以我们要寻求浏览器兼容性更好的方法

InnerHTML

用 javascript 写一个简易的 parser 其实并不是很难，基本的雏形就像下面这样

1: (function (DOMParser) {

2: “use strict”;

4: var

5: DOMParser_proto = DOMParser.prototype,

6: real_parseFromString = DOMParser_proto.parseFromString;

8: // Firefox/Opera/IE throw errors on unsupported types

9: try {

10: // WebKit returns null on unsupported types

11: if ((new DOMParser).parseFromString(“”, “text/html”)) {

12: // text/html parsing is natively supported

13: return;

14: }

15: } catch (ex) {}

16:

17: DOMParser_proto.parseFromString = function (markup, type) {

18: if (/^\s*text\/html\s*(?:;|$)/i.test(type)) {

19: var

20: doc = document.implementation.createHTMLDocument(“”);

21: if (markup.toLowerCase().indexOf(‘<!doctype’) > -1) {

22: doc.documentElement.innerHTML = markup;

23: } else {

24: doc.body.innerHTML = markup;

25: }

26: return doc;

27: } else {

28: return real_parseFromString.apply(this, arguments);

29: }

30: };

31: }(DOMParser));

真正在使用时，我们可能不希望返回的是一个完整的 Document，而仅仅是一个 html 片段，那采用下面的代码也许更方便

1: function parseStringToHTML(text) {

2: var i, a = document.createElement(“div”),

3: b = document.createDocumentFragment();

4: a.innerHTML = text;

5: while (i = a.firstChild) b.appendChild(i);

6: return b;

7: }