October 19, 2004
网页自动分类机制的测试::[博客联盟|Blog]

经过了几天的忙碌,终于可以告诉大家一个消息了:
〖网页自动分类机〗是搜索引擎如何对你的网页进行分类的一个模型,这里你只要输入您的Blog的联接或者任何一个网页联接,Booso搜索引擎将很快计算得到您的网页所述的分类并且得到相对权重。
例如查询http://blog.wespoke.com 的自动分类 会得到下面的结果:

自己感觉还算比较准确。
对妖精本纯情 的查询有如下的结果:

基本上都比较符合丁香女孩写作的风格。
好了,好玩吧,测试你自己的blog页面的分类吧,有问题就这里留言了。
联接在这里〖Booso 网页自动分类机〗
注:现在只支持GB,UTF-8,英文编码的网页,台湾的Big5中文如果有需求我也会考虑加进去。
Posted at October 19, 2004 06:44 PM by Liang at 06:44 PM | Comments (27) | TrackBack(11) | Booso!| Niu.la收藏!Trackback
You can ping this entry by using http://www.wespoke.com/cgi-bin/mt/mt-tb.cgi/616
来试试6e老大最近开发的[url=http://category.booso.com/]〖网页自动分类机〗[/url],通过它可以了解搜索引擎如何对你的网站进行分类。 我的网站分析结果如下: Result for http://www.120idea.com/billyben/b...
Trackbacked from 6e老大的新东东 on Billyben's Blog.
按照六翼的天使提供的网页自动分类机给自己的blog做了一个测试,结果如下,仿佛还比较准确。
Trackbacked from 分类 on 劣质私房.
Trackbacked from ȤġҳԶ on Ȧ.
博索新闻搜索引擎 增加了即时新闻类聚的功能。 化了半天的时间实现了最简单的雏形,有5个分类,分别是财经,互联网,科技,社会 新闻,娱乐休闲。每天凌晨4点钟更新一次,每个类别25...
Trackbacked from 博索新闻搜索引擎 Beta 2.0 新增加新闻分类功能 on 搜索引擎研究.
6E的博索功能之一的网〓自〓分〓引擎推出有一段〓〓了,〓出的〓候我就去〓〓了一下...
Trackbacked from 网页自动分类 on Asiapan.
今天在[url=http://blog.wespoke.com/]六翼的天使[/url]上看到了這個可以給網站自動分類的[url=http://category.booso.com/]〖Booso 网页自动分类机〗[/url],覺得很有趣,試了一下: [img]http://hosend.51.net/down/fenl...
Trackbacked from 給你的網站分類 on 天下无双.
在http://blog.wespoke.com/archives/000797.php 看到一篇关于网页分类机制的文章,蛮有趣,试试自己的站?呵呵
Trackbacked from 网页分类机制,蛮有趣的 on recnow' blog.
Trackbacked from 标签与文档相似 on 只说.
Trackbacked from Booso的网页分类 on forestdc.
Trackbacked from Booso的网页分类 on forestdc.
Trackbacked from Booso的网页分类 on forestdc.
Comments
嗬嗬,我的网页看起来是一团乱七八糟的东西根本无法分类哦...
Posted by: jiajia at October 19, 2004 09:12 PM from 67.162.230.177大部分人的都是主题比较发散,当然少数人的不一样了。我的也一样,下周改进算法再测试啊。
Posted by: Liang at October 19, 2004 09:23 PM from 129.119.200.36哈哈,太有趣啦!这个分类是怎么算出来的呢?怎么英文的分类跟中文的很不一样呢?
Posted by: dotann at October 20, 2004 12:04 AM from 68.126.221.128我对于我的qiusir.com 和http://blog.online-edu.org/qiusir都进行了测试,对结果很满意。
Posted by: qiusir at October 20, 2004 02:05 AM from 218.106.205.130很有意思,不过看不明白你的意图。莫非你要做个类似google的广告发布系统???
Posted by: tinyfool at October 20, 2004 07:52 AM from 61.51.131.232已经进行了升级,现在网页自动分类应该更加准确了,大家再试试看
Posted by: Liang at October 20, 2004 12:57 PM from 129.119.200.36测试我的网站:
http://www.terac.com/go/andy
结果比较满意,支持:)
不过不知老大如何做的啊?
晕,打错了。http://blog.terac.com/go/andy
Posted by: andy at October 20, 2004 08:48 PM from 218.80.71.247我的 blog 的测试不怎么准确,是不是内容比较杂的缘故?
Posted by: calon at October 20, 2004 11:32 PM from 61.137.125.230呵,很想知道运行原理是什么。是通过正则表达式计算网页中关键字出现的次数吗?
Posted by: king at October 21, 2004 05:00 PM from 160.5.19.24在我的blog里面看到这个链接,恩
刚才去查了一下,只可惜不会截图……
不过还是蛮客观的:)
可以简单地介绍一下它能自动抓取的比较有针对性的内容吗?不知道是怎么分析的,好像得出来的结果比我自己设想的要丰富得多。
Posted by: asiapan at November 10, 2004 02:31 AM from 210.82.111.71测试了一下
gaoso.com
不太好,各位有好的办法修改码,谢谢了
Posted by: gaoso.com at December 28, 2004 03:32 AM from 220.112.86.24测试了一下
www.gaoso.com
不太好,各位有好的办法修改码,谢谢了
Posted by: gaoso.com at December 28, 2004 03:32 AM from 220.112.86.24网页分类?
1 过滤高频词
2 用词典方式和统计结合的方式统计分类目标词频
3 权重定义词典中的频度?
4 词频*权重-〉对应词-〉类别?
对我的blog http://jiangfire.tianyablog.com/测试了一下,
测试正确,感觉有趣得很啊.
从另一个角度来说,搜索以后类型不对头的blog,大概需要调整一下内容和方向了.
fun.
不错。
不过如果被测试的网页文字内容较少就不准确了
建议关联网页外部数据。。
不过这会变成很庞大的工程。。