もっかいキーワード抽出

いくつか変更した。

今までは単語抽出だったのが、それっぽくキーワードを出すようにした。詳しくはコッチ -> キーワード抽出

Posted by sett4 Thu, 26 Jul 2007 15:54:10 GMT


キーワード抽出API

キーワード抽出API

  • キーワード抽出API
    • できること
    • 入力
    • 出力

できること

  • 単語を抽出する
  • 重要順に並び替えて出力
  • Wikipedia日本語記事のタイトルに存在するものを単語として扱う
  • 勝手に単語を連結

入力

出力

雰囲気こんな感じ。
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
<div class="typocode"><pre><code class="typocode_default unknown">< ?xml version='1.0' encoding="UTF-8"?>
<drips>
<keywords>
<word descLength="18" count="4" cost="14274" score="57096">
抗うつ剤
</word>
<word descLength="11254" count="1" cost="18853" score="18853">
警視庁組織犯罪対策部
<category>日本の警察</category>
<category>東京都の警察署</category>
<category>都道府県警察</category>
<category>東京都</category>
</word>
<word descLength="3605" count="6" cost="2144" score="12864">
男性
<category>男性</category>
</word>
<word descLength="934" count="3" cost="4192" score="12576">
試薬
</word>
<word descLength="6182" count="1" cost="9159" score="9159">
男性誤認逮捕
<category>男性</category>
</word>
<word descLength="692" count="1" cost="7355" score="7355">
薬物反応
</word>
<word descLength="1257" count="1" cost="6963" score="6963">
現行犯
<category>刑事訴訟法</category>
</word>
<word descLength="11875" count="1" cost="6894" score="6894">
警視庁科学捜査研究所
<category>日本の警察</category>
<category>東京都の警察署</category>
<category>都道府県警察</category>

<category>東京都</category>
<category>研究所</category>
</word>
<word descLength="3260" count="1" cost="4788" score="4788">
築地
<category>東京23区の地域</category>
<category>中央区 (東京都)</category>
</word>
<word descLength="3689" count="1" cost="4192" score="4192">
錠剤
<category>薬学</category>
<category>医療</category>
<category>健康</category>
<category>医薬品</category>
</word>
<word descLength="35276" count="1" cost="4115" score="4115">
産経新聞
<category>東京都のマスメディア</category>
<category>大阪府のマスメディア</category>
<category>日本の新聞</category>
<category>産経新聞</category>
</word>
</keywords>
</drips>

Posted by sett4 Tue, 24 Jul 2007 16:52:00 GMT