タグ

nlpに関するk1mのブックマーク (8)

  • Javaで作られた形態素解析ライブラリ「Sen」からPerl依存性を排除した「GoSen」

    This domain has expired. If you owned this domain, contact your domain reit https://www.tucowsdomains.com/

    k1m
    k1m 2007/04/14
    a comprehensive rewrite and upgrade of Sen, a pure Java LGPL morphological analysis library for Japanese which in turn was based on MeCab
  • netail.net(2006-12-19)

    自作フリーソフトや,ゲームに関する雑記を公開してます. 日記はソフトウェア工学の論文ネタが中心です. _ [論文] 動詞+目的語でコードを検索 ▲ David Shepherd, Zachary P. Fry, Emily Gibson, Lori Pollock, K. Vijay-Shanker: Using Natural Language Program Analysis to Locate and Understand Action-Oriented Concerns. [author's page] Technical Report No. 2006-334 (U. of Delaware), AOSD 2007, to appear. ソースコードとコメントから,動詞と目的語のペアからソースコードへの対応を辺としたグラフを作るという話です.On-demand remodula

    k1m
    k1m 2006/12/21
    Using Natural Language Program Analysis to Locate and Understand Action-Oriented Concerns, AOSD2007
  • Sematics、数学的アプローチによる日本語解析エンジン「Perceptrons」開発 | ネット | マイコミジャーナル

    言語解析の専門ソフトハウスSematicsは15日、統計的確率論などの数学的アプローチによる日語解析エンジン「Perceptrons Engine(パーセプトロン・エンジン)」を開発したと発表した。従来のような巨大な辞書を持たないので、軽量で高速な処理が可能とされ、今後ライセンス提供を行っていく考え。 Sematics代表取締役会長の吹谷和雄氏 従来技術との違い。辞書を持たないのが特徴 Sematicsは、数学者である代表取締役会長の吹谷和雄氏が設立した企業。2004年12月に設立されたばかりの若い企業だが、「格的に研究を始めたのは15年前から」(吹谷会長)ということで、3月に発売されたソースネクストの文書要約ソフト「ズバリ要約」には、同社の解析エンジン「Automaton Parser(オートマトン・パーサー)」が採用されたという実績もある。 同社の解析エンジンの特徴は、辞書を持

    k1m
    k1m 2006/09/13
    名前がなぁ
  • Amazon Search のコンテンツ解析ロジックをリファクタリング中

    Amazon Search サービスを開始してから約2年になりました。開始始めは 2004 年 03 月 07 日らしいんですが、自分でも覚えていません・・・ 細かい修正を含めるて数えてみたら、52回目のバージョンアップになりますが、サーバの計算力も Pentium 4 から Athlon 64 X2 と大幅に向上したこともあり、コンテンツ解析部分の計算量を増やして、より適合度の高い関連商品が選択されるようにしてみました。 前より良くなってますよね? (なってなかったらごめんなさい・・・) ※新しいエントリーもしくは古いキャッシュが消えるまでお待ち頂いてからご確認ください。 さて、計算量を増やす代わりに、形態素解析を ChaSen (茶筌)から MeCab に変更しました。MeCab は ChaSen の3〜4倍程度は高速に動作するので、全体としては速度的に速くなっているかもしれません。

    k1m
    k1m 2006/09/13
    MeCab 0.9 はけっこう良いらしい
  • NTCIR Project テストコレクション利用手続き・覚書(研究目的用)

    下記はNTCIRで構築し、使用したテストコレクション(実験用データセット)です。研究目的での利用に限り使用可能です(但し、一部の文書データはNIIからの配布を行っていません。お申し込み前に各テストコレクションの説明文をご確認ください)。 なおテストコレクションに含まれる文書データは、作成機関等から有償または無償でNTCIRで使用するために提供されたものです。いずれも、著作権があり、商品としての価値もあるものですが、情報アクセス研究におけるテストコレクションの重要性に鑑み、とくに、研究目的での使用を許諾していただきました。我 々研究者は、今後も継続して文書データが研究に使用できるように、文書データ作成・提供機関からの信頼に応え、良好な関係を保つことが求められます。覚書、利用申請書、利用規定等をよく理解し、文書データ作成・提供機関の権利を侵害しないように十分に配慮し、研究目的に限って使用してく

    k1m
    k1m 2006/09/13
    研究目的ならフリーで使える文書集
  • 形態素解析エンジン言語郎 - とは?

    自然言語で書かれた文を、形態素(言語で意味を持つ最小単位)に分割する技術です。この際、辞書 (「品詞」などの情報つきの単語リスト)中の情報を参照することで、「品詞」、「活用形」、「読み」等の情報を得ることが可能です。

    k1m
    k1m 2006/09/13
    なかなかよい解説だ
  • Ajax IME: Web-based Japanese Input Method

    Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日語を入力す ることができます。 特別なソフトは必要ありません。 使い方 お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。 再度 Alt-o (Ctrl-9)で直接入力に戻ります 海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が 無いパソコンからご使用ください。 Firefox と Inter

    k1m
    k1m 2006/09/13
    変換範囲を動かせればかなりよさげ
  • Eliza

    Next Session:人工知能に学ぶ アメリカのMITで開発されたEliza11 J. Weizenbaum, "ELIZA--A Computer Program For the Study of Natural Language Communication Between Man and Perl5 用のモジュールChatbot::Elizaとしても意外と簡単に手に入る。そこで今回はElizaのソースを見ながら多くの人を錯覚させた機構の正体を眺めてみる。 Elizaのスクリプ

    k1m
    k1m 2006/09/13
    セラピストとしてユーザと対談するプログラム
  • 1