タグ

dataに関するNeanのブックマーク (156)

  • GPT Index で専門知識を必要とする質問応答チャットボットを簡単作成|npaka

    「GPT Index」を試したので、まとめました。 1. GPT Index「GPT Index」は、専門知識を必要とする質問応答チャットボットを簡単に作成できるライブラリです。 同様のチャットボットは「LangChain」でも作成できますが、「GPT Index」は、コード数行で完成してお手軽なのが特徴になります。 2. ドキュメントの準備はじめに、チャットボットに教える専門知識を記述したドキュメントを用意します。 今回は、マンガペディアの「ぼっち・ざ・ろっく!」のあらすじのドキュメントを用意しました。 ・bocchi.txt 【注意】ドキュメントが大きいと、OpenAI Colabでの実行Google Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !p

    GPT Index で専門知識を必要とする質問応答チャットボットを簡単作成|npaka
  • 令和3年度 全国学力・学習状況調査 調査結果資料 全国版 中学校:国立教育政策研究所 National Institute for Educational Policy Research

    全国-生徒(国・公・私立) (/119KB) 全国-生徒(公立) (/117KB) 全国-生徒(国立) (/117KB) 全国-生徒(私立) (118KB) 全国(大都市)-生徒(市町村立) (/128KB) 全国(中核市)-生徒(市町村立) (/128KB) 全国(その他の市)-生徒(市町村立) (/129KB) 全国(町村)-生徒(市町村立) (/127KB) 全国(へき地)-生徒(市町村立) (/130KB) 全国-学校(国・公・私立)<正答率> (/117KB) 全国-教育委員会<正答率> (/120KB)

  • 全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ

    2020年12月、総務省より 【機械判読可能なデータの表記方法の統一ルール】が策定されました。 統計表における機械判読可能なデータの表記方法の統一ルールの策定 https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html 2020年11月に河野太郎 行政改革担当大臣のツイートが話題となりました。 その後正式に統一ルールが公開された形です。 各省庁がネット上で公開する統計を機械判読可能にするために、データの表記方法を統一させます。「政府統計の総合窓口(e-Stat)」で日から12月1日までの間、表記方法案に関する意見照会を行います。研究者をはじめ、皆様のご意見をお待ちしています。https://t.co/h07tCTDazc — 河野太郎 (@konotarogomame) November 25, 2020

    全国民に配るべき!総務省が示した「データ入力の統一ルール」|Excel医ブログ
  • 「ー」は数字か記号か 省庁、データ表記統一へ - 日本経済新聞

    個人の名前や地名などに使う漢字の表記やデータの形式は省庁ごとにバラバラ――。政府がそうした実態の見直しに動き出した。2020年度中に表記の統一ルールを決める。早期に各省庁のシステムに反映させ、行政手続きの効率化や民間を含めたデータ活用につなげることが課題となる。政府は戸籍や住民基台帳、商業登記、不動産登記、地図など様々なデータを集めて保管している。使う文字や記号、表記の方法は所管する省庁で異

    「ー」は数字か記号か 省庁、データ表記統一へ - 日本経済新聞
    Nean
    Nean 2020/09/13
    漢字の書き方問題はさておき、電話番号、住所の規格が定まっていなかったとは知らんだ。びびつくり。
  • ICT利用頻度の各国パターン | gakko.site

    もっぱら第Ⅰ因子と第Ⅱ因子に注目すれば、主要科目の授業内・外の要因に注目すれば良い。主要科目とその他科目は0.542と0.402の相関があるので、主要科目の頻度が高ければその他科目の頻度も上がるという見立てである。 因子得点のままだと話が抽象的になるので、IC150主要科目・授業内の5項目、IC151主要科目・授業外の5項目のスコアを合計して尺度とした(項目値のレンジが0~3なので尺度値のレンジは0~15である)。いずれも信頼性係数(クロンバックのα)は0.9以上が確認されたので問題なさそうだ。 国/地域別の傾向 授業内外の利用頻度スコアの散布図を図1に示す。日④は一番左下にある。全体平均は(3.81, 4.47)のやや混み合った位置③にある。タイ・米国・オーストラリア・スウェーデン②がやや上位に外れた位置にあり、デンマーク①だけは別格である。 活用のパターンから考えれば、我が国の④の位

    ICT利用頻度の各国パターン | gakko.site
    Nean
    Nean 2020/01/10
  • Data Visualizations in Ultra-HD - YouTube

  • DNA is the future of data storage - YouTube

  • 気象庁|全地点データダウンロード (世界の天候データツール(ClimatView 日別値))

    全地点データダウンロード   (世界の天候データツール(ClimatView 日別値) このページでは、世界各地の日平均気温、日最高気温、日最低気温、降水量のデータを日ごとに一括でダウンロードできます。世界地図や地点検索のページで表示された代表的な地点以外も含まれており、日によって地点総数は異なりますが、およそ8,000地点のデータが取得可能です。 選択フォームの日付をセットして、「日付変更」ボタンを押したのち、黄色の「全ダウンロードボタン」を押してください。 ♦選択フォーム

  • 気象庁|世界の天候データツール(ClimatView 日別値)

    表の地点名をクリックすると「地点別データ・グラフ」を確認できます。 国・領域別地点検索をやり直す場合には、するか、画面外枠の黒い部分をクリックしてください。 世界の天候データツール(ClimatView 日別値)世界の天候データツール(ClimatView 日別値)では、世界各国の気象機関から1日に数回送られてくる「地上実況気象通報」をもとに、気象庁で計算した世界各地の毎日の気温(日平均、日最高、日最低)と日降水量が確認できます。日を除く各国各地のデータは世界協定時(UTC)の0時を1日の区切りとしているため、各国の気象機関が発表する公式な値とは異なる場合があります。以下の世界地図には約2500地点の代表的な観測地点が表示されており、図の観測地点のマークをクリックすると選択した地点のグラフと表を表示します。すべての観測地点のデータを取得するには「全データダウンロード」機能をご利用ください

    Nean
    Nean 2018/04/08
    3月下旬からやん。
  • 総務省|報道資料|『翻訳バンク』の運用開始

    総務省と国立研究開発法人情報通信研究機構(NICT、理事長: 徳田 英幸)は、自動翻訳システムの様々な分野への対応や高精度化を進めるため、オール・ジャパン体制で翻訳データを集積する『翻訳バンク』の運用を開始します。これにより、社会・経済活動のグローバル化が進む中で我が国の国際競争力の強化に貢献します。 【ポイント】  ■ オール・ジャパンで様々な分野の翻訳データを集積する『翻訳バンク』の運用を開始 ■ ニューラル機械翻訳での活用等に向けて翻訳データを集積し、多分野対応や高精度化を実現 ■ 翻訳データを提供して頂く方にもメリットのある仕組みを導入 総務省とNICTは、世界の「言葉の壁」をなくすことを目指すグローバルコミュニケーション計画*1を推進しており、その一環としてNICTは音声翻訳(“VoiceTra*2”と呼ぶ)とテキスト翻訳(“ 総務省|報道資料|『翻訳バンク』の運用開始

  • Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm

    Google Data Studio (データスタジオ) という可視化サービスがベータ版で使えるようになっていたので試してみた 見たい数値を一覧するためのダッシュボード的なものを作るためのサービスなので、いろんな場所からデータを取ってきて一箇所でまとめて確認するのが用途っぽい(今のところ似たようなサービス・ツールの方が機能が多そう データソース データソースとしてGoogle AnalyticsやBigQuery、Google SpreadsheetMySQLなどを選んでデータを取ってこれる データソースを選んでGoogle Analyticsの「ブラウザ」(Chrome, Firefoxなど)と「ブラウザのバージョン」(バージョンの番号)をCONC

    Google の可視化ツールの Data Studio を試してみた - 唯物是真 @Scaled_Wurm
  • 機械学習に使える、オープンデータ一覧 ※随時更新 - Beginning AI

    機械学習をやりたいんだけど、データがない!他のデータ使ってみたい! そんな方のために、機械学習に使えるオープンデータを集めました。 他にも、このデータセットオススメ!というものがあれば、是非ご紹介して頂けると嬉しいです。m(__)m UC Irvine itory カリフォルニア大学アーバイン校が公開した、データセット。351件のデータセットがあり後述する DATA GO に比べれば少ないが、ほとんどがitory かの有名なあやめの花(iris)のデータセットもここから見ることができます。 国立情報学研究所 情報学研究データリポジトリ データセット一覧 yahoo,楽天,ニコニコなどのデータがあります。 DATA.GO.

    Nean
    Nean 2016/08/27
  • 初公開 「鉄道自殺数」が多い路線ランキング

    鉄道自殺が連日のように起きている。新聞やテレビの報道だけでなく、自分が乗っている列車が遭遇したという経験のある人も少なくないだろう。 そもそも全国の自殺者数は2010年から減少傾向が続いている。警察庁の統計によると、2009年に3万2845人だった自殺者数は、2010年は3万1690人、2014年には2万5427人になり、2009年比で約23%も減少した。 東京、神奈川、千葉、埼玉の1都3県でもこの傾向は同じだ。2009年に計8084人だったのが2014年には6644人となり、やはり2009年比で約18%減少している。 10年間で鉄道自殺が1985件 では、鉄道自殺の状況はどうか――。鉄道会社が国土交通省に提出した文書を基に、2005年度から2014年度までの10年間で、未遂を含む自殺件数が80件以上となった全国22路線(首都圏15路線、首都圏以外7路線)の状況を集計したところ、首都圏15

    初公開 「鉄道自殺数」が多い路線ランキング
  • 「パナマ文書」解析の技術的側面

    世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか?私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました: Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca

    「パナマ文書」解析の技術的側面
    Nean
    Nean 2016/04/10
    グラフ。
  • 無料でファイルサイズ制限なしにWebRTCでブラウザからファイルをP2Pで直接安全に転送できる「Bitf.ly」

    ファイルを相手に送るのにクラウドストレージを利用する方法がありますが、サービスの登録が必要なことや不特定多数の人にファイルをダウンロードされる危険があるという問題もあり、1回限りのデータ送信のためには使い勝手が悪いものです。これに対して「Bitf.ly」なら登録不要でWebRTC対応ブラウザを使ってP2Pで相手に簡単にデータの送受信が可能。Bitf.lyはP2Pで直接データを送信できるだけでなく、WebRTCがデフォルトで暗号化されていることからデータを安全に送受信できます。データ制限もなく、PCやスマートフォンなどの端末も不問でファイルの送信が終わったらウェブブラウザを終了させるだけでOKという手軽さとのことなので、さっそく使ってみました。 Bitf.ly - secure peer-to-peer file transfer over WebRTC https://bitf.ly/ 「

    無料でファイルサイズ制限なしにWebRTCでブラウザからファイルをP2Pで直接安全に転送できる「Bitf.ly」
  • 全世界の本を分析した研究記録──『カルチャロミクス 文化をビッグデータで計測する』 - HONZ

    世界中に存在するの内容を読み取ってデータ化し、さまざまな形で利用できることを意図したグーグル・ブックス・プロジェクトが立ち上げられた時、そんなことができるのか(分量的な意味でも権利的な意味でも)と疑問に思ったものだ。それが今では、著作権侵害などさまざまな課題を残しつつも事業は継続し、検索した時にお世話になることも増えてきた。3000万冊以上のをすでにデジタル化しているようで、その是非はともかくとしてもかなり大規模な計画だ。 書の著者らは、この壮大なデジタル図書館に目をつけた。著者らのグループとグーグルが共同で開発した、Nグラム・ビューワーと名づけられたツールは、単語を入力することでその単語の出現頻度が時代に伴ってどのように推移したかを図で示してくれる。ある単語が、ある時点でどれだけの人の関心を集めているのかを知りたいのであれば、グーグル検索のワードを分析するのとたいして変わらないじゃ

    全世界の本を分析した研究記録──『カルチャロミクス 文化をビッグデータで計測する』 - HONZ
  • 山手線トイレ混雑度調査2015年8月版 | かっこ株式会社 - Cacco Inc.

    かっこ株式会社は2015年度8月、JR山手線29駅において、トイレ個室と便器個数についての 実施調査を行い、各駅の1日平均乗降客数を参考にトイレの個室1つを1時間に何人の乗降客で 共有することになるのかを試算。 競争率について5段階にランク評価し、可視化しました その結果、乗降客数に対して最もトイレの設備が充実していた東京駅に対して、池袋駅では およそ10.9倍、西日暮里では13.2倍もの人数でひとつの個室を利用しなくてはならいことが 明らかになりました。 また、男女別に個室の和式洋式の種別と比率についても調査し、可視化。 男性トイレでは、大崎、目黒、恵比寿、代々木、新大久保の5駅、 女子トイレでは、大崎、目黒、恵比寿、代々木、駒込の6駅について、 個室が全て洋式トイレであることが判明しました。 多目的トイレや、男子小便器の個数も含めた駅別のトイレ設備全数については、 以下の表の通りです。

    山手線トイレ混雑度調査2015年8月版 | かっこ株式会社 - Cacco Inc.
  • PISAデータを読む

    以下は古いPISA 2012についてのものです。PISA 2012データは今でもPISAのサイトから入手できますが,以下にはリンク切れのページもあります。PISA 2015データを読むのほうをご参照ください。 PISAデータを取得する OECD の PISA (Programme for International Student AsDatabase - PISA 2012 の Data sets in TXT faire data file はダウンロードすると235202268バイト(235Mバイト)の INT_STU12_DEC03.

  • 気象庁データの充実ぶりがすごい! - やすらかLIBRARY

    私の身内に太陽光発電パネルを屋根に乗っけている家がありまして、(いろいろな事情が重なり)日照時間と発電量の関係を調べてくれと依頼をうけました。そのためにはその家がある地点の日別・月別日照時間データが必要となります。どこで手にい入るのでしょうか。 日別・月別日照時間データは何を見ればわかるだろう?といろいろ探してみました。「理科年表」は過去数年分の平均値なので適さない。大命気象庁のウェブページにも過去○日平均のデータしかないなあ・・・と思っていたらありました。私の目が悪いだけでした。 気象庁ウェブページの「過去の気象データ・ダウンロード」がまさに求めていた情報を提供しているではないですか! 1度にダウンロードできる情報量に上限はあるもののたとえば日照時間を数年間分取り出すだけなら何の問題もありません。 しかも選択できる地点も結構あることから、その家の近くの観測地点のデータを取り出すことがで

    気象庁データの充実ぶりがすごい! - やすらかLIBRARY
  • Europeana (@EuropeanaEU) | Twitter

    Europe’s cultural heritage online https://t.co/AR27Bs946w Resources for cultural professionals https://t.co/jNWbuMtHLS Funded by the European Union

    Europeana (@EuropeanaEU) | Twitter